查看: 926|回复: 0

揭秘谷歌审核内幕:团队有1万人 AI要处理数十亿个网页

[复制链接]
发表于 2021-9-26 16:36:12|来自:中国 | 显示全部楼层 |阅读模式

腾讯科技讯 9月26日消息,即便是在谷歌如许的公司,也有不尽人意的工作需要完成,好比内容考核方面。互联网先驱、谷歌副总裁兼首席互联网布道者文特·瑟夫(Vint Cerf)坦白地给出了解释,阐述谷歌的体系为何不能总是区分出优劣信息。
2020年6月,英国议会发表了一份政策报告,其中提出了很多发起,旨在帮助当局打击由互联网技术驱动的“虚假信息大盛行”趋势。该报告得出的结论相称有力:“像Facebook和谷歌如许的平台试图隐蔽在‘黑匣子’算法后面,这些算法选择向用户显示什么内容。他们的态度是,他们的决定不对在线活动可能造成的伤害负责。这是大错特错的!”
在预备这份报告时,英国议会从多位关键人物那里收集了证据,其中就包罗瑟夫。他被问到:“你能不能提供些证据,证明你们所宣传的高质量信息更有可能是真的?”
瑟夫耐人寻味的回答给谷歌紧闭的密室带来了一丝缝隙。他说:“万维网上的信息量非常大,有数十亿网页。我们没有本领手动评估所有这些内容,但我们有约莫10000人的团队负责评估网站。在搜索范畴,我们有长达168页的文档,报告了如何确定某个网站的质量。当有了那些评估者评估过的网页样本,我们就可以使用他们做过的工作以及他们评估的网页,帮助构建机器学习神经网络以反映出他们对网页的评价质量。这些网页成为机器学习体系的训练集。然后,机器学习体系被应用于我们在万维网上索引的所有网页。应用到实践中后,我们就会使用这些信息和其他指标对网络搜索效果举行排序。”
瑟夫最后概括称:“这是个可分为两步走的过程:首先通过手动过程来建立标准和高质量的训练集,然后构建机器学习体系以扩大到我们可以或许索引的万维网规模。”谷歌在提升新闻质量方面的很多博客帖子和官方声明都会回到这个由10000名流工内容考核职员组成的团队,因此,更深入地发掘瑟夫在这里的陈述,有助于更好地明白这些人到底在做什么,以及他们的工作是如何影响算法的。幸运的是,从2019年11月开始,就有观察提供了谷歌内容考核员工作的内幕信息。
虽然谷歌员工的薪酬非常丰厚,但这10000内容考核职员都是在家工作的条约工,每小时收入约为13.50美元。一位考核员透露,他们被要求签署保密协议,与谷歌的任何人都没有任何直接接洽,也从未被告知他的工作将有什么用处。这位员工还说,他“得到了数百个真实的搜索效果,并被告知要根据他的判断,根据质量、声誉和有用性等因素对它们举行评级”。
这些内容考核职员的主要任务似乎是对单个网站举行评级,以及评估谷歌返回的各种搜索排名。这些任务严格按照提供给这些人的168页文档指导举行。有时,员工还会通过他们的条约雇佣机构收到谷歌的关照,告诉他们某些搜索的“精确”效果。例如,搜索短语“自杀的最佳方式”一度出现了操作手册,条约工收到了一张纸条,上面写着,所有与自杀相关的搜索都应该将“国家防备自杀生命热线”作为首要效果显示。
这个了解内容考核职员工作的窗口虽然简短,但有助于我们解锁瑟夫的证词。谷歌员工(想必是高层)会就搜索算法在各种主题和各种情况下应该如何执行做出影响深远的决定。但他们并没有试图在搜索算法的计算机代码中直接实现这些决定,而是将这些决定编码在发送给考核职员的阐明手册中。
然后,考核职员根据这本手册对网站和搜索排名举行手动评分,但纵然有了这支10000人的考核雄师,也有太多的网站和搜索无法手工完成。因此,正如瑟夫解释的那样,这些手动评估为监督学习算法提供了训练数据,这些算法的工作本质上是推断这些评估,如许渴望所有的搜索,而不仅仅是那些已经手动评估的搜索,都能按照谷歌领导层的意图运行。
虽然谷歌已经公开宣布了对谷歌搜索算法某些值得留意的更新,但谷歌现实上非常频繁地调整其算法。究竟上,上述观察还发现,2018年谷歌修改算法超过3200次。而且其算法调整的数量始终在迅速增长:2017年约莫有2400次,2010年只有500次左右。
谷歌已经开发了一个广泛的流程来批准所有这些算法调整,其中包罗让考核职员试验和报告对搜索排名的影响。这让谷歌在向庞大的用户群发布调整之前,对这些调整在实践中将如何发挥作用有了提前预期。例如,假如某些调整旨在降低虚假新闻网站的排名,考核职员可以查看他们尝试的搜索是否真的发生了这种情况。
在回答了本文最初的问题后,瑟夫还被问及另一个重要且相称锋利的问题:“你们的算法接受了不准确的信息,而且这些信息直接进入了你们搜索效果的顶部,并得到了你的语音助手的响应。这是劫难性的,像那样的事情可能会引发骚乱。显然,你所做的99%都不太可能导致这种后果,但你们的算法对这类错误的敏感度有多高?”
再一次,瑟夫的坦白回答相称耐人寻味。他说,神经网络是“脆弱的”,这意味着有时输入的微小变化可能会导致令人惊讶的糟糕输出。
瑟夫称:“你对此的反应是:怎么会如许?答案是,这些体系不能像我们人类一样辨认事物,我们能从图像中看出抽象的东西。我们认识到猫有小三角形的耳朵、皮毛和尾巴,我们非常确定消防车没有。但是,机器学习体系中的机械辨认体系并不像我们的大脑那样工作。我们知道它们可能是脆弱的,你刚才举了个非常好的例子来阐明这种脆性。我们正在努力消除这些问题或确定它们可能发生的地方,但这仍然是个重要的研究范畴。至于我们是否意识到其敏感性和潜在的故障模式?是的,我们知道。我们知道如何防止所有这些故障模式吗?不,还不能。”
简而言之,我们信赖谷歌的算法能为社会提供所有问题的答案,尽管它们有时会煽动愤恨和传播虚假新闻,而我们并不完全知道如何阻止它们如许做。 (腾讯科技审校/金鹿)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

联系客服 关注微信 下载APP 返回顶部 返回列表