谷歌研究员质疑“看脸识罪犯”,交大教授撰文:我被扣帽子了

2017-05-16 08:17:17来源:澎湃新闻 作者:虞涵棋、杨漾

我们都很了解“无用输入”和“无用输出”。然而,来自谷歌的作者们似乎在说,因为输入数据中人类的偏见是无法避免的,所以机器学习工具无法用于社会计算。就像大多数技术一样,机器学习是中性的。如果像他们说的,机器学习可以用来巩固社会计算问题中的人类偏见,但机器学习也可以用于发现并矫正人类偏见。他们担心反馈循环的问题,然而,反馈本身就既可以是负向的,也可以是正向的。就算“犯罪性”是个十分复杂的问题,受过良好训练的人类专家可以努力确保训练数据的客观性,也就是说,能使用独立于嫌犯外貌的正确判决。如果数据标签是不带人类偏见的,那机器学习在客观性上无疑是优于人类判断的。

即使标签中存在噪点,无论是随机的还是系统性的,也有科学办法能洗涤和恢复/提高结果的准确度。我们不能畏于民粹主义就在科学知识上让步。

过拟合(overfitting)的风险

批评者很快就指出了我们实验中所用的样本集较小,存在数据过拟合的风险。我们痛苦地意识到这个缺点,但鉴于某些显然的原因,我们难以拿到更多的中国男性罪犯身份证照片(这篇批评文章可能让我们丰富数据集的希望化为泡影)。然而,在如下所示的论文3.3章节,我们已尽全力验证我们的发现,这又被他们完全忽视了。

“鉴于社会上对这个话题的敏感性和反响度,以及对面相术的质疑,我们在公布结果前异常谨慎。我们故意跟自己唱反调,设计实施了以下实验,以挑战分类器的正确性……”

我们把训练集中的照片以五五开的概率随机标签为罪犯或非罪犯,看看四个分类器能否以超过50%的概率区别这两组照片。结果是四个分类器都失败了。一些类似的、更具挑战性的测试结果也是如此(详情参见论文)。这些实证结果,说明论文中分类器出色的表现并非由数据过拟合所致。否则,在样本集大小和类型一样的情况下,分类器也应能够区别两组随机标签的数据。

阅读全文
    相关标签:
阅读(0) 编辑:ET005
声明:凡本网注明“来源:三门峡生活网”的作品,转载须注明“来源:三门峡生活网”,违者将依法追究责任。凡本网注明来源其它网站作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权请联系删除。邮箱:smxtougao@163.com
相关阅读
新闻热图更多 >>
今日热点