我们都很了解“无用输入”和“无用输出”。然而,来自谷歌的作者们似乎在说,因为输入数据中人类的偏见是无法避免的,所以机器学习工具无法用于社会计算。就像大多数技术一样,机器学习是中性的。如果像他们说的,机器学习可以用来巩固社会计算问题中的人类偏见,但机器学习也可以用于发现并矫正人类偏见。他们担心反馈循环的问题,然而,反馈本身就既可以是负向的,也可以是正向的。就算“犯罪性”是个十分复杂的问题,受过良好训练的人类专家可以努力确保训练数据的客观性,也就是说,能使用独立于嫌犯外貌的正确判决。如果数据标签是不带人类偏见的,那机器学习在客观性上无疑是优于人类判断的。
即使标签中存在噪点,无论是随机的还是系统性的,也有科学办法能洗涤和恢复/提高结果的准确度。我们不能畏于民粹主义就在科学知识上让步。
过拟合(overfitting)的风险
批评者很快就指出了我们实验中所用的样本集较小,存在数据过拟合的风险。我们痛苦地意识到这个缺点,但鉴于某些显然的原因,我们难以拿到更多的中国男性罪犯身份证照片(这篇批评文章可能让我们丰富数据集的希望化为泡影)。然而,在如下所示的论文3.3章节,我们已尽全力验证我们的发现,这又被他们完全忽视了。
“鉴于社会上对这个话题的敏感性和反响度,以及对面相术的质疑,我们在公布结果前异常谨慎。我们故意跟自己唱反调,设计实施了以下实验,以挑战分类器的正确性……”
我们把训练集中的照片以五五开的概率随机标签为罪犯或非罪犯,看看四个分类器能否以超过50%的概率区别这两组照片。结果是四个分类器都失败了。一些类似的、更具挑战性的测试结果也是如此(详情参见论文)。这些实证结果,说明论文中分类器出色的表现并非由数据过拟合所致。否则,在样本集大小和类型一样的情况下,分类器也应能够区别两组随机标签的数据。