服务热线
0532-87819132
2022-04-11
一个由绝大多数来自中国的研究人员组成的庞大团队表示,他们已经创建了新的百万级面部识别基准。他们在一篇新论文中声称已经在 4200 万张面部图像中建立了一个包含 200 万个身份的自动清洁生物特征数据集。
未经管理的数据集包含 2.6 亿张图像中的 400 万个名人身份。新提议的基准称为 WebFace260M,它被描述为最大的公众面部生物特征数据集。
这是一个重要的区别。与私营公司(尤其是 Facebook 和 Google)相比,公共研究人员谴责他们在数据集资源方面的劣势。出于所有意图和目的,两者都有无限的图像数据集。
研究论文称,谷歌在训练 FaceNet 时使用了 800 万个身份的 2 亿张图像。Facebook 在 1000 万个身份中拥有 5 亿张面孔。
数据集大小是生物识别技术创新的有力加速器,公共研究人员担心被排除在竞争之外。
来自清华大学、伦敦帝国理工学院和中国创业公司 XForwardAI 的 WebFace260M 研究人员声称,他们的数据集“在标准、蒙面和无偏见的人脸识别场景中显示出巨大的潜力”。它是使用他们开发的人工智能工具进行清洁的,即通过自我训练自动清洁。
人工智能安全和研究公司Anthropic的联合创始人杰克克拉克在他的博客 Import AI中写道:“在结果数据集上训练的模型非常好。”
克拉克还指出,面部识别——尤其是蒙面面部识别——对政府监控机构很重要。像 WebFace260M 这样的结果会影响有关“如何监视人口以及为所述监视留出多少预算”的决策。
当然,这种大小的数据集具有更直接的危险。大量可能会出现受隐私限制的图像,这对于学术界和企业等创建的数据集来说一直是个问题 。