掌静脉识别系统_智能身份识别_门禁系统_生物识别

公众面部生物特征数据集大小的巨大飞跃

2022-04-11

一个由绝大多数来自中国的研究人员组成的庞大团队表示，他们已经创建了新的百万级面部识别基准。他们在一篇新论文中声称已经在 4200 万张面部图像中建立了一个包含 200 万个身份的自动清洁生物特征数据集。

未经管理的数据集包含 2.6 亿张图像中的 400 万个名人身份。新提议的基准称为 WebFace260M，它被描述为最大的公众面部生物特征数据集。

这是一个重要的区别。与私营公司（尤其是 Facebook 和 Google）相比，公共研究人员谴责他们在数据集资源方面的劣势。出于所有意图和目的，两者都有无限的图像数据集。

研究论文称，谷歌在训练 FaceNet 时使用了 800 万个身份的 2 亿张图像。Facebook 在 1000 万个身份中拥有 5 亿张面孔。

数据集大小是生物识别技术创新的有力加速器，公共研究人员担心被排除在竞争之外。

来自清华大学、伦敦帝国理工学院和中国创业公司 XForwardAI 的 WebFace260M 研究人员声称，他们的数据集“在标准、蒙面和无偏见的人脸识别场景中显示出巨大的潜力”。它是使用他们开发的人工智能工具进行清洁的，即通过自我训练自动清洁。

人工智能安全和研究公司Anthropic的联合创始人杰克克拉克在他的博客 Import AI中写道：“在结果数据集上训练的模型非常好。”

克拉克还指出，面部识别——尤其是蒙面面部识别——对政府监控机构很重要。像 WebFace260M 这样的结果会影响有关“如何监视人口以及为所述监视留出多少预算”的决策。

当然，这种大小的数据集具有更直接的危险。大量可能会出现受隐私限制的图像，这对于学术界和企业等创建的数据集来说一直是个问题。