日前 , 亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配 , 这一新闻引发关注 。 人脸识别工具为何出现这样的错误?其实 , 机器与人类一样 , 见到陌生的外国人也会有“脸盲” , 只能识别“当地人” , 对于来自其他国家/地区的“外地人”识别精度较低 , 这一问题如何解决呢?
引用公开的个人信息进行研究与验证 邓伟洪团队供图
研究团队在讨论 邓伟洪团队供图
其关键在于让人脸识别工具尽量多地认识全球各地居民的脸 , 而这一过程却并不容易实现 。 北京邮电大学教授邓伟洪告诉《中国科学报》 , 人脸识别工具研发过程中 , 使用的训练数据越多、越齐全 , 精度就会越高 。 但由于不同国家/地区对公民个人信息的保护 , 这些信息收集越来越难 。 没有训练数据就意味着人脸识别工具只认识“熟人” , 而对于训练数据中缺失的人群的识别精度较低 。
近日 , 邓伟洪研究团队的一项研究获得新进展 , 该团队揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题 , 构建了评价偏差程度的人脸数据集RFW , 提出了减小识别偏差的信息最大化自适应神经网络 , 以改进对目标域的识别能力 。 10月27日 , 相关研究结果在由IEEE主办的国际计算机视觉大会(ICCV)上发表 。
人脸识别工具的地域之困
卷积神经网络是人工智能的代表算法之一 , 具有很强的图像表征学习能力 。 2012年 , 深度卷积神经网络在计算机视觉领域兴起 , 其出现极大地推进了人脸识别的发展 , 并成为人脸识别领域的主流技术 。
目前 , 全球的人脸识别工具大多根据深度卷积神经网络的技术开发 , 但该技术的人脸数据的源域基于西方人的面部特征 , 面对不同的目标域 , 即不同国家/地区居民的面部信息识别需求往往“力不从心” 。
邓伟洪表示 , 由于缺乏基准测试库 , 这一领域的研究长期进展缓慢 。 一款人脸识别工具即使在当地的识别率很高 , 也难以精准到全球人类 。 这就造成了人脸识别工具较强的地域性 。
为了推动该研究 , 邓伟洪研究团队构建了一个新的测试库——RFW , 以科学客观地评测人脸识别中的偏差 。
在RFW数据库的基础上 , 研究人员验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法 。
“这种识别的偏差确实存在 , 一些地区的错误率甚至高于西方国家的两倍 。 ”邓伟洪说 。
该论文的评审专家表示 , RFW与现有数据库相比 , 该数据库中的数据分布更均匀 , 这将成为跨国家/地区识别的一个较好的基准评价数据 。
为了探究这种偏差是否是由训练数据的分布不平衡引起的 , 研究人员收集了一个涵盖全球各地区人类信息的训练数据库 , 最终发现偏差的发生受到数据和算法两方面影响 。
该论文第一作者、北京邮电大学博士生王玫解释 , 数据库训练数据平衡、算法相同 , 但某些国家/地区人类的面部信息识别难度较大 , 导致识别准确率较低 。
如何在数据少、面部识别难的情况下提高识别率?研究人员并没有放弃 , 他们决定进一步的研究算法 , 借助算法让人脸识别工具举一反三 。
学习靠“自觉”
传统机器学习数据库搭建过程中需要人工标注个人信息 , 这一操作面临隐私泄露的风险 。 用于物体识别的无监督域自适应方法给了研究人员启发 。
该方法采用无监督学习的方式 , 将源域和目标域映射到域不变的特征空间 , 并提高目标域性能 。 研究人员想通过算法解决这一问题 , 让机器自行学习 。
推荐阅读
- 中国自主研发多模态AI中药识别仪,助推中药走向世界
- 人脸识别应用还没那么“美”
- 测心理不想答问卷?面部识别来帮你
- AI可以识别图像 但它能理解标题吗?
- 美国军方首次实现黑夜人脸识别技术 准确率超80%
- 人脸识别打击犯罪 公安部联合企业开展全面合作
- 深度解读AI“相面术”:人脸识别同性恋、罪犯是伪科学
- 内里脊和外里脊的区别,里脊和通脊有什么区别怎么识别
- 多伦多大学开发反面部识别系统 人脸识别率降至0.5%
- 机器人系统能识别电动汽车并对其进行充电