-
林元庆:百度大脑“认脸”战胜人类,有什么用?
关键字: 人工智能百度机器人最强大脑人脸识别人机大战金融【本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。】
2017 年 1 月 6 日,百度首席科学家吴恩达带着小度机器人来到了《最强大脑》现场,与人类选手展开了对决,并在人脸识别比赛里以 3:2 的比分赢得胜利。Master 事件引发大众热议人工智能的余热未退,小度机器人又在跨年龄人脸识别挑战中战胜了本届最强大脑队长王峰——拥有数个世界冠军头衔的“世界记忆大师”。与以往主要考验空间搜索能力的人机 PK 不同,此次比拼主要集中在识别领域,而识别过程中需要模糊推理的能力,百度深度学习实验室(IDL)主任林元庆坦言,这场应战也并不轻松。
对于此次比赛任务,百度 IDL 人脸团队主要是使用了“度量学习”,即通过学习一个非线性投影函数把图像空间投影到特征空间中。在这个特征空间里,跨年龄的同一个人的两张人脸的距离会比不同人的相似年龄的两张人脸的距离要小。同时考虑到跨年龄人脸数据的稀缺性,百度大脑使用了一个用大规模人脸数据训练好的模型作为“底座”,然后用跨年龄数据对它做更新。这样不容易过拟合。然后再将这两点结合起来做端到端的训练,从而大幅度地提升了小度跨年龄人脸识别的识别率。
百度人工智能机器人《最强大脑》现场
下面是微信公众号“机器之心”对百度深度学习实验室(IDL)主任林元庆独家专访文字整理:
机器之心:请简单介绍一下人脸识别。
林元庆:人脸识别简单说就是给你一张人脸的照片,然后我希望能识别照片里面是哪一个人。
人脸识别其实有两种技术。
一种技术我们经常叫 1:1 的人脸比对,比如像银行的应用场景,就是你给一个身份证信息,然后再给一张人脸,通过比对希望知道这张人脸是不是身份证上面的那个人。系统会拿这个身份证的信息给到公安的系统里面取一张照片回来,然后跟你现在的照片比对看是不是同一个人。
还有一种更通用的 1:N 人脸识别,N 可以是几千、几万或者几十万进行比对,这叫 1:N 的比对或者是 1:N 的人脸识别。
机器之心:机器是通过哪些特征进行人脸识别的?
林元庆:深度学习还没有特别流行起来之前,一般会设计一些特征对人脸进行识别。现在用深度学习的方法其实是一层一层的去学不同的特征,底层会是非常低级别的特征,越往上会学到一些非常高级别的特征。像我们的系统应该是千万到亿的低级别特征,慢慢一层一层学上去,最后那一层其实只有 128 个特征。
机器之心:在不同的应用场景中,机器学习算法如何决定人脸特征点的数目?
林元庆:像我们现在做的方法,在不同的应用场景里面其实特征数目是确定的,只是可能会是不同的特征。特征数目的大小是由深度学习的架构决定的。一旦我们把神经网络的架构确定下来,这个数目就是固定的。我们只是根据不同的场景(不同的场景意思就是不同的训练数据)训练出来的特征可能是很不一样的。因此在不同的场景里面特征数目可能是一样的,但具体特征会是很不一样的。
机器之心:比赛中,小度机器人能将少年时期和中年时期的人脸识别出来,如果是将年龄扩大拉长,婴儿和老人的照片是否可以识别和匹配出来?
林元庆:跨年龄识别是非常难的。就我们现在的系统,年龄跨度在 20 到 30 岁的时候我们仍然能做到比较高的精度。当我们把这个跨度进一步增加到 50 岁或 60 岁的话,难度肯定也会进一步增加,精度会下降。我们还没有很仔细地做过这么大年龄跨度的实验。这是我们下一步要做的事情。
《最强大脑》现场,选手从童年照中识别现场少女组合成员,在第二轮双胞胎识别中人工智能获胜。
机器之心:介绍一下跨年龄人脸识别使用的度量学习?
林元庆:我们这次去参加《最强大脑》的这套系统,使用的其实是基于深度学习的“端到端”的度量学习方法 (Metric Learning)。这个方法通过学习一个非线性映射函数(用深度神经网络模型),把图像空间投影到一个 128 维的特征空间中。深度学习要实现的是,对于同一个人的两张照片,不管年龄差距有多大,它们映射到这 128 唯特征空间的两个点(即两个 128 维的向量)要离得很近;对于不同人的两张照片,它们映射到这 128 唯特征空间的两个点要离得足够远 – 即使他们年龄相近。当这个映射函数学习好之后,看两张照片是否是同一个人变得简单:把他们映射到这个 128 维的空间了,如果映射到的两个点离得近,那这两张照片就是同一个人,否则就是不同人。因此核心是如何训练这个用深度神经网络建模的映射函数,即调整深度神经网络的参数。我们用大规模人脸数据训练出深度神经网络模型,实现高识别率。
机器之心:百度通过非线性投影函数进行映射减少训练损失,那么这个非线性投影函数是如何得出来的,是通过训练集得出来的吗?
林元庆:定义度量学习的目标函数之后,我们是通过梯度下降法来进行训练,慢慢把目标函数给降下来。梯度下降法是很通用的做法。这里面很重要的是要定义度量学习的目标函数,然后要定义深度神经网络的架构,最后通过训练实现目标函数的逐渐优化。
机器之心:人脸识别业务的核心问题是人脸关键特征点的定位,错误的特征定位会导致提取的人脸描述特征严重变形,进而导致识别性能下降,百度是如何解决这个问题的?
林元庆:其实是两个方面。一个方面是我们要想办法去做出非常好的特征点定位的算法,然后要训练非常好的模型。在一些极端的情况下,得到的特征点定位可能不准确,因此我们希望后面的识别模块有一定的容错能力。我们是在训练的时候制造一些数据,在定位上人为地产生一些误差,然后拿这些数据放在深度神经网络里面一起去参加训练,这样的话最后训出来的模型对定位的误差会有一定的容错能力。
机器之心:百度大脑的这种能力的培养使用了多少的训练样本?训练了多长时间?
林元庆:我们的训练其实是分两部分,最重要的一部分叫通用的人脸识别的能力,就是百度这几年来一直在积累搭建的技术,到比赛为止我们大概用了 200 万人的 2 亿张照片进行人脸识别基础模型训练。
另一方面,为了这次比赛,我们也收集了一些跨年龄的数据,根据跨年龄这个场景再进一步优化模型,跨年龄数据大概在几千张这个级别,并不算特别的多。
- 原标题:百度大脑如何在人脸识别上战胜人类 本文仅代表作者个人观点。
- 责任编辑:钟晓雯
-
最新闻 Hot
-
欧核中心理事会主席:我有信心中国科学家能做到
-
“俄计划建新管道,经哈萨克斯坦向中国输送天然气”
-
他又来:美国连胡塞都搞不定,怎么让盟友放心搞定中国
-
历史性一幕!iPhone在华市场份额跌出前五
-
加沙民众上街庆祝,结果以色列说…
-
44岁男子穿裙子戴假发只为逃出乌克兰,被抓现行
-
一驻韩美军在俄被捕,“涉盗窃和殴打女性”
-
普京下令“核武演习”,美方回应
-
3个月后米莱终于回应:岛在他们手上,不把这当挑衅
-
“欧盟工具箱里没有美国式TikTok禁令,他们有自己的方式”
-
地面进攻在即?以军疏散拉法平民,哈马斯警告“后果”
-
中法欧领导人三方会晤结束
-
“我明确一点,不建议对华保持距离,我们需要中国人”
-
“五一”近3亿人次出游,较2019年同期增长28.2%
-
欧盟又挑争端?点名上汽、比亚迪、吉利,或抬高关税
-
问界回应山西M7车祸四大疑问:事发车速超过AEB工作范围
-