在未来世界,如果只看脸的话,你可能真的无法辨认真假。
在科幻电影《银翼杀手2049》中人类制作的“复制人”和人类的容貌近乎一致,除非用专业的仪器做情绪测试,或者找到复制人体内的编号,否则人类根本无法用肉眼分辨孰真孰假。
图片来自:《银翼杀手 2049》
这样的未来世界对我们来说可能有些遥远,但如果只看脸的话,你可能真的无法辨认真假。
“AI脸”已跨越恐怖谷
先来看一组图片,你有信心一眼分辨出“假人脸”吗?
图片:以上均为AI合成脸
这里提到的“AI脸”指的是由 AI 合成的人脸照片,并非真人拍摄,以肉眼看,一时间很难判断真假。
加州大学伯克利分校的Hany·Farid教授多年来一直在从事AI图像合成技术的研究。根据他近日发表在美国国家科学院院刊的一项研究显示,AI合成的人脸已与真人没有区别,甚至看起来比真人更加真实。共同参与此项研究的Sophi·Nightingale博士称最开始开展研究的目的,就是为了借助真人对比找到提高AI人脸可信度的方法。Farid认为目前AI图像合成技术发展和改进的速度非常迅速,比传统的CG成像还要快。Farid称:我们认为,我们已经跨越了静态面孔的恐怖谷效应。
恐怖谷理论是一个关于人类对机器人和非人类物体的感觉的假设,它在1970年由日本机器人专家森昌弘提出,由于机器人与人类在外表﹑动作上都相当相似,所以人类亦会对机器人产生正面的情感,直至到了一个特定程度,他们的反应便会突然变得极之反感,哪怕机器人与人类有一点点的差别,都会显得非常显眼刺目,让整个机器人显得非常僵硬恐怖,让人有面对行尸走肉的感觉。人形玩具或机器人的仿真度越高人们越有好感,但在相似度临近100%前,这种好感度会突然降低,越像人反而越反感恐惧,好感度降至谷底,这被称之为恐怖谷。可是,当机器人的外表和动作和人类的相似度继续上升的时候,人类对他们的情感反应亦会变回正面,贴近人类与人类之间的移情作用。
从Farid的实验结果来看,AI合成的人脸很可能已经脱离了“行尸走肉”的阶段。
生成模型为关键技术
如此逼真的人脸是怎么合成的?AI合成主要采用GAN生成模型技术。
GAN全称对抗生成网络,顾名思义是生成模型的一种,试图通过学习让模型尽可能生成逼真的输入分布。GANs的最终目的是预测给定标签的特征,而不是预测给定特征的标签。对生成对抗网络的一种直观理解是,想象一名造假者试图伪造红酒。一开始,作为一名小白,他非常不擅长这任务。他将自己造的假酒和真酒混在一起,并将其给品鉴师。品鉴师对每瓶酒进行真实评估,并向这个伪造者给出相应的反馈,告诉他怎么才是更真的红酒。造假者回到自己的作坊,根据品鉴师的反馈,开始制作一些新的假酒。随着时间的推移,二人一来一往的交流,造假者变得越来越擅长造假酒,品鉴师也变得越来越擅长找出假酒。最后,造假者终于造出了足以以假乱真的红酒。整个过程可以类似下图所示:
同理,在“AI脸”方面可以想象GAN里有一个“画家”和一个“鉴定师”,“画家”需要画出尽可能像人脸的图片,交给“鉴定师”评判。“鉴定师”在评判之前要看非常多的真人照片,分析出人脸的特征,当“画家”的画能够骗过阅脸无数的“鉴定师”时,一张AI合成人脸照片就诞生了。在这个过程中,“鉴定师”经过不断的学习准确度会不断提高,相应的“画家”的技艺也要随之增长,两者形成一种对抗关系,从而提高合成图像的质量,直到能够以假乱真。
图片:NVIDIA StyleGAN2
Farid在实验中采用的是英伟达发布的Nivdia StyleGAN2模型。
2018年12月,美国芯片巨头英伟达开发的一款超逼真面部生成器。这个基于GAN的模型表现得非常好,以至于大多数人都无法分辨它是一张合成的“假脸”。2019年2月,英伟达宣布将开源这款漂亮的工具,并将其命名为StyleGAN。这一机器学习技术是为了生成模拟真实图像的新图像。使用StyleGAN,不同于大多数其他生成器,可以定制不同的因素来更改生成的图像的结果。StyleGAN生成的图像非常逼真,它是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。但是,StyleGAN还有一些缺陷,最明显的是生成的图像有时包含斑点似的伪影(artifacts),经过几个月的改进,这一缺陷也被完美解决了。NVIDIA的研究人员发布了StyleGAN的升级版——StyleGAN2,重点修复artifacts问题,并进一步提高了生成图像的质量。
图片:NVIDIA StyleGAN2
研究人员认为,已具备一定可信度的 AI 合成照片未来很有可能会被不法分子利用,在社交网络实施诈骗或引起混乱,这个问题需要得到社会的重视,并且图片合成技术的发展需要一些条约约束。
那么问题来了,既然 AI 合成人脸具有一定的社会风险,为什么人们还要投入精力研究呢?
AI脸或是 “双刃剑”
2019 年 E3 电子游戏展上,基努李维斯在《赛博朋克 2077》预告片中的惊喜亮相瞬间引爆了所有场内外观众的情绪,随即其本人上场宣布将担任游戏中重要角色“强尼银手”的脸模,勾起了无数玩家的期待。
图片:《赛博朋克 2077》
因为在虚拟世界中,一张逼真的人脸能给玩家带来强烈的沉浸感,随着游戏机能的提升,用真人作为脸模代替数字捏脸,成为了越来越多游戏厂商塑造角色的手段。
但使用真人脸模,往往意味着高昂的肖像授权费以及动作捕捉成本,这对一些小型工作室来说并不现实。这时候一张免版权的 AI 合成人脸便能派上用场——由一个世界上并不存在的人来扮演虚拟角色,听起来合情合理。例如免费 AI 合成照片项目 Generated Photo 就与动画软件公司 Reallusion 合作,用 AI 合成的人像用作动画、游戏或者广告的 3D 形象上,开发者可以自由地选择人物的种族、年龄、性别,并且不会有版权问题。可以试想一下,假如模拟人生或者 GTA 等游戏的 NPC 人脸都由逼真的人像制作,游戏的沉浸感和临场感将得到大幅提升。
除了游戏,一些客服类软件也需要大量的真人头像与客户沟通,如果将真人头像换用 AI 人像,既可以避免人像版权纠纷,又能保护个人隐私不被泄露。不过,虽然 AI 合成照片有着合理的存在意义,但与此同时,也会对网络照片的真实性造成一定冲击,毕竟谁也不想在交友 app 被一个根本不存在的人迷得神魂颠倒。
Farid 认为想要解决这个问题,唯一的办法就是为每张真实拍摄的照片加入一个“真实性”认证,这样人们在浏览和使用照片时,才能辨别其真实性。这听起来就像是《银翼杀手》的逆向版本,电影里人们在复制人的眼球中刻入编号识别,现实中则相反地在真实照片标记,以对抗“假货”。
事实上,目前 Adobe、微软等公司已经在推广相关的技术。在 2021 年 2 月,Adobe、微软、英特尔、Arm 和 Truepic 等公司与机构联合成立了一个名为“内容来源和真实性联盟(C2PA)”的项目,以打击虚假信息,建立一个可验证图片真实性和溯源的技术标准。而验证的方法也很直接——将照片的拍摄、后期修改等信息用区块链技术原封不动的保留下来,无论照片怎么修改,都能直接查看。经过认证的真实照片会在右上角多一个“i”的小角标,当你点击它时,你就可以看到由相机生成的拍摄日期、地点、镜头等详细信息,而如果有人用 Photoshop 等软件修改过该照片,你还可以回退到照片的原图,得到完整图像。
C2PA 的认证手段能够在一定程度确保严肃新闻等领域的照片真实性,但由于成立时间较短,目前只在部分媒体或社交平台上使用,想要为互联网所有内容提供真实性保障还为时过早。
也就是说,在未来的一段时间里,AI 合成照片都有可能会是个社会安全隐患,目前类似 Nivdia StyleGAN2 等图像合成模型都可以在 Github 等平台上公开下载得到,这么做真的安全吗?Farid 认为这需要技术人员平衡利益与风险后慎重考虑。