“暗黑版”AI现身引忧虑 我们需要怎样的人工智能?


“暗黑版”AI现身引忧虑 我们需要怎样的人工智能?

文章插图

近日 , 麻省理工学院媒体实验室出品了一个“暗黑版AI” , 再次将人工智能的黑箱隐忧这个经久不衰的话题送上热门 。 据报道 , 实验室的三人团队联手创造了一个叫诺曼(Norman)的人工智能 , 与希区柯克经典电影《惊魂记》中的变态旅馆老板诺曼·贝兹同名 。
名如其人 。 诺曼会以负面想法来理解它看到的图片 。 例如 , 一张在一般AI看来只是“树枝上的一群鸟”的普通图片 , 在诺曼眼中却是“一名男子触电致死” 。
团队希望通过诺曼的表现提醒世人:用来教导或训练机器学习算法的数据 , 会对AI的行为造成显著影响 。 AI会成为什么样 , 有时人类可能束手无策 。
TA们的偏见就是人类的偏见
【“暗黑版”AI现身引忧虑 我们需要怎样的人工智能?】诺曼们从哪来?答案首先藏在数据里 。
“人工智能识别出的结果不是凭空而来 , 是大量训练的结果 。 如果要训练AI某一方面的能力 , 比如下棋 , 就需要收集、清洗、标记大量数据供机器学习 。 如果用于训练的数据不够多 , 就会造成AI学习的不充分 , 导致其识别结果的失误 。 ”中科院自动化研究所研究员王金桥对科技日报采访人员表示 。 数据本身的分布特性 , 如偏差甚至偏见 , 也会被机器“有样学样” 。 针对诺曼的表现 , 创造它的实验室也指出 , “当人们谈论人工智能算法存在偏差和不公平时 , 罪魁祸首往往不是算法本身 , 而是带有偏差、偏见的数据 。 因为当前的深度学习方法依赖大量的训练样本 , 网络识别的特性是由样本本身的特性所决定 。 尽管在训练模型时使用同样的方法 , 但使用了错误或正确的数据集 , 就会在图像中看到非常不一样的东西” 。
另外是算法本身的影响 。 “这可能是无法完全避免的 , 由深度学习算法本身的缺陷决定 , 它存在内在对抗性 。 ”王金桥表示 , 目前最流行的神经网络不同于人脑的生物计算 , 模型由数据驱动 , 和人类的认知不具有一致性 。 基于深度学习的框架,必须通过当前训练数据拟合到目标函数 。 在这个框架之下 , 如果机器要识别狗 , 它会通过狗的眼睛、鼻子、耳朵等局部特征进行可视化识别 , 而这些可视化特征却能给想利用深度学习漏洞的人机会 , 后者可以通过伪造数据来欺骗机器 。
除了人训练机器的数据本身有偏差以外 , 机器通过对抗性神经网络合成的数据也可能有问题 。 由于机器不可能“见过”所有东西(比如识别桌子 , 机器不可能学习所有长短宽窄各异的桌子) , 人也不可能标记所有数据 。 如果研究者输入一个随机的噪音 , 机器可以向任何方向学习 。 这是一把双刃剑 , 机器也可能合成一些有问题的数据 , 学习时间长了 , 机器就“跑偏”了 。
数据的均衡或可减少“跑偏”
不少科学家以“garbage in, garbage out”来形容“数据和人工智能的关系” 。 中科视拓(北京)科技有限公司CEO刘昕说:“对机器学习而言 , 进什么就出什么 。 监督学习就是让模型拟合标签 , 比如训练者把帅哥都标记成‘渣男’ , 那么机器看到刘德华 , 就会认为他是……”谈到诺曼引发的讨论 , 刘昕表示:“不需要担心 , 人类本身就有各种歧视和偏见 , 用人类生产的数据训练AI , 再批判AI不够正直良善 , 这么说有点危言耸听 。 ”

推荐阅读