人工智能“双刃剑”:惊喜与危险的并存( 三 )


纽约大学坦登工程学院的电子游戏人工智能研究者朱利安·托格里乌斯试图解释这其中发生的一切 。 他表示 , 这些都是“奖励分配”错误的典型例子 。 当人工智能被要求完成某件事时 , 它可能会找到一些奇怪的、出乎意料的方法来实现目标 , 并最终证明这些方法是正确的 。 人类很少采取这样的策略 , 指导我们如何游戏的方法和规则十分重要 。
研究人员发现 , 当人工智能系统在特殊条件下接受测试时 , 这种目标导向的偏见会暴露出来 。 在最近的一项实验中 , 被要求在银行进行投资的游戏人工智能角色会跑到虚拟银行大厅附近的一个角落 , 等待获得投资回报 , 这个算法已经学会了将跑到拐角处与获得金钱回报联系起来 , 尽管这种运动与得到多少回报之间并没有实际的关系 。
这有点像人工智能在发展迷信 , 在得到了某种奖励或惩罚之后 , 它们开始思考为什么会得到这些 。
这是“强化学习”的陷阱之一 。 所谓“强化学习” , 是指人工智能最终会根据它在环境中遇到的情况设计出判断错误的策略 。 人工智能不知道自己为什么会成功 , 它只能将自己的行动建立习得联想的基础上 。 这有点像人类文化早期阶段时 , 将祈祷仪式与天气变化联系起来的行为 。
一个有趣的例子是 , 鸽子也会出现这样的行为 。 1948年 , 一位美国心理学家发表了一篇论文 , 描述了一个不寻常的实验:他将鸽子放在围栏里 , 间歇性地给予食物奖励 。 这些鸽子开始将食物与它们当时正在做的事情联系起来 , 有时是拍打翅膀 , 有时是舞蹈般的动作 。 然后 , 它们会重复这些行为 , 似乎期待着奖励会随之而来 。
用新办法解决老问题
测试的游戏人工智能与心理学家所使用的活体动物之间有着巨大的差异 , 但其中起作用的似乎是相同的基本机制 , 即奖励与特定行为错误地联系在一起 。
人工智能研究者可能会对机器学习系统所选择的路径感到惊讶 , 但这并不意味着他们对机器学习系统感到敬畏 。 DeepMind的深度学习研究科学家拉亚?哈德赛尔表示:“我从不觉得这些人工智能有自己的想法 。 ”
哈德赛尔对许多人工智能系统进行了试验 , 发现它们能对她或她同事未曾预料的问题提出有趣和新颖的解决方案 , 这正是研究人员应该致力于增强人工智能的原因 , 因为这样 , 它们就可以完成人类自己无法完成的事情 。
使用人工智能的产品 , 比如自动驾驶汽车 , 可以经过严格测试 , 以确保任何不可预测性都在一定的可接受范围内 。 在这一点上 , 只有时间才能证明所有销售人工智能产品的公司是否都如此小心谨慎 。 但与此同时 , 值得注意的是 , 人工智能表现出的意外行为绝不仅仅局限于研究环境 , 而是已经进入了商业产品领域 。
2020年 , 在德国柏林的一家工厂里 , 由美国强化学习机器人技术公司Covariant开发的一款机器人手臂在物品经过传送带时 , 展现出了意想不到的分类方法 。 尽管没有专门的程序 , 但控制手臂的人工智能学会了瞄准透明包装的物品中心 , 以确保其每次都能成功地将物品抓起来 。 由于这些物品是透明的 , 在重叠时可能会混在一起 , 因此瞄准不精确意味着机器人可能无法抓起物品 。 但人工智能学会了避免物体的重叠角 , 而是瞄准了最容易拾取的表面 。 这真的让人很吃惊 。
无独有偶 , 研究团队最近试验了一款机器人手臂 , 可以通过形状分类孔洞来选取不同的物品 。 一开始机器人的手臂很笨拙 , 在人工智能的控制下 , 它通过不断地拿起和放下物品进行学习;最终 , 机器人可以在物品进入正确位置时将其抓住 , 并将物品很容易地放入适当的孔洞 , 而不是试图用钳子摆弄它 。

推荐阅读