通用人工智能的时代已经来临( 二 )


机器学习视角下, 存在三项重要挑战:
一是, 智能主体若想适应动态(非稳态)环境, “好用”的决策理论便不可或缺 。 对动物而言, 这是通过进化实现的 。 但对机器而言, 单独个体的一生中却无法学到 。 因此, 尽管离不开先天预设, 但其行为表现则是先天和后天的相互结合 。
强化学习就是一个非常成功的决策理论(RL, 参考文献[12]) 。 虽在非稳态环境中难堪大用(主体的适应性需求与学习速率衰减是一对矛盾), 不过至少能够用于实时学习 。 强化学习有一些主要概念的限制, 基于行为主义的强化学习最为常见 。 通过对具有最高预期回报的“状态—行为”之间的响应映射(策略)进行学习, 且无须对所在情境的其他因果关系进行建模, 令此类主体具有奖励中心主义的世界观 。 这意味着, 一旦效用函数发生变化, 主体就必须重新习得一个新策略, 既有知识也无法借助先天设计而迁移到新任务中 。 对于存在单一明确取胜标准的电脑游戏来说(如:赛车游戏中的圈速、象棋中的将军等), 效用函数的变化不是问题 。 但对于生物系统而言, 这却是日常的现实考量 。
动物在饿与渴的时候行为完全不同, 前者会寻找猎物或美味的枝叶, 后者会寻觅水源 。 也就是说, 个体行为不仅取决于外部因素, 也取决于内部需求 。 当出现特定需求时, 个体寻求“因果知识”, 这一知识会自动迁移到解决下一次其他需求 。 如此, 便能对不断变化的需求予以及时响应 。 但是, 个体并不总能预先知道该如何满足特定需求 。 要解决这一问题, 可将具体信念与动机系统解耦, 令主体在不同的环境中学习到行为的不同结果, 建立不同的因果模型 。 这是那些抱持AI初衷的AGI研究者所追求之路, 但在专用人工智能(Special-purpose AI, SAI)领域中却常常无人问津 。
二是测量 。 毋庸置疑, 不测量便无从知晓是否有进步, 但测量的对象也很重要 。 我们在每个领域下测试主体表现, 如果允许对不同领域设定不同的超参数(译者注:在机器学习中, 模型“自学”得到的是参数, 无法“自学”必须由“上帝”赋予的是超参数 。 深度学习“炼丹师”的一项重要操作就是对超参数的调校), 得到的将是不同主体的“专项成绩” 。 虽在应用层面上十分有用, 却对了解个体的一般性顿口无言 。 另一方面, 如果因领域各异而设定不同超参数不被允许, 那么得到的则是主体“各科考试”的“总成绩” 。
【通用人工智能的时代已经来临】目前, 最好的通用系统仍无法与专用系统(其超参数针可对特定目标领域进行调整)相媲美, 但最好的专用系统其通用性得分却不会很高 。 类似情形在自然界比比皆是(如图1所示), 尽管在特定静态环境, 特定的专用方案往往是首选, 但通用性却能使适应特殊环境条件变得更为容易 。
图1:高专用性的昆虫与高通用性的昆虫
从上述讨论中可以窥见:
衡量AGI成功与否需要改变已有的评估方式 。 AGI亦非AI超集, 特定领域内大发神威的专用化最优方案, 很可能在其他领域百无一用 。 在通向AGI的道路上, 尽管并非总是, 但一般情况下确与专用能力交集寥寥 。
写作此文正是想向读者指出通用性AI发展面临的许多挑战和误解 。 短期应用成果应与长远蓝图相得益彰 。 我们需要渊思寂虑, 精进系统研发, 从而理解主体感知, 并使之实时适应不断变化的环境 。
三是系统实现 。 非知之艰, 行之惟艰 。 打造具有通用能力的系统实属不易, 我们只是在漫漫前行路上迈出了一小步 。 王培提出的非公理逻辑推理系统NARS(Non-Axiomatic Reasoning System)[9]便是其中重要一例 。 NARS项目历经30余年, 在实时学习、推理和目标满足等关键领域成效斐然 。 系统能通过自身感知对环境进行建模, 适应环境, 通过推理来决定下一步行动, 从而实现自我目标 。 近期的研究亮点是, 将深度神经网络(YOLOv4, 参考文献[1][6])的视觉感知与NARS实时学习和推理能力(OpenNARS for Applications, 参考文献[4][13])进行整合, 很好地完成机器人瓶子收集的任务(如视频所示) 。

推荐阅读