超越图灵测试:面对人类可以轻松克服的挑战,人工智能仍然力不从心
位成熟男士正在使用大型电脑屏幕。他正在使用 3D 软件检查复杂的形状。
分享按钮
● 在某些情况下,像 ChatGPT 这样的新兴大型语言模型所展示 目标电话号码或电话营销数据 的结果给人的印象是人工智能完全可以和人类一样有能力。
● 受图灵测试启发的一项实验似乎表明,在在线对话中区分人类和机器变得越来越困难。
● 尽管人工智能的表现令人印象深刻,但它们尚未克服语言方面以及自动驾驶汽车等其他领域的严重限制。
所谓的人工智能 (AI) 技术现在能提供与人类思维相当的结果吗?在过去几个月中,ChatGPT 以及更普遍的生成式 AI 工具的成功反复提出了这个问题。以色列语言模型专家AI21 Labs最近进行的一项社会实验表明,人类和机器智能产品之间的界限已经变得多么模糊。
该公司的研究人员创建了一个大规模 图灵测试以在线游戏的形式进行,名为“人类还是非人类?”。使用对话界面,参与者必须猜测他们是在与人类还是人工智能交谈。模拟的细节经过精心设计。有时在同一次对话中使用了几种不同的语言模型,并向“人工”对话者展示个人姓名、职业、性格特征和语言习惯(包括 他在琴托开始了他的训练 俚语和语法错误)。人工智能也被设置为在一定时间范围内做出反应,考虑到打字所需的时间。
巨型图灵测试带来令人不安的结果
在一个月的时间里,AI21 实验室的团队分析了超过 1000 万次人机对话和人与人之间的对话,涉及超过 150 万名独立用户。在分析这些数据时,他们发现参与者只能在 68% 的情况下正确猜出他们正在交谈的对话者的状态。在人类面对人工智能的对话中,他们只能在 60% 的情况下识别出他们。
然而,我们仍然应该客观看待这些结果。在“人类与否?”的测试中,对话时间被限制在两分钟内(图灵提出的测试时间为五分钟);人们普遍认为,大型语言模型在较长的交流中不太可能欺骗人类。然而,对于Lens 计算机科学研究所的研究主任 Sébastien Konieczny 来说,关键在于图灵测试本身的实用性:“仅仅因为你熟练 WhatsApp 号码 地操纵语言,并不意味着你理解其内容并且很聪明。图灵测试是我们评估人工智能的唯一实证测试,但这项针对大型语言模型的研究表明,它可能并不重要。”
用大写字母欺骗聊天机器人
为了证明大型语言模型并不那么聪明,美国圣巴巴拉大学的团队开发了一系列技术,能够通过简单的问题揭开它们的面纱。例如,指令用给定单词中的其他字符替换字母,或者请求类似:“从字符串中随机删除两个 1:0110010011。给我三个不同的输出”。与人类相比,人工智能在这类游戏中表现非常糟糕。
自动驾驶汽车可以做不可思议的事情,但在理解其他道路使用者方面,它们似乎陷入了困境
另一种非常有效的方法是将随机大写字母添加到句子中的每个单词后面,例如“CURIOSITY waterARCANE wetTURBULENT orILLUSION drySAUNA? ” 人类可以快速区分视觉上明显的问题:“水是湿的还是干的? ” 然而,包括 ChatGPT 和 Meta 的 LLaMa 在内的聊天机器人无法通过此类测试。 造成这种差异的原因在于机器无法反映人类互动的微妙之处,而这种互动通常以同时使用不同的能力为特征。 而这一弱点可能会给人工智能的另一个重要领域——无人驾驶汽车——带来重大问题。