Gemini上线第一天被质疑“造假”,谷歌这样回应

和人类玩儿猜谜游戏、快速准确地识别视频中的动作并猜出电影来源,根据画面中的电吉他播放相应的音乐,不仅能识别手写物理题还能给出解题步骤……Google大模型Gemini上线时一段震撼业界的演示视频如今被质疑造假 。
【Gemini上线第一天被质疑“造假”,谷歌这样回应】有人质疑,这段视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成 。根据YouTube上的视频描述,可以发现Google有一个重要的免责声明:“为了演示的目的,他们已经减少延迟,为了简洁,Gemini的输出也缩短了 。”这意味着Gemini真实的响应时间要比视频中长 。
第一财经采访人员留意到,Google官方后续发布了一篇名为《Howit’sMade:InteractingwithGeminithroughmultimodalprompting》的博客文章,列举了视频中演示的过程,可以看到的是,实现多模态交互过程需要经过多次提示和调试,并不只是缩短了时间,而且Gemini所有的这些交互是通过提示词问出来的 。也就是说,官方视频演示是使用了原始镜头中的静止图像帧,然后编写了文本提示 , 让Gemini进行回应 。
例如,在官方演示视频中,一只手在镜头前做出变幻手势 。Gemini很快回应:“我知道你在做什么 。你在玩石头、剪刀、布!”看起来 , AI能够很快直接看懂人类的手势游戏 。
但博客中是这样描述背后实现的过程:当“喂”给AI一张伸出手掌做出“布”的手势图时,Gemini的回答是:这是一个人的右手,并且手指分开 。当让它看到一张“剪刀”的手势图片时,Gemini回答自己看到了一只伸出两个手指的手,通常是数字2的常用符号 。最后,当三张图片放在一起,并且提示它这是一个游戏后,Gemini终于猜对 。

Gemini上线第一天被质疑“造假”,谷歌这样回应



再如,在逻辑推理相关的视频演示中 , 人类把画有太阳、土星和地球的图片展示给Gemini,并问道:“这是正确的顺序吗?Gemini马上纠正:“不,正确顺序是太阳、地球、土星 。”
而这一视频背后的实现过程中,人类需要提示:“考虑到与太阳的距离,这个顺序对吗?并解释你的理由 。”Gemini才给出了正确回答 。
Gemini上线第一天被质疑“造假”,谷歌这样回应



但面对“造假”质疑,谷歌予以否认 。采访人员留意到,GoogleDeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯(OriolVinyals)发文表示:“该视频展示了使用Gemini构建的多模态用户体验演示,使用GeminiUltra视频中的所有用户提示和输出都是真实的 , 为简洁起见缩短了时间 。”他还透露谷歌为Gemini提供的多模态能力和即时响应将在12月13日开放Pro访问权限时供开发者使用 。
除了视频质疑之外,也有用户在使用中发现 , 在一些情况下,Gemini并没有正确反映真实的情况,例如2023年奥斯卡获奖者 。GeminiPro错误地声称最佳男主角是布兰登·格里森(BrendanGleeson),而不是真正的获胜者布兰登·弗雷泽(BrendanFraser) 。当被要求给出6个字母的法语单词时,GeminiPro给出了错误的答案 。
此外,Google援引的MMLU测试表格显示,在GeminiUltra90.0%的分数下面标着CoT@32,也就是“使用了思维链提示技巧、尝试32次选最好样本”;而GPT-486.4%分数下却是5-shot,只进行“5次示例且无提示词” 。而且,测试显示GeminiUltra对于GPT4只有几个百分点的优势 , 但GPT4的发布早于Gemini半年以上 。
在使用行业标准5-shotMMLU的情况下,HuggingFace技术主管PhilippSchmid根据技术报告中的数据重新分析:如果使用5-shot,Gemini的得分实为83.7%,而非90.0% 。GPT-4的86.4%要高于GeminiUltra的83.7% 。
对于视频造假质疑,一位AI行业从业者对第一财经采访人员表示,尽管官方声称是为了简洁展现而缩短了时间,从官方后续的博客描述来看 , 此前的演示视频确实存在一定的误导性,会让外界误认为Gemini的响应和交互速度、准确性如视频所演示的那样,但其实它并未展示出全部的真实 。
也有投资人表示,这或许也反映出新一波AI浪潮之下Google的焦虑 。此前凭借AlphaGo在围棋领域的表现 , Google在全球掀起了一波AI浪潮 。但这一轮AI新浪潮的风头却被OpenAI的ChatGPT抢走,Google急需一款现象级AI产品来证明自己在人工智能领域的实力 。毕竟产品的真正实力不能只靠宣传片 , 更重要的还是在实际应用中的比试,届时用户将“用脚投票” 。

    推荐阅读