AI年末“狂欢”！OpenAI、谷歌、Meta、李飞飞发布重磅产品

文章图片

【AI年末“狂欢”！OpenAI、谷歌、Meta、李飞飞发布重磅产品】

文章图片

OpenAI为期12天的年终“技术盛宴”已结束第二天的直播。从当地时间12月5日发布的“满血版”o1模型和最贵ChatGPT Pro服务，到6日发布的强化微调（Reinforcement Fine-Tuning），无不证明AI世界又将迎来一次全新的产品升级和迭代。
在AI的狂欢中，其他科技公司也不甘示弱。有着“AI教母”之称的李飞飞创立的World Labs以及谷歌DeepMind团队本周先后发布重磅产品，让用户可以通过单张图片生成交互式3D场景，展示了AI在虚拟世界构建领域的巨大潜力。
Meta和马斯克的xAI也来凑了个热闹。 Meta推出了今年的压轴AI大模型：Llama 3.3 70B ，该模型据称能实现和Meta最大Llama 模型——Llama 3.1 405B同样的性能，成本还更低。 xAI宣布Grok从今天起全球免费，但有使用限制。免费用户每2小时可以询问最多10个问题，每天最多可分析3张图片和生成4张图片。
随着各路玩家在AI领域竞赛的深入， AI的竞争焦点也转向了智能体和通用人工智能（AGI）。
据外媒6日的最新报道， OpenAI正在与微软磋商放弃AGI条款，以释放投资潜力。目前，最终决定尚未做出， OpenAI董事会将决定何时实现AGI 。
清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及告诉《每日经济新闻》记者， “基于多个大模型的AI智能体或多个智能体的协同，可能是未来AI技术发挥更大作用的一个重要趋势。 ”
当地时间12月5日， OpenAI为期12天的圣诞季特别活动开启。
在第一天的活动上， OpenAI发布了推理大模型o1的“满血版”和进阶模式，以及每月收费高达200美元（约合人民币1450元）的ChatGPT Pro订阅服务。
“满血版”o1的特征是，在回答用户提问时不是“脱口而出” ，而是形成一个类似人类思维方式的内部思维链条。该模型已面向ChatGPT Plus和团队用户开放，企业和教育用户则需要等到下周。
“满血版”o1比9月发布的预览版更快、更强大、更准确，同时增加了多模态输入（可以上传图片）的能力。 OpenAI表示，现在的o1模型“思维已经被训练得更加简洁”（大概快50%），而且在回答困难现实问题时，出现重大错误的概率减少了34% 。
图片来源：X
同时发布的ChatGPT Pro服务也引发了外界的广泛关注，每月200美元的订阅费是目前ChatGPT Plus定价的10倍。不过，用户可以无限量地使用o1模型（Plus用户当前有每周50条信息的限制），以及无限量使用o1 mini和高级语音模式，同时也能用上o1 pro模式，该模式“使用更多的计算来为最难的问题提供最佳答案” 。
次日， OpenAI打出活动“第二弹” ，推出了强化微调（Reinforcement Fine-Tuning）。阿尔特(13.380 -0.51 -3.67%)曼表示：“强化微调，效果出奇地好；它是我2024年最大的惊喜之一。 ”
图片来源：X平台
强化微调与标准微调不同，利用强化学习算法，研究者可以强化产生正确答案的思路，抑制产生错误答案的思路，只需要“几十个例子”（a few dozen examples）、甚至12个例子，模型就能以有效的新方式学习特定领域的推理，提升模型在特定领域任务中的推理能力和准确性。
据介绍，它甚至可以让简易版推理模型o1 mini的效果超过前一天刚发布的“满血版”o1 。 OpenAI预计将于2025年初公开发布强化微调功能。
除了OpenAI的首批年末“王炸”外，本周还有诸多AI相关的重磅产品出炉。
作为AI领域影响力最大的女性和华人之一，斯坦福大学教授李飞飞于当地时间12月2日公布了其首个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。
在World Labs网站的演示里，由AI生成的场景均通过浏览器实时渲染而成，用户可以使用箭头键或键盘（WASD）键移动，然后单击并拖动鼠标实现交互，从而自由探索场景。 World Labs的AI工具配备了可操控的滑块来调节模拟景深（DoF）与模拟推拉变焦（dolly zoom），当使用者将景深效果调至越强时，背景中的物体便会越发模糊，为整个视觉体验增添了更多层次感与真实感。
图片来源：World Labs推特截图
但World Labs目前只向公众发布了关于该技术的博客，外界能够体验的功能极为有限，而且并未放出任何代码和模型。
在单图生成3D世界领域探索的还有谷歌。北京时间12月5日凌晨，谷歌DeepMind在官网发布了大型基础世界模型Genie 2 ，可通过单张图片和文字描述生成种类多样的游戏3D世界，标志着AI在虚拟世界生成领域的又一次突破。
图片来源：谷歌Deepmind官网截图
简单来说，给Genie 2一张图片，它可以生成供人类游玩、可实时渲染、可控和可交互的无限3D世界，不需要借助任何游戏引擎。例如，输入“森林中的可爱人形机器人(22.460 0.03 0.13%)” ，模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。
和Genie 1相比， Genie 2拥有长期记忆，即使是角色短暂离开画面，在重新进入视野后，依旧能被精准还原出来。
清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及在接受《每日经济新闻》记者采访时表示， “从学术研究的角度来看，能否将文本意义上的世界模型与物理意义上的世界模型关联起来，把真正的物理世界进行建模，是AI技术能否取得突破的关键。 ”
World Labs和谷歌之后， Meta也来凑了个热闹，于当地时间12月6日推出了今年的压轴AI大模型：Llama 3.3 70B 。 Meta 生成式AI副总裁 Ahmad Al-Dahle在X发帖表示，纯文本的 Llama 3.3能实现和Meta最大Llama模型——Llama 3.1 405B同样的性能，成本还更低。
Al-Dahle还附上了一张图表，显示包括针对大模型语言理解能力的测试MMLU在内， Llama 3.3在一系列行业基准测试中表现优于谷歌的Gemini 1.5 Pro、OpenAI 的 GPT-4o和亚马逊本周稍早发布的Nova Pro 。
图片来源：X
随着大模型竞赛的深入， AI的风又更多地吹向了智能体和通用人工智能（AGI）。
吴及告诉每经记者，目前，尽管单个大模型在某些方面表现出色，但也存在诸多不足，例如幻觉和遗忘效应等问题。他强调， “基于多个大模型的AI智能体或多个智能体的协同，可能是未来AI技术发挥更大作用的一个重要趋势。 ”
吴及认为，智能体融合将成为AI应用解决特定场景问题的一个重要技术前景或发展方向。
在《纽约时报》于当地时间12月4日举办的DealBook峰会上，阿尔特曼表示， “智能体是现在每个人都在谈论的话题，我认为这背后是有充分理由的。设想一下，你可以让AI系统完成一项相当复杂的任务，比如需要一位非常聪明的人，花费一段时间，借助各种工具来完成并产出有价值成果的任务。我预计，这样的场景将在明年成为现实。 ”
他同时指出， AI行业即将迎来的发展将比预期更具冲击力。他将AI的影响力比作晶体管的发明，认为AI的推理功能未来将走向普及化和商业化。 “到2025年，我们可能会首次见到具备AGI能力的系统。这类系统可以像人类一样完成复杂任务，甚至能运用多种工具来解决问题， ”他说。
据外媒12月6日最新报道， OpenAI正在与微软磋商放弃AGI条款，以释放投资潜力。根据目前的条款，当OpenAI创建AGI时，微软对这种技术的使用权将失效。目前，最终决定尚未做出， OpenAI董事会将决定何时实现AGI 。

AI年末“狂欢”！OpenAI、谷歌、Meta、李飞飞发布重磅产品

推荐阅读

蟑螂爬人身上的原因

螺丝生锈了拧不下来怎么办

开关电源维修口诀是什么

头发少年白是什么原因 6招教你防止白发再生

保定主动辞职的可以领取失业金吗？

听说BT是用来下载的，怎么使用啊？,电脑之家系统下载

固化的结构胶怎么去除

皮革加工需要什么设备

ps背景颜色怎么换 ps背景颜色如何换

6680适合的游戏

小猫早晨起来一直叫是因为什么,猫咪一直叫是怎么回事

空间站离地面有多少公里，中国空间站离地面有多少公里？

股权分置改革是什么意思,什么是股权分置改革?

暗宅之谜第几集挖到宝藏的

幻塔狮子座连线怎么做?幻塔狮子座连线最新攻略解析。

人生的得与失高三作文