百度不做Sora的理由,李彦宏讲清楚了
文章图片
文章图片
文章图片
文|周鑫雨
编辑|苏建勋
2024年11月12日举办的百度世界大会上 , 探讨“什么是有价值的AI应用”成了主题 。
百度集团创始人、董事长兼CEO李彦宏提到 , 将大会主题定为“应用来了” , 代表百度对于当前大模型和生成式人工智能时代的认知和判断 。
△文心大模型的日均调用量变化 。
目前 , 文心大模型的日均调用量已经超过15亿 。 李彦宏认为 , 如果文心大模型调用量一年能涨10倍 , 意味着市场需求确实存在 。 他提到 , 事实上 , 文心的调用量 , 在半年内的增长就接近10倍 。
在会上 , 李彦宏提到了几个共识:
首先 , 检索增强(RAG)成为了行业共识 , 因为消除“幻觉” , 是模型行业落地的必须 。 李彦宏认为 , 过去24个月 , 大模型的最大变化是基本消除了“幻觉” 。
其次 , 智能体是AI应用最主流的形态 , 是AI原生时代内容、信息和服务的新载体 。
“智能体” , 无疑是世界大会上出现最高频的术语 。 李彦宏将智能体比作PC时代的网站和移动时代的自媒体 , 区别在于 , 智能体更像人、更智能 。
他提到了智能体的4个应用方向:公司类(如销售客服)、角色类(如数字人直播)、工具类(如行业报告智能生成)、行业类 。
技术的商业价值 , 也是李彦宏在发言中反复提起的主题 。
比如 , 他认为iRAG的商业价值在于无幻觉、超真实、没成本、立即可取 。
△李彦宏发言
具体到0代码开发工具“秒哒”的发布 , 李彦宏认为产品价值在于实现了生产力的无限扩张 。 用他的话来形容 , 这是“一个前所未有的只靠想法就能赚钱的时代” 。
在产业落地层面 , 李彦宏提到 , 大模型带给行业的价值增量 , 体现在两个层面:降本和增效 。
目前 , 百度智能云千帆大模型平台已经精调了3.3万个模型 , 开发了77万个企业应用 , 一半以上的央国企都是千帆的用户 。
文库和网盘融合了在2024年9月的架构调整中 , 百度网盘回归了MEG , 被划分到了文库BU——这也为两个内容工具型应用的生态打通 , 埋下了伏笔 。
百度副总裁、百度文库兼百度网盘负责人王颖看来 , 以往文库和网盘的用户具有以下两个痛点:
一方面 , 不同形式、品类、格式的素材 , 无法在同一个平台上编辑操作 , 也无法生成任何形式、格式的内容;
另一方面 , 文库中的公域知识 , 和网盘中的私域知识 , 是分开存储的 , 无法协同形成完整的知识 。
百度文库上线的“自由画布”功能 , 就成了打通文库和网盘内容的桥梁 。 在李彦宏看来 , 自由画布本质上就是一个工具类智能体 。
就像一个智能白板 , 用户能够通过点选、对话、框选 , 自由选择和组合文库和网盘上需要操作的内容 。
基于背后的MoE(混合专家模型)架构和多模态模型 , 自由画布可以支持文字、图像、视频等文件的跨模态处理 , 最后也能生成图文等跨模态内容 。
而这些经自由画布生成的多模态内容 , 适配的是微信朋友圈、小红书的图+文、视频+文内容生态 , 也能生成带图表的研报等专业领域内容 。
△自由画布根据要求生成了孙悟空来现代探险的小说、漫画和视频 。
在AI工具型产品苦寻变现模式的当下 , 王颖却认为 , 网盘和文库的商业模式天生与大模型产品非常匹配 。
她告诉《智能涌现》 , 文库和网盘的收费模式 , 本质上是和用户分润 , 产品通过给用户带来价值、帮他们挣到钱 , 来提高用户的留存率和付费率 。
“AI能力能够拓展产品功能的边界 , 组合出来的产品变得更多 , 给用户带来更多的权益 , 也会让付费转化率变高 。 ”王颖对《智能涌现》表示 。
做Sora之前 , 先解决“幻觉”即便李彦宏提到 , 目前文字和RAG(检索增强)技术的结合已有成效 , 但他也指出 , 图像和RAG技术的结合还远远不够 。
“多模态模型目前没有大规模应用 , 是由于幻觉问题还没有解决 。 ”李彦宏在发言中指出 。
这一认知 , 也决定了百度面对Sora的态度 。 李彦宏提到 , 在Sora出现时 , 百度的决策不是跟进 , 而是着手解决多模态的幻觉问题 。
在会上 , 百度发布了iRAG , 一项基于检索增强的文生图技术 。 用李彦宏的话来说 , iRAG可以去除生成图像的“机器味” 。
△基于iRAG生成的图片 。
百度CTO王海峰在会上介绍了iRAG实现可控生图的技术链路:
首先 , 大模型对用户的需求进行分析理解 , 自动规划精确或者泛化的方案 , 比如对哪些实体进行增强;
接着 , 在增强阶段 , 对需要增强的实体进行检索 , 并且选择对应的参考;
最后 , 在生成阶段 , 百度自研了多模态可控生图技术 。 一方面 , 通过局部注意力计算 , 大模型能够在保持实体特征不变的情况下 , 实现图像的高泛化生成;另一方面 , 通过整体注意力计算 , 实现图像的高精确生成 。
小度做了副AI眼镜2023年换上大模型“大脑”的小度 , 这次推出的不再是音箱 , 而是百度的第一副眼镜:小度AI眼镜 。
△小度AI眼镜 。
在硬件层面 , 这幅眼镜自重仅45g , 低于行业平均重量49g 。 为了提高成像效果 , 眼镜搭载了1600万像素超广角镜头和AI防抖算法;为了提高声音识别准确率、降低漏音 , 眼镜采用了四麦阵列和开放式防漏音扬声器设计 。
在续航能力上 , 小度AI眼镜用30min就能充满电 , 实现56小时待机 , 超5小时连续聆听 。 这三个指标均超过了行业标杆水平 。
将小度AI眼镜与普通眼镜进行区别的 , 还是在“AI”上 。
基于文心大模型和DuerOS AI原生操作系统 , 小度AI能够实现第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、歌单等功能 。
据百度集团副总裁、小度科技CEO李莹介绍 , 小度AI眼镜将在2025年上半年上市 。
一个0代码开发工具 , 就是一支智能体团队会上 , 百度还官宣了“秒哒” , 一个将在2025年Q1上线的0代码应用开发平台 。
相较于其他的0代码开发平台 , 秒哒的特色是 , 应用的开发过程 , 由多个多智能体进行协作 。
△“秒哒” 。
比如 , 在网页制作过程中 , 网页的代码编写和部署由程序员智能体完成 , 网页中的文案由写作智能体完成 , 文案中最新的资料由检索机器人上网查询 , 其中的配图又由擅长生图的智能体实现 。
最后 , 负责质检的智能体 , 还会利用反思能力 , 运行测试代码 , 发现其中的bug , 并与程序员智能体进行配合修改 。
多智能体协作 , 不仅应用在了针对小白开发者的“秒哒”上 , 还运用在了针对专业程序员的文心快码Comate上 。
王海峰介绍 , Comate已经迭代到了3.0版本 。 在开发全流程中 , Comate 3.0中的不同智能体可以实现自动代码质检、代码补全等功能 , 目的是提高程序员的工作质量和效率 , 让其把更多精力投入到探索和创新 。
【百度不做Sora的理由,李彦宏讲清楚了】欢迎交流!
推荐阅读
- 百度将发布AI眼镜,首搭中文大模型,售价或低于2100元
- 走了?把员工当牛马的百度副总裁璩静,“底裤”都快被扒光了
- 百度网盘宣布将在11月上线百度网盘HarmonyOS NEXT鸿蒙版
- 2024百度十大科技前沿发明揭晓
- 百度挑战小米?近5米纯电新宠19万起,续航660km+自动驾驶
- 传百度老员工被单方面解除合同,已入职22年,自称被持续劝退半年
- 百度投资的“中国特斯拉” 极越纯视觉智驾正面迎战FSD
- 女子注销号码未解绑网盘致照片泄露,百度网盘回应
- 百度和高德地图哪个更加准确?老司机:走出市区,差距不是一般大
- 7公里5块钱!“无人驾驶”定价砸网约车饭碗?百度:不是抢生意