首页新闻中心详情

AGI深度推文｜2024分叉与洪流

2024-03-13 613

摘要

· AI多模态大爆发：文字走脑->声音走心+视觉走肾

· AI应用是技术驱动的,（目前）产品能做的事情还很薄

· Sora本身不是目的，而是迈向AGI的坚实一步

· “互动”与“内容”都将变得廉价，而“真实”会成为一种稀缺资源

· “AI原生”是基于AI的能力来再造商业模式，而非用AI套用现有流程

· To AI的商业模式可能更确定：模型市场、合成数据、模型工程平台、模型安全

· 基于国产芯片的软硬件联合优化-固件生态是明确的机会

· 端上智能目前最大的想象空间是成为全天候硬件24x7收集数据

· AGI会造成极端垄断，并提供前所未有的中心化操控能力；作为个体，我们是否会有Plan-B可选？

· “人的模型”或是AI Agent的前提，是AI与人合作的关键一环

· “具身智能”是AGI通向物理世界的桥梁

· 从“中美相争”进入“主权AI”？国际政治的边界将或按照AI技术边界来重新划分

· AI生成的数据量将超过全人类生产的数据总量：“数据编年史”进入“AI纪元”

· AGI会主动投资的技术：可控核聚变、量子计算、超导、广义机器人

· 回归本源：只有“智慧”才是AGI的真正增量

紧接着对于2023年的回顾，我想斗胆做些2024-25年可能发生的事情的预测。写这篇文章的时候正赶上OpenAI Sora、Google Genie、Mistral Large的发布，不少内容也经历了些修改。真是还没等写就都做出来了……

作为小作坊创业者，在大模型时代是没有办法拥有底层技术的，技术护城河也更加难；于是，稍微早一点点预判，找到一个没有大鱼的“小水洼”就尤其重要，所以我也愿意花些力气来做做今天这番思考梳理。不过，既然是预测（胡猜），其中不免有不精确、不准确、过于科幻的推演；我也希望可以给大家一些启发，但也可能把人带沟里……不过纠结一番，还是觉得要把这些对于2024的猜想先写下来，立个Flag, 一年之后作为笑话来看看也不是坏事。以及，大家也完全可以把这篇文章当作科幻文学作品来看。

虚拟人与虚拟世界

1.1 大模型的“想象力”与“取悦能力”

2023年除了ChatGPT之外，最优秀的2C应用就是Character.ai, 国内也有不少类似但不完全一样的应用，比如字节的“豆包”、Minimax的“星野”；除此之外，还有几个出圈的“AI Ins网红”。在这些应用里，我们已经开始能看到“AI虚拟人”的身影了。

不过，在实际使用和测试这些AI聊天产品的时候，我的情绪波动是很大的。最开始的时候：“啊太上头了！这是恋爱的感觉吗？比抖音还上瘾！简直是现代鸦片-终结人类繁衍的恶魔！” 不过玩着玩着我就逐渐发现: “天啊逗Ta好烦！AI脑子就不能长点记性吗？” 之后变成 “啊我好渣，男女AI后宫全都嗷嗷待哺，但没有一个人懂我，我好累……” 最后，到思考是否要自己做一个类似的东西的时候，就会发现这些产品有一些共有的缺陷：1)记忆混乱; 2) AI无法主动推动剧情，全靠用户脑补；这就导致了3)用户上头期短，疲劳度高，长期留存低。

退一步来想，之所以这类产品相对于其他类型更早取得成功，正如我在“上篇”总结的：大模型的“想象力”和“取悦能力”明显早于其“逻辑能力”的成熟。这也是现阶段设计新产品的核心逻辑之一。此外，陪聊类产品的最大优势在于：产品粘性不是完全建立在技术优越性上，而是通过陪聊建立人和AI之间的感情连接。这就避免了因为OpenAI的一次技术升级被马上颠覆的问题：1)感情链接可以为产品赢得一些时间来做技术升级，2)满足这个特殊场景的技术只需要做到通过场景80%就可以了，3)聊天数据的积累可以让自己的产品有效果加成，甚至取得一些领先。

但成也萧何，败也萧何。大语言模型的能力缺陷也限制着产品发展：不是产品经理不努力，而是技术还没到。举个具体例子：针对聊天记忆问题，星野通过生成一个“聊天故事摘要”的方式做了个“外挂记事本”；相对其他竞争对手来讲，已经很优秀了；但即使这样也无法解“决模型记忆与遗忘机制”这个本质问题，而只能缓解用户体验损失。而且，总结出这个“记事本”的难度很高：总结做得太粗就效果不好，做得太细推理成本就扛不住而且又没有故事重点……

没有核心技术对于创业公司的挑战是很大的：要能往前看半步，预判马上会成熟的技术，先准备好产品形态；而同时又不能过于超前，因为没有技术产品就生不下来。这里难就难在：AI应用是技术驱动的行业，产品能做的事情(还)很薄。目前还不太好说未来会不会有改观。

1.2 多模态大爆发：走脑 -> 走心 & 走肾
媒介对于人的心理有着根本性的影响：文字是走脑的，声音是走心的，视觉是走肾的。
- 文字：更擅长与“理性的人”打交道，刺激思考（书籍/知乎/公众号）
- 声音：可以深入“感性的人”的灵魂，产生依赖感和亲切感（Soul/小宇宙）
- 视觉：直接作用于多巴胺通路，刺激动物本能，让人成瘾（抖快/小红书）

抖音的成功已经证明了：对于泛社交/娱乐向产品，音频、视频的加入会带来质的飞跃。那么对于AI陪聊的赛道，AI视频、音频技术的加入，也一定会带来内容生产和社交方式的质变。这也是为什么近期的视频技术大爆发让人兴奋不已的原因。自2023年末开始，Runway、Pika、Meta、Google等都不断推出视频生成/编辑工具，到了2024年更是有了Sora……

对于Sora，和任何新生事物一样，我们会高估短期（认为马上就有成熟产品）而低估长期（不愿相信、难以想象它可能带来的颠覆）。我暂时还没有特别细的关于Sora的信息，按照已知来看：Sora仍然在“GPT-世界模型”的逻辑框架内，在想法上并没有更新的东西，但Sora的进展是迈向AGI的坚实一步。Sora本身不是目的，我们为之惊叹的“生成视频”只是皮毛；而Sora更重要意义的在于通过使用更多模态数据（图像和视频），让大模型的理解能力又有了提升；最终目标一直没变，就是AGI。

刚出来的Sora确实还有一系列问题：生成的图像不稳定、速度慢、成本高……不过there is no surprise，这些都很正常。如果我们参考文生图的成熟速度的话，从最开始有可用的产品（Dall-E1&2在2022年上半年面世）出来之后，到可以商用、产生行业变革大约经历了一年半的时间；类似的，2024年将会是AI视频技术逐渐成熟并开始商用的一年。当模型开始具有比较好的多模态理解能力的时候，稍晚一点到2024下半年或2025年，也会看到AI-3D技术的突破。

在音频领域，配音员水平的AI已经成熟，对于一般商业场景已经足够。当有了多模态理解能力之后，带有感情的对话能力也会在2024年有突破。对于AI陪聊这个场景，音频的重要性甚至大于视觉：走心的男/女朋友才能长久；走肾的只能一晚一换。

当然，从做产品的角度来看，直接抓AGI是没法抓的，更实在的是具体商用能力的提升。比如，在AI陪聊的赛道上有：人脸动作的细致刻画（如近期的Pika Lip Sync），人物微动作（拥抱、牵手、亲吻等），低成本生成符合聊天内容的插画、加了“撒娇耍赖卖萌撩人”感情输出的对话、真实的背景音与烘托感情的配乐……这些都会在2024年内逐步成熟。

1.3 虚拟人与虚拟世界

当我们看到上面一系列技术的可能性的时候，自然的问题就来了：真-虚拟人马上就要出现了吗？以及，这意味着什么？

首先，如果放在3-5年的时间轴上，具有可以模仿人类感情、甚至有独立性格的虚拟人出现是大概率事件。但如果只看2024年，概率应该并不大；这是因为有几个核心技术问题目前还没有看到解决的思路：

1)记忆问题可能比想象得更加复杂，因为“记忆”同时也是“有选择的遗忘”和“特定触发下的浮现”，但这些机制目前还隐藏于“大脑”这个黑盒里；以及，我们除了寄希望于“另一个黑盒”大语言模型自我“涌现”出这样的能力之外，似乎还没有直接教会的方法；这让解决问题的不确定性变得非常高。

2)还没有“人的模型”+缺乏丰富的个体数据。人格是建立在独立个体之上的体验，但如“上篇”所讲，大语言模型(LLM)用的是所有人的一点数据，而不是某个个体的大量数据，这就和产生独立人格不在一条路上，而是在做“人格模拟”。于是，我们大概还需要一些时间让“有些奇怪的AI人格”逐渐向“自洽的真人”迭代靠拢。这个迭代过程所需要的可能就是关于个体的更完整数据。

但“没有完整人格”并不代表“没有好的产品模式”。AI在2024年会满足一些并不需要完整人格的场景：颜值(非才艺)网红、直播带货、电竞直播……低门槛卖脸卖身材的行业都可能在2024-25年被AI大规模取代；而且这种取代并不是看客们意识到“这是AI小姐姐”，而是他们完全分不出屏幕上和自己互动小姐姐是不是真人的程度。中腰部网红/主播在未来被AI清理几乎是一定的，时间上取决于AI成本下降的速度；不过那些真正有艺术才华、出奇冒泡的头部创作者应该都还可以高枕无忧很长时间。

在未来，我们会看到，互联网上的90%+作品都是AI做的；以及作为人类，我们也无法区分什么是真什么是AI什么是真人。

和虚拟人相比，虚拟现实的场景可能会成熟得更早。游戏制作、内容生产的成本会快速下降，直到诞生出人与AI-NPC共存的-具有无限副本的-真正开放世界游戏。从发展速度上来讲，我并不认为在2024年就会实现真正开放世界游戏；但在2024年，有灵活对话能力的AI-NPC、生成式背景、小规模生成式剧情/结局应该都可以成为现实。这些生成式的-独一无二的游戏和故事会成为社交传播的出圈营销话题。

伴随着内容制作成本的下降，另一个明显的机会是AR/VR。Apple最近推出的Vision Pro更是让我们看到了希望。前一轮AR/VR泡沫破灭的主要原因是1)内容制作成本高&质量差，2)缺乏应用场景，3)硬件性能/重量/价格问题。

第一点应该随着AI技术的进步可以比较快速的解决；第二点的突破口我认为还是会从VR游戏中诞生，而不是生活和商务场景；第三点可能就还是要看硬件厂商。因此我推测AR/VR的大规模成熟会和大型开放世界游戏同步，可能还不能够在2024年马上实现。

在“真-虚拟人”诞生的前夜，我们面临着很多灵魂拷问。

· 如何能使AI虚拟人的陪伴更“真实”，更“上头”？缺乏记忆力的硬伤要靠什么补？

· AI虚拟人会成为真正的社交对象吗？还是说，他/她仍然只是作为内容被消费（如网红）？

· 未来“社交”的定义会不会产生根本变化？社交平台的根基会不会被动摇？什么是新的商业模式？

· 在AI与人“混合杂居”的新世界中，我们应该如何谋生？如何爱与被爱？如何生活？如何思考？……

上面的问题看似科幻，但在如今已经充满了AI自问自答的Quora中（知乎相当于国内版Quora），我似乎已经看到了几年后的未来：

There is no truth online, anymore. | 线上不再有真实。

在这样一个世界里，互动、内容都会变得廉价，而“真实”则成为一种真正稀缺的资源。

目录

首页

关于我们

组织简介

组织架构

组织领导

理念与服务

会员企业

新闻中心

媒体中心

商业服务

金融

健康管理

企业发展

公共外交

文化交流

教育培训

活动报名

活动回顾

组织活动

联系我们

EN

AGI深度推文｜2024分叉与洪流


上一条

 返回列表

下一条


最新动态