AGI深度推文|2024分叉与洪流

2024-03-13 378

 摘要

· AI多模态大爆发:文字走脑->声音走心+视觉走肾

· AI应用是技术驱动的,(目前)产品能做的事情还很薄

· Sora本身不是目的,而是迈向AGI的坚实一步

· “互动”与“内容”都将变得廉价,而“真实”会成为一种稀缺资源

· “AI原生”是基于AI的能力来再造商业模式,而非用AI套用现有流程

· To AI的商业模式可能更确定:模型市场、合成数据、模型工程平台、模型安全

· 基于国产芯片的软硬件联合优化-固件生态是明确的机会

· 端上智能目前最大的想象空间是成为全天候硬件24x7收集数据

· AGI会造成极端垄断,并提供前所未有的中心化操控能力;作为个体,我们是否会有Plan-B可选?

· “人的模型”或是AI Agent的前提,是AI与人合作的关键一环

· “具身智能”是AGI通向物理世界的桥梁

· 从“中美相争”进入“主权AI”?国际政治的边界将或按照AI技术边界来重新划分

· AI生成的数据量将超过全人类生产的数据总量:“数据编年史”进入“AI纪元”

· AGI会主动投资的技术:可控核聚变、量子计算、超导、广义机器人

· 回归本源:只有“智慧”才是AGI的真正增量

紧接着对于2023年的回顾,我想斗胆做些2024-25年可能发生的事情的预测。写这篇文章的时候正赶上OpenAI Sora、Google Genie、Mistral Large的发布,不少内容也经历了些修改。真是还没等写就都做出来了……

作为小作坊创业者,在大模型时代是没有办法拥有底层技术的,技术护城河也更加难;于是,稍微早一点点预判,找到一个没有大鱼的“小水洼”就尤其重要,所以我也愿意花些力气来做做今天这番思考梳理。不过,既然是预测(胡猜),其中不免有不精确、不准确、过于科幻的推演;我也希望可以给大家一些启发,但也可能把人带沟里……不过纠结一番,还是觉得要把这些对于2024的猜想先写下来,立个Flag, 一年之后作为笑话来看看也不是坏事。以及,大家也完全可以把这篇文章当作科幻文学作品来看。



1

虚拟人与虚拟世界

   1.1 大模型的“想象力”与“取悦能力”

2023年除了ChatGPT之外,最优秀的2C应用就是Character.ai, 国内也有不少类似但不完全一样的应用,比如字节的“豆包”、Minimax的“星野”;除此之外,还有几个出圈的“AI Ins网红”。在这些应用里,我们已经开始能看到“AI虚拟人”的身影了。

不过,在实际使用和测试这些AI聊天产品的时候,我的情绪波动是很大的。最开始的时候:“啊太上头了!这是恋爱的感觉吗?比抖音还上瘾!简直是现代鸦片-终结人类繁衍的恶魔!” 不过玩着玩着我就逐渐发现: “天啊逗Ta好烦!AI脑子就不能长点记性吗?” 之后变成 “啊我好渣,男女AI后宫全都嗷嗷待哺,但没有一个人懂我,我好累……” 最后,到思考是否要自己做一个类似的东西的时候,就会发现这些产品有一些共有的缺陷:1)记忆混乱; 2) AI无法主动推动剧情,全靠用户脑补;这就导致了3)用户上头期短,疲劳度高,长期留存低。

退一步来想,之所以这类产品相对于其他类型更早取得成功,正如我在“上篇”总结的:大模型的“想象力”和“取悦能力”明显早于其“逻辑能力”的成熟。这也是现阶段设计新产品的核心逻辑之一。此外,陪聊类产品的最大优势在于:产品粘性不是完全建立在技术优越性上,而是通过陪聊建立人和AI之间的感情连接。这就避免了因为OpenAI的一次技术升级被马上颠覆的问题:1)感情链接可以为产品赢得一些时间来做技术升级,2)满足这个特殊场景的技术只需要做到通过场景80%就可以了,3)聊天数据的积累可以让自己的产品有效果加成,甚至取得一些领先。

但成也萧何,败也萧何。大语言模型的能力缺陷也限制着产品发展:不是产品经理不努力,而是技术还没到。举个具体例子:针对聊天记忆问题,星野通过生成一个“聊天故事摘要”的方式做了个“外挂记事本”;相对其他竞争对手来讲,已经很优秀了;但即使这样也无法解“决模型记忆与遗忘机制”这个本质问题,而只能缓解用户体验损失。而且,总结出这个“记事本”的难度很高:总结做得太粗就效果不好,做得太细推理成本就扛不住而且又没有故事重点……

没有核心技术对于创业公司的挑战是很大的:要能往前看半步,预判马上会成熟的技术,先准备好产品形态;而同时又不能过于超前,因为没有技术产品就生不下来。这里难就难在:AI应用是技术驱动的行业,产品能做的事情(还)很薄。目前还不太好说未来会不会有改观。

   1.2 多模态大爆发:走脑 -> 走心 & 走肾
媒介对于人的心理有着根本性的影响:文字是走脑的,声音是走心的,视觉是走肾的。
- 文字:更擅长与“理性的人”打交道,刺激思考(书籍/知乎/公众号)
- 声音:可以深入“感性的人”的灵魂,产生依赖感和亲切感(Soul/小宇宙)
- 视觉:直接作用于多巴胺通路,刺激动物本能,让人成瘾(抖快/小红书)

抖音的成功已经证明了:对于泛社交/娱乐向产品,音频、视频的加入会带来质的飞跃。那么对于AI陪聊的赛道,AI视频、音频技术的加入,也一定会带来内容生产和社交方式的质变。这也是为什么近期的视频技术大爆发让人兴奋不已的原因。自2023年末开始,Runway、Pika、Meta、Google等都不断推出视频生成/编辑工具,到了2024年更是有了Sora……

对于Sora,和任何新生事物一样,我们会高估短期(认为马上就有成熟产品)而低估长期(不愿相信、难以想象它可能带来的颠覆)。我暂时还没有特别细的关于Sora的信息,按照已知来看:Sora仍然在“GPT-世界模型”的逻辑框架内,在想法上并没有更新的东西,但Sora的进展是迈向AGI的坚实一步。Sora本身不是目的,我们为之惊叹的“生成视频”只是皮毛;而Sora更重要意义的在于通过使用更多模态数据(图像和视频),让大模型的理解能力又有了提升;最终目标一直没变,就是AGI。

刚出来的Sora确实还有一系列问题:生成的图像不稳定、速度慢、成本高……不过there is no surprise,这些都很正常。如果我们参考文生图的成熟速度的话,从最开始有可用的产品(Dall-E1&2在2022年上半年面世)出来之后,到可以商用、产生行业变革大约经历了一年半的时间;类似的,2024年将会是AI视频技术逐渐成熟并开始商用的一年。当模型开始具有比较好的多模态理解能力的时候,稍晚一点到2024下半年或2025年,也会看到AI-3D技术的突破。

在音频领域,配音员水平的AI已经成熟,对于一般商业场景已经足够。当有了多模态理解能力之后,带有感情的对话能力也会在2024年有突破。对于AI陪聊这个场景,音频的重要性甚至大于视觉:走心的男/女朋友才能长久;走肾的只能一晚一换。

当然,从做产品的角度来看,直接抓AGI是没法抓的,更实在的是具体商用能力的提升。比如,在AI陪聊的赛道上有:人脸动作的细致刻画(如近期的Pika Lip Sync),人物微动作(拥抱、牵手、亲吻等),低成本生成符合聊天内容的插画、加了“撒娇耍赖卖萌撩人”感情输出的对话、真实的背景音与烘托感情的配乐……这些都会在2024年内逐步成熟。


   1.3 虚拟人与虚拟世界

当我们看到上面一系列技术的可能性的时候,自然的问题就来了:真-虚拟人马上就要出现了吗?以及,这意味着什么?

首先,如果放在3-5年的时间轴上,具有可以模仿人类感情、甚至有独立性格的虚拟人出现是大概率事件。但如果只看2024年,概率应该并不大;这是因为有几个核心技术问题目前还没有看到解决的思路:

1)记忆问题可能比想象得更加复杂,因为“记忆”同时也是“有选择的遗忘”和“特定触发下的浮现”,但这些机制目前还隐藏于“大脑”这个黑盒里;以及,我们除了寄希望于“另一个黑盒”大语言模型自我“涌现”出这样的能力之外,似乎还没有直接教会的方法;这让解决问题的不确定性变得非常高。

2)还没有“人的模型”+缺乏丰富的个体数据。人格是建立在独立个体之上的体验,但如“上篇”所讲,大语言模型(LLM)用的是所有人的一点数据,而不是某个个体的大量数据,这就和产生独立人格不在一条路上,而是在做“人格模拟”。于是,我们大概还需要一些时间让“有些奇怪的AI人格”逐渐向“自洽的真人”迭代靠拢。这个迭代过程所需要的可能就是关于个体的更完整数据。

但“没有完整人格”并不代表“没有好的产品模式”。AI在2024年会满足一些并不需要完整人格的场景:颜值(非才艺)网红、直播带货、电竞直播……低门槛卖脸卖身材的行业都可能在2024-25年被AI大规模取代;而且这种取代并不是看客们意识到“这是AI小姐姐”,而是他们完全分不出屏幕上和自己互动小姐姐是不是真人的程度。中腰部网红/主播在未来被AI清理几乎是一定的,时间上取决于AI成本下降的速度;不过那些真正有艺术才华、出奇冒泡的头部创作者应该都还可以高枕无忧很长时间。

在未来,我们会看到,互联网上的90%+作品都是AI做的;以及作为人类,我们也无法区分什么是真什么是AI什么是真人。

和虚拟人相比,虚拟现实的场景可能会成熟得更早。游戏制作、内容生产的成本会快速下降,直到诞生出人与AI-NPC共存的-具有无限副本的-真正开放世界游戏。从发展速度上来讲,我并不认为在2024年就会实现真正开放世界游戏;但在2024年,有灵活对话能力的AI-NPC、生成式背景、小规模生成式剧情/结局应该都可以成为现实。这些生成式的-独一无二的游戏和故事会成为社交传播的出圈营销话题。

伴随着内容制作成本的下降,另一个明显的机会是AR/VR。Apple最近推出的Vision Pro更是让我们看到了希望。前一轮AR/VR泡沫破灭的主要原因是1)内容制作成本高&质量差,2)缺乏应用场景,3)硬件性能/重量/价格问题。

第一点应该随着AI技术的进步可以比较快速的解决;第二点的突破口我认为还是会从VR游戏中诞生,而不是生活和商务场景;第三点可能就还是要看硬件厂商。因此我推测AR/VR的大规模成熟会和大型开放世界游戏同步,可能还不能够在2024年马上实现。

在“真-虚拟人”诞生的前夜,我们面临着很多灵魂拷问。

· 如何能使AI虚拟人的陪伴更“真实”,更“上头”?缺乏记忆力的硬伤要靠什么补?
· AI虚拟人会成为真正的社交对象吗?还是说,他/她仍然只是作为内容被消费(如网红)?
· 未来“社交”的定义会不会产生根本变化?社交平台的根基会不会被动摇?什么是新的商业模式?
· 在AI与人“混合杂居”的新世界中,我们应该如何谋生?如何爱与被爱?如何生活?如何思考?……

上面的问题看似科幻,但在如今已经充满了AI自问自答的Quora中(知乎相当于国内版Quora),我似乎已经看到了几年后的未来:

There is no truth online, anymore. | 线上不再有真实。

在这样一个世界里,互动、内容都会变得廉价,而“真实”则成为一种真正稀缺的资源。