2024生成式AI趋势展望:多模态和小模型将受到更多关注、应用产品或爆炸式增长

2024-03-01 348

AI 的发展经历了几次高潮与低谷,但随着计算能力的提升、大数据的积累以及算法的进步,AI 迎来了新的发展机遇。在过去的两年中,随着 ChatGPT、DALL-E、Stable Diffusion、Pika、Sora 等重量级应用的接连发布,生成式 AI 的发展将人工智能应用带到了新的阶段。生成式 AI 正成为技术创新的前沿阵地,引发了从基础科学研究,到 AI 与物理世界的结合,甚至到 AI 对人类威胁等话题的热烈研究和讨论。AI 芯片公司英伟达在这波 AI 浪潮助推下,市值更是一度超过 2 万亿美元,成为美国第三大上市公司。

近期,市场研究机构 CB Insights 发布了关于生成式 AI 的报告《2024 generative AI predictions》,该报告从生成式 AI 基础设施、基础模型的突破、人机交互的发展到 AI 应用部分对 2024 年生成式 AI 领域的技术动态和市场趋势进行了预测:基础设施端包括能源、算力和数据面临着一定挑战;模型端各类模型蓄势待发,可能会改变目前大模型使用格局;应用端不断丰富,包括人机交互、AI 助手等生态不断完善。我们有理由期待新的一年生成式 AI 领域将涌现出一系列令人振奋的创新产品和技术突破。


1

基础设施瓶颈有待解决

随着高耗电的数据中心数量激增,包括核能在内的可再生能源将被重视,对高效液冷技术的需求在增加。

2024 年,英伟达的高端 H100 芯片预计将消耗相当于一个小国家全年的电力。为应对不断增长的能源需求,数据中心开始转向可再生能源。核能,尤其是小型模块化反应堆(SMR)和核聚变技术,被视为 AI 运营的可持续能源解决方案。为了应对高功率 AI 数据中心的散热挑战,液冷技术正在成为行业的新宠。

图 | 年度耗电量比较(来源:CB Insights)

生成式 AI 正面临数据稀缺的挑战,内容供应商以及数据合成技术将受到重视。

研究人员估计,到 2026 年,用于训练大型语言模型的高质量文本数据将耗尽,这可能会减缓 AI 技术的进步。随着免费互联网文本资源的枯竭和获取专有数据源变得更加困难,拥有专业内容的供应商将成为热门的许可和收购目标。此外,成本和数据稀缺性将推动对合成数据集的需求增长,一些公司已经开始通过合成数据平台训练大语言模型,并发布了基于合成数据训练的编程模型和语言模型。

计算需求激增导致 GPU 短缺,大型科技公司布局芯片与英伟达构成竞争。

英伟达的高端 H100 芯片的售价远高于生产成本,大型科技公司成为英伟达的主要客户,囤积了大量 H100 芯片,但全球范围来看 AI 计算芯片仍处于短缺状态。随着需求的激增,英伟达的大客户也在推动自己的芯片开发,如亚马逊、微软、谷歌、meta。这些竞争对手的芯片产品试图挑战英伟达的霸主地位。

图 | 2023 年 H100 GPU 交付量估算(来源:CB Insights)

生成式 AI 在安全性方面受到挑战,大语言模型安全方案供应商受到关注。

研究人员已经展示了如何诱导大语言模型生成有害内容,而且这种安全漏洞可能难以完全修复。企业在大语言模型的使用中面临数据泄露、数据污染和安全攻击等风险,这促使企业花费高额经费用于大语言模型安全。目前市场上已经出现了安全方案供应商如 TrojAI 和 AIShield,吸引了包括大型企业和风险投资者的关注。

机器学习运营(MLOps)市场较为分散,用户倾向于一站式解决方案,市场面临整合。

MLOps 领域有超过 130 家公司分布在 12 个不同的类别中,帮助企业完成大语言模型项目全流程运营。然而,客户更倾向于一站式解决方案来满足他们的需求,这可能导致市场发生整合。一些公司已经开始感受到市场的压力,估值和融资轮次出现了显著下降。预计未来,提供端到端 MLOps 平台的公司将占据主导地位,如 Databricks 等公司正在积极通过收购来扩展其产品功能。


2

基础模型发展推陈出新

多模态 AI 发展迅速,商业应用潜力巨大。

尽管多模态 AI 尚处于初期阶段,但已有多个模型开始涌现。Google 的 Gemini Ultra 模型在多学科多模态理解和推理(MMMU)基准测试中超越了 GPT-4,显示出多模态模型的潜力。为了保持竞争力,更多的大型语言模型开发者将跟进开发多模态功能。此外,多模态 AI 预计将解锁新的商业机会,如 Artera 在医疗保健领域的应用、Google 将 Gemini 集成到搜索中、Ghost Autonomy 在自动驾驶领域的探索,以及 Meta 将其应用于消费设备如智能眼镜。

小型 AI 模型受到更多企业青睐,在训练速度、运行成本、数据本地化与特定任务处理方面相比大型模型更具优势。

小型模型虽然在参数规模上远小于 GPT-3.5,但它们在性能上表现出色,能够在尽量不牺牲准确性的情况下更快速训练和低成本运行。特别是在数据敏感的领域,如医疗保健、金融和法律,小型模型因其能够在本地处理数据而受到青睐。此外,小型模型在特定任务上的应用,如在 PubMedQA 排行榜上表现优异的 PalmyraMed 和 AntGLM-Med,在专利生成和 SEC 数据库洞察中发挥作用的 DPT-Patent 和  DPT-SEC,正在成为这些行业中的实用工具。

图 | 小语言模型的参数规模可低至 GPT-3.5 的八十八分之一(来源:CB Insights)

开源大型语言模型正在挑战封闭模型的市场地位,吸引了越来越多的投资者和商业关注。

Llama 2 作为领先的开源模型,月下载量超过 3000 万次,并在 2023 年最后两个月筹集了近 10 亿美元的资金。预计在 2024 年,将有大量的 AI 项目基于开源模型构建。在性能方面,较小的开源模型正在迅速缩小与大型封闭模型的差距。企业正越来越多地考虑使用开源替代品,以降低成本并保持数据隐私,如 Replicate 公司使用 Llama 2 进行模型微调和部署,而 Anthropic 和 OpenAI 等开源模型因其较低的成本和灵活性而受到青睐。

新模型架构将挑战 Transformers 架构的主导地位,实现效率提高、训练成本降低。

尽管 Transformers 架构在生成式 AI 领域取得了革命性进展,但其巨大的碳足迹和 token 限制促使研究者探索新的模型架构。微软等大型科技公司正在开发超越 Transformers 的新架构,如 LongNet、Hyena 和 Monarch Mixer,这些新架构旨在提高效率、降低训练成本,并在不牺牲性能的情况下处理更长的序列。这些新模型在 2024 年有望获得商业应用,挑战 Transformers 在 AI 领域的主导地位。

图 | 部分机器学习模型及实际生活案例的二氧化碳当量排放(来源:CB Insights)


3

人机交互形式不断探索

更多的年轻人选择与 AI 交友,AI 伴侣应用或将出现爆炸性增长。

随着技术的进步,AI 机器人可以提供与人类一样亲切的交流体验,吸引了年轻用户。例如,Character.AI 的 400 万用户中有超过一半年龄在 24 岁以下。开放式对话和 AI 角色生成方面的技术发展迅速,推动了游戏行业的进步,为在线社交体验带来了更多沉浸式元素。AI 伴侣应用如 Character.AI 的使用量紧随 ChatGPT 之后。预计在 2024 年,AI 伴侣将出现爆炸性增长。

图 | AI 初创公司 Character.AI 的移动端月活用户量仅次于 ChatGPT(来源:CB Insights)

AI 的突破正在引领下一代智能手机潮流,可能会出现基于大型语言模型的新型操作系统。

苹果凭借其 AI 领域的深厚积累和资源,在 AI 手机领域处于领先地位。初创公司如 Humane、Rewind、Tab 和 Rabbit 正在开发以 AI 为核心的消费电子产品。行业重量级人物,包括前苹果的 Jony Ive 和 Tang Tan,正在与 OpenAI 合作开发新的 AI 硬件。预计在 2024 年,大型科技公司和 OpenAI 将取得初步进展,推动 AI 从聊天机器人向操作系统的演变,这可能会催生出基于大型语言模型的新型操作系统设备。

AI agents 距离商业化仍有距离,但将继续发展。

AI agents 能够独立推理和执行任务,目前这些 AI agents 在推理方面取得了进展,但在执行任务方面仍面临挑战,离商业化还有一定距离。2023 年,多个研究项目的发布,例如 Toolformers,AutoGPT、BabyAGI、Voyager 等项目,开源项目如 AutoGPT 在 GitHub 上一经发布迅速获得开发者社区的广泛关注。预计在 2024 年,大型科技公司和风险投资公司的兴趣将进一步推动这一领域的发展。


4

生成式 AI 应用百花齐放

劳动生产率增长停滞不前,AI copilots 的应用有望引领下一轮生产力增长。

在软件开发领域,AI copilots 已经成为提高开发人员生产力的关键工具,显著减少了完成任务所需的时间。这些工具,如微软、OpenAI、Meta 等公司发布的代码生成器,正在成为企业的标准配置。在医疗保健领域,AI  copilots 正在自动化处理繁琐的文档工作,显著减少了临床文档处理时间。在法律领域,AI copilots 能够起草合同、总结文件并优化研究,极大地提高了法律服务的效率。工作者在 AI copilots 的帮助下能够完成更多的工作,例如 Uniphore 的应用使得客户服务代理的平均处理时间减少了 20%,并且通过对话 AI 和自动化每年节省 600 万美元支出。

生成式 AI 被用于网络攻击,用时也被用于网络安全。

AI 的应用导致了网络攻击的增加,特别是在 deepfake 攻击方面,通过面部交换、声音模仿等 AI 工具其复杂性正得到提升。为了应对这些威胁,网络安全供应商正在利用生成式 AI 开发解决方案,以自动检测和应对新出现的威胁。专注于生成式人工智能网络安全初创公司,如 Wraithwatch、Jericho Security 等,正在开发机器学习安全、攻击模拟和深度伪造音频检测等应用。

媒体机构越来越多的采用 AI 来加速新闻的采集、制作和发布,部分机构开始向大语言模型开发者做内容授权

例如,华盛顿邮报利用 AI 工具与 OpenAI 合作,以支持和扩大本地新闻报道。

然而,随着生成式 AI 驱动的搜索引擎的出现,传统新闻网站可能会错失原本可以获得的流量,为了适应收入模式的转变,新闻组织将与大语言模型开发者达成协议,以授权内容。此外,AI 新闻主播已经成为现实,而 AI 记者也即将出现,多个国家已经推出了 AI 新闻主播,如美国的“生成式 AI 新闻网络”和韩国的 Zae-In。

图 | 与大语言模型开发者合作的媒体机构(来源:CB Insights)

生成式 AI 在视频生成领域进展显著,预计将在多行业中得到广泛应用。

文本到视频的转换技术正迅速发展,各大公司如 Meta、Google 和 Nvidia 等都在推出能够生成短视频片段的模型,而最近发布的 Sora 引发了前所未有的关注。这些技术的进步将对广告、电影制作和其他视觉媒体行业产生深远影响。

同时,一些初创企业正在积极开发面向企业和创意行业的视频生成和编辑平台,这些平台已经吸引了大量用户,并获得了重要的投资者支持。

面向垂直领域的公司将更具优势。

缺乏竞争优势的横向市场初创公司将面临更大的压力,尤其是文本生成和视觉媒体生成领域。预计在 2024 年,市场将更加关注那些在特定领域构建更具粘性解决方案的公司,如在工业、药物研发和金融服务等垂直领域中寻找机会的公司。

图 | 生成式 AI 在垂直领域的机会(来源:CB Insights)

全球范围内来看,美国等地的科技公司在生成式 AI 领域具有先发优势,且目前高性能计算资源被美国垄断。相比之下,中国生成式 AI 行业的发展虽然稍有落后,但中国拥有庞大的互联网用户基础,可以为生成式 AI 提供广阔的市场和大规模训练数据;且中国拥有一批在 AI 技术上具有竞争力的企业和研究机构,包括百度、阿里巴巴、腾讯、华为等大型科技公司以及一大批充满活力的初创企业,为生成式 AI 的技术创新提供了基础。相信中国生成式 AI 行业有望在未来几年内实现快速发展。