2024年业界都在用生成式AI干什么？

Posted Aug 28, 2024 Updated Aug 28, 2024

By Kaige Zhang

20 min read

未来几年，终端业务面临的一大挑战是生成式AI带来的不确定性。搞清楚业界都在用大模型干什么，可以为我们提供一些参考。

未来几年，终端业务面临的一大挑战是生成式AI带来的不确定性。虽然现在还不太好确切地回答这个不确定性在哪里，但是搞清楚业界都在用大模型干什么，可以为我们提供一些参考。

首先看创业公司，他们的业务方向都经过了投资者真金白银的筛选，具备极高的参考价值。根据CB Insights发布的2024最有希望的100家AI 100报告，主要包括以下几个方面：

https://www.veestore.net/forum.php?mod=viewthread&tid=852

AI基础设施，包括AI基础大模型（如OpenAI，Anthropic，Mistral AI），AI开发平台（如HuggingFace），AI芯片（如Groq），数据集（如Argilla）等。在基础大模型领域，OpenAI等公司已经被广泛关注，不再赘述，值得一提的是sakana，这家公司借助进化算法自动创建大模型。在开发平台方面，最知名的是HuggingFace，它提供了AI开源社区、训练部署和交互开发服务。AI芯片领域，创业公司主要致力于开发专用芯片，用于生成式AI模型推理和训练。数据集公司的核心业务是自动化人机协作数据标注。
通用AI，主要包括搜索（如Perplexity），辅助编程（如Cognition），创作工具（如Midjourney，Runway，Suno），数据分析（如lightup）等。其中创作工具领域热度很高，图像、视频和音乐生成是热门方向。该领域还发展出了生态系统，用户可以在社区分享生成的作品和不同风格的lora。在搜索领域，主要做的是问答式搜索，以及面向学术、视频、企业等不同领域的定制化搜索。辅助编程方面，前段时间很火的AI程序员Devin就出自这里的Cognition公司，创业者的愿景是将软件工程自动化，而不仅仅是生成代码片段。数据分析领域，主要着眼于企业数据质量监控和对话式数据分析。
垂域AI，包括健康、教育、游戏、国防、建筑、金融、能源等。具体来看，创业公司致力于开发集成了垂域知识的聊天机器人。值得一提的是游戏领域，创业公司做的主要是游戏辅助开发，包括代码生成、资源生成、3D模型生成、NPC创作等。

具体到AI产品上，根据国内公众号AI产品榜发布的最近一期AI产品访问量排行榜，可以看出，绝大多数AI创业公司都在从事生产力工具业务，包括个人助理、创作设计、检索、翻译、写作等。全球榜上，OpenAI的通用聊天机器人ChatGPT凭借其最强的大模型、丰富的生态和先发优势排名第一。排名第二的是转移了不少存量客户的搜索引擎New Bing。第三名Canva是一家从事视觉设计（文档、视频、PPT、海报、Logo等）工具的创业公司。谷歌的Gemini和Anthropic的Claude分别位列第4和第17。榜单上还有图像生成社区Civitai（第26），音乐创作工具Suno（第27），AI开发平台HuggingFace（第28），图像生成工具Midjourney（第34），国产聊天机器人文心一言（第43），以超长上下文而闻名的国产聊天机器人Kimi（第45），最早一批从事PPT生成的Gamma（第51），最早一批进军文档问答的ChatPDF（第82），主打视频生成的Runway（第83）。全球榜的另一大特点是访问量呈现严重长尾分布，这符合互联网应用赢家通吃的特征。

国内榜上，AI产品所服务的业务领域与全球榜相同，也是以生产力工具为主。此外可以看到国内AI产品的增长率普遍高于全球榜单产品，但是用户访问量比全球榜产品低1-2个数量级。例如，国内访问量排行第一的文心一言，月访问量是ChatGPT的不到百分之一。这与我们的国情以及国内大模型发展的阶段有关。

互联网厂商的AI业务如下表所示。可以看出，业务共同点是：1. 掌握一个大模型系列，2. 基于大模型改造自身业务，3. 将多余的算力通过MaaS云服务提供给行业客户。例如，微软撑控了openAI的GPT大模型，改造了自身的主营业务Windows、Office、Bing、Azure，同时提供Azure AI一站式大模型应用开发服务；谷歌则是研发了Gemini多模态大模型，改造了自身的搜索引擎和云业务，同时提供Vertex AI应用开发云服务。国内互联网厂商的大模型业务思路也基本相同。总的来讲，互联网厂商重点聚焦在用大模型改造自身现有业务，但是在这个改造过程中，更多的是原有业务路径的延伸，并没有产生多少全新的应用。

公司	AI应用(基于LLM或sD大模型)
Meta	Llama大模型,Meta Al对话助手,AI贴纸,图像编辑,SAM抠图,AI虚拟角色,Al Studio开发平台
Google	Gemini多模态大模型,Gemma开源大模型,5代TPU,文本生成、机器翻译,文本摘要,问答,代码生成,Al搜索,Duet Al办公助手,MusicLM音乐生成,个性化推荐,商品录入,广告,医疗搜索,Vertex Al,MakerSuite,Android Studio Bot,AppSheet
Microsoft	GPT大模型,Windows Copilot系统助手,Office Copilot办公助手,New Bing搜索,GithubCopilot编程助手,Business Chat聊天助手, Azure Al开发平台,Microsoft Fabric数据分析平台
Amazon	Titan大模型,Graviton4和Trainium2 Al芯片,AWS LLMOps服务,Bedrock基础模型服务,企业聊天机器人Q,Guardrails护栏, CodeWhisperer编程助手
腾讯	混元大模型,智能摘要,智能问答,会议助手,代码助手,内容创作,数据分析等,to B
京东	言犀大模型,智能客服,智能导购,营销海报生成,个人健康管家,数字人,to B
阿里	通义大模型,会议转录/摘要,淘宝问问,虚拟试穿,钉钉Al个人助理,to B
百度	文心大模型,昆仑AI芯片,文心一言/文心一格,AI伙伴,to B
网易	子日教育大模型,家庭教师“小P老师”、有道速读,虚拟人口语私教Hi Echo 2.0,有道AI学习机X20,网易天音作词编曲
字节	云雀大模型,豆包/小悟空聊天机器人,话炉虚拟人,扣子Agent,河马爱学AI教育工具,即创AI视频工具
快手	快意大模型,快手AI对话,可图文生图

C厂商推出了AI PC概念，其硬件能力由Intel/AMD/Nvidia提供，软件能力由微软、英伟达、Adobe等软件公司提供。主要的大模型应用集中在个人助理、文生图等领域，以及面向大模型应用的PC性能管理。一个亮点是技嘉推出的Copilot专用热键，这可能成为未来终端设备的标配。总的来讲，PC厂商的AI应用创新较少。在缺少杀手级应用的情况下，AI PC故事能否让消费者买单，需要时间检验。

产品	PC	AI芯片	AI应用
联想	Yoga Pro	Intel Core Ultra 联想LA3	Windows Copllot(不依赖云) Nvidla AI生态应用 Al Now(个人助理) AvatarMaster (AI应用)
	ThinkBook 14	Intel Core Ultra Nvidia RTX 40x
	ThinkCentre neo Ultra迷你主机	Nvidia RTX 40x MemryX独立NPU卡
戴尔	XPS 13/14/16	Intel Core Ultra	Windows Copilot
惠普	Spectre x360	Intel Core Ultra Nvidia RTX4050	用户离开锁定自话应屏幕调光 Rewind SuperPower (办公助手)
华硕	ZenBook	Intel Core Ultra	Windows Copliot Windows Studio(自动取票,服神校正,视顿通话高级背景) Clipchamp(视频编辑,精彩时刻) Cocreator(文生图) Nvidia AI生态应用
	ROG	Intel Core Ultra 9 Ryzen Nvidia RTX 4090
微星	Prestige Al /Al-Ready	Intel Core Ultra 9 Nvidia RTX 40x	MSI Al Engine(情境感知性能管理)
技嘉	AORUS 16X/ GIGABYTE G6X	Intel Core Ultra Nvidia RTX 40x	Windows Copilot Copilot专用热健 Nvidia Al生态应用/Nvidia TensorRT 技票Al Nexus (AI性能管理)

手机厂商大多采用了端云大模型以应对纯端/联网两种不同场景。主要的应用场景集中在个人助理、图像编辑和办公三个领域。个人助理，有了大模型的智能和工具调用能力，语音助手体验有望产生飞跃，辅以用户数据，有可能发展出真正的伴侣型AI助手。这里值得思考的是交互方式，出于用户的隐私需求，语音适用的场合并不普遍，打字又太低效。图像编辑领域，受益于Diffusion生成式技术，以往很多做得不完美的问题都可以认为已被彻底解决，例如消除、超分、分割、去模糊、扩图、风格化等。这一领域还有很大的潜力没有释放，有很多创新场景值得挖掘。此外，基于生成式AI的图像编辑有可能发展出新的领域生态，因此，端侧是否需要开辟一个类似civitai的生成风格分享社区，例如在主题市场中新建一个lora市场，值得考虑。办公领域，主要是写作、摘要、转录、搜索等，这与创业公司赛道大量重合。在所有应用场景中，稍有不同的是荣耀任意门，其目标是交互效率提升。类似场景的想法不少，但做成产品的不多。

	小米14 2023.10.26	vivo X100 2023.11.13	OPPO Find X7 2024.1.8	荣耀Magic6 2024.1.11	三星s24 2024.1.18
端侧模型	MiLM 1.3B/6B	蓝心大模型可选1B/7B/708/1308/1758参数端侧20字/秒,首字响应1秒, 工作电流250mAH,内存占用3.9G	AndesGPT,数则70亿参数大樱型 512x512文生图6秒 200字首字响应0.2秒,14K上下文	魔法大模型	高斯大模则海外Gemini Nano可选高斯语言、高斯代码和高斯图像)
视觉能力	画笔创作、相册搜索、AI写真(云) 、A扩图(端侧最快6秒) 、魔法消除	超能创图 AI消除路人	发丝级分割 120+多主体识别与分割 AIGC消除,大面积图像填充	智慧成片图库语义搜索	智能相机选择图像生成和扩图对象橡皮擦自定义视频背景即圆即搜智能修图建议
自然语言能力	即兴文稿、文档总结,提炼大纲会议摘要、生成PPT	文本总供端理超能遇义搜索超能问答超能写作超能智慧交互	对话增强通话摘要	任意门平台级AI	输入法内置写作助手笔记助手定制电子邮件文档按要牛成个人旅行助手
语音能力	实时字幕和翻译		实时翻译		通话实时部深/双向翻译转录助手

业界讨论热度很高的一个技术方向是agent。它并不限于某个具体的应用场景，而是可以和上面任何一个场景结合，自主理解，规划决策和执行复杂任务。Oxford Insights参考自动驾驶能力分级，将服务型AI划分为五个层级：L1简单任务辅助，L2简单任务自主，L3复合任务半自主，L4复合任务自主，L5全自主。根据定义可知，从L2开始就属于agent，它是从L1到L5的必由之路。这也是为什么业界普遍认为agent是大模型的未来。前文提到的大多应用仍处在L1阶段，AI程序员Devin可以认为是L3或L2.5，任意门可以认为是L2。在agent方向上OpenAI的动作较保守，从他们发布的GPT Store和Assistants API框架来看，GPT机器人还是通过大模型加工具调用执行简单任务，并能够自主地从错误状态中恢复过来，暂时还不涉及复杂的多步任务调度，可以看成是L1.5。

以上介绍了当前业界的大模型应用场景，其中绝大部分应用场景属于脑力生产力工具类。目前普遍认为大模型还没有产生杀手级的应用。这一方面是由于技术成熟度不够，主要集中L1-L2层级。如果达到远期L4-L5的效果，全自主的AI生产力工具带来的影响一定是颠覆性的。另一方面，应用场景局限在生产力领域，没有直接影响到广大的终端用户。这也是本轮AI热潮中时常困扰我的问题，对于那些刷抖音玩游戏的用户，AI除了在内容生产端间接产生影响，还可以给他们带来什么？这个问题业界有一些初步的回答，例如个人助理，任意门，Rabbit R1随身助理等，但如何让生成式AI直接满足广大消费端用户需求，值得进一步深挖。

最后抛个砖，欢迎写下三个最期待的生成式AI应用： 情感陪伴机器人，图文/短视频创作机器人，图库设计工作室

LLM, Insight

llm insight

This post is licensed under CC BY 4.0 by the author.

Trending Tags