Post

2024年业界都在用生成式AI干什么?

未来几年,终端业务面临的一大挑战是生成式AI带来的不确定性。搞清楚业界都在用大模型干什么,可以为我们提供一些参考。

未来几年,终端业务面临的一大挑战是生成式AI带来的不确定性。虽然现在还不太好确切地回答这个不确定性在哪里,但是搞清楚业界都在用大模型干什么,可以为我们提供一些参考。

首先看创业公司,他们的业务方向都经过了投资者真金白银的筛选,具备极高的参考价值。根据CB Insights发布的2024最有希望的100家AI 100报告,主要包括以下几个方面:

https://www.veestore.net/forum.php?mod=viewthread&tid=852

  • AI基础设施,包括AI基础大模型(如OpenAI,Anthropic,Mistral AI),AI开发平台(如HuggingFace),AI芯片(如Groq),数据集(如Argilla)等。在基础大模型领域,OpenAI等公司已经被广泛关注,不再赘述,值得一提的是sakana,这家公司借助进化算法自动创建大模型。在开发平台方面,最知名的是HuggingFace,它提供了AI开源社区、训练部署和交互开发服务。AI芯片领域,创业公司主要致力于开发专用芯片,用于生成式AI模型推理和训练。数据集公司的核心业务是自动化人机协作数据标注。
  • 通用AI,主要包括搜索(如Perplexity),辅助编程(如Cognition),创作工具(如Midjourney,Runway,Suno),数据分析(如lightup)等。其中创作工具领域热度很高,图像、视频和音乐生成是热门方向。该领域还发展出了生态系统,用户可以在社区分享生成的作品和不同风格的lora。在搜索领域,主要做的是问答式搜索,以及面向学术、视频、企业等不同领域的定制化搜索。辅助编程方面,前段时间很火的AI程序员Devin就出自这里的Cognition公司,创业者的愿景是将软件工程自动化,而不仅仅是生成代码片段。数据分析领域,主要着眼于企业数据质量监控和对话式数据分析。
  • 垂域AI,包括健康、教育、游戏、国防、建筑、金融、能源等。具体来看,创业公司致力于开发集成了垂域知识的聊天机器人。值得一提的是游戏领域,创业公司做的主要是游戏辅助开发,包括代码生成、资源生成、3D模型生成、NPC创作等。

具体到AI产品上,根据国内公众号AI产品榜发布的最近一期AI产品访问量排行榜,可以看出,绝大多数AI创业公司都在从事生产力工具业务,包括个人助理、创作设计、检索、翻译、写作等。全球榜上,OpenAI的通用聊天机器人ChatGPT凭借其最强的大模型、丰富的生态和先发优势排名第一。排名第二的是转移了不少存量客户的搜索引擎New Bing。第三名Canva是一家从事视觉设计(文档、视频、PPT、海报、Logo等)工具的创业公司。谷歌的Gemini和Anthropic的Claude分别位列第4和第17。榜单上还有图像生成社区Civitai(第26),音乐创作工具Suno(第27),AI开发平台HuggingFace(第28),图像生成工具Midjourney(第34),国产聊天机器人文心一言(第43),以超长上下文而闻名的国产聊天机器人Kimi(第45),最早一批从事PPT生成的Gamma(第51),最早一批进军文档问答的ChatPDF(第82),主打视频生成的Runway(第83)。全球榜的另一大特点是访问量呈现严重长尾分布,这符合互联网应用赢家通吃的特征。

国内榜上,AI产品所服务的业务领域与全球榜相同,也是以生产力工具为主。此外可以看到国内AI产品的增长率普遍高于全球榜单产品,但是用户访问量比全球榜产品低1-2个数量级。例如,国内访问量排行第一的文心一言,月访问量是ChatGPT的不到百分之一。这与我们的国情以及国内大模型发展的阶段有关。

互联网厂商的AI业务如下表所示。可以看出,业务共同点是:1. 掌握一个大模型系列,2. 基于大模型改造自身业务,3. 将多余的算力通过MaaS云服务提供给行业客户。例如,微软撑控了openAI的GPT大模型,改造了自身的主营业务Windows、Office、Bing、Azure,同时提供Azure AI一站式大模型应用开发服务;谷歌则是研发了Gemini多模态大模型,改造了自身的搜索引擎和云业务,同时提供Vertex AI应用开发云服务。国内互联网厂商的大模型业务思路也基本相同。总的来讲,互联网厂商重点聚焦在用大模型改造自身现有业务,但是在这个改造过程中,更多的是原有业务路径的延伸,并没有产生多少全新的应用。

公司AI应用(基于LLM或sD大模型)
MetaLlama大模型,Meta Al对话助手,AI贴纸,图像编辑,SAM抠图,AI虚拟角色,Al Studio开发平台
GoogleGemini多模态大模型,Gemma开源大模型,5代TPU,文本生成、机器翻译,文本摘要,问答,代码生成,Al搜索,Duet Al办公助手,MusicLM音乐生成,个性化推荐,商品录入,广告,医疗搜索,Vertex Al,MakerSuite,Android Studio Bot,AppSheet
MicrosoftGPT大模型,Windows Copilot系统助手,Office Copilot办公助手,New Bing搜索,GithubCopilot编程助手,Business Chat聊天助手, Azure Al开发平台,Microsoft Fabric数据分析平台
AmazonTitan大模型,Graviton4和Trainium2 Al芯片,AWS LLMOps服务,Bedrock基础模型服务,企业聊天机器人Q,Guardrails护栏, CodeWhisperer编程助手
腾讯混元大模型,智能摘要,智能问答,会议助手,代码助手,内容创作,数据分析等,to B
京东言犀大模型,智能客服,智能导购,营销海报生成,个人健康管家,数字人,to B
阿里通义大模型,会议转录/摘要,淘宝问问,虚拟试穿,钉钉Al个人助理,to B
百度文心大模型,昆仑AI芯片,文心一言/文心一格,AI伙伴,to B
网易子日教育大模型,家庭教师“小P老师”、有道速读,虚拟人口语私教Hi Echo 2.0,有道AI学习机X20,网易天音作词编曲
字节云雀大模型,豆包/小悟空聊天机器人,话炉虚拟人,扣子Agent,河马爱学AI教育工具,即创AI视频工具
快手快意大模型,快手AI对话,可图文生图

C厂商推出了AI PC概念,其硬件能力由Intel/AMD/Nvidia提供,软件能力由微软、英伟达、Adobe等软件公司提供。主要的大模型应用集中在个人助理、文生图等领域,以及面向大模型应用的PC性能管理。一个亮点是技嘉推出的Copilot专用热键,这可能成为未来终端设备的标配。总的来讲,PC厂商的AI应用创新较少。在缺少杀手级应用的情况下,AI PC故事能否让消费者买单,需要时间检验。

产品PCAI芯片AI应用
联想Yoga ProIntel Core Ultra 联想LA3Windows Copllot(不依赖云)
Nvidla AI生态应用
Al Now(个人助理)
AvatarMaster (AI应用)
 ThinkBook 14Intel Core Ultra Nvidia RTX 40x 
 ThinkCentre neo Ultra迷你主机Nvidia RTX 40x MemryX独立NPU卡 
戴尔XPS 13/14/16Intel Core UltraWindows Copilot
惠普Spectre x360Intel Core Ultra Nvidia RTX4050用户离开锁定
自话应屏幕调光
Rewind SuperPower (办公助手)
华硕ZenBookIntel Core UltraWindows Copliot
Windows Studio(自动取票,服神校正,视顿通话高级背景)
Clipchamp(视频编辑,精彩时刻)
Cocreator(文生图)
Nvidia AI生态应用
 ROGIntel Core Ultra 9
Ryzen
Nvidia RTX 4090
 
微星Prestige Al /Al-ReadyIntel Core Ultra 9 Nvidia RTX 40xMSI Al Engine(情境感知性能管理)
技嘉AORUS 16X/ GIGABYTE G6XIntel Core Ultra Nvidia RTX 40xWindows Copilot
Copilot专用热健
Nvidia Al生态应用/Nvidia TensorRT 技票Al Nexus (AI性能管理)

手机厂商大多采用了端云大模型以应对纯端/联网两种不同场景。主要的应用场景集中在个人助理、图像编辑和办公三个领域。个人助理,有了大模型的智能和工具调用能力,语音助手体验有望产生飞跃,辅以用户数据,有可能发展出真正的伴侣型AI助手。这里值得思考的是交互方式,出于用户的隐私需求,语音适用的场合并不普遍,打字又太低效。图像编辑领域,受益于Diffusion生成式技术,以往很多做得不完美的问题都可以认为已被彻底解决,例如消除、超分、分割、去模糊、扩图、风格化等。这一领域还有很大的潜力没有释放,有很多创新场景值得挖掘。此外,基于生成式AI的图像编辑有可能发展出新的领域生态,因此,端侧是否需要开辟一个类似civitai的生成风格分享社区,例如在主题市场中新建一个lora市场,值得考虑。办公领域,主要是写作、摘要、转录、搜索等,这与创业公司赛道大量重合。在所有应用场景中,稍有不同的是荣耀任意门,其目标是交互效率提升。类似场景的想法不少,但做成产品的不多。

 小米14
2023.10.26
vivo X100
2023.11.13
OPPO Find X7
2024.1.8
荣耀Magic6
2024.1.11
三星s24
2024.1.18
端侧模型MiLM 1.3B/6B蓝心大模型
可选1B/7B/708/1308/1758参

端侧20字/秒,首字响应1秒,
工作电流250mAH,内存占
用3.9G
AndesGPT,数则70亿参数 大樱型 512x512文生图6秒 200字首字响应0.2秒,14K上 下文魔法大模型高斯大模则 海外Gemini Nano可选 高斯语言、高斯代码和高斯 图像)
视觉能力画笔创作、相册搜索 、AI写真(云) 、A扩图(端侧最快6秒) 、魔法消除超能创图
AI消除路人
发丝级分割
120+多主体识别与分割
AIGC消除,大面积图像填充
智慧成片
图库语义搜索
智能相机选择
图像生成和扩图
对象橡皮擦
自定义视频背景
即圆即搜
智能修图建议
自然语言能力即兴文稿、文档总结,提炼大纲 会议摘要 、生成PPT文本总供端理
超能遇义搜索
超能问答
超能写作
超能智慧交互
对话增强
通话摘要
任意门
平台级AI
输入法内置写作助手
笔记助手
定制电子邮件
文档按要牛成
个人旅行助手
语音能力实时字幕和翻译 实时翻译 通话实时部深/双向翻译
转录助手

业界讨论热度很高的一个技术方向是agent。它并不限于某个具体的应用场景,而是可以和上面任何一个场景结合,自主理解,规划决策和执行复杂任务。Oxford Insights参考自动驾驶能力分级,将服务型AI划分为五个层级:L1简单任务辅助,L2简单任务自主,L3复合任务半自主,L4复合任务自主,L5全自主。根据定义可知,从L2开始就属于agent,它是从L1到L5的必由之路。这也是为什么业界普遍认为agent是大模型的未来。前文提到的大多应用仍处在L1阶段,AI程序员Devin可以认为是L3或L2.5,任意门可以认为是L2。在agent方向上OpenAI的动作较保守,从他们发布的GPT Store和Assistants API框架来看,GPT机器人还是通过大模型加工具调用执行简单任务,并能够自主地从错误状态中恢复过来,暂时还不涉及复杂的多步任务调度,可以看成是L1.5。

以上介绍了当前业界的大模型应用场景,其中绝大部分应用场景属于脑力生产力工具类。目前普遍认为大模型还没有产生杀手级的应用。这一方面是由于技术成熟度不够,主要集中L1-L2层级。如果达到远期L4-L5的效果,全自主的AI生产力工具带来的影响一定是颠覆性的。另一方面,应用场景局限在生产力领域,没有直接影响到广大的终端用户。这也是本轮AI热潮中时常困扰我的问题,对于那些刷抖音玩游戏的用户,AI除了在内容生产端间接产生影响,还可以给他们带来什么?这个问题业界有一些初步的回答,例如个人助理,任意门,Rabbit R1随身助理等,但如何让生成式AI直接满足广大消费端用户需求,值得进一步深挖。

最后抛个砖,欢迎写下三个最期待的生成式AI应用: 情感陪伴机器人,图文/短视频创作机器人,图库设计工作室

This post is licensed under CC BY 4.0 by the author.