2024年业界都在用生成式AI干什么?
未来几年,终端业务面临的一大挑战是生成式AI带来的不确定性。搞清楚业界都在用大模型干什么,可以为我们提供一些参考。
未来几年,终端业务面临的一大挑战是生成式AI带来的不确定性。虽然现在还不太好确切地回答这个不确定性在哪里,但是搞清楚业界都在用大模型干什么,可以为我们提供一些参考。
首先看创业公司,他们的业务方向都经过了投资者真金白银的筛选,具备极高的参考价值。根据CB Insights发布的2024最有希望的100家AI 100报告,主要包括以下几个方面:
https://www.veestore.net/forum.php?mod=viewthread&tid=852
- AI基础设施,包括AI基础大模型(如OpenAI,Anthropic,Mistral AI),AI开发平台(如HuggingFace),AI芯片(如Groq),数据集(如Argilla)等。在基础大模型领域,OpenAI等公司已经被广泛关注,不再赘述,值得一提的是sakana,这家公司借助进化算法自动创建大模型。在开发平台方面,最知名的是HuggingFace,它提供了AI开源社区、训练部署和交互开发服务。AI芯片领域,创业公司主要致力于开发专用芯片,用于生成式AI模型推理和训练。数据集公司的核心业务是自动化人机协作数据标注。
- 通用AI,主要包括搜索(如Perplexity),辅助编程(如Cognition),创作工具(如Midjourney,Runway,Suno),数据分析(如lightup)等。其中创作工具领域热度很高,图像、视频和音乐生成是热门方向。该领域还发展出了生态系统,用户可以在社区分享生成的作品和不同风格的lora。在搜索领域,主要做的是问答式搜索,以及面向学术、视频、企业等不同领域的定制化搜索。辅助编程方面,前段时间很火的AI程序员Devin就出自这里的Cognition公司,创业者的愿景是将软件工程自动化,而不仅仅是生成代码片段。数据分析领域,主要着眼于企业数据质量监控和对话式数据分析。
- 垂域AI,包括健康、教育、游戏、国防、建筑、金融、能源等。具体来看,创业公司致力于开发集成了垂域知识的聊天机器人。值得一提的是游戏领域,创业公司做的主要是游戏辅助开发,包括代码生成、资源生成、3D模型生成、NPC创作等。
具体到AI产品上,根据国内公众号AI产品榜发布的最近一期AI产品访问量排行榜,可以看出,绝大多数AI创业公司都在从事生产力工具业务,包括个人助理、创作设计、检索、翻译、写作等。全球榜上,OpenAI的通用聊天机器人ChatGPT凭借其最强的大模型、丰富的生态和先发优势排名第一。排名第二的是转移了不少存量客户的搜索引擎New Bing。第三名Canva是一家从事视觉设计(文档、视频、PPT、海报、Logo等)工具的创业公司。谷歌的Gemini和Anthropic的Claude分别位列第4和第17。榜单上还有图像生成社区Civitai(第26),音乐创作工具Suno(第27),AI开发平台HuggingFace(第28),图像生成工具Midjourney(第34),国产聊天机器人文心一言(第43),以超长上下文而闻名的国产聊天机器人Kimi(第45),最早一批从事PPT生成的Gamma(第51),最早一批进军文档问答的ChatPDF(第82),主打视频生成的Runway(第83)。全球榜的另一大特点是访问量呈现严重长尾分布,这符合互联网应用赢家通吃的特征。
国内榜上,AI产品所服务的业务领域与全球榜相同,也是以生产力工具为主。此外可以看到国内AI产品的增长率普遍高于全球榜单产品,但是用户访问量比全球榜产品低1-2个数量级。例如,国内访问量排行第一的文心一言,月访问量是ChatGPT的不到百分之一。这与我们的国情以及国内大模型发展的阶段有关。
互联网厂商的AI业务如下表所示。可以看出,业务共同点是:1. 掌握一个大模型系列,2. 基于大模型改造自身业务,3. 将多余的算力通过MaaS云服务提供给行业客户。例如,微软撑控了openAI的GPT大模型,改造了自身的主营业务Windows、Office、Bing、Azure,同时提供Azure AI一站式大模型应用开发服务;谷歌则是研发了Gemini多模态大模型,改造了自身的搜索引擎和云业务,同时提供Vertex AI应用开发云服务。国内互联网厂商的大模型业务思路也基本相同。总的来讲,互联网厂商重点聚焦在用大模型改造自身现有业务,但是在这个改造过程中,更多的是原有业务路径的延伸,并没有产生多少全新的应用。
公司 | AI应用(基于LLM或sD大模型) |
---|---|
Meta | Llama大模型,Meta Al对话助手,AI贴纸,图像编辑,SAM抠图,AI虚拟角色,Al Studio开发平台 |
Gemini多模态大模型,Gemma开源大模型,5代TPU,文本生成、机器翻译,文本摘要,问答,代码生成,Al搜索,Duet Al办公助手,MusicLM音乐生成,个性化推荐,商品录入,广告,医疗搜索,Vertex Al,MakerSuite,Android Studio Bot,AppSheet | |
Microsoft | GPT大模型,Windows Copilot系统助手,Office Copilot办公助手,New Bing搜索,GithubCopilot编程助手,Business Chat聊天助手, Azure Al开发平台,Microsoft Fabric数据分析平台 |
Amazon | Titan大模型,Graviton4和Trainium2 Al芯片,AWS LLMOps服务,Bedrock基础模型服务,企业聊天机器人Q,Guardrails护栏, CodeWhisperer编程助手 |
腾讯 | 混元大模型,智能摘要,智能问答,会议助手,代码助手,内容创作,数据分析等,to B |
京东 | 言犀大模型,智能客服,智能导购,营销海报生成,个人健康管家,数字人,to B |
阿里 | 通义大模型,会议转录/摘要,淘宝问问,虚拟试穿,钉钉Al个人助理,to B |
百度 | 文心大模型,昆仑AI芯片,文心一言/文心一格,AI伙伴,to B |
网易 | 子日教育大模型,家庭教师“小P老师”、有道速读,虚拟人口语私教Hi Echo 2.0,有道AI学习机X20,网易天音作词编曲 |
字节 | 云雀大模型,豆包/小悟空聊天机器人,话炉虚拟人,扣子Agent,河马爱学AI教育工具,即创AI视频工具 |
快手 | 快意大模型,快手AI对话,可图文生图 |
C厂商推出了AI PC概念,其硬件能力由Intel/AMD/Nvidia提供,软件能力由微软、英伟达、Adobe等软件公司提供。主要的大模型应用集中在个人助理、文生图等领域,以及面向大模型应用的PC性能管理。一个亮点是技嘉推出的Copilot专用热键,这可能成为未来终端设备的标配。总的来讲,PC厂商的AI应用创新较少。在缺少杀手级应用的情况下,AI PC故事能否让消费者买单,需要时间检验。
产品 | PC | AI芯片 | AI应用 |
---|---|---|---|
联想 | Yoga Pro | Intel Core Ultra 联想LA3 | Windows Copllot(不依赖云) Nvidla AI生态应用 Al Now(个人助理) AvatarMaster (AI应用) |
ThinkBook 14 | Intel Core Ultra Nvidia RTX 40x | ||
ThinkCentre neo Ultra迷你主机 | Nvidia RTX 40x MemryX独立NPU卡 | ||
戴尔 | XPS 13/14/16 | Intel Core Ultra | Windows Copilot |
惠普 | Spectre x360 | Intel Core Ultra Nvidia RTX4050 | 用户离开锁定 自话应屏幕调光 Rewind SuperPower (办公助手) |
华硕 | ZenBook | Intel Core Ultra | Windows Copliot Windows Studio(自动取票,服神校正,视顿通话高级背景) Clipchamp(视频编辑,精彩时刻) Cocreator(文生图) Nvidia AI生态应用 |
ROG | Intel Core Ultra 9 Ryzen Nvidia RTX 4090 | ||
微星 | Prestige Al /Al-Ready | Intel Core Ultra 9 Nvidia RTX 40x | MSI Al Engine(情境感知性能管理) |
技嘉 | AORUS 16X/ GIGABYTE G6X | Intel Core Ultra Nvidia RTX 40x | Windows Copilot Copilot专用热健 Nvidia Al生态应用/Nvidia TensorRT 技票Al Nexus (AI性能管理) |
手机厂商大多采用了端云大模型以应对纯端/联网两种不同场景。主要的应用场景集中在个人助理、图像编辑和办公三个领域。个人助理,有了大模型的智能和工具调用能力,语音助手体验有望产生飞跃,辅以用户数据,有可能发展出真正的伴侣型AI助手。这里值得思考的是交互方式,出于用户的隐私需求,语音适用的场合并不普遍,打字又太低效。图像编辑领域,受益于Diffusion生成式技术,以往很多做得不完美的问题都可以认为已被彻底解决,例如消除、超分、分割、去模糊、扩图、风格化等。这一领域还有很大的潜力没有释放,有很多创新场景值得挖掘。此外,基于生成式AI的图像编辑有可能发展出新的领域生态,因此,端侧是否需要开辟一个类似civitai的生成风格分享社区,例如在主题市场中新建一个lora市场,值得考虑。办公领域,主要是写作、摘要、转录、搜索等,这与创业公司赛道大量重合。在所有应用场景中,稍有不同的是荣耀任意门,其目标是交互效率提升。类似场景的想法不少,但做成产品的不多。
小米14 2023.10.26 | vivo X100 2023.11.13 | OPPO Find X7 2024.1.8 | 荣耀Magic6 2024.1.11 | 三星s24 2024.1.18 | |
---|---|---|---|---|---|
端侧模型 | MiLM 1.3B/6B | 蓝心大模型 可选1B/7B/708/1308/1758参 数 端侧20字/秒,首字响应1秒, 工作电流250mAH,内存占 用3.9G | AndesGPT,数则70亿参数 大樱型 512x512文生图6秒 200字首字响应0.2秒,14K上 下文 | 魔法大模型 | 高斯大模则 海外Gemini Nano可选 高斯语言、高斯代码和高斯 图像) |
视觉能力 | 画笔创作、相册搜索 、AI写真(云) 、A扩图(端侧最快6秒) 、魔法消除 | 超能创图 AI消除路人 | 发丝级分割 120+多主体识别与分割 AIGC消除,大面积图像填充 | 智慧成片 图库语义搜索 | 智能相机选择 图像生成和扩图 对象橡皮擦 自定义视频背景 即圆即搜 智能修图建议 |
自然语言能力 | 即兴文稿、文档总结,提炼大纲 会议摘要 、生成PPT | 文本总供端理 超能遇义搜索 超能问答 超能写作 超能智慧交互 | 对话增强 通话摘要 | 任意门 平台级AI | 输入法内置写作助手 笔记助手 定制电子邮件 文档按要牛成 个人旅行助手 |
语音能力 | 实时字幕和翻译 | 实时翻译 | 通话实时部深/双向翻译 转录助手 |
业界讨论热度很高的一个技术方向是agent。它并不限于某个具体的应用场景,而是可以和上面任何一个场景结合,自主理解,规划决策和执行复杂任务。Oxford Insights参考自动驾驶能力分级,将服务型AI划分为五个层级:L1简单任务辅助,L2简单任务自主,L3复合任务半自主,L4复合任务自主,L5全自主。根据定义可知,从L2开始就属于agent,它是从L1到L5的必由之路。这也是为什么业界普遍认为agent是大模型的未来。前文提到的大多应用仍处在L1阶段,AI程序员Devin可以认为是L3或L2.5,任意门可以认为是L2。在agent方向上OpenAI的动作较保守,从他们发布的GPT Store和Assistants API框架来看,GPT机器人还是通过大模型加工具调用执行简单任务,并能够自主地从错误状态中恢复过来,暂时还不涉及复杂的多步任务调度,可以看成是L1.5。
以上介绍了当前业界的大模型应用场景,其中绝大部分应用场景属于脑力生产力工具类。目前普遍认为大模型还没有产生杀手级的应用。这一方面是由于技术成熟度不够,主要集中L1-L2层级。如果达到远期L4-L5的效果,全自主的AI生产力工具带来的影响一定是颠覆性的。另一方面,应用场景局限在生产力领域,没有直接影响到广大的终端用户。这也是本轮AI热潮中时常困扰我的问题,对于那些刷抖音玩游戏的用户,AI除了在内容生产端间接产生影响,还可以给他们带来什么?这个问题业界有一些初步的回答,例如个人助理,任意门,Rabbit R1随身助理等,但如何让生成式AI直接满足广大消费端用户需求,值得进一步深挖。
最后抛个砖,欢迎写下三个最期待的生成式AI应用: 情感陪伴机器人,图文/短视频创作机器人,图库设计工作室