打开APP
Grok 4长流程工作应用潜力初显 带动AI Infra与算力需求
宋芝萦 15:34
阅读量

智通财经APP获悉,中信证券发布研报称,Grok 4在专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会,综合梳理以下投资主线:1)主线一:通用管理软件; 2)主线二:工具软件和其他重点行业软件;3)主线三:AI基础设施。

中信证券主要观点如下:

事项:Grok 4正式发布并开放使用

北京时间7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本,在专业学科任务推理上性能提升。模型B端API定价输入3美元/百万Tokens,输出15美元/百万Tokens,较o3大约贵50%。C端30美元/月的订阅会员即可使用Grok 4,高推理算力投入的Grok-4 Heavy版本则需要300美元/月的会员费用才可以使用。

重点升级专业学科和复杂任务的推理能力

Grok 4在专业学科和商业环境推理等复杂任务中表现大幅超越此前最佳(SOTA)的模型,在知识能力上已经超越本科生和研究生水平,正在全领域快速缩小与人类顶级专家的差距。

1)HLE:在各学科专家编写的高难度学术测试集Humanity's Last Exam(HLE)测试集中,Grok-4在不使用工具的情况下正确率为26.9%,使用工具的情况下为41.0%,在推理阶段加大RL算力投入后可进一步提升到50.7%,较此前的SOTA模型21.6%的水平翻倍增长。

2)Vending-Bench:在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4得分是第二名Claude Opus 4的两倍,模型正朝着解决真实复杂问题的方向迈进。

3)其他:在GPQA、AIME25、HMMT 25、USAMO 25等专业学科知识测试集上,Grok 4 Heavy在其中4项夺冠,尤其在 AIME25与HMMT25 分别获得100% /96.7%的接近满分表现。

推理能力发展带动算力需求,技术创新为后续模型推理提效带来新思路

训练侧,Grok 4较Grok 2训练量提升了100倍,较Grok-3在后训练强化学习上的计算量提升10倍。推理侧,和OpenAI o3-high相似,Grok 4 Heavy通过提高强化学习的算力投入提升模型效果,验证Test time computing的有效性。以强化学习为基础的推理能力在训推两端同步带动算力投入提升,并且根据ARC-AGI v2测试结果显示,Grok 4推理性价比(单位成本下的推理效率)显著高于此前所有模型。技术方面,本次Grok 4的工程创新包括两点:1)验证工具使用能力对推理性能的重要价值,通过在预训练阶段让模型学习使用工具,模型推理场景实际表现大幅提升;2)在后训练强化学习中找到了可靠的奖励信号方案。Grok 4的创新体现了推理能力依然是产业焦点和未来方向,工程探索为后续模型推理能力升级提供新的思路。

更新对话灵活、情感细腻的语音交互,多模态是后续更新计划的重点

Grok 4发布新语音助手Eve,对话延迟降低一半,每日用户使用时长提升10倍。在现场演示中,新语音助手的对话音色、音调、语气与真人高度相似,具备模仿耳语或者演唱现编歌曲的功能。同时现场也展示了Grok-4在游戏开发领域的潜力,游戏设计师在4小时内利用AI制作出一个简单的第一人称射击游戏,发布会上马斯克提出明年有望出现首款AI游戏和首部AI电影。Grok 4当前在视觉领域的理解和生成能力仍然不足,根据马斯克发言,相关功能预计在数周到数月内的下个小版本上做重点改进。后续XAI计划在8月发布代码模型,9月发布多模态智能体,10月发布视频生成模型。

风险因素:

AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧,地缘政治风险。

更多精彩港美股资讯
相关阅读
点击下载