Grok 4长流程工作应用潜力初显带动AI Infra与算力需求

智通财经APP获悉，中信证券发布研报称，Grok 4在专业学科和复杂任务上的推理能力突出，展现未来模型在长流程专业工作上的应用潜力，支持Agent落地高价值场景，结合后续多模态能力有望突破打开全新应用场景，行业落地对应带动AI Infra和算力需求，建议关注相关领域重点公司的投资机会，综合梳理以下投资主线：1）主线一：通用管理软件； 2）主线二：工具软件和其他重点行业软件；3）主线三：AI基础设施。

中信证券主要观点如下：

事项：Grok 4正式发布并开放使用

北京时间7月10日，XAI发布新一代基座大模型Grok 4，包括Grok 4和Grok 4 Heavy两个版本，在专业学科任务推理上性能提升。模型B端API定价输入3美元/百万Tokens，输出15美元/百万Tokens，较o3大约贵50%。C端30美元/月的订阅会员即可使用Grok 4，高推理算力投入的Grok-4 Heavy版本则需要300美元/月的会员费用才可以使用。

重点升级专业学科和复杂任务的推理能力

Grok 4在专业学科和商业环境推理等复杂任务中表现大幅超越此前最佳（SOTA）的模型，在知识能力上已经超越本科生和研究生水平，正在全领域快速缩小与人类顶级专家的差距。

1）HLE：在各学科专家编写的高难度学术测试集Humanity's Last Exam（HLE）测试集中，Grok-4在不使用工具的情况下正确率为26.9%，使用工具的情况下为41.0%，在推理阶段加大RL算力投入后可进一步提升到50.7%，较此前的SOTA模型21.6%的水平翻倍增长。

2）Vending-Bench：在衡量复杂任务解决能力的商业环境测试Vending-Bench中，Grok-4得分是第二名Claude Opus 4的两倍，模型正朝着解决真实复杂问题的方向迈进。

3）其他：在GPQA、AIME25、HMMT 25、USAMO 25等专业学科知识测试集上，Grok 4 Heavy在其中4项夺冠，尤其在 AIME25与HMMT25 分别获得100% /96.7%的接近满分表现。

推理能力发展带动算力需求，技术创新为后续模型推理提效带来新思路

训练侧，Grok 4较Grok 2训练量提升了100倍，较Grok-3在后训练强化学习上的计算量提升10倍。推理侧，和OpenAI o3-high相似，Grok 4 Heavy通过提高强化学习的算力投入提升模型效果，验证Test time computing的有效性。以强化学习为基础的推理能力在训推两端同步带动算力投入提升，并且根据ARC-AGI v2测试结果显示，Grok 4推理性价比（单位成本下的推理效率）显著高于此前所有模型。技术方面，本次Grok 4的工程创新包括两点：1）验证工具使用能力对推理性能的重要价值，通过在预训练阶段让模型学习使用工具，模型推理场景实际表现大幅提升；2）在后训练强化学习中找到了可靠的奖励信号方案。Grok 4的创新体现了推理能力依然是产业焦点和未来方向，工程探索为后续模型推理能力升级提供新的思路。

更新对话灵活、情感细腻的语音交互，多模态是后续更新计划的重点

Grok 4发布新语音助手Eve，对话延迟降低一半，每日用户使用时长提升10倍。在现场演示中，新语音助手的对话音色、音调、语气与真人高度相似，具备模仿耳语或者演唱现编歌曲的功能。同时现场也展示了Grok-4在游戏开发领域的潜力，游戏设计师在4小时内利用AI制作出一个简单的第一人称射击游戏，发布会上马斯克提出明年有望出现首款AI游戏和首部AI电影。Grok 4当前在视觉领域的理解和生成能力仍然不足，根据马斯克发言，相关功能预计在数周到数月内的下个小版本上做重点改进。后续XAI计划在8月发布代码模型，9月发布多模态智能体，10月发布视频生成模型。

风险因素：

AI核心技术发展不及预期，AI被不当使用造成严重社会影响，企业数据安全风险，信息安全风险，行业竞争加剧，地缘政治风险。