打开APP
中信证券:建议关注以多模态为代表的应用机会 同步关注模型发展带来的算力新需求
陈筱亦 08:40
阅读量

智通财经APP获悉,中信证券发布研报称,Gemini 3 Pro多模态理解和逻辑推理两大关键能力显著提升,其中多模态性能有显著领先,应持续关注原生多模态技术发展带来的产业变化,以及多模态推理带来的全新应用场景机会。Agent相关能力升级符合预期,在长文本检索、任务流程规划等方面形成亮点,结合模型能力和开发平台升级,更好支持细分场景的Agent开发落地。Coding方面以前端开发为主要方向,相关效果值得期待。建议关注以多模态为代表的应用机会,同步关注模型发展带来的算力新需求。

中信证券主要观点如下:

事项:

美国时间11月18日,Google发布最新基座模型Gemini 3 Pro,模型强调多模态理解和深度推理两大基础性能,围绕agent开发、代码生成、用户交互等关键能力持续升级,在主流测试集上达到领先水平。目前,新模型已经全面向Search、Gemini app、AI Studio、Vertex AI、Google Antigravity等渠道开放。

多模态:性能表现达到领先水平,持续关注原生多模态架构创新。

Google官网将Gemini 3 Pro定位为“世界最好的多模态理解模型”,并强调模型综合利用多种模态信息进行推理思考的能力。

从效果看,Gemini 3在多模态理解相关测试集上表现优异(MMMU-Pro、ScreenSpot-Pro、CharXiv Reasoning、OmniDoc Bench、Video MMMU)。其中,在理解+推理的测试集MMMU-Pro/Video-MMMU上分别得分81.0%/87.6%,较GPT-5.1的76.0%/80.4%有明显提升。此外,模型在测试GUI交互(电脑桌面操作)能力的ScreenSpot-Pro测试集上正确率达到72.7%,大幅超越Claude Sonnet 4.5的36.2%,在桌面端应用开发上带来全新潜力。

从技术角度看,Google没有公开模型在原生多模态上的架构创新,但在宣传视频中强调模型的多模态能力是从最初开始(Since the beginning),考虑到模型多模态理解能力有明显提升,可以期待其在后续论文中对原生多模态的训练方案上有更多阐述。

推理能力:思维深度和知识水平同步提升,支持更多Agent落地。

Gemini 3 Pro在主流推理相关测试集上性能优异,GPQA Diamond测试集上得分91.9%,略微领先于GPT-5.1;HLE测试集上无工具调用正确率达到37.5%,较GPT-5.1的26.5%有明显提升。本次重点针对复杂任务推出深度思考模式(Deep Think),该模式下模型在HLE测试集上正确率进一步提升到41%,并且ARC-AGI-2成绩为45.1%,此前最佳表现为GPT-5.1的17.6%,体现深度思考模式下模型通过学习解决全新问题的潜力。同时,模型在SimpleQA Verified测试集上正确率达到72.1%,较GPT-5.1的34.9%有大幅领先,反映模型的知识丰富度和信息准确性有明显提升。更强的推理能力结合更丰富的知识储备,新模型有望对更多细分领域的Agent开发提供更好支持。

Agent:工具调用、长文本检索等能力全面提升,多模态推理打开全新应用场景。

Gemini 3 Pro在模型工具调用能力上和GPT-5.1、Claude 4.5 Sonnet等前沿模型相比有小幅领先,在任务规划能力上表现更好,可以实现多步任务的高效完成。模型支持100万Tokens上下文窗口长度,并且在长上下文精确检索测试集(MRCR)中性能大幅领先。结合推理能力和多模态理解能力升级,官方展示了更丰富的Agent开发潜力。例如根据官方演示,模型可以在烹饪场景中读懂不同语言的手写/手绘的笔记汇总成丰富的食谱;或是在运动场景中分析用户击球的可改进之处。如我们此前在《计算机行业智能领军(AI SOTA)系列报告1—下一代大模型(GPT-5):研究框架》(2025-07-29)中的展望,Gemini 3 Pro有望以多模态推理打开更多全新应用场景。

Coding:强调web UI开发能力,重塑AI搜索体验。

Gemini 3 Pro在swe-bench verified等关键测试集和此前最好的模型Claude 4.5 Sonnet能力相近,在代码生成能力上并未实现大幅领先。但本次模型更多侧重网页UI为代表的前端开发能力,在WebDev Arena上得分达到1487,超越GPT-5.1和Claude 4.5 Sonnet等模型,体现其在前端开发上的潜力,但仍需等待更多产业实测验证。通过实时的用户界面改造能力,Google Search已经可以用视觉结合文本的方式更有效的阐述结论。例如官方演示中,用户在搜索“三体问题的物理解释”后,模型自动编码生成该问题的视觉演示。对用户界面的实时个性化改造能力有望革新人机交互,形成更直观、更个性化、更准确的模型反馈体验。

生态:放大ToD/ToC入口优势,培育丰富Agent生态。

1)To D:发布全新Agent开发平台Google Antigravity,在浏览器上整合模型、代码助手、外部工具、可视化开发环境等,覆盖完整端到端的Agent开发工作流,将开发者的思路快速转化成可落地的Agent产品,增加以Gemini为底座的Agent生产。

2)To C:将Gemini App作为C端统一入口,以丰富的Agent工具提升用户粘性,更多融入用户日常生活。根据本次发布的信息,当前Gemini app MAU超6.5亿,超过70%的Google Cloud用户使用Google的AI服务,超过1300万开发者使用Gemini模型进行应用开发。

风险因素:

AI核心技术发展不及预期风险,企业数据安全风险,信息安全风险,行业竞争加剧风险,地缘政治风险,劳动力市场风险,虚假信息风险。

投资策略。

Gemini 3 Pro在多模态理解和逻辑推理两大关键能力上显著提升,其中多模态性能有显著领先,应持续关注原生多模态技术发展带来的产业变化,以及多模态推理带来的全新应用场景机会。Agent相关能力升级符合预期,在长文本检索、任务流程规划等方面形成亮点,结合模型能力和开发平台升级,更好支持细分场景的Agent开发落地。Coding方面以前端开发为主要方向,相关效果值得期待。建议关注以多模态为代表的应用机会,同步关注模型发展带来的算力新需求:1)多模态。2)Agent;3)算力产业链。

更多精彩港美股资讯
相关阅读
点击下载