蚂蚁百灵发布Ling-2.6-flash模型定价每百万token0.1美元

智通财经APP获悉，4月22日，蚂蚁百灵推出Ling-2.6-flash——一款总参数量104B、激活参数7.4B的Instruct模型。该模型主打“Token效率(TokenEfficiency)”，在保持竞争力智能水平的同时，更快、更省以及更适合大规模真实应用。API定价方面，Ling-2.6-flash输入每百万tokens定价0.1美元，输出0.3美元。目前，Ling-2.6-flash的API已正式向用户开放，并提供为期一周的限时免费试用。

具体来看，Ling-2.6-flash 的核心能力体现在三个方面：

混合线性架构，释放推理效率：通过引入混合线性架构，模型从底层优化计算效率，在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍，以更高的“费效比”完成任务。

Token 效率优化，提升智效比：在训练过程中，我们对 Token 效率进行了针对性校准，力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中，Ling-2.6-flash 仅消耗 15M tokens，约为 Nemotron-3-Super 等模型的 1/10，以更高的“智效比”完成任务。

面向 Agent 场景进行定向增强：针对当前需求最旺盛的 Agent 应用，我们在工具调用、多步规划与任务执行能力上持续打磨，使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中，即使面对激活参数更大的模型，依然能够取得相近甚至 SOTA 级别的表现。

这也意味着，Ling-2.6-flash 所追求的，并不是单点极限能力，而是在控制 Token 消耗的前提下，依然保持对 Agent 任务的强竞争力。对开发者与企业而言，这代表着更低的推理成本、更高的部署效率，以及更适合大规模真实应用的模型体验。

Ling-2.6-flash 在 Agent 相关基准上达到同尺寸 SOTA 水平，并在其他核心能力上保持出色表现。

混合线性架构，释放推理效率

架构改进

Ling-2.6-flash 延用了 Ling 2.5 的模型架构设计：在 Ling 2.0 架构基础上引入了混合线性注意力机制。通过增量训练方式，将 Ling 2.0 架构的 GQA 注意力机制升级为 1:7 的 MLA + Lightning Linear 高效混合架构。

得益于混合注意力机制与高度稀疏化的 MoE 架构，Ling-2.6-flash 在推理效率上展现出显著优势。与同尺寸级别的主流 SOTA 模型相比，Ling-2.6-flash 不仅首字响应更快，长输出场景下的生成效率也更高，Prefill 吞吐与 Decode 吞吐最高均可达到约 4 倍提升。

从下图中可以看到，随着上下文长度和生成长度持续增加，Ling-2.6-flash 的吞吐优势进一步放大。同时，Ling-2.6-flash 的优势并不只体现在静态指标上，而是在真实部署环境中，能够随着任务复杂度提升持续释放更强的速度收益。无论是长上下文理解，还是长文本连续生成，Ling-2.6-flash 都能在保持模型能力的同时，带来更快的响应、更高的吞吐，以及更具优势的实际部署效率。

输出(Decode)吞吐优势对比，四卡H20-3e，TP=4，Batch Size = 32

输入(Prefill)吞吐优势对比，四卡H20-3e，TP=4，Batch Size = 32

推理效率优化

在 Ling-2.6-flash 的预训练阶段，我们通过大规模算子融合显著提升了训练效率；在推理侧，则进一步围绕真实部署场景进行了深度适配，使融合算子在融合粒度、实现路径与数值行为上尽可能与训练侧保持一致。这样的设计不仅带来了更高的推理效率，也在 RL Rollout 阶段进一步增强了训推一致性。相关推理算子将随 linghe 陆续开源。

针对不同精度场景，我们对推理链路进行了系统性优化。

针对 BF16 推理，我们实现了 QK Norm + RoPE、Group RMSNorm + Sigmoid Gate 等关键算子的深度融合，并在 MoE Router GEMM 与 LM Head GEMM 中采用 BF16 Input + FP32 Output 的计算方式，同时优化了 MLA RoPE 与 Top-K 的实现。

针对 FP8 推理，我们进一步将 RMSNorm、SwiGLU 与量化算子进行融合，并针对小 Batch Size 场景引入 Split-K 的 Blockwise FP8 GEMM，进一步释放吞吐潜力。从算子融合、缓存机制到多 token 生成的一整套系统级协同优化。最终带来的，不只是更高的系统吞吐，也包括更高的单用户 TPS、更短的等待时间，以及在真实交互场景下更稳定、更流畅的使用体验。

在 Artificial Analysis 榜单的 Output Speed 维度的官方测评中，对比同参数量级别的主流模型，Ling-2.6-flash 以 215 tokens/s 的输出速度处于第一梯队，展现出领先的生成效率。

Token 效率优化，提升智效比

在 Artificial Analysis(AA)的 Intelligence vs. Output Tokens 对比中，Ling-2.6-flash 展现了突出的 token efficiency 优势。

从下图中可以看到，Ling-2.6-flash 以 15M output tokens 实现了 26 分的 Intelligence Index，在保持较强智能水平的同时，将输出消耗控制在相对更低的位置。相比部分依赖更长输出换取更高分数的模型，Ling-2.6-flash 在“智能表现”与“输出成本”之间取得了更优平衡。这意味着，Ling-2.6-flash 的竞争力并不只体现在单点能力上，更体现在面向真实应用的整体效率优化上。它并非通过更冗长的输出堆叠分数，而是以更精炼的生成完成任务，在保证竞争力智能表现的同时，显著降低 token 消耗。

对于开发者和企业场景而言，这种能力带来的价值是直接且明确的：更低的推理开销、更快的首字响应、更短的整体生成时延，以及更流畅的交互体验。无论是 Agent 调用、复杂任务执行，还是高频线上服务，Ling-2.6-flash 都更适合真实部署环境下对速度、成本与体验的综合要求。

换句话说，Ling-2.6-flash 追求的并不是单纯“更强”，而是在“足够强”的基础上，进一步做到“更快、更省、更可落地”。

基于 AA 榜单的官方测评分数绘制

从 Token 消耗看，Ling-2.6-flash 的智效比显著提升。

在 Artificial Analysis Intelligence Index 的完整评测中，Ling-2.6-flash 展现出显著更优的 Token 效率：其总消耗仅为 15M tokens，而 Nemotron-3-Super 等模型达到或超过 110M tokens。换言之，Ling-2.6-flash 仅用约 1/10 的 token 消耗完成同类评测任务，体现出更精简的输出方式与更高的智效比。

面向 Agent 场景进行定向增强

智能体优化

为增强模型 Agent 能力，我们显著扩展了 Ling-2.6-flash 训练数据的难度与广度，以优化其在复杂长程任务中的表现。依托自研的大规模高保真交互环境，我们对 Ling-2.6-flash 进行了针对性的 General Agent 与 Coding Agent 的强化学习(RL)训练。

显著提升了模型在指令遵循、工具调用、多步规划及长程执行方面的表现，保障模型听懂指令、准确执行，Ling-2.6-flash 在 BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench 等代表性榜单上表现优异；

通过 RL 优化模型在不同 Agent 场景下的泛化性与稳定性，大幅改进其在实际场景的应用体验，Ling-2.6-flash 在 Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw 等框架中均展现了良好的使用体验。

Ling-2.6-flash 模型在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准，各项指标均对齐同尺寸 SOTA 模型，保障全场景下稳健、优质的性能产出。

PinchBench：对比分数引自 PinchBench 官方榜单(截至 2026 年 4 月 20 日)，直接取用官方评测设置下的分数(可能包含 Reasoning Mode)。

Claw-Eval：对比分数引自 Claw-Eval 官方榜单(2026 年 3 月 25 日版本)，直接取用官方评测设置下的分数(可能包含 Reasoning Mode)。其中，GPT-OSS-120B 与 GPT-5.4-mini 在 Claw-Eval 官方榜单暂未公布，因此未纳入对比结果。

TAU2-Bench：评测基于官方 v1.0.0 代码与数据集进行。参考 GLM-5 的评测配置，我们在Retail和Telecom领域对用户 Prompt进行微调，以确保用户请求表达更加清晰，并避免会话被过早终止。此外，所有领域均采用 GPT-5.2 作为 User Agent。

IFBench：GPT-OSS-120B(low) 和 GPT-5.4-mini(Non-Reasoning) 的分数引自 AA 榜单；其余模型的结果来自内部评测。