DeepSeek推出NSA 用于超快速的长上下文训练和推理

358 2月18日
share-image.png
徐文强 智通财经资讯编辑。

智通财经APP获悉,DeepSeek推出NSA。据DeepSeek介绍,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。

相关阅读

招商证券:券商“尝鲜”DeepSeek 预计参与广度和业务嵌入均有进一步发展

2月18日 | 严文才

麦格理:维持腾讯控股(00700)“跑赢大市”评级 目标价560港元

2月18日 | 宋芝萦

第一个部署DeepSeek的人力外包公司出现了 人瑞人才(06919)正式接入R1大模型

2月18日 | 梁钟荣

中国银河证券:微信百度接入Deepseek 流量入口加速AI渗透

2月18日 | 陈筱亦

国泰君安:腾讯(00700)接入DeepSeek ima搭建个人专属知识库

2月18日 | 陈筱亦