DeepSeek发布Prover-V2模型 参数达6710亿

72 4月30日
share-image.png
徐文强 智通财经资讯编辑。

智通财经APP获悉,4月30日,DeepSeek于AI开源社区Hugging Face上发布了一个名为“DeepSeek-Prover-V2-671B”的新模型。据悉,DeepSeek-Prover-V2-671B 使用了更高效的 safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。

在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。

相关阅读

建银国际:百度集团-SW(09888)大模型为货币化铺路 维持目标价101.04港元

4月29日 | 宋芝萦

美股新股前瞻|AI技术平权带来新机遇,业绩增速下滑的施莱云端(CHOW.US)能否重回高增长?

4月28日 | 杨世宏

交银国际:料百度集团(09888)下半年广告业务或恢复同比正增长 维持“买入”评级

4月28日 | 宋芝萦

中金:维持百度集团-SW(09888)跑赢行业评级 目标价96港元

4月28日 | 宋芝萦

国家知识产权局:加快人工智能技术在知识产权领域的运用

4月24日 | 智通编选