DeepSeek推出NSA,用于超快速的长上下文训练和推理

2025-02-18 16:53:32律动BlockBeats分享至:

BlockBeats 消息,2 月 18 日,DeepSeek 宣布推出 NSA,这是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。
通过针对现代硬件的优化设计,NSA 加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。(金十)

虚拟币简介

可在虚拟空间购买商品和服务的非真实货币。全部

虚拟币行情

 今日价格24小时涨跌幅24小时成交额总市值

免责声明:作为区块链信息平台,本站所发布文章仅代表作者个人观点,与Bi123立场无关。文章内的信息、意见等均仅供参考,并非作为或视为实际投资建议。

最有价值的区块链信息和数据平台




扫码下载APP添加官方微信
行情机会交流