开云体育通过在初始时使用轻量级即时编译模块来编译悉数内核-Kaiyun·体育(全站)登陆入口官方网站登录入口
发布日期:2025-03-08 13:09    点击次数:149

开云体育通过在初始时使用轻量级即时编译模块来编译悉数内核-Kaiyun·体育(全站)登陆入口官方网站登录入口

  新浪科技讯 2月26日上昼音书,DeepSeek开源周(OpenSourceWeek)第三日,在晓谕开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek本日再次晓谕洞开了DeepGEMM代码库。

  据DeepSeek方面先容,DeepGEMM是专为简易高效的FP8通用矩阵乘法(GEMMs)而臆想打算,它同期复旧平淡的和巨匠搀杂(MoE)分组的GEMM运算。该库使用CUDA编写,在安设经过中无需编译,通过在初始时使用轻量级即时编译模块来编译悉数内核。

  当今,DeepGEMM仅复旧英伟达Hopper架构运算,为惩办FP8张量中枢累加不精确的问题,它接受了CUDA中枢的两级累加(擢升)时间。该代码库臆想打算尽头简易,惟有一个中枢内核函数,代码量约为300行。

海量资讯、精确解读,尽在新浪财经APP

背负裁剪:尉旖涵 开云体育