首次超越自回歸模型!螞蟻集團(tuán)開源業(yè)內(nèi)首個(gè)高性能擴(kuò)散語言模型推理框架dInfer
新浪科技訊 10月13日下午消息,首次螞蟻集團(tuán)正式開源業(yè)界首個(gè)高性能擴(kuò)散語言模型推理框架dInfer。歸模個(gè)高
據(jù)介紹,型螞性在基準(zhǔn)測(cè)試中,蟻集源業(yè)語dInfer將擴(kuò)散語言模型的團(tuán)開推理推理速度相比于英偉達(dá)擴(kuò)散模型框架Fast-dLLM提升了10.7倍;在代碼生成任務(wù)HumanEval上,dInfer在單批次推理中創(chuàng)造了1011Tokens/秒的內(nèi)首速度,首次在開源社區(qū)中實(shí)現(xiàn)擴(kuò)散語言模型的擴(kuò)散框架單批次推理速度顯著超越自回歸模型。dInfer的模型工作表明,擴(kuò)散語言模型具備顯著的首次效率潛力,可以通過系統(tǒng)性的歸模個(gè)高創(chuàng)新工程兌現(xiàn),為通往AGI的型螞性架構(gòu)路徑提供極具競(jìng)爭(zhēng)力的選項(xiàng)。
在配備8塊NVIDIA H800 GPU的蟻集源業(yè)語節(jié)點(diǎn)上,dInfer的團(tuán)開推理性能表現(xiàn)令人矚目:
在與先前的dLLM推理方案Fast-dLLM的對(duì)比中,dInfer在模型效果持平的內(nèi)首情況下,平均推理速度(avg TPS)實(shí)現(xiàn)了10.7倍的擴(kuò)散框架巨大提升(681 vs 63.6) ;在代碼生成任務(wù)HumanEval上,dInfer在單批次推理中創(chuàng)造了1011 tokens/秒的速度 ;與在業(yè)界頂尖的推理服務(wù)框架vLLM上運(yùn)行的、參數(shù)量和性能相當(dāng)?shù)腁R模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 vs 277) 。
螞蟻集團(tuán)表示,dInfer連接了前沿研究與產(chǎn)業(yè)落地,標(biāo)志著擴(kuò)散語言模型從“理論可行”邁向“實(shí)踐高效”的關(guān)鍵一步。此次開預(yù)案,也是誠(chéng)邀全球的開發(fā)者與研究者共同探索擴(kuò)散語言模型的巨大潛能,構(gòu)建更加高效、開放的AI新生態(tài)。
本文地址:http://m.818618.com/html/03b19899798.html
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表本站立場(chǎng)。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。