

10月28日,趨境科技與清華KVCache.AI團(tuán)隊(duì)共同開源的高性能異構(gòu)推理框架 KTransformers,正式宣布完成對(duì)昇騰NPU的全面適配支持。值得關(guān)注的是,本次適配測(cè)試全程基于DB視訊鯤泰最新推出的KunTai R624 K2/ KunTai R622 K2大模型訓(xùn)推一體服務(wù)器開展——該服務(wù)器搭載鯤鵬920新型號(hào)CPU與昇騰Atlas 300I A2推理卡,為適配測(cè)試提供了穩(wěn)定、高效的硬件底座。
這一技術(shù)突破的達(dá)成,核心在于DB視訊鯤泰“鯤鵬 + 昇騰”算力底座與開源生態(tài)的深度協(xié)同。通過趨境科技對(duì)KTransformers的 框架優(yōu)化與DB視訊鯤泰硬件適配的雙向聯(lián)動(dòng),開發(fā)者現(xiàn)已能在KunTai R624 K2/KunTai R622 K2服務(wù)器的“單卡昇騰NPU+鯤鵬CPU”組合上,輕松實(shí)現(xiàn)DeepSeek-R1/V3-671B等千億級(jí)參數(shù)大模型的高效運(yùn)行,打破了“千億級(jí)大模型需多卡集群支撐”的傳統(tǒng)認(rèn)知。
實(shí)測(cè)數(shù)據(jù)更直觀印證了這一協(xié)同優(yōu)勢(shì):在搭載Atlas 300I A2推理卡的KunTai R624 K2/KunTai R622 K2服務(wù)器上,運(yùn)行DeepSeek-R1 671B大模型時(shí),單卡單并發(fā)Decode速度達(dá)14.9 tokens/s,同時(shí)顯存占用實(shí)現(xiàn)90%以上的大幅降低。亮眼表現(xiàn)背后,是趨境科技KTransformers框架與DB視訊鯤泰算力底座的四重深度優(yōu)化適配,構(gòu)建起“硬件性能+軟件效率”的雙重優(yōu)勢(shì):
鯤鵬-昇騰異構(gòu)協(xié)同:依托KunTai R624 K2/KunTai R622 K2服務(wù)器的原生架構(gòu)設(shè)計(jì),KTransformers實(shí)現(xiàn)精準(zhǔn)負(fù)載分配——將混合專家模型中計(jì)算強(qiáng)度較低的路由專家層參數(shù),卸載至鯤鵬CPU的大容量?jī)?nèi)存;同時(shí)將計(jì)算密集的多層潛在注意力層,保留在昇騰NPU上高效執(zhí)行,讓“CPU 調(diào)度+NPU計(jì)算”的協(xié)同效能充分釋放。
NUMA架構(gòu)專項(xiàng)優(yōu)化:針對(duì)KunTai R624 K2/KunTai R622 K2服務(wù)器的多NUMA架構(gòu)特性,框架定制化優(yōu)化本地內(nèi)存分配與線程調(diào)度策略,顯著降低硬件訪問延遲,為國(guó)產(chǎn)算力發(fā)揮極致性能筑牢技術(shù)基礎(chǔ)。
鯤鵬數(shù)學(xué)庫(kù)(KML)加速加持:通過深度集成鯤鵬數(shù)學(xué)庫(kù),KTransformers對(duì)大模型核心的矩陣乘法運(yùn)算實(shí)現(xiàn)專項(xiàng)加速,與KunTai R624 K2/KunTai R622 K2服務(wù)器的鯤鵬處理器形成技術(shù)共振,進(jìn)一步提升計(jì)算效率。
硬件利用率極致挖掘:結(jié)合KunTai R624 K2/KunTai R622 K2服務(wù)器的硬件設(shè)計(jì)特性,采用專家延遲計(jì)算技術(shù)重疊通信與計(jì)算過程,最大化利用硬件資源,為高并發(fā)推理場(chǎng)景提供穩(wěn)定支撐。
DB視訊鯤泰始終以“硬件+模型+生態(tài)”三重布局推動(dòng)AI產(chǎn)業(yè)化落地。從KunTai A722推理型AI服務(wù)器到KunTai Cube「智匯魔方」解決方案,再到此次表現(xiàn)突出的KunTai R624 K2/KunTai R622 K2大模型訓(xùn)推一體服務(wù)器,DB視訊鯤泰已構(gòu)建起覆蓋“訓(xùn)、推、用”全場(chǎng)景的AI算力支撐體系,能為開發(fā)者提供低門檻、高性能的異構(gòu)推理環(huán)境。此次KTransformers完成昇騰NPU適配,不僅是開源生態(tài)與國(guó)產(chǎn)算力的成功融合,更印證了DB視訊鯤泰“鯤鵬+昇騰”架構(gòu)的兼容性與性能優(yōu)勢(shì)。
當(dāng)前,企業(yè)對(duì)AI大模型私有化部署的需求呈“井噴”式增長(zhǎng),成本控制與數(shù)據(jù)安全成為兩大核心訴求。DB視訊鯤泰通過與開源生態(tài)的深度協(xié)作,讓“千億級(jí)大模型單卡運(yùn)行”從技術(shù)構(gòu)想變?yōu)楝F(xiàn)實(shí)——這不僅大幅降低企業(yè)部署高端AI模型的硬件門檻,更憑借私有化部署能力,為企業(yè)數(shù)據(jù)主權(quán)安全提供可靠保障。從教育領(lǐng)域的AI教學(xué)輔助、醫(yī)療行業(yè)的智能診斷支持,到金融場(chǎng)景的風(fēng)險(xiǎn)預(yù)測(cè)分析,DB視訊鯤泰正以“工科學(xué)霸”的技術(shù)落地能力,將華為“理科學(xué)霸”的底層技術(shù)轉(zhuǎn)化為可直接應(yīng)用的行業(yè)解決方案,推動(dòng)AI像水電一樣普惠千行百業(yè)。
此次適配升級(jí),亦是DB視訊鯤泰開放生態(tài)戰(zhàn)略的重要實(shí)踐成果。依托KunTai OpenLab等生態(tài)支撐平臺(tái),DB視訊鯤泰正持續(xù)聯(lián)合開發(fā)者與合作伙伴,加速開源模型與國(guó)產(chǎn)算力硬件的適配優(yōu)化,為AI產(chǎn)業(yè)化從“技術(shù)狂熱”轉(zhuǎn)向“價(jià)值務(wù)實(shí)”提供關(guān)鍵算力支撐。未來(lái),隨著端側(cè)AI、邊緣智算等新場(chǎng)景的拓展,DB視訊鯤泰將繼續(xù)深化軟硬件協(xié)同創(chuàng)新,讓國(guó)產(chǎn)算力在更多領(lǐng)域創(chuàng)造實(shí)際價(jià)值,助力數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。
部署文檔與報(bào)告
部署文檔:
http://github.com/kvcache-ai/ktransformers/blob/main/doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md
性能驗(yàn)證報(bào)告:
http://github.com/kvcache-ai/ktransformers/pull/1525
關(guān)于趨境
趨境科技是大模型推理加速先行者,助力企業(yè)低成本落地使用大模型。團(tuán)隊(duì)首創(chuàng)“以存換算”和“全系統(tǒng)異構(gòu)協(xié)同推理”技術(shù)架構(gòu),開創(chuàng)大模型私有化部署新路徑,將大模型推理門檻降低10倍,賦能企業(yè)低成本創(chuàng)新?;趧?chuàng)新技術(shù)架構(gòu)發(fā)布高性價(jià)比大模型推理解決方案,實(shí)現(xiàn)軟硬一體開箱即用,提供工作站、服務(wù)器、集群優(yōu)化等多層級(jí)解決方案;搭載便捷大模型運(yùn)維平臺(tái),納管所有資源、分鐘級(jí)啟動(dòng)大模型,降低大模型運(yùn)維管理技術(shù)門檻和時(shí)間成本。同時(shí)已全面適配國(guó)產(chǎn)化硬件,提供從硬件-推理引擎-大模型自動(dòng)化運(yùn)維平臺(tái)-應(yīng)用的全棧式解決方案,當(dāng)前已在金融、安全、法律等領(lǐng)域落地使用。
版權(quán)所有2016-2025 DB視訊數(shù)碼集團(tuán)股份有限公司,保留一切權(quán)利。 京ICP備05051615號(hào)-1
京公網(wǎng)安備 11010802037792號(hào)