123,123

第四范式SageOne IA一體機(jī)升級(jí) 支持模型彈性伸縮

來源：證券時(shí)報(bào)·e公司作者：王小偉 2025-04-07 14:15

Aa 大號(hào)字

記者7日從第四范式獲悉，公司一體機(jī)解決方案SageOne IA日前進(jìn)行了全新升級(jí)，推出“模型彈性伸縮”技術(shù)，來應(yīng)對(duì)流量波動(dòng)。

第四范式是港股代表性AI公司。公司日前聯(lián)合華為昇騰AI發(fā)布全新升級(jí)SageOne IA一體機(jī)解決方案，在支持DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型的基礎(chǔ)上，企業(yè)可靈活在滿血版和多個(gè)蒸餾模型之間切換。方案中集成了智能算力池化技術(shù)（vGPU）、大模型應(yīng)用開發(fā)平臺(tái)，以及開箱即用的AI應(yīng)用套件。公司希望，通過構(gòu)建從底層算力到上層應(yīng)用的完整自主技術(shù)體系，為企業(yè)智能化轉(zhuǎn)型提供新一代全棧式基礎(chǔ)設(shè)施。

當(dāng)前企業(yè)一般采用傳統(tǒng)擴(kuò)縮容方案，即當(dāng)應(yīng)用負(fù)載增加時(shí)，通過人工干預(yù)或系統(tǒng)按既定規(guī)則擴(kuò)展計(jì)算節(jié)點(diǎn)，保證服務(wù)可用；當(dāng)負(fù)載減少時(shí)釋放多余的計(jì)算節(jié)點(diǎn)，這一定程度上增加了算力成本和IT運(yùn)維復(fù)雜度?！澳Ｐ蛷椥陨炜s”是系統(tǒng)根據(jù)負(fù)載狀況，自動(dòng)靈活切換同一系列下不同參數(shù)大小的模型提供模型服務(wù)，無需額外擴(kuò)展計(jì)算節(jié)點(diǎn)，節(jié)省算力成本，提升資源使用效率的同時(shí)還大大降低運(yùn)維工作量。

公司相關(guān)人士舉例說，在大模型推理場景下，負(fù)載較小時(shí)，滿血版模型提供高精度的推理服務(wù)；進(jìn)入高峰時(shí)段時(shí)，系統(tǒng)會(huì)自動(dòng)將滿血版降級(jí)為一個(gè)或多個(gè)蒸餾版/量化版模型實(shí)例，來處理大量并發(fā)請(qǐng)求。

由此，結(jié)合模型預(yù)加載等技術(shù)，可避免模型服務(wù)切換時(shí)，導(dǎo)致服務(wù)中斷或輸出質(zhì)量波動(dòng)問題，做到用戶無感知的平滑切換；當(dāng)流量回歸常態(tài)后，系統(tǒng)再自動(dòng)升級(jí)到滿血版模型服務(wù)，并釋放多余的較小參數(shù)模型實(shí)例。

同時(shí)，系統(tǒng)可預(yù)設(shè)多種基于負(fù)載的觸發(fā)條件，如結(jié)合GPU使用率、請(qǐng)求隊(duì)列長度、響應(yīng)延遲等資源健康度指標(biāo)，形成動(dòng)態(tài)切換策略和任務(wù)路由機(jī)制，使彈性方案在實(shí)際應(yīng)用中更貼近業(yè)務(wù)需求。

責(zé)任編輯：孫憲超