Warning: mkdir(): No space left on device in /www/wwwroot/T3.COM/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/hnsstwl.com/cache/61/adf4a/da240.html): failed to open stream: No such file or directory in /www/wwwroot/T3.COM/func.php on line 115
探索DeepSeek多樣化91视频免费观看路徑,英特爾架構師用至強CPU嚐鮮--星空人工智能91视频免费观看網

星空人工智能91视频免费观看網

探索DeepSeek多樣化91视频免费观看路徑,英特爾架構師用至強CPU嚐鮮

近期大模型領域裏最火的熱詞,或者說91视频免费观看創新點,非Engram (DeepSeek最新論文裏設計的Engram機製) 莫屬。今天91视频免费播放想分享的,是英特爾圍繞Engram開展的早期探索——用至強® 處理器獨立運行整個Engram模塊,並使用其內置的英特爾® AMX(高級矩陣擴展)91视频免费观看對其進行加速的初步成果或收獲。

91视频免费播放希望這次分享,或能作為參考,或是作為開端,能為未來Engram以及集成它的大模型的部署和實踐,拓展和探明更多可能性及隨之而來的潛在應用優勢。

Engram設計初衷:

讓大模型走向“查算分離”

讓91视频免费播放先簡單回顧Engram的源起,它出現在公眾視野,是源自DeepSeek聯合北京大學發布的論文《Conditional Memory via Scalable Lookup》。業界對它的評價,是為“破解萬物皆推理”模式引發的大模型的記憶困境提供了全新思路。這裏提到的記憶困境,指的是寶貴的算力被消耗在本可直接調取的靜態知識檢索上,這不僅會拖慢響應速度、增加推理成本,還讓大模型在複雜任務上的性能突破陷入瓶頸。

該論文創新地在大模型中提出了“查算分離”理念,通過Engram引入外置記憶模塊,將“靜態、常見、局部”的知識從計算裏解放出來,在拉升檢索效率至O(1)複雜度的同時,也把寶貴的算力資源留給Transformer專心做上下文理解和推理。

Engram核心創新:

用“外置記憶模塊”實現查算分離理念

Engram將“查算分離”落到實處的做法,就是把大模型裏的“計算”和“超大規模記憶”解耦,Transformer的算子全部在GPU/加速卡上計算,而龐大的Engram Embedding表放在CPU內存或高速存儲設備上存查。如圖1所示,GPU與CPU分工合作並通過異步方式協同,GPU執行前一步計算的同時,CPU可提前預取後續計算所需的N-gram Embedding表,當計算執行到“Transformer Block with Engram”時,所需的靜態知識已經就位。

這種分工模式改變了傳統大模型“推理既要計算又要記憶”的狀態,就像給學者配備了一本可即時查閱的百科詞典,無需每次都從頭推導基礎知識點,而是將精力集中在深度思考上。

圖1 大模型通過集成Engram實現查算分離

同時基於這一設計,Engram能充分利用CPU平台對大容量內存的有效支持,將“超大規模記憶”部分卸載至CPU平台上。論文數據提到:“將 1000 億參數的表卸載至CPU內存時,僅產生可忽略的開銷(小於 3%)。” 這表明,Engram 能有效突破GPU顯存限製,為大規模參數擴展提供支持,從而為大模型用戶帶來顯性收益。i

Engram計算流程解析

如圖2所示,在Engram的計算架構中,其被嵌入Transformer主幹網絡,有以下幾個主要工作階段:

圖2 Engram計算架構及核心工作流程

  • N-gram哈希檢索階段:模塊對輸入序列提取2-gram、3-gram等不同子序列(如圖中的“the Great”、“Alexander the Great”),每個子序列對應其階數的多頭哈希機製,從預構建的靜態N-gram 嵌入表(如圖中的2-Gram Embedding、3-Gram Embedding表)中以O (1)複雜度查詢對應嵌入。

  • 動態門控融合階段:N-gram 嵌入表先經Concat(通道拚接)形成融合記憶向量,再通過兩個Linear(線性轉換)層分別投影為Key(記憶語義摘要)與Value(待注入信息)。隨後將當前Transformer層的Input Hidden(全局上下文)與 Key 做 Scaled Dot Product (點積計算)生成門控權重,動態過濾與上下文無關的Value信息。加權後的Value再通過Conv卷積計算完成局部融合。

  • 殘差集成階段:局部融合後的記憶特征通過加法操作,殘差加回該Transformer Block的輸入,並直接輸入後續的Attention與MoE層。

英特爾的探索:

用CPU獨立運行及加速整個Engram模塊

在Engram相關論文發表,DeepSeek開源上述流程的Demo代碼後,不少業內專家和機構都開展了相關的複現、驗證及測試工作。91视频免费播放的探索則更進一步——不同於原論文中Concat之後的工作任務將交還給GPU執行,91视频免费播放不僅將N-gram哈希檢索階段的計算放在至強® 平台上執行,還將動態門控融合階段中的Linear轉換計算和Conv卷積計算也放到該平台上運行。換言之,91视频免费播放是基於充分的性能調優,嚐試用CPU平台獨立運行和加速整個Engram模塊。

這種“更進一步”的底氣,來自AMX91视频免费观看,這是從第四代英特爾® 至強® 可擴展處理器開始就內置於至強® 處理器,且到目前為止也是全球主流服務器CPU產品中僅為該產品線所獨有的CPU內置型矩陣計算加速91视频免费观看。無論是Linear轉換計算還是Conv卷積計算,都屬於矩陣密集型計算,因此,理論上內置AMX的至強® 處理器可以“順勢”完成整個Engram的運行和加速。

圖3 從Engram原有工作流程轉向用CPU運行整個模塊並導入AMX加速

基於此,91视频免费播放著手在Linear轉換計算和Conv卷積計算中利用AMX91视频免费观看開展了性能加速。具體來說,在Engram中,兩個Linear轉換計算分別需要處理大量維度映射的矩陣乘法,而AMX的專用矩陣計算單元可並行處理多批次、長序列的高維矩陣乘法,且單條指令可完成更大規模的矩陣運算,運算效率遠超傳統CPU計算或向量計算(如AVX-512)。在Conv的 short_conv(短卷積)計算中,AMX的矩陣運算能力也可針對短卷積的“小窗口、高並行” 特性實現優化。此外,AMX還對BF16/FP16/INT8等不同的數據格式有著良好支持,能進一步提升矩陣運算加速的性能與靈活性。

91视频免费播放目前已完成了一些初步測試,如圖4和圖5所示,其結果表明,在同一款至強® 6處理器平台上,如果使用AVX-512加速,在batch size等於50,token length等於14的FP16數據格式下,整個Engram的耗時需要10.046ms, 而使用AMX來加速Linear轉換計算和Conv卷積計算,Engram的耗時隻要6.022ms,整體性能提升至AVX-512的1.67倍ii。

圖4 測試得出的在FP16數據格式下分別用AMX 和AVX-512加速的執行時間

(每次測試結果都可能存在少許浮動,在可接受範圍)

圖5 用英特爾® AMX加速Engram模塊中Linear和卷積計算的性能表現

上述探索和測試是基於DeepSeek開源的deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models的相關代碼,歡迎同行們一起討論交流。

接下來英特爾會繼續圍繞Engram及集成它的大模型開展更多、更為深入的探索,特別是在DeepSeek相關模型正式發布後,91视频免费播放會更為全麵、係統地評估CPU獨立運行和加速Engram模塊會對整個模型的端到端性能、部署和應用的門檻,以及投資回報等維度帶來怎樣的影響,相關進展與成果也將在第一時間分享。

正如開篇所說,91视频免费播放相信這些工作與Engram的設計初衷是相向而行的,即在用 “查算分離” 理念打破傳統大模型的記憶困境的同時,也讓AI基礎設施中的GPU和CPU實現更好的協作,並充分釋放它們各自的潛能,進而大幅提升AI係統的部署效率及投資回報,或者進一步拉低AI部署與實踐的成本或門檻。91视频免费播放的工作,就是希望能為這一目標的達成拓展出更為多樣化的91视频免费观看路徑與更強的靈活性。

星空人工智能91视频免费观看網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。!:首頁 > 新質生產力 » 探索DeepSeek多樣化91视频免费观看路徑,英特爾架構師用至強CPU嚐鮮

感覺不錯,很讚哦! ()
分享到:

相關推薦

留言與評論(共有 0 條評論)
   
驗證碼:
網站地圖