AI 時代的記憶體挑戰與技術轉機

免費
字數 4460
頁數 9
出版作者 林維林
出版單位 工研院產科國際所
出版日期 2025/12/30
出版類型 產業評析
所屬領域 半導體
瀏覽次數 99
加入購物車 直接下載 直接下載 加入最愛

一、前言

人工智慧(Artificial Intelligence, AI)技術已深入各類場景,從大型語言模型(LLM)、生成式AI、電腦視覺到智慧語音助理,無論在雲端或終端設備,其模型規模與複雜度皆呈指數式增長。尤其在邊緣運算(Edge Computing)場域中,用戶期望AI能即時推論,同時達成低功耗、小尺寸與成本控制的需求。然而,以處理器為中心的馮紐曼架構(Von Neumann Architecture),其設計將資料儲存與邏輯運算劃分為兩大獨立模組,導致運算時資料需頻繁在記憶體(DRAM)與處理器之間搬移,不僅造成延遲與能耗激增,更導致系統效能無法充分釋放。這種資料搬移頻繁所造成的延遲與能耗問題,正是所謂的「記憶體牆」(Memory Wall)瓶頸,已成為AI架構無法線性擴展的核心障礙之一。舉例來說,在生成式語言模型的推論階段,大量矩陣向量乘(GEMV)操作需反覆讀寫權重資料,對記憶體頻寬的依賴極高,進一步加劇此瓶頸效應。

根據 MVP Ventures 的分析報告指出,過去數年 AI 模型的參數數量每 24 個月成長 240 倍,而記憶體頻寬僅提升 1.6 倍,浮點效能僅增長 3 倍,顯示出明顯的頻寬瓶頸與算力失衡。 為突破 AI 運算中的記憶體瓶頸,學術界與產業界開始探索將「運算邏輯嵌入記憶體」的架構理念,也就是所謂的Processing-in-Memory(PIM)與Processing-Near-Memory(PNM)。這類設計試圖顛覆傳統「資料搬運至處理器再進行計算」的方式,改為「資料就地處理」,藉此大幅減少資料搬移延遲與能耗,是未來記憶體中心運算(Memory-Centric Computing)的核心關鍵之一。

 

二、PIM/PNM技術概論與分類

PIM並非近年才出現的嶄新概念。早在1960年代,學術界即提出將邏輯運算功能整合進記憶體的構想,以突破傳統馮紐曼架構的頻寬與延遲限制。1990年代,包括 Berkeley 的 Intelligent RAM(IRAM)計畫、IBM 與 Mitsubishi 的研究方案均已嘗試實現記憶體與邏輯的融合運算。然而,受限於當時製程技術差異、封裝困難、熱管理挑戰與缺乏具體應用需求,這些嘗試多半停留在研究原型階段,未能落地商用。如今,在三股力量的交織推動下,PIM與PNM重新受到高度重視:

  • 應用拉力(Application Pull):生成式AI模型規模急遽擴張,大量參數存取壓力讓傳統架構難以負荷,對資料存取效率的需求大幅提升。

  • 技術推力(Technology Push):3D晶片堆疊技術(如TSV)、非揮發性記憶體(如MRAM、ReRAM)等先進製程日漸成熟,使記憶體與邏輯深度整合成為可行選項。

  • 經濟與環境驅動力(Economic/Environmental Push):高功耗正成為AI系統擴展的最大成本與永續阻礙,尤其在邊緣場域,對低功耗與高能效架構需求迫切。

PIM/PNM架構可視為一個涵蓋多層設計選項的技術光譜,依據資料處理距離與整合方式可分為以下兩類:

 

1. 近記憶體運算(Processing-Near-Memory, PNM)

PNM 是目前最成熟的方案。其核心設計理念是將邏輯運算單元設置在記憶體陣列的「鄰近位置」,而非直接整合進記憶體本體中。這樣的設計既保有較高的彈性與製程相容性,又可明顯縮短資料搬移距離,改善延遲與功耗。PNM的典型實作方式包括:

  • 3D堆疊邏輯層:如在HBM底部配置邏輯晶片,透過矽穿孔(TSV)高速連接上方DRAM層。Samsung的HBM-PIM即採此設計。

  • 記憶體模組整合:如Samsung AXDIMM,將AI引擎整合在記憶體模組(DIMM)Buffer Chip中,可支援多rank資料平行處理。

  • 高速互連介面:如CXL,可讓外部加速器以接近記憶體語意方式存取資料。 PNM導入門檻低,是多數記憶體廠商實現AI加速功能的首選技術;但由於邏輯與記憶體仍分離,頻寬仍受限於介面效能。

 

2. 數位記憶體內運算(Digital Processing-in-Memory, PIM)

此類架構將可程式化的數位運算核心直接整合到記憶體晶片內部,運算核心可以是單指令流多資料流(SIMD)陣列或精簡指令集(RISC)處理器。這種設計能最大化利用DRAM內部極高的頻寬。然而,它也面臨嚴峻的挑戰:DRAM製程並非為高速邏輯運算優化,導致PIM核心的運算速度較慢、邏輯密度較低,且面積與功耗預算相對有限,在設計上需謹慎權衡運算性能與能效。

如圖1所示,AI時代的記憶體系統正由傳統單一層級設計(如DDR與快取)快速演進為多層級(Multi-Tiered)、多功能(Multi-Functional)的「異質記憶體架構」。其中,PIM與PNM技術扮演關鍵角色,重新定義了記憶體不再只是資料儲存元件,而是主動參與運算的單元。圖中左側為傳統以處理器為核心、以L0/L1快取與主記憶體為主的設計;右側則呈現未來趨勢:自L0快取一路延伸至HBM/3D DRAM、DDR/LPDDR-PIM、CXL記憶體模組(CMM-D/H,屬於CXL記憶體模組架構中的Dynamic/Hybrid類型)、邊緣高頻寬SSD(例如支援RAG架構的向量資料庫),乃至大容量儲存裝置,構成一個兼顧頻寬、容量與能效平衡的記憶體金字塔。

 

資料來源:Samsung Electronics, IEEE (2025)

圖1  Memory Hierarchy of the Present and the Future

 

三、國際大廠與新創發展現況

1. 三星電子(Samsung Electronics)

三星採取覆蓋資料中心與邊緣裝置的「多線進擊」策略,整合其在製程與封裝技術上的優勢,推出多元化的 PIM 解決方案,全面搶攻 AI 運算市場:

  • HBM-PIM:針對高效能運算(High Performance Computing, HPC)與 AI 模型訓練應用,三星將 SIMD 運算單元整合至 HBM2 記憶體內部,並與 Xilinx 合作進行系統驗證。測試顯示,該方案可將整體系統效能提升至原本的 2.5 倍,並降低超過 60% 的能源消耗,展現出高度的商業潛力與能源效率。

  • LPDDR5-PIM:針對智慧型手機與 AIoT 裝置等低功耗應用,三星將 PIM 功能嵌入 LPDDR5 記憶體中,支援語音辨識、翻譯與聊天機器人等場景。模擬實驗顯示,在上述應用中能帶來超過兩倍的效能提升,並顯著降低功耗。

  • AXDIMM(PNM 架構):AXDIMM 是一種雙列直插式記憶體模組(Dual In-line Memory Module,DIMM)型態的 Processing Near Memory 架構。三星於 DIMM 的緩衝晶片(Buffer Chip)中整合 AI 引擎,實現多個記憶體 Rank 的平行處理,應用於記憶體內資料庫(IMDBMS)與推薦系統場景時,可達到約兩倍的效能增益。

  • 生態系統推動:為降低開發門檻,三星積極推動 PIM 軟體生態建設,例如開發 SYCL-PIM 等跨平台高階語言支援框架,協助開發者以熟悉語言存取 PIM 資源,並推動標準化進程。

 

2. SK 海力士(SK hynix)

相較於三星的廣泛布局,SK 海力士則專注於 AI 加速器市場,致力打造具高效能與高整合度的 PIM 系統:

  • GDDR6-AiM(Accelerator-in-Memory):SK 海力士選擇高頻寬 GDDR6 作為基礎,將 16 個處理單元(Processing Units, PU)嵌入每個 DRAM 晶粒中,支援 BF16(Brain Floating Point 16)精度。

  • AiMX 加速卡:AiMX 是 SK 海力士將 AiM 晶片模組化為 PCIe 加速卡的解決方案,直接作為伺服器端的 AI 加速器。

 

3. 美光科技(Micron Technology)

美光尚未推出自有PIM產品,而是聚焦於:

  • 高階記憶體供應商角色:美光透過提供先進記憶體技術,如 HBM3E(High Bandwidth Memory Gen 3E)與 LPDDR5X(Low Power DDR5X),成為 NVIDIA 等 AI 系統平台不可或缺的記憶體技術合作夥伴。

  • 前瞻研究參與者:積極參與由美國國防高等研究計劃署(Defense Advanced Research Projects Agency, DARPA)主導的 JUMP/JUMP 2.0 計畫(Joint University Microelectronics Program),並投入其下的 CRISP 中心(Center for Research on Intelligent Storage and Processing in Memory)。這些合作聚焦於如智慧型記憶體、新型非揮發性記憶體(NVM)應用與 PIM 虛擬化等長期基礎挑戰,無需立即商業化壓力,為下一世代技術奠定基礎。

 

4. UPMEM

UPMEM 是全球首家成功商業化可程式化 Processing-in-Memory(PIM)的法國新創公司,2025年6月被高通(Qualcomm)併購,成為其推進AI 加速與低功耗運算戰略的重要技術, 其PIM技術特色說明如下:

  • 硬體設計:將數百個通用 32-bit RISC 處理器(Data Processing Unit, DPU)嵌入 DDR4 DIMM 中,讓記憶體本身成為可編程處理單元。

  • 完整軟體開發工具鏈:UPMEM 提供完整 SDK(軟體開發工具包),協助開發者快速部署記憶體內運算應用。其強調軟體開放性與平台價值定位,與傳統封閉式 PIM 硬體形成明顯對比。

 

四、記憶體架構轉型中的機會與挑戰

記憶體從被動儲存轉型為運算參與者,是AI時代架構革新的關鍵。然而,從概念到實際落地,PIM/PNM技術仍面臨多層面的系統挑戰與應用抉擇。以下將針對「系統整合」、「軟體生態」與「應用適配」三個方向,說明目前產業在記憶體架構轉型過程中的主要挑戰與機會。

 

1. 系統整合挑戰:封裝、功耗與製程不匹配

雖然PIM/PNM概念已逐漸成熟,但在實作層面仍須面對DRAM與邏輯運算本質上製程差異所帶來的整合難題。具體挑戰包括:

  • 製程不對稱:DRAM製程以電容密度與儲存穩定為優先,難以實現高速邏輯所需的閘密度與時脈表現。

  • 散熱與功耗密度問題:將運算功能嵌入記憶體晶片內部或其鄰近位置,勢必提升局部功耗密度,對系統散熱設計構成挑戰,特別是在封裝密集的HBM與LPDDR模組中尤為明顯。

  • 封裝技術門檻:先進3D封裝技術如TSV、Hybrid Bonding雖可實現邏輯與記憶體垂直整合,但增加製造成本與良率控制難度。

這些整合限制將促使產業需在「算力提升」與「實作可行性」之間取得平衡,並根據應用需求謹慎選擇PIM/PNM落點與設計複雜度。

 

2. 軟體生態支援不足:從儲存邏輯到運算單元的軟體支援

  • PIM/PNM技術能否發揮效益,除了硬體設計,更關鍵的是軟體與系統架構是否能有效支援。在目前主流AI開發環境中,尚存在多項落差:

  • 缺乏作業系統與編譯器支援:現行OS排程邏輯與記憶體管理子系統,仍預設記憶體僅負責資料儲存,缺乏執行任務派送與PIM資源管理能力。

  • 開發者工具鏈不完善:AI應用主要透過PyTorch、TensorFlow等高階框架構建,目前並無統一標準可將PIM指令集抽象為通用API,導致各家硬體需自建封閉SDK,增加應用部署門檻。

生態系統尚待形成:儘管如Samsung已推出SYCL-PIM跨平台框架,儲存網路產業協會(Storage Networking Industry Association, SNIA)也發展Computational Storage API,但整體軟體層尚未達到如CUDA/GPU等級的成熟與普及。

換言之,從儲存裝置邏輯邁向具運算能力的記憶體單元,不僅是硬體的轉變,更是系統軟體層級的根本性升級與調整。未來若能建立開放標準與高階開發語言整合,將大幅擴大PIM/PNM的應用規模與開發彈性。

 

3. 技術選擇與應用適配:場域導向的架構選擇

PIM/PNM並非單一通用解方,而是依據應用場域、運算型態與系統限制所進行的策略性配置。在不同情境下,其設計重點與技術選擇亦存在顯著差異:

  • 雲端資料中心:以模型訓練與大型推論為主,強調頻寬與容量需求。適合導入高階HBM-PIM、AXDIMM與CXL記憶體模組等,以對應龐大的模型參數與Batch Size。

  • 邊緣AI裝置:如智慧攝影機、車用感知系統,強調低功耗與即時反應。可採用LPDDR5-PIM、LOW POWER WIDE I/O等記憶體方案,兼顧效能與能耗。

  • 行動與個人終端:如智慧手機、筆電AI助手,面臨封裝空間、功耗預算與即時性要求。可採用精簡型記憶體內運算(如UPMEM DPU)或快速存取型Wide-IO記憶體(LLW)。

在這樣的技術分布圖譜中,PIM/PNM更像是一種「模組化架構選擇」,其關鍵價值並非取代傳統架構,而是與現有系統共存並提供應用場域導向的彈性運算解決方案。

 

五、結論與未來展望

隨著人工智慧持續邁向模型大型化與場域多元化,AI 系統架構正面臨「資料瓶頸優先於運算瓶頸」的新挑戰。記憶體牆(Memory Wall)問題不僅抑制了處理器效能的充分釋放,更在邊緣運算場景中造成能耗與延遲的放大效應,使傳統以邏輯為中心的設計思維逐漸失效。

記憶體內/近運算(PIM/PNM)架構正是在此架構轉型背景中浮現的解方,其核心價值在於將運算邏輯靠近甚至嵌入資料儲存位置,突破傳統運算與儲存間的物理分離限制,提升系統的能效與延遲表現。在多數邊緣AI應用場景中,PIM/PNM 不再只是實驗室中的概念,而是具備技術可行性與商業價值的架構革新主力。

對台灣而言,這既是挑戰也是轉機。若能整合既有製程、封裝、IC設計與系統整合上的產業優勢,並結合AIoT、工業電腦與智慧終端等應用場域實務需求,將可進一步發展以記憶體為中心的AI加速架構。未來若能深化PIM設計研發、強化軟體工具鏈、積極參與標準制定與系統導入合作,台灣將有機會在全球AI運算新格局中占有一席之地。

 

參考文獻

[1] MVP Ventures. Venture Bytes #111: AI Has a Memory Problem. https://www.mvp.vc/venture-bytes/venture-bytes-111-ai-has-a-memory-problem

[2] Park, J. et al. NeuPIMs: NPU-PIM Heterogeneous Acceleration for Batched LLM Inferencing. arXiv:2403.00579, 2024. https://arxiv.org/pdf/2403.00579

[3] Chi, P. et al. A Modern Primer on Processing in Memory. arXiv:2012.03112, 2020. https://arxiv.org/abs/2012.03112

[4] Kim, T. et al. PIM Is All You Need: A CXL-Enabled GPU-Free System for Large Language Model Inference. arXiv:2502.07578v1, 2025. https://arxiv.org/html/2502.07578v1

[5] UPMEM. Technology Overview. https://www.upmem.com/technology/

[6] Samsung Electronics. Samsung SYCL-PIM Processing in Memory Technology at Hot Chips 2023. https://sycl.tech/news/2023/08/31/samsung-sycl-pim-processing-in-memory-technology-at-hot-chips-2023/

[7] SK hynix. SK hynix Debuts Prototype of First GDDR6-AiM Accelerator Card "AiMX" for Generative AI. https://news.skhynix.com/sk-hynix-debuts-first-gddr6-aim-accelerator-card-aimx-for-generative-ai/

[8] Jung, D. et al. IANUS: Integrated Accelerator based on NPU-PIM Unified Memory System. arXiv:2410.15008v1, 2024. https://arxiv.org/html/2410.15008v1

[9] Kim, Y. et al. MPC-Wrapper: Fully Harnessing the Potential of PIM Architectures via Modular Pipeline Construction. Yonsei University, FCCM 2024. https://hpcp.yonsei.ac.kr/~youngsok/files/mpc-wrapper_fccm2024.pdf

[10] FAST Research Group, University of Illinois Urbana-Champaign. PIMCOMP: A Compiler for Processing-in-Memory Architecture. https://fast.ece.illinois.edu/projects/5_project/

[11] Jaihyuk Song, Samsung Electronics.AI Revolution Driven by Memory Technology Innovation.https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10904790

 

上一篇代理商務趨勢下之生成式引擎優化...
下一篇臺灣半導體先進封裝於全球的機會...
熱門點閱
推薦閱讀
推薦新聞

若有任何問題,可使用下方檢索互動介面找解答,或是寫信到客服信箱。

itismembers@iii.org.tw

星期一~五
9:00-12:30/13:30-18:00