3D堆疊驅動下的Edge AI晶片技術探討

免費

字數 3724

頁數 7

出版作者林維林

出版單位工研院產科國際所

出版日期 2026/04/30

出版類型產業評析

所屬領域電子零組件及材料

瀏覽次數 19

加入最愛

一、前言

人工智慧(AI)應用近年快速擴展，帶動生成式AI與大型語言模型(LLM)等技術對記憶體的依賴程度不斷提高。無論是在高效能運算(HPC)或邊緣運算(Edge Computing)推論場景中，記憶體系統的頻寬與效能已成為整體系統瓶頸的核心來源。在此背景下，國際記憶體大廠如SK hynix、Samsung、Micron相繼投入高頻寬記憶體(High Bandwidth Memory, HBM)的開發與商用，並於AI伺服器、GPU加速器與資料中心系統中廣泛應用。

然而，對於邊緣 AI 裝置而言，HBM的高製程成本與封裝複雜度導致其不易普及，反而開啟了台灣記憶體業者於特定應用市場中尋求差異化創新的機會。面對「快、巧、省」的邊緣設計挑戰，國內廠商積極發展具備成本效益的 3D 堆疊記憶體技術與「類 HBM」方案，並透過 3D IC 封裝、Wide I/O 記憶體架構與矽穿孔(Through-Silicon Via, TSV)整合，構築可滿足頻寬、功耗與體積多重限制的記憶體解決方案，進一步擴大在Edge AI系統中的技術競爭力與商業價值。

二、3D堆疊技術：突破空間與頻寬瓶頸

3D IC技術核心在於單一封裝中垂直堆疊多層裸晶(Die)，並透過矽穿孔(Through-Silicon Via, TSV)或混合鍵合(Hybrid Bonding)等先進互連技術，實現高密度、高頻寬且低延遲的訊號傳輸架構。相較於傳統2D IC採用橫向佈局、訊號必須繞經封裝基板或外部導線的設計，3D堆疊不僅能顯著縮短資料傳輸路徑，還能降低訊號延遲與功耗，是目前解決頻寬瓶頸與封裝面積受限問題的關鍵技術之一。

在實務應用中，HBM(High Bandwidth Memory)是目前業界最具代表性的3D記憶體產品，其架構通常由8至16層DRAM晶粒透過TSV垂直堆疊，並與2.5D矽中介層(Interposer)上的邏輯晶片(如 GPU或AI SoC)進行高速互連。這種設計能提供遠高於DDR5或GDDR6X的記憶體頻寬，廣泛應用於生成式AI、高效能運算、繪圖加速與資料中心等領域。近年來，部分先進製程廠商則進一步發展晶片對晶圓堆疊(Chip-on-Wafer, CoW)與晶圓對晶圓堆疊(Wafer-on-Wafer, WoW)技術，透過更緊密的異質整合來提升頻寬密度與節能效率，展現出強大的系統整合潛力。

TSV垂直堆疊的效益包括：

1. 縮短資料傳輸距離與降低延遲：資料路徑顯著縮短，有助於AI工作負載的快速存取。

2. 提升頻寬：支援比傳統記憶體更寬的I/O介面，例如HBM的1024-bit通道。

3. 降低功耗：由於互連路徑縮短與I/O電壓降低，能顯著降低每位元傳輸能耗。

4. 減少佔位面積：垂直堆疊提升單位面積的記憶體密度，適合邊緣AI裝置的空間限制需求。

綜合來看，3D堆疊與TSV技術不僅重塑了記憶體架構的物理形態，也為AI晶片與邊緣運算的設計邏輯帶來根本轉變，未來將在「記憶體–運算融合」(Memory-Compute Convergence)的系統架構中扮演關鍵角色。

三、HBM 與異構記憶體架構的革新

隨著生成式AI、深度學習與大型語言模型(Large Language Models, LLM)快速發展，AI系統對記憶體的需求正從傳統的頻寬指標，擴展至容量與延遲等多維性能。傳統DRAM架構在頻寬與容量兩方面皆面臨瓶頸，難以支撐TB級模型訓練與即時推論，因而推動記憶體朝向頻寬與容量雙軸突破的整體革新。

如圖1所示，傳統多階層記憶體架構(左側金字塔)是為區域性(Locality)高的通用程式設計。其DRAM容量通常僅有數十GB，難以容納動輒數百GB或數TB的LLM參數。當資料集或模型超出DRAM容量時，系統必須頻繁地從低速的TB級儲存裝置中交換資料，導致運算單元長時間處於閒置狀態，進而造成效能浪費。

為此，高效能運算伺服器架構正朝向異構容量擴展的方向演進(圖中右側金字塔)，尤其在DRAM與儲存之間新增了關鍵的容量層次：

1. HBM的角色：作為最靠近運算核心的超高頻寬層(>10 GB)，主要負責處理模型中對頻寬最敏感的運算數據。

2. DRAM容量擴展：系統主記憶體DRAM容量大幅擴展至>100 GB，為模型和作業系統提供更大的運行空間。

3. CXL-MEM的戰略價值：CXL (Compute Express Link)技術的引入是解決容量與成本效益的關鍵。CXL-MEM作為一個新的記憶體階層(>500 GB)，它允許伺服器在保持快取一致性(Cache Coherence)的前提下，透過CXL介面擴展和池化記憶體。這不僅為大型模型提供了數百GB額外的、低延遲的容量，也打破了傳統CPU僅能透過DIMM槽位擴展記憶體的物理限制。

這種由 HBM(高頻寬)、DRAM(中容量)、CXL-MEM(高擴展性)所構成的異構記憶體階層，為 AI 系統提供頻寬與容量兼具的基礎架構，真正實現大模型訓練與邊緣推論的高效能、高彈性部署。

資料來源：工研院電子與光電系統研究所(2026/04)

圖1　AI時代記憶體階層的演進與重構

四、國內廠商的差異化策略與技術創新案例

儘管HBM與CXL等先進記憶體架構展現出突破頻寬與容量限制的潛力，但其製程高度複雜且成本高昂，使其在功耗敏感、空間有限且講求成本效益的Edge AI裝置中，難以直接導入。對台灣記憶體產業而言，這反而創造了另一條差異化突圍的技術路徑：在不完全遵循HBM標準的前提下，發展具高頻寬、高能效且具經濟規模的「類 HBM」解決方案，結合封裝創新與客製化彈性，以切入AI邊緣與垂直應用市場。

以下為主要國內業者的代表性技術路徑與策略：

• 力積電(PSMC)：以「3D AI Foundry」為核心定位，結合多層晶圓堆疊技術、異質整合封裝平台與高容值中介層(Interposer with High-Cap IPD)解決方案，與國內OSAT封裝測試廠合作建立2.5D/3D封裝平台，提供從晶圓到封裝的在地化整合服務。此舉有助於降低開發門檻並加速新創晶片產品的系統整合。

• 愛普科技(AP Memory)：推出VHM(Vertical High-bandwidth Memory)架構，主打低功耗、小尺寸與中高頻寬的Edge AI使用場景。該方案採用晶圓對晶圓堆疊(WoW)與自研的VHM Link傳輸協議，並與PSMC合作量產製造，形成高整合度的記憶體模組鏈。

• 華邦電(Winbond)：導入CUBE架構並提出「3DCaaS (3D Cube as a Service)」服務平台，主張功耗低於1 pJ/bit、頻寬達32–256 GB/s的記憶體方案，特別針對車用電子、工控設備與Edge AI應用需求，強調彈性化客製整合與產品生命週期延伸能力。

• 南亞科(Nanya)：採「製造＋設計」協同策略，與 IC 設計公司鈺創(Etron)合作，整合10 nm世代的DRAM製程技術與高頻寬控制晶片設計能力。

整體而言，台灣廠商的策略聚焦於在高頻寬、高彈性與低功耗條件下，以封裝創新與晶圓級整合技術建立區隔優勢。這些類 HBM 技術不僅可應用於邊緣推論平台，也具有進一步向車用電子、工控模組等垂直場景延伸的潛力。

在各家廠商積極導入類HBM記憶體方案的同時，另一項重要趨勢亦逐漸浮現：針對AI應用中日益嚴重的「資料搬移瓶頸」，記憶體架構也開始出現根本性的設計變革。

隨著AI應用規模快速擴張，傳統「處理器–記憶體」分離架構中所需的不斷資料搬移，已成為限制系統效能與能源效率的關鍵瓶頸。特別是在邊緣裝置與低功耗平台中，記憶體傳輸常佔據整體系統能耗的60%~80%，不僅導致處理延遲，也限制了大型AI模型的部署彈性。

為解決此一問題，記憶體內運算(Processing-In-Memory, PIM)架構開始受到廣泛關注。其核心理念為：將運算邏輯單元嵌入記憶體模組內部或近端，使資料處理可於記憶體端即時完成，從而大幅降低資料搬移頻率、減少功耗並提升系統吞吐量。此類架構特別適合以推論為主的邊緣AI應用場景，並已逐步從研究原型邁向商品化階段。

工研院電子與光電系統研究所與晶豪科技合作開發AI PIM技術創新平台(如圖2所示)，其整合多項創新技術，具體包含以下三項核心設計：

1. 3D堆疊與Wafer-on-Wafer(WoW)整合：採用晶圓對晶圓堆疊方式，將DRAM模組直接堆疊於AI處理邏輯之上，構成超短距離、平行連線的高頻寬資料通道。等效頻寬可達HBM等級，但製造成本僅約其1/10，極具經濟性。

2. 模組化DRAM架構設計：記憶體模組支援2D/3D擴充，依照模型規模或終端裝置需求配置容量與通道數。此架構具備彈性擴展能力，適用從低功耗智慧感測器至中大型邊緣推論平台等不同場景。

3. 低功耗封裝與簡化I/O電路：相較於高速SerDes(Serializer/Deserializer)接口，該平台採用低功耗直連式I/O架構，以大量低頻通道替代高頻序列化傳輸，能耗僅為傳統設計約10%，大幅降低散熱與電源設計壓力。

此項AI PIM技術最大的突破，在於完全相容於JEDEC標準，可直接替換既有系統記憶體，並內建AI推論加速功能，實現「就地運算(Compute-in-place)」。相較傳統架構需將資料頻繁搬移至處理器，PIM能於記憶體端即時完成運算，特別適合生成式AI與邊緣推論場景。藉由3D 堆疊架構，可將頻寬提升約10倍，並顯著降低整體能耗，對於以記憶體存取為主的AI應用尤具效益。

資料來源：工研院電子與光電系統研究所(2026/04)

圖2　AI PIM技術架構

五、結論

從本文的分析與探討，3D堆疊與記憶體架構重構已成為驅動AI晶片創新的核心動能。雖然 HBM在HPC領域持續主導主流技術走向，但其高門檻製程使其難以在功耗與成本敏感的邊緣場景普及。台灣記憶體廠商與工研院則從中開創出「類HBM」與AI PIM等具策略突破的技術路徑，展現出極具潛力的差異化創新能力。

首先，3D TSV與Hybrid Bonding技術不僅縮短了資料傳輸距離、降低功耗，更在有限晶片面積內提供高頻寬，對於受限於能耗與尺寸的邊緣裝置尤其關鍵。其次，國內業者透過 VHM、CUBE與客製化DRAM等方案，鎖定低功耗與高性價比市場，形成與國際大廠競爭的切入點。最後，AI PIM技術進一步將記憶體轉化為具運算能力的單元，消除處理器與記憶體間的資料搬移瓶頸，能顯著提升生成式AI與邊緣推論的效能。

整體而言，台灣在3D堆疊與PIM技術上的研發布局，雖尚難與國際三大記憶體廠在高階 HBM市場正面競爭，但已成功建立「差異化創新」路徑，兼顧成本、效能與應用彈性。未來若能進一步整合IC設計、封測及系統應用端，將有機會在Edge AI生態系中扮演關鍵角色，並帶動國內半導體產業鏈的價值升級。

參考文獻

[1] MVP Ventures. Venture Bytes #111: AI Has a Memory Problem. https://www.mvp.vc/venture-bytes/venture-bytes-111-ai-has-a-memory-problem
[2] SK hynix. HBM3E Launch Newsroom. https://product.skhynix.com/products/dram/hbm/hbm3e.go
[3] TechNews 科技新報. SK 海力士率先量產 12 層堆疊 HBM3E. https://technews.tw/2024/09/26/sk-hynix-announces-first-global-mass-production-of-12-layer-stacked-hbm3e/
[4] Reuters. Nvidia supplier SK hynix says begins mass production of 12-layer HBM3E chips. (2024/09/26) https://www.reuters.com/technology/nvidia-supplier-sk-hynix-says-begins-mass-production-12-layer-hbm3e-chips-2024-09-26/
[5] PSMC (Powerchip). 力積電推出 3D AI Foundry 強攻 AI 商機. https://www.powerchip.com/zh-tw/insights/press-releases/content/20241022_ai
[6] EETTaiwan. 突破技術限制力積電 3D AI 代工搶 AI 商機. https://www.eettaiwan.com/20241025nt11-psmc-3d-ai-foundry-breaks-2-5d-tech-limitations/
[7] Taiwan News. PSMC invests NT$2 billion in AI foundry. https://www.taiwannews.com.tw/news/5956810
[8] SK hynix Newsroom. SK hynix begins mass production of the world’s first 12-layer HBM3E. https://news.skhynix.com/sk-hynix-begins-volume-production-of-the-world-first-12-layer-hbm3e/
[9] PSMC COMPUTEX 2025 announcement. PSMC unveils 3D AI semiconductor solutions. https://ic-online.com/news/post/psmc-unveils-3d-ai-semiconductor-solutions-with-key-partners-at-computex-2025
[10] TechNews 科技新報. 南亞科與鈺創合資成立AI記憶體設計服務公司聚焦客製化類HBM技術. https://finance.technews.tw/2025/08/07/nanya-technology-and-etron-establish-a-joint-venture-with-500-million-yuan/