首頁電子資訊資訊軟體

臺灣主權AI的發展現況、挑戰與策略分析

免費
字數 7552
頁數 10
出版作者 許嘉雯、黃仁志
出版單位 中華經濟研究院
出版日期 2025/05/26
出版類型 產業評析
所屬領域 資訊軟體
瀏覽次數 838
評價分數 5人評價/4.8分
加入購物車 直接下載 直接下載 加入最愛

一、主權AI作為國家數位主權實踐的關鍵路徑

主權AI作為落實國家數位主權的重要途徑,實質上代表一種能回應在地語言文化、技術需求與治理脈絡的AI技術體系。其既是資料與演算法控制權的實現載體,同時構成維護語言主體性與認知自主性的基礎設施。臺灣長期依賴OpenAI、Meta等國際平台進行AI語言模型應用與開發,導致關鍵語料庫、演算法與模型服務權限皆受制於國外業者之手,進而弱化本地語言應用、資料隱私保障與模型行為規範的自主性。為因應此一結構性風險,臺灣透過發展TAIDE與TAME等本土主權AI語言模型之建構與訓練,正逐步擺脫「模型租賃依賴」現象,建立以繁體中文、多語語境與在地語意為核心的語言模型主體,強化AI技術主體性,從而確保語言生成能力、詮釋權與話語權可由本國掌握。

主權AI之所以能成為數位主權實踐的策略主軸,其關鍵在於其與資料治理架構的深度整合。根據分析,臺灣當前在AI模型訓練與應用場域拓展方面,主要瓶頸為公部門資料開放程度不足、資料品質參差、缺乏標準化結構,致使資料無法有效地支持模型精準化訓練與實際應用擴展。主權AI發展若搭配「AI-Ready資料庫」建置、資料信託制度與公共算力平台升級,將有助於將資料主權、模型控制權與應用責任之間整合治理框架,實現資料從取得、使用、訓練、驗證到問責的全流程可控,強化國家在數位治理層面的制度效能與戰略掌握力。

主權AI的推進應超越語言模型研發層面,積極走向「任務導向部署」與「垂直場域落地」的應用策略。以G-TAIDE(公部門共用模型)為例,其基於TAIDE語言模型,針對公務應用場景所進行的在地微調版本,已於政府公文撰寫、政策摘要與民意回應等任務上實現初步部署,顯示AI系統與本地法律語境、行政邏輯深度融合的可行性。此類應用在提升公共治理效能的同時,亦能降低語意偏誤或行政管制風險。未來若將此模式推廣至智慧製造、醫療診斷與教育體系等關鍵產業場域,並配合跨部會語料整合與系統性測試機制建置,將可同步實現數位政府轉型與產業AI化升級的雙重目標,確立主權AI作為國家數位治理與產業經濟自主發展的長期支柱角色。

總體來看,主權AI並非單一技術突破,而是重塑臺灣數位主權架構的綜合戰略方案。其核心透過打造本土模型研發能力、統整資料資源管理、建立可信任的法規治理機制與任務導向的應用架構。未來政策若能從「語言模型研發+公共算力平台建置+資料治理法制完善+場域導入工具箱建議」四軸協同推進,將使主權AI成為連結技術創新、國家治理韌性與文化自主的關鍵引擎,鞏固臺灣在全球數位主權時代的自主地位與戰略優勢。

 

二、主權AI的組構與挑戰

生成式人工智慧(Generative AI,以下簡稱生成式AI)已從產業工具演變為影響國家治理與文化主體性的關鍵基礎設施。所謂「主權AI」涵蓋語言模型的技術自主、算力與資料基礎建設、法規與倫理架構,以及任務導向的應用部署。針對臺灣現況,主權AI面臨四項結構性挑戰:以下從「技術基礎」、「運行基礎」、「治理缺口」與「應用戰略」構面加以闡述。

 

資料來源:本研究繪製。

圖1  臺灣主權AI的結構挑戰四大面向

 

(一)技術基礎:大型語言模型技術自主性的缺席

臺灣在大型語言模型仍仰賴OpenAI、Meta、Google等國際體系,授權限制與技術受控風險高。此外,臺灣在訓練本地大型語言模型所需的關鍵技術,包括分散式訓練架構(例如模型並行與資料並行)、模型壓縮(如LoRA、Distillation)、語言嵌入尚未建立自主研發能力。更根本的挑戰在於語料資源的稀缺性。臺灣缺乏規模化的繁體中文語料庫,且多數現有語料偏重新聞與官方文本,缺乏對多元社群語境、鄉土文化語言與網路俗語的深度理解能力,使得本地模型在任務導向應用上呈現語義落差與情境偏誤的問題。

 

(二)運行基礎:國家級算力與資料支援基礎建設不足

AI模型訓練與部署需要高效能運算(HPC)與資料儲存傳輸基礎設施。儘管臺灣擁有先進的半導體產業與ICT製造實力,但目前尚未具備整合型國家級AI公共算力平台,導致各學研機構與新創企業在訓練與調教大型模型時,需依賴國外資源(如AWS、Google Cloud),取得成本高昂,亦可能產生資料外洩與資安風險。同時,尚未形成針對AI訓練專用的資料共享協議、資料信託制度與跨機構合作平台。這導致模型開發的資料取得成本高、難以進行模型責任溯源與演算法審查,限制模型訓練與應用迴圈。

 

(三)治理缺口:制度規範與倫理實踐的真空地帶

臺灣尚無針對AI風險、資料授權、演算法偏誤與開源責任的法制規範,與歐盟《人工智慧法》(AI Act)或美國「AI風險管理框架」(AI Risk Management Framework, AI RMF)相比,AI治理制度面仍存在缺口。現行法制尚未明確規範AI系統的風險評估標準、資料使用授權、演算法偏誤審查與模型開源責任機制。缺乏這些基礎規範,使得政府與企業在AI應用部署上難以有效問責,也難以對外傳遞「可信任AI」的公共信賴感。

倫理治理層面,臺灣雖倡議以「以人為本的AI」為政策價值核心,但尚未與技術設計具連結的制度落實機制,例如,未建構AI開發過程中的倫理審查委員會、利益衝突揭露制度、或AI應用結果的社會影響評估,造成模型部署後的偏誤或爭議事件,弱化社會接納AI程度。

 

(四)應用戰略:從技術導向轉向任務導向的困難

臺灣多數AI應用模型仍採技術導向設計,關注模型效能與技術可行性,而非以「任務需求」為起點進行場景導入與需求分析。缺乏任務導向的應用設計,造成產業端難以理解模型的應用邊界與能力限制,形成產研合作中的資訊斷層。

舉例來說,許多企業在導入語言模型API時,對模型的訓練語料、回應策略、推論準確度、偏誤傾向等資訊難以取得,導致導入過程常需重工驗證,降低效率與信心。此外,目前尚未建立跨部會或跨產業的「共用語言模型應用測試場域」,缺乏任務導向測試用例、資料集與KPI評估指標,無法有效驗證模型效能與調整部署策略。

總結來看,臺灣推動主權AI的四大構面皆面臨結構性挑戰:在技術上依賴國際平台,在運行上缺乏本地資源支持,在治理上缺乏制度連結,在應用上缺乏任務驅動的實驗環境。若要突破當前瓶頸,未來應著重建構「開源技術+公共算力平台+倫理治理+任務導向場域」的主權AI發展體系。從制度、技術與應用三者並進,打造可持續性與國家價值導向的主權AI生態。

 

三、主權AI導入策略與產業轉型結合

隨著生成式AI技術快速成熟,主權AI正從技術研發導向,轉向以應用驅動與場域落地導向的發展模式。此轉型顯現主權AI不僅是技術資產,更是支撐數位治理、產業升級與文化自主的關鍵國家資源。因此,臺灣若欲擺脫對國際API的高度依賴,實現語言與資料的自主性,須從部署模式、企業導入能力與場域應用等多面向進行整體規劃與策略布局。

 

(一)從主權AI的地端部署到任務導向應用的制度建構與實踐經驗

首先,在部署模式上,主權AI正朝向地端部署與輕量模型應用的方向發展,以取代過往依賴雲端的集中式部署架構。此轉型有助於保障資料在地運算與國家資訊主權,並提升AI應用的即時性與可控性,特別適用於製造業、醫療場域及公共治理等具高度敏感性的應用情境。為因應多元任務需求,需同步建立任務導向的模型模板與測試環境,讓企業與政府機關能夠在真實情境中驗證模型效能與風險,提升導入成功率。

然而,企業現況反映出AI應用導入上的人才斷層。根據《2025臺灣產業AI化大調查暨AI落地指引》,目前僅有12.5%的臺灣企業具備語言模型自研能力,絕大多數則依賴國際API進行應用部署,顯示本地企業雖已接觸AI服務,但在模型選型、部署規劃與風險控管方面普遍欠缺專業能力。對此,應優先培育對模型理解、導入判斷與應用整合能力的人才,推動企業內部建立跨層級的AI導入素養,發展以任務需求為核心的應用型AI人力體系,增加企業在AI落地過程中的判讀能力。

在應用實踐方面,G-TAIDE是目前臺灣推動主權AI應用的代表性案例。該模型專為政府公務語言任務而設計,涵蓋政策摘要、公文草擬與民眾陳情回應等功能,並針對繁體中文語境與法規語言進行在地化訓練。G-TAIDE的實施驗證主權AI在公共場域的落地可行性,也建立政府資料與模型開發之間的正向反饋機制,並為未來跨部門協作提供實證基礎。此案例可作為未來推廣至智慧製造、醫療診斷與教育評量等垂直場域的範本,發展出模組化的任務導向AI應用工具箱。

 

資料來源:本研究繪製。國科會(2024/05/23)。生成式AI對話引擎TAIDE成果。https://www.ey.gov.tw/File/46B8ACB2EA1E0EAE?A=C。

圖2  TAIDE 應用案例及資料

 

綜合而論,主權AI導入策略的核心價值在於技術自主能力的建構與場域應用模式的系統化重塑。臺灣未來應建立全國性AI導入共通規格,以統一地端部署技術標準與驗證體系;強化產業模型選型輔導機制,協助中小企業制定切實可行的AI導入路徑;以G-TAIFE為基礎推動政府部門開源模型應用,促進跨部門協作與資源共享;建構公共任務導向的專業資料庫與標準化測試環境,支持模型精調及效能評估的迴圈優化。透過這些系統性部署措施,主權AI方能成為支撐臺灣數位治理轉型與產業創新升級的戰略資產。

 

(二)臺灣TAIDE、TAME與ChatGPT 4.0語用詮釋能力比較研究

臺灣主權AI發展邁入應用導向階段,技術配套與產學研協作機制的成熟度將決定其能否有效落地並形成自主生態系的關鍵因素。近年來,臺灣已陸續出現具代表性的本地語言模型雛形,包括TAIDE、TAME與FoxBrain等,顯示出在語言模型訓練與參數微調方面研發能力。這些模型多採用開源大型語言模型為基礎架構,進行本土語料轉訓與在地化優化,並結合LoRA(Low-Rank Adaptation)等參數微調技術實現地端部署,逐步具備多語任務處理與特定產業語境精準調校的能力。

在語言模型加速進入實用化的當前,模型對本地語境語意的掌握程度,已成為評估其是否實質落實於公共服務與產業場域部署的關鍵指標。以臺灣網路俚語與民間俗諺為測試案例,模型若無法準確地解讀其音義結構與語用文化背景,極易導致語意誤判、資訊詮釋偏誤,甚至引發使用者信任危機。透過「484」(是不是)與「囝仔人有耳無嘴」(小孩子應該聽話不多言)這兩則常見語彙的比較可見,雖然TAIDE與TAME皆為臺灣自研語言模型,實際在語義辨識的表現上,仍存在可信度準確率偏低與語意理解淺層化的問題。

 

表1  TAIDE、TAME、Chat GP對臺灣語境詮釋產出比較表

資料來源:本研究彙整。

 

以「484」一詞而言,ChatGPT 4.0的回覆雖無在地文化訓練背景,卻能透過諧音辨識邏輯準確推導出其實際語義,即「是不是」或「對不對」,並輔以語句實例如「你484很累?」等進一步說明。相比之下,TAIDE雖提供語境補充,卻將該詞誤解為與「多才」或「愛管閒事」等意涵相近的批評詞彙,偏離其實際用法為語助詞或疑問句結構的功能詞。TAME的解釋亦未能揭示其語音諧義來源,僅泛論其在網路上作為負面評論之語氣詞,未能形成語用結構的精確還原。

在另一語句「囝仔人有耳無嘴」的解釋中,ChatGPT 4.0指出其語意為教育兒童「多聽少說」、「尊重長輩」之禮貌表述,雖略帶道德詮釋傾向,仍能反映出俗語背後的社會文化功能。反觀TAIDE雖指出該語用關涉「尚未會說話的孩童」,但強調的是發展心理或語言障礙情境下的沉默行為,顯然將其語意誤導為生理發展問題,忽略其文化性與修辭性。TAME亦僅停留於語意描述「耳聰但不善言辭」,缺乏對俗語社會語用功能的詮釋,解釋不具深度與彈性。

由此可見,即便TAIDE與TAME標榜結合本地語料進行微調訓練,在處理具有強烈文化語境與語音結構特性的臺灣俚語時,仍顯示出以下兩大問題:其一,語用功能誤判,未能辨識用語背後的語言結構與社交情境;其二,語境再現不足,缺乏對話語料或生活情境的範例支援,使回應過於書面化與推測性。此現象顯示現階段臺灣語言模型雖具政策宣示意義,但在實質語言理解任務中仍有待強化資料廣度、任務導向精調與語境理解深度。

綜觀AI技術發展趨勢,隨著語言模型日益採用開源策略推進,如何建構可信任且可持續的開源治理框架已成為主權AI的戰略關鍵。目前臺灣尚缺乏針對本地語言模型開發與使用的版本管理制度、模型行為追蹤標準與社群協作規範,容易導致研發資源重複投入、功能定位混淆,甚至衍生違規使用風險。若能參考國際如Hugging Face與OpenELM社群的治理模式,建立完整的模型開發者貢獻紀錄、標準化評估流程與透明審查機制,並同步配套技術倫理與使用守則,將有助於維繫社群信任與模型品質保障。因此,臺灣在發展主權AI語言模型時,除應確保語料來源合法與語言文化適地化外,更需在語用訓練階段強化模型對語助詞、諧音、修辭與俗諺語境精確辨識與情境模擬能力,有效防範在公共服務應用過程中產生語意偏誤或社會認知誤導。唯有全面提升語言模型的語境判讀精度與文化適應韌性,方能實踐主權AI「在地可信、文化自主」的價值主張。

 

四、發展主權AI的資料治理策略

資料是發展主權AI的核心資產,其可近性與可用性將決定模型能否有效訓練與應用。根據下圖內容,臺灣在主權AI資料層面的發展面臨四大挑戰:「資料取得困難」、「公部門資料開放問題」、「資料品質提升需求」,以及「TAIDE模型資料擴充不足」。

 

資料來源:本研究繪製。

圖3  臺灣發展主權AI的資料取得挑戰與對應策略

 

首先,資料取得困難為結構性問題。由於現行資料多掌握於政府機關或是私部門,缺乏系統化開放授權與再利用機制,使得AI發展過程中難以取得具代表性、高品質的語料進行訓練。此外,臺灣AI研究社群在擷取具本地特性的資料時,亦經常受限於法律、隱私規範,導致訓練資料的來源侷限於少量公開資源或自行蒐集之非結構性高品質資料,進而影響模型訓練準確度與文化理解力。

其次,公部門資料雖部分已開放,卻因格式不一、更新緩慢、無API串接,或缺乏語意結構,難以直接用於AI訓練。部分單位對資料開放仍持保留態度,對開放資料的品質、用途與責任歸屬缺乏共識,導致高價值語料未被妥善地有效釋出。

第三,資料品質亦值得關注。現有語料中,常見語料偏頗、註解不明確等問題,難以支撐高階AI模型的任務精調。特別是在語言模型應用方面,若輸入語料無法反映臺灣真實語境或語言多樣性,則即使具備大量資料,其輸出表現仍會出現語義偏誤或文化脫節。

最後,TAIDE模型的資料擴充仍待加強。目前TAIDE訓練資料仍偏重科技與新聞類別,對於本土語言變異、社會文化語彙、生活語境等面向仍明顯不足,未能全面涵蓋繁體中文語境中豐富的語言風貌與語用需求,影響模型在政策、教育、服務等場域的廣泛應用彈性。

因應上述挑戰,公部門更需要積極回應資料取得與治理策略的挑戰。首先是加速政府資料開放,需建立統一資料標準,盤點與釋出可供AI應用的高品質公共語料,提升資料可用性。其次,推動跨部會共享語料資源,推動資料格式整合、API串接與使用者導向的資料產品,提升資料生命週期價值。再者,應提升AI訓練數據品質,建置AI-Ready資料庫與資料品質檢核制度,促進語料多樣性與精緻度。最後,須持續強化TAIDE模型的本地化資料發展,納入更多臺灣地區語料與生活語境語句,涵蓋在地文化、語言習慣與社會行為,使模型更能貼近臺灣真實語用場景與治理需求。

資料是主權AI的基礎資產,其取得、治理與品質優化機制的系統化為確保國家數位自主的關鍵環節。透過破除資料取得障礙、建立標準化資料治理框架與導入科學化品質管理流程,臺灣方能建構具有語言文化代表性與政策應用實效的主權AI模型體系,進而在全球AI技術競爭格局中,鞏固數位主體性並拓展自主創新發展空間。

 

五、政策建議與結論

主權AI的推動超越單純技術研發範疇,直接關乎到一個國家能否在全球數位轉型與科技自主化浪潮中維護其知識主權、資料控制權與治理自主權。對於臺灣而言,主權AI的發展面臨語言模型核心技術受制、訓練算力資源分散、法制架構不足與產業導入斷層等結構性挑戰。因此,相關政策規劃不應只聚焦於單點技術突破,而須採取系統性整合的治理模式與產業支持策略。以下提出四項策略性政策建議,作為主權AI深化推動的架構基石。

 

(一)臺灣需建立整合型的國家級主權AI算力與資料治理平台

該平台應統合高效能計算資源、跨部門語料協作機制及地端部署測試環境,支援多語任務的模型訓練與精準調校,並強化資料安全防護與國內儲存規範要求。更進一步,此平台亦應納入倫理與法規審查模組,建立AI模型從訓練、調校到應用的全流程紀錄與問責機制,作為開源可信任AI體系的核心基礎設施。

 

(二)制定任務導向的導入標準與產業共同規格

臺灣在不同垂直場域(如醫療健康、智慧製造、教育科技、公務系統)對語言模型的需求條件與應用情境高度差異化,若缺乏統一且模組化的技術標準,將不利於主權AI的規模化部署與政策成效衡量。透過建立涵蓋資料格式、任務範疇、測試流程與KPI指標的導入手冊,並協助產業導入「AI部署SOP」,可大幅降低跨場域模型應用的溝通與技術落差,提升整體導入效率。

 

(三)完善開源治理機制並推動法規配套修正

臺灣面對開源技術加速滲透的發展趨勢,此策略方向包含三個層面:(1)是建立開源模型的開發紀錄與使用授權透明機制;(2)修訂資料治理相關法規,如個人資料保護法與政府資料開放條例,以支援AI模型訓練資料的合法取得與共享;(3)明確界定模型應用責任邊界,建立違規使用追溯與問責機制,確保開源模型能在信賴架構下永續發展。

 

(四)培育「跨域應用型AI人才」與擴大公部門應用場域

臺灣主權AI生態系的形成有賴於應用型AI人才的持續培育與公部門AI應用場域的系統性開發。政府應支持跨領域教育體系的整建,發展涵蓋AI模型理解、導入實務與倫理法制的專業課程,培養懂技術也懂應用的產業實作人才。同時,可擴大G-TAIDE等語言模型在政府部門的應用場域,作為示範標竿,促成需求端(政府與產業)與供給端(模型開發者)之間的正向循環與策略對話,進一步加速主權AI的產業化落地。

上一篇2025台灣高階PCB技術發展...
下一篇美國軍工AI無人機新創Andu...
熱門點閱
推薦閱讀
推薦新聞

若有任何問題,可使用下方檢索互動介面找解答,或是寫信到客服信箱。

itismembers@iii.org.tw

星期一~五
9:00-12:30/13:30-18:00