一、機器人大腦能力的實現:大模型
回顧機器人的發展歷程,傳統的工業機器人、協作機器人等,必須依照預先設定的程式步驟執行固定作業,或依靠感測器調整自身行為。如今隨著人工智慧模型的導入,所謂的具身智慧型機器人具備智慧化程度高、工作場景限制少,且能自主規劃複雜任務等特點。
具身智慧指的是透過物理實體(例如機器人)與環境交互來實現智慧增長的智慧系統,根據使用用途和場景的不同,具身智慧可以呈現多種形態,例如智慧機器人、搭載AI系統的大型工業設備、自動駕駛車輛等,皆屬於具身智慧的實體化形式。此概念可從三大要素來理解:「本體+環境+智慧」。首先,本體通常是機器人等具備物理實體的載體,形式包含人型機器人、四足機器人、無人車、無人機等,具備環境感知、運動與操作執行的能力,是串聯數位世界與物理世界的橋樑;而本體的能力邊界,也會直接影響智慧體的表現。其次是與環境的交互能力,具身智慧不僅能夠感知環境,也能透過行動影響環境,並在持續互動中學習與適應。
一般而言,我們可以將一台機器人本體劃分為「大腦」、「小腦」與「肢體」三個部分,分別對應決策與交互模組、運動控制模組與執行模組。大腦技術的發展,主要涵蓋機器人對環境感知、行為控制與人機互動等能力,如圖1所示。其包含多模態融合、大規模資料集、雲邊端整合運算架構等多項技術。現今機器人大腦的核心為人工智慧大模型技術,透過多模態建模、強化學習、地圖建立與資料訓練,可統籌並協調機器人各項功能。「大腦」是機器人智慧與高階決策的核心所在,也是區別具身智慧時代機器人與傳統以程式控制為主的工業機器人、協作機器人的關鍵所在。
資料來源:工研院產科國際所 ITIS研究團隊整理(2025/09)
圖1 機器人軟體構成示意
讓機器人大腦實現突破的最核心推動力,是大型人工智慧模型(大模型)。大模型的能力與機器人的需求高度契合,只需告訴機器人任務內容,它便能理解要執行的工作,進行任務拆解、動作規劃,並生成應用層的控制指令;同時在執行過程中根據回饋進行動作修正,最終完成由人類指派的任務。整體流程基本上不需要、或僅需少量人為介入與確認;理想狀況下,即使是不具備機器人操作專業知識的應用工程師,也能順利投入使用與部署。
二、機器人大腦算力的運行:雲端運算
現今我們談論大模型深度賦能機器人智慧時,其中一項關鍵技術就是雲端運算,因為它提供了必要的運算資源與資料儲存空間。雲端運算最大的特點,是能透過網路依照即時需求,彈性地取得擴展性高的運算資源。
近年發展的多項大型模型大幅提升了機器人的智慧表現,例如 Google 推出的 PaLM-E 模型,融合了ViT Vision Transformer的220億個參數與PaLM的5,400億個參數,整合了處理機器人視覺與語言的能力;而ChatGPT所代表的NLP革命性突破,強化了機器人在語音語義分析與人機互動模組的效能,使泛用型機器人更能理解複雜指令與目標,並做出更符合人類期待的決策。
隨著人工智慧與大模型的應用日益深化,自主移動型機器人對算力的需求愈發強大,而雲端運算正是提供這些算力與儲存空間的關鍵基礎。
雲端運算是一種分散式運算架構,透過網路將大量資料運算任務拆解為無數個小程式,並由多台伺服器所組成的系統進行平行處理與分析,最終將結果回傳給使用者。
雲端運算依據服務類型大致可分為三層:
(1)IaaS(Infrastructure as a Service,基礎設施即服務):提供伺服器、儲存裝置等 IT 基礎建設。
(2)PaaS(Platform as a Service,平台即服務):提供運算、網路、開發工具等資源,供用戶開發應用程式。
(3)SaaS(Software as a Service,軟體即服務):透過網路按需提供應用程式與服務。
雲端機器人結合雲端運算(包含雲端儲存、雲端處理等)與其他技術(如大數據分析、機器學習等),進一步提升機器人的整體功能。其基本架構包括三個組成部分:
(1)機器人本體:負責與外部環境互動,包含感測器輸入(如視覺、觸覺、聲音)與執行動作。機器人本身具備一定的計算能力,可進行簡單資料處理與初步決策,並透過網路介面連接至雲端。
(2)網路連接:為機器人與雲端伺服器間的資料傳輸橋樑。需具備足夠頻寬、穩定性與安全性,確保資料傳輸的準確與可靠。
(3)雲端伺服器:為整個架構的核心,提供大規模資料儲存與強大計算能力,支援數據分析、機器學習模型運行與應用系統部署。機器人可透過雲端共用資料並完成複雜任務。
根據Global Market Insights統計,2022年全球雲端機器人市場規模達41億美元,預計2023至2032年之間的年複合成長率超過22.5%。其中,SaaS領域約占整體市場規模的40%,這顯示隨著機器人市場擴張,雲端運算基礎設施將成為智慧機器人產業的核心剛性需求。
目前已有業者應用雲端機器人架構技術來提升醫療服務的效率與品質。這類機器人多配備大容量收納艙、高解析度雙目攝影機、高精度導航定位系統、感知避障設備(如超音波雷達、光達)與無線網路模組,使其具備即時感知與自我導航的能力。
透過無線區域網路、4G或5G,這些機器人可與雲端伺服器連結,並整合醫院管理系統與配送路徑規劃系統,不僅實現藥品與人員的追蹤,還可自動搭乘電梯與返回充電。
因此我們觀察到雲端運算為AI、大模型與機器人的結合提供了強大算力與資料儲存支援,也賦予機器人靈活獲取資源與演算法的能力,具高度擴展性與應用潛力。
三、機器人高效穩定的關鍵:邊緣運算
雲端運算雖然是機器人算力的主要來源,但在實際應用上仍有幾項必須考量的問題,例如資料傳輸成本、延遲時間與安全性等。首先,大型資料中心面臨算力邊際效益遞減的現象,當算力規模持續擴張,單位算力成本反而上升,這會限制集中式雲端運算的發展;其次,網路效能也可能成為資料中心發揮效益的瓶頸,加上長距離資料傳輸容易造成延遲,而資料安全性與隱私性也同樣是企業不可忽視的顧慮。
這些挑戰凸顯了邊緣運算的應用潛力。近年來我們已見到相關應用實例:例如達明機器人展示了搭載TI(德州儀器)TDA4x處理器的機械手臂,該機器手臂能透過視覺捕捉人的動作並進行模仿;特斯拉也針對其Optimus機器人開發了DOJO D1晶片,作為支撐邊緣算力的核心元件;這些都說明邊緣運算在高速、穩定且即時的資料處理上展現出顯著優勢。
以工業機器人為例,部分工廠的設備管理人員並不會把機器人、感測器等設備的資料全部透過聯網上傳到雲端,以防止資料被竊取或駭客入侵破壞的情況發生。邊緣運算的處理方式更靠近設備或資料來源,能夠實現更低的時間延遲、更好的隱私與更低的成本,未來雲端與邊緣整合運算應能讓機器人實現突破網路環境的限制,縮短回應時間,提高其在複雜場景中的自我調整能力和應用價值。
四、結語
大腦智慧水準的提升有望成為機器人自主性與泛化性提升的核心推動力。具體來說,多模態融合感測技術可以將視覺、觸覺等不同模態的資料直接輸入到深度神經網路中,透過聯合學習實現多模態資訊的融合,以獲得更準確的環境表徵。雲邊端一體計算架構透過軟硬體協同設計,針對機器人應用的特點進行優化,可以大幅提升系統的即時性、能效比和可靠性。機器人的未來將會是整合雲、邊、端不同層級計算資源的優勢,實現具身大模型推理、多模態感知的高度協作。