一、手術機器人發展趨勢
長期以來,手術機器人的競爭核心始終聚焦於硬體端的物理表現,如機械手臂的精密度、自由度與力回饋(Force Feedback)感測。然而,觀察Intuitive Surgical、Medtronic、Johnson & Johnson及CMR Surgical等國際大廠近兩年的戰略佈局,可以發現產業重心已從單純的硬體競爭,轉向決策智慧化手術輔助,如Medtronic的Touch Surgery雲端平台或Da Vinci 5的My Intuitive+系統等。上述領先企業不再僅追求機器手臂的靈活度,更致力於構築一個整合性的數位化手術生態系,將人工智慧(Artificial Intelligence ,AI)融入術前規劃、術中即時決策,以及術後成效分析。整合性的數位化手術生態系標誌著手術機器人已從單純的執行工具,進化為具備情境感知與臨床預判能力的智慧合作夥伴。
目前的機器人輔助手術(Robotic-Assisted Surgery, RAS)系統多屬主從式架構(Master-Slave Architecture),核心概念是將醫師的手部動作精確轉譯為機器手臂的位移,而機器手臂僅是醫師手術刀的延伸,每一毫米移動都必須由人類即時掌控,系統本身並不具備任何獨立感知的決策能力。然而,這種高度依賴人類操作的模式,卻受限於人類生理極限,包括長時程手術導致的疲勞、手部生理震顫,以及在非剛性組織操作維持一致的困難性,均成為手術併發症的風險來源。為了跨越這道人為誤差的門檻,一種能夠在手術過程中分擔決策壓力、具備自主反應能力的系統應運而生。
推動自主手術機器人普及應用的另一大動力來源,則是熟練外科醫生和醫療專業人員的嚴重短缺。根據美國醫學院協會(AAMC)2024年3月的報告,預計到2036年,美國將面臨多達19,900名外科醫生的缺口。自主手術機器人的導入,能夠大幅減輕醫師的體力負荷,讓有限的醫師人力發揮更高的臨床價值,在兼顧手術安全性的標準下,降低外科手術專業人力缺口。
據ResearchandMarkets的報告指出,全球全自動手術機器人2025年市場規模已達26.1億美元,預計將以16.7%的年複合成長率(CAGR)持續增長,並在2030年達到56.4億美元。增長動能主要來自於對微創手術(Minimally Invasive Surgery, MIS)日益增長的市場需求,以及人口高齡化帶來的複雜手術量激增。產業對於手術自動化也逐步定義出技術分類層級。首先是針對單一、短時程基本動作的「技能級自治」(Skill-level Autonomy),如自動拾取針頭或簡單的組織提拉;其次是能自主完成特定功能子任務的「任務級自治」(Task-level Autonomy),如自動腸道吻合;最終則是「步驟級自治」(Step-level Autonomy),系統不僅能處理長時程的手術環節,更具備在複雜流程中進行自我校正(Self-Correction)與環境自適應(Adaptive)的能力。
二、手術機器人自主化技術演進之路
(一)2016年用於軟組織吻合的首款自主機器人之星(STAR)
智慧型軟組織自主機器人(Smart Tissue Autonomous Robot, STAR)的問世,是自主手術機器人史上的第一座里程碑。2016年,由Shademan等人提出的研究,首次展示在活體豬隻腸道吻合術(Intestinal Anastomosis)中的監督式自主縫合能力[1]。第一代STAR整合了三維(3D)與近紅外(Near-infrared, NIR)螢光影像系統,並結合力回饋與高精度定位技術。
該系統的核心在於將資深醫師的手術習慣轉化為軟體演算法,由電腦自動規劃最佳的縫合路徑與針距。實驗結果顯示,STAR的縫合間距變異數為所有技術中最小,展現了高度穩定的半自主縫合邏輯,在面對動態且易變形的軟組織時,其靈巧度與專家相當,平均失誤次數不到一次;在腸管吻合術中,平均管腔縮減率僅約13.9%,遠低於臨床阻塞臨界值;活體吻合平均總耗時為50分鐘,完全符合臨床腹腔鏡手術30至90分鐘的標準範圍。雖然仍需人類監督,但STAR已初步展示出在特定任務上優於專家手動手術、傳統腹腔鏡手術及臨床機器人輔助手術的卓越成效。
(二)2019-2022年STAR延伸至腹腔鏡手術
2019年,STAR系統成功將技術擴展至空間狹小的腹腔鏡場景(Laparoscopic)環境。Saeidi等人透過整合新型3D成像內視鏡與特製的多軸驅動縫合工具(Actuated Suturing Tool),系統以3D點雲重建切口幾何並自動規劃縫合點,之後由高階任務規劃與低階運動控制閉環執行完整的結節加連續縫合流程,使系統得以在受限的視野中執行精確任務[2]。在針對縫合訓練墊的對比實驗中,由於具備極高的定位準確度,STAR達成零修正的完美表現(人類醫師平均每場需修正1.6次),有效將不必要的組織損傷降至最低;在控制縫合深度的咬合大小(Bite Size)指標上,STAR的穩定度已完全與人類專家持平;在連續縫合的間距控制上,STAR的穩定度比經驗豐富的外科醫生高出2.9倍。顯示該系統在模擬環境下的縫距一致性,與避免重複穿刺能力上,已展現出超越專家醫師的工程潛力。然而,該系統仍屬監督自治,需要人工圈選範圍(ROI),並由助手管理縫線與協助打結,因此為仍需要人力的介入才可以運作的自動系統。
2022年Krieger團隊將此架構應用於腹腔鏡小腸端對端吻合術(End-to-end anastomosis),並引入增強自治策略(Enhanced Autonomous Strategy)[3]。在此模式下,系統能自動產生多個手術計畫供醫師選擇,一旦計畫確認,從針刺、縫線到拉緊等吻合步驟,均由機器人完全獨立執行。體外模型(Phantom)在模擬呼吸動態的狀況下,STAR的平均縫合間距與咬合深度精準,均符合3毫米的技術標準,變異係數(COV)僅26.4%,顯著優於機器人輔助手術的 41.4%,有83.1%的縫線在初次嘗試即成功。
在豬隻活體(In-Vivo)手術中,儘管面臨組織水腫與呼吸擾動,STAR仍達成66.3%的初次下針成功率。STAR完成手術的平均總時間為62分鐘,其中為了應對組織變形與呼吸擾動,系統必須偵測呼吸靜止、重新收集3D點雲影像,以及計算並生成新縫合路徑的整體流程,進行額外的路徑規劃,每次約耗時2.8分鐘。術後一週的組織學檢查顯示,傷口癒合狀況與發炎反應與傳統手術無異。此研究在特定的腸吻合任務上實現高度自主性,但仍依賴人類進行計畫選擇與術中監控,屬於高自主但仍未達零介入的型態。
(三)2024年μ-STAR精度再次提升,觸及顯微外科手術
2024年發表的μ-STAR(micro?STAR)將觸角延伸至精度要求極高的顯微外科。Haworth等人針對小口徑血管的自動血管吻合,整合具光學同調斷層掃描(OCT)與微型相機的縫合工具,實現即時組織偵測與分類[4]。研究團隊在直徑約5毫米的離體真實血管上進行實驗,系統能自動規劃及執行中斷縫合路徑。研究數據顯示,μ-STAR在實驗中達成了高達90%的完全自主縫合比例;在縫線間距一致性上,μ-STAR的變異係數僅為30%,顯著優於部分人類醫師(約62%)。
咬合深度(Bite Depth)控制上,平均誤差僅約0.4毫米;其氣泡滲漏測試(Bubble Leak Test)的防漏壓力與管腔縮減率表現均與資深顯微外科醫師相當,展現了極高的臨床競爭力。這項進展解決了微血管手術中人類肉眼與生理震顫的瓶頸,標誌著自動化精度正式跨入次毫米級(Sub-millimeter)領域,但仍有約10%縫針需要人為介入或修正(如術前裝載與術中拉線、手動打結、OCT血管邊緣偵測失敗、錯誤辨識血管邊緣、偵測到漏針等),因此同樣屬非嚴格意義上的完全自主。
(四)STAR系列的限制
縱觀STAR系列的發展歷史,證明在特定功能性任務中,機器人已具備優於人類的一致性與品質穩定度。但即使STAR與μ-STAR系列在精準執行手術任務的層面上已十分優秀,但核心架構仍主要基於解析模型(Analytical Model)與影像導引最佳化路徑規劃,意味著系統雖精於執行計畫,但在面對複雜手術中的非預期狀況(如出血、視野遮蔽或組織大幅度變形等)時,缺乏靈活的自我校正能力。為了進一步強化手術機器人的自主性,研究開始從「任務級自治」向「步驟級自治」邁進。
三、SRT-H全自動手術機器人
(一)全自動膽囊切除術
2025年,由專精手術機器人控制的約翰霍普金斯大學(Johns Hopkins University ,JHU) Axel Krieger團隊與擅長人工智慧模仿學習的史丹佛大學(Stanford University) Chelsea Finn團隊跨校協作,開發出的SRT-H(Surgical Robot Transformer-Hierarchy)賦予了系統真正的決策大腦[5]。這項技術標誌著全自動手術從實驗室展示步入臨床實務的可能性,將手術自動化從單一動作的「技能級」與子任務的「任務級」,正式推升至跨時程、多步驟的「步驟級」自治。在驗證實驗中,SRT-H挑戰外科領域中常見但具高度變異性的膽囊切除術(Cholecystectomy)。面對8個完全陌生的離體豬隻膽囊樣本,SRT-H在全程零人為干預的情況下,獨立且連續地完成了包含識別組織邊界、劃定切除邊緣與剝離在內的17個連續步驟,最終達成100%的手術成功率。實驗數據顯示,其運動軌跡比人類專家更短且完全無生理震顫,展現了超越傳統機器人輔助手術的穩定性。SRT-H的成功,標誌著自動化技術正式從任務級跨越至步驟級的分水嶺。
(二)從SRT到SRT-H
SRT-H的突破並非一蹴而就,其前身為早期開發的SRT (Surgical Robot Transformer)原型系統。SRT的核心貢獻在於證明了透過模仿學習(Imitation Learning),系統能有效從人類醫師的示範影片與運動學軌跡(Kinematics)資料中,內化出高難度的技能操作。這類操作包含自動拾取手術針、精確提拉變形軟組織以及基礎的打結技術。在實驗階段,SRT在數天的訓練後即可達到接近人類專家的操作穩定度,打破傳統解析模型難以處理非線性組織形變的技術屏障。然而,早期的SRT由於其平坦化(Flat)的單層架構難以應對長時程規劃(Long-Horizon Planning)的複雜需求。
真實手術中,步驟間具備高度的邏輯關聯,傳統的端對端(End-to-End)學習方案在面對多個連續步驟時,容易產生誤差累積(Compounding Errors)。一旦其中一個動作因視野出血、煙霧干擾或組織偏移而出現微小偏差,系統往往無法理解當前的臨床狀況,進而導致整個手術規劃崩潰,且缺乏操作失敗後自行進行策略調整的恢復機制。
為了跨越這道技術鴻溝,新型態的SRT-H應運而生,關鍵創新在於導入分層化 (Hierarchy)的架構概念。研發團隊利用「語言」作為抽象化的溝通瓶頸(Communication Bottleneck),將原本混亂的視覺資訊轉化為具備語義標記的長程指令。這種設計讓系統能將複雜的手術流程拆解為「高階策略規劃」與「低階軌跡執行」的協作模式,賦予機器人如同資深外科醫師般的應變思維,使其具備從單一任務跨越至全流程自動化的實戰能力。
(三)SRT-H核心技術
為了訓練和評估SRT-H系統,團隊收集了16,000條機械手臂軌跡數據(約17.5小時),這些數據來自兩位具備實務經驗的專家親手執行的34個離體豬膽囊切除手術,並透過達文西研究套件(da Vinci Research Kit, dVRK)進行蒐集。不僅記錄坐標位移,更捕捉專家在面對不同形狀、濕度與韌性的生物組織時,如何動態調整夾取力道與移動路徑。此數據集賦予AI極強的泛化能力,使其即便在面對從未見過的組織異質性或解剖結構變異時,仍能展現出如資深主刀醫師般的穩定手感與空間直覺。
在架構層面,SRT-H採用了一套仿照醫院外科教學體系的層級化模仿學習策略,將系統拆解為互補的「主管與員工(Supervisor-Worker)」模式,核心目的在於達成時間抽象化,讓系統能同時兼顧全局長時程策略與局部的高精度操作。負責決策的高階規劃器(主管)運作於高度抽象的語言空間,並以Transformer架構為底層核心,持續觀察即時手術影像並根據組織當前狀態產出任務級別的語言指令。這些指令並非隨意的自然語言,而是基於一套針對手術流程特化的固定詞彙庫(Surgical Vocabulary),將複雜的手術拆解為離散且具明確語義的步驟標記,如抓取膽囊管或施加張力。與此相對,運作於運動學空間的低階軌跡規劃器(員工)則扮演執行者的角色,專門接收來自高階規劃器的指令,並結合當前的視覺影像資訊,將抽象的語義指令精確映射為機器手臂在3D空間中次毫米級(Sub-Millimeter)的物理位移與夾爪開合動作。
以語言作為兩層架構間溝通瓶頸的設計,是SRT-H最關鍵的技術核心所在。語言具備強大的總結化與去噪能力,能有效過濾感測器在手術過程中因出血、反光,或排煙產生的瑣碎影像噪點,確保高低階策略之間具備明確且具邏輯性的協作關係,從根本解決傳統端對端AI模型中常見的累積誤差問題。SRT-H透過校正標記與校正指令機制,讓主管AI能透過視覺反饋即時偵測到執行偏差,例如當員工AI因組織滑脫而未能精準夾取時,主管AI會立刻識別出狀態偏離,並在語言空間發出精確的修正指令,如「位置偏移,向右修正3毫米並重試」,讓機器人即便在視野受遮蔽或狀態非預期偏移時,仍能不間斷地自主完成全流程操作,使其能從實驗室的理論模型邁向臨床實戰。

資料來源:SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning [5]
圖1 SRT-H系統架構
四、結論
1. 全自動手術機器人發展突破,商業化仍需謹慎評估
全自動手術機器人從早期STAR系列在軟組織縫合上與專業醫師能力對標,到2024年μ-STAR在微觀領域實現亞毫米級的精準突破,技術演進始終圍繞著如何克服生物組織的非線性形變。2025年SRT-H框架的問世,透過語言條件分層模仿學習,成功解決長時程、多步驟任務中的累積誤差與規劃瓶頸,達成17個連續步驟、100%成功率的膽囊切除實驗里程碑。證實機器人在特定術式下具備完全取代人類手動操作的潛力,更預示「步驟級自治」已具備工程上的可行性。然而,儘管實驗結果令人振奮,要將這類高自主手術系統轉化為可商業化的醫療器材,仍需面對極其嚴峻的挑戰。
目前的卓越成果多基於離體器官或模擬模型,但在真實的人體手術中,流血導致的視覺干擾、呼吸與心跳帶來的組織脈動,以及個體間極大的差異性,都會產生不可預期的結果。此外,現有系統普遍缺乏觸覺回饋(Haptic Feedback)感測,機器人無法如資深醫師般透過手感來判斷組織彈性,使得機器人在處理脆性較高的病灶時將面臨安全性挑戰。除了工程瓶頸,法規認證與法律責任歸屬的高牆亦不可忽視。目前美國食品藥物管理局(FDA)與各國監管機構對於AI系統進行介入操作尚缺乏成熟的審核標準,當手術過程中AI發生決策偏差時,法律責任的歸屬究竟應落在醫院、醫師還是設備製造商,仍是目前政策制定者急需建構的共識。
2. 全自動手術機器人的下一步:構建「手術通用基礎模型」
如何幫助醫師跨越生理疲勞的限制,並化解醫療資源分配不均的難題,是全自動手術機器人的發展初衷,這項願景與當前火熱的「通用型AI機器人」發展方向有許多雷同之處。與我們在工廠或家庭場景中所見的通用型機器人相似,手術機器人同樣追求從感知到行動的無縫銜接,並同樣依賴視覺語言模型(Vision-Language Models ,VLM)來理解複雜指令。
借鏡通用型機器人的發展經驗,全自動手術機器人的下一步預期將邁向「手術通用基礎模型」的構建。目前SRT-H仍受限於預設的語義標記與固定詞彙庫,但未來更強大的通用AI將賦予機器人深度理解手術目的與流程的能力。意味著系統將不再只是執行如抓取或切割的簡單指令,而是能基於海量醫學文獻與手術影像資料庫,具備如同資深外科醫師般的臨床推理能力。在面臨非預期的臨床狀況時,AI將能主動評估多種救援方案並自主進行策略轉換。此外,透過數位孿生(Digital Twin)技術在雲端建構的高物理真實性虛擬手術場景,人工智慧能如同通用機器人在虛擬環境中學習走路般,在虛擬手術室進行數百萬次的極端狀況模擬,有效提升高品質訓練數據的獲取效率並縮短模型優化週期,預期未來將會有更多相關技術發表問世。
然而,全自動手術機器人的獨特性在於其要求系統必須具備比通用機器人更高的精確度與更小的犯錯空間。通用型機器人在日常場景中容許一定的錯誤率,但手術室是零容錯的嚴苛環境。因此,必須在通用型機器人之演算法基礎上構建一套更高階安全的防護機制,全自動手術機器人才有機會真正從實驗室往臨床端邁進。
參考資料
[1]:Shademan A, Decker RS, Opfermann JD, Leonard S, Krieger A, Kim PC. “Supervised autonomous robotic soft tissue surgery.” Sci Transl Med. 2016 May 4;8(337):337ra64. doi: 10.1126/scitranslmed.aad9398. PMID: 27147588.
[2]:Hamed Saeidi, Hanh N. D. Le, Justin D. Opfermann, Simon Le'onard, Aylin Kim, Michael H. Hsieh, Jin U. Kang, Axel Krieger. “Autonomous Laparoscopic Robotic Suturing with a Novel Actuated Suturing Tool and 3D Endoscope”, 2019 International Conference on Robotics and Automation (ICRA), 2019, https://api.semanticscholar.org/CorpusID:199541914
[3]:H. Saeidi et al. ,”Autonomous robotic laparoscopic surgery for intestinal anastomosis.” Sci. Robot.7,eabj2908(2022).DOI:10.1126/scirobotics.abj2908
[4]:Jesse Haworth, Rishi Biswas, Justin Opfermann, Michael Kam, Yaning Wang, Desire Pantalone, Francis X. Creighton, Robin Yang, Jin U. Kang, Axel Krieger. “Autonomous Robotic System with Optical Coherence Tomography Guidance for Vascular Anastomosis”, https://doi.org/10.48550/arXiv.2410.07493
[5]:Ji Woong Kim, Juo-Tung Chen, Pascal Hansen, Lucy X. Shi, Antony Goldenberg, Samuel Schmidgall, Paul Maria Scheikl, Anton Deguet, Brandon M. White, De Ru Tsai, Richard Cha, Jeffrey Jopling, Chelsea Finn, Axel Krieger. ”SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning”, https://arxiv.org/abs/2505.10251