關閉

人工智慧的下一步,不再只是回應問題或生成內容,而是具備實際執行能力。微軟近期發表的研究成果 NLWeb(Natural Language to Web),正是這樣一項劃時代的技術。它讓 AI 能理解自然語言,並直接在網站上執行任務,如搜尋、點擊、填寫表單等,就像一位虛擬的「網頁操作助理」。

什麼是 NLWeb?

NLWeb 是微軟研究團隊最新開源的 AI 模型訓練框架與數據集,其核心目標是:讓 AI 理解人類的語句,並以人類的方式使用網站來完成任務。

與傳統 AI 助理透過 API 或預設指令流程不同,NLWeb 能實際在網站介面上操作,等同於模擬一個具備網頁互動能力的真人使用者。

舉例來說:

使用者輸入:「幫我查詢今天從台北飛往東京的最便宜機票。」

NLWeb 能自動打開訂票網站、輸入關鍵字、選擇正確欄位、篩選條件,最終將搜尋結果回傳給使用者——整個過程不需開發者事前串接 API,也無需網站配合開放資料。

技術亮點
  1. 從「語意」到「操作」的跨模態推理

NLWeb 最大的技術突破,在於將自然語言處理(NLP)與網頁結構理解(HTML DOM 分析)結合。模型需判斷:

  • 使用者指令的真實意圖
  • 哪些網頁元件可以被操作(如按鈕、輸入框)
  • 正確的互動順序與邏輯

這不只是「看懂」指令,更是能「執行」指令。

  1. 廣泛的網站適應力

相較於依賴 API 的方式,NLWeb 對網站無需任何改造。只要網站是公開的、前端元素清晰(例如表單、篩選器等),AI 理論上就能學會如何操作。這大幅擴展了 AI 實用場景,無論是電商平台、訂票網站、政府資料查詢系統,都可能被 AI 操作。

  1. 高擬真任務資料集:WebAgent

微軟為此打造一套名為 WebAgent 的任務導向數據集,涵蓋數千個網站操作任務,從簡單的「查詢天氣」到複雜的「預約看診」。研究人員也透過模擬器訓練,讓 AI 累積多樣的操作經驗,並強化容錯能力。

應用想像:AI 助理不只會說話,還能「幫你做」

NLWeb 所呈現的能力,正是下一代 AI 助理的關鍵要素:

  • 查詢任務:查航班、找餐廳、看匯率
  • 操作任務:填表單、完成註冊、預約服務
  • 複合任務:比價、設定條件篩選、提交結果

這些在過去需仰賴使用者手動操作、或等待平台開發介接的工作,未來透過自然語言輸入就能完成,真正實現「一句話,搞定一件事」。

挑戰與展望

當然,NLWeb 技術尚在研究階段,仍面臨幾項挑戰:

  • 動態網頁內容的穩定性(如 JavaScript 載入)
  • 隱私與安全控制(防止誤操作、資訊外洩)
  • 跨語言與跨地區語境的語意理解

但隨著模型持續訓練與生態系擴展,NLWeb 有潛力成為未來 AI 系統的「網頁操作層」,讓 AI 真正走出資料庫,學會使用我們正在使用的網路。

結語:從問答到行動,AI 正在進化

NLWeb 的出現,象徵 AI 從「語言生成」邁向「行動執行」的新階段。它不再只是提供答案,而是成為能主動完成任務的數位代理人(AI Agent)。對於企業、開發者與使用者而言,這將開啟一種全新的數位互動模式——讓 AI 為我們「操作整個網路」。

Source: https://www.ithome.com/0/854/324.htm

 


 

聯絡我們