关闭

人工智能的下一步,不再只是响应问题或生成内容,而是具备实际执行能力。微软近期发表的研究成果 NLWeb(Natural Language to Web),正是这样一项划时代的技术。它让 AI 能理解自然语言,并直接在网站上执行任务,如搜寻、点击、填写窗体等,就像一位虚拟的「网页操作助理」。

什么是 NLWeb?

NLWeb 是微软研究团队最新开源的 AI 模型训练框架与数据集,其核心目标是:让 AI 理解人类的语句,并以人类的方式使用网站来完成任务。
与传统 AI 助理透过 API 或默认指令流程不同,NLWeb 能实际在网站接口上操作,等同于模拟一个具备网页互动能力的真人使用者。
举例来说:
使用者输入:「帮我查询今天从台北飞往东京的最便宜机票。」
NLWeb 能自动打开订票网站、输入关键词、选择正确字段、筛选条件,最终将搜寻结果回传给使用者——整个过程不需开发者事前串接 API,也无需网站配合开放资料。

技术亮点
  1. 从「语意」到「操作」的跨模态推理

NLWeb 最大的技术突破,在于将自然语言处理(NLP)与网页结构理解(HTML DOM 分析)结合。模型需判断:

  • 用户指令的真实意图
  • 哪些网页组件可以被操作(如按钮、输入框)
  • 正确的互动顺序与逻辑
这不只是「看懂」指令,更是能「执行」指令。
  1. 广泛的网站适应力
相较于依赖 API 的方式,NLWeb 对网站无需任何改造。只要网站是公开的、前端元素清晰(例如窗体、筛选器等),AI 理论上就能学会如何操作。这大幅扩展了 AI 实用场景,无论是电商平台、订票网站、政府数据查询系统,都可能被 AI 操作。
  1. 高拟真任务数据集:WebAgent
微软为此打造一套名为 WebAgent 的任务导向数据集,涵盖数千个网站操作任务,从简单的「查询天气」到复杂的「预约看诊」。研究人员也透过仿真器训练,让 AI 累积多样的操作经验,并强化容错能力。
应用想象:AI 助理不只会说话,还能「帮你做」
NLWeb 所呈现的能力,正是下一代 AI 助理的关键要素:
  • 查询任务:查航班、找餐厅、看汇率
  • 操作任务:填表单、完成注册、预约服务
  • 复合任务:比价、设定条件筛选、提交结果
这些在过去需仰赖使用者手动操作、或等待平台开发介接的工作,未来透过自然语言输入就能完成,真正实现「一句话,搞定一件事」。
挑战与展望
当然,NLWeb 技术尚在研究阶段,仍面临几项挑战:
  • 动态网页内容的稳定性(如 JavaScript 载入)
  • 隐私与安全控制(防止误操作、信息外泄)
  • 跨语言与跨地区语境的语意理解

但随着模型持续训练与生态系扩展,NLWeb 有潜力成为未来 AI 系统的「网页操作层」,让 AI 真正走出数据库,学会使用我们正在使用的网络。

结语:从问答到行动,AI 正在进化

NLWeb 的出现,象征 AI 从「语言生成」迈向「行动执行」的新阶段。它不再只是提供答案,而是成为能主动完成任务的数字代理人(AI Agent)。对于企业、开发者与使用者而言,这将开启一种全新的数字互动模式——让 AI 为我们「操作整个网络」。