微软开发纯视觉GUI解析工具OmniParser，强化AI跨平台操作能力

微软人工智能纯视觉GUI代理程序OmniParser，能够提升多模态人工智能模型，诸如GPT-4V在多平台环境的互动准确性和效率。OmniParser依赖纯视觉技术，将屏幕截屏转换为结构化数据，并运用语义标注技术，使得人工智能能够自动识别和操作GUI中的互动元素，替人机互动创建基础。

诸如GPT-4V等多模态人工智能模型，在图像和文本方面展现了强大的处理能力，但是要应用在操作GUI，目前的多模态模型面临一些挑战。模型识别GUI中可互动元素，像是按钮、图标、可点击连接上仍存在技术瓶颈，模型可能难以识别每个互动元素的功能，或是无法在复杂的界面中，执行正确的动作。

针对这些操作问题，微软开发了OmniParser，这是一个纯视觉解析的工具。该工具通过互动区域侦测和语义标注技术两个步骤流程，大幅度提升GPT-4V操作GUI的能力。OmniParser侦测模型可以能够准确识别界面上互动元素，并标记可点击的区域，由于侦测模型经过大量热门网页数据训练，即便是在复杂界面也能明确定位互动区域。

另外，OmniParser还结合光学字符识别和语义标注模型，能够对GUI元素提供语义描述，协助人工智能模型理解每个元素的功能和作用，在指令生成过程提供精准的操作建议。

OmniParser让人工智能能够在多平台环境精确地执行互动操作，其无依赖性和高精确度的设计，使OmniParser成为客服、自动化数据处理等需大量重复操作工作的理想工具。借由其跨平台的能力，OmniParser不需要依赖HTML或是其他元数据，即便在不同操作系统也可有效运行。

在数字助理和自动化操作需求日益增加的当前，不少人工智能公司也投入GUI操作的研发，强化人工智能在人机互动的能力。Anthropic近期也针对多模态人工智能模型Claude 3.5 Sonnet开发了专属API，使该模型能够感知并操作计算机界面，将模型指令转换成为具体的计算机操作指令，执行诸如打开应用程序和填写表格等复杂任务。

随着GUI解析技术的成熟，人工智能在跨平台操作中的灵活性将大幅提升，进一步扩展自动化任务的应用可能性。