关闭

突破语言限制,展现视觉理解技术

您是否曾经想过人工智能有一天能够辨识图片及影片的内容呢?现阶段 Azure GPT -4 Turbo with Vision 已实现这个强大的功能,并提供预览版供使用者试用。您能透过影像素材向人工智能提问,它便可识别影像并给予自然语言形式的适当回应,很难想像吧!GPT -4 Turbo with Vision 模型突破以往仅能输入文字的语言模型限制,能够以影像输入,且可理解影像意义、上下文内容而提供丰富的影像描述、识别目标物件、撷取影像文字转译数据等,以下就让我们来看看到底能如何运用呢?

持续进化的 GPT -4 Turbo with Vision

  • 视觉提示功能(Video Prompt)

           凭藉 Azure Al Vision Video Retrieval 的原生整合,实现影片能成为 GPT -4
           Turbo with Vision 的输入,让模型能够理解影片与语音的上下文,生成出该影
           片的摘要内容,可参考 Microsoft 官方影片示例。

  • Azure OpenAI on your data with images

           GPT -4 Turbo with Vision 與 Azure AI Search、Azure Al Vision 结合,为资
            料检索的方式创造新的可能,使用者可将图像增添至文本数据中,当设定了向
           量检索功能时,就可连结此类图像数据。从 Azure 官方举例来看,某家户外活
           动用品公司网页的 Chatbot 运用 Azure OpenAI 技术,除了文字更增添图像数
           据至文本,让使用 Chatbot 的消费者能直接用图片搭配文字的方式进行提问,
           Chatbot 也能给予适当回应,可参考 Microsoft 官方影片示例。

  • 物件定位(Objects Grounding)

           Azure Al Vision 结合 GPT -4 Turbo with Vision 以视觉为主要核心,为输入的 
           影像进行突出物件的定位,对于影像资料的整合又上升了一个层次。从  
           Microsoft 官方举例来看,使用者输入一人像图片且询问有哪些时尚配件可再
           造这样的造型,模型可透过标出突出物件,列点描述所需的时尚配件,如图所
           示。

Azure持续进化的 GPT -4 Turbo with Vision
 
Azure持续进化的 GPT -4 Turbo with Vision
物件定位(Object Grounding)示例

(图片取自 Microsoft 微软新闻中心:https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/)

 
  • 光学字符识别(OCR)

           Azure Al Vision 辅助 GPT -4 Turbo with Vision 进行 OCR,允许输入密集文
           本,转换的图像更可与财务文件进行资料整合。从 Azure 官方举例来看,使用
           者输入数张收据图片并要求撷取出特定数据,模型可转译图片文字成数据后以
           程式码清楚呈现数据摘要,如图所示。

Azure持续进化的 GPT -4 Turbo with Vision
 
Azure持续进化的 GPT -4 Turbo with Vision

光学字符识别(OCR)示例

(图片取自 Microsoft 微软新闻中心:https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/)

负责任原则使隐私安全绝不马虎

我们都知道当使用 GPT -4 Turbo with Vision 模型时,有时可能会上传含有人像的图片,基于保护隐私的原则下,GPT -4 Turbo with Vision 会将输入的人像图片先进行脸部模糊处理,在透过辨识脸部以外的影像线索来判别与回应使用者的请求。那您可能会想说模型是如何判断的呢?依据 Microsoft 官方举例道,GPT -4 Turbo with Vision 在学习阶段时,会将特定图片与其相关连名称进行配对标记,这也就是为什麽当使用者输入一个球星的照片询问其身分时,即使脸部模糊处理也能正确回应。

 

参考资料:
Microsoft 微软新闻中心 - 〈GPT-4 Turbo with Vision 现已于Azure OpenAI Service 上公开预览,开放使用〉https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/