關閉

突破語言限制,展現視覺理解技術

您是否曾經想過人工智能有一天能夠辨識圖片及影片的內容呢?現階段 Azure GPT -4 Turbo with Vision 已實現這個強大的功能,並提供預覽版供使用者試用。您能透過影像素材向人工智能提問,它便可識別影像並給予自然語言形式的適當回應,很難想像吧!GPT -4 Turbo with Vision 模型突破以往僅能輸入文字的語言模型限制,能夠以影像輸入,且可理解影像意義、上下文內容而提供豐富的影像描述、識別目標物件、擷取影像文字轉譯數據等,以下就讓我們來看看到底能如何運用呢?

持續進化的 GPT -4 Turbo with Vision

  • 視覺提示功能(Video Prompt)

           憑藉 Azure Al Vision Video Retrieval 的原生整合,實現影片能成為 GPT -4
            Turbo with Vision 的輸入,讓模型能夠理解影片與語音的上下文,生成出該影
            片的摘要內容,可參考 Microsoft 官方影片示例。

  • Azure OpenAI on your data with images

           GPT -4 Turbo with Vision 與 Azure AI Search、Azure Al Vision 結合,為資
            料檢索的方式創造新的可能,使用者可將圖像增添至文本數據中,當設定了向
            量檢索功能時,就可連結此類圖像數據。從 Azure 官方舉例來看,某家戶外活
            動用品公司網頁的 Chatbot 運用 Azure OpenAI 技術,除了文字更增添圖像數
            據至文本,讓使用 Chatbot 的消費者能直接用圖片搭配文字的方式進行提問,
            Chatbot 也能給予適當回應,可參考 Microsoft 官方影片示例。

  • 物件定位(Objects Grounding)

           Azure Al Vision 結合 GPT -4 Turbo with Vision 以視覺為主要核心,為輸入的 
            影像進行突出物件的定位,對於影像資料的整合又上升了一個層次。從  
            Microsoft 官方舉例來看,使用者輸入一人像圖片且詢問有哪些時尚配件可再
            造這樣的造型,模型可透過標出突出物件,列點描述所需的時尚配件,如圖所
            示。

Azure持續進化的 GPT -4 Turbo with Vision
 
Azure持續進化的 GPT -4 Turbo with Vision
物件定位(Object Grounding)示例

(圖片取自 Microsoft 微軟新聞中心:https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/)

 
  • 光學字符識別(OCR)

           Azure Al Vision 輔助 GPT -4 Turbo with Vision 進行 OCR,允許輸入密集文
            本,轉換的圖像更可與財務文件進行資料整合。從 Azure 官方舉例來看,使用
            者輸入數張收據圖片並要求擷取出特定數據,模型可轉譯圖片文字成數據後以
            程式碼清楚呈現數據摘要,如圖所示。

Azure持續進化的 GPT -4 Turbo with Vision
 
Azure持續進化的 GPT -4 Turbo with Vision
 

光學字符識別(OCR)示例

(圖片取自 Microsoft 微軟新聞中心:https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/)

 

負責任原則使隱私安全絕不馬虎

我們都知道當使用 GPT -4 Turbo with Vision 模型時,有時可能會上傳含有人像的圖片,基於保護隱私的原則下,GPT -4 Turbo with Vision 會將輸入的人像圖片先進行臉部模糊處理,在透過辨識臉部以外的影像線索來判別與回應使用者的請求。那您可能會想說模型是如何判斷的呢?依據 Microsoft 官方舉例道,GPT -4 Turbo with Vision 在學習階段時,會將特定圖片與其相關連名稱進行配對標記,這也就是為什麼當使用者輸入一個球星的照片詢問其身分時,即使臉部模糊處理也能正確回應。

 

參考資料:

Microsoft 微軟新聞中心 - 〈GPT-4 Turbo with Vision 現已於Azure OpenAI Service 上公開預覽,開放使用〉https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/