Azure持續進化的 GPT -4 Turbo with Vision

突破語言限制，展現視覺理解技術

您是否曾經想過人工智能有一天能夠辨識圖片及影片的內容呢？現階段 Azure GPT -4 Turbo with Vision 已實現這個強大的功能，並提供預覽版供使用者試用。您能透過影像素材向人工智能提問，它便可識別影像並給予自然語言形式的適當回應，很難想像吧！GPT -4 Turbo with Vision 模型突破以往僅能輸入文字的語言模型限制，能夠以影像輸入，且可理解影像意義、上下文內容而提供豐富的影像描述、識別目標物件、擷取影像文字轉譯數據等，以下就讓我們來看看到底能如何運用呢？

持續進化的 GPT -4 Turbo with Vision

視覺提示功能（Video Prompt）

憑藉 Azure Al Vision Video Retrieval 的原生整合，實現影片能成為 GPT -4
Turbo with Vision 的輸入，讓模型能夠理解影片與語音的上下文，生成出該影
片的摘要內容，可參考 Microsoft 官方影片示例。

Azure OpenAI on your data with images

GPT -4 Turbo with Vision 與 Azure AI Search、Azure Al Vision 結合，為資
料檢索的方式創造新的可能，使用者可將圖像增添至文本數據中，當設定了向
量檢索功能時，就可連結此類圖像數據。從 Azure 官方舉例來看，某家戶外活
動用品公司網頁的 Chatbot 運用 Azure OpenAI 技術，除了文字更增添圖像數
據至文本，讓使用 Chatbot 的消費者能直接用圖片搭配文字的方式進行提問，
Chatbot 也能給予適當回應，可參考 Microsoft 官方影片示例。

物件定位（Objects Grounding）

Azure Al Vision 結合 GPT -4 Turbo with Vision 以視覺為主要核心，為輸入的
影像進行突出物件的定位，對於影像資料的整合又上升了一個層次。從
Microsoft 官方舉例來看，使用者輸入一人像圖片且詢問有哪些時尚配件可再
造這樣的造型，模型可透過標出突出物件，列點描述所需的時尚配件，如圖所
示。

物件定位（Object Grounding）示例

（圖片取自 Microsoft 微軟新聞中心：https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/）

光學字符識別（OCR）

Azure Al Vision 輔助 GPT -4 Turbo with Vision 進行 OCR，允許輸入密集文
本，轉換的圖像更可與財務文件進行資料整合。從 Azure 官方舉例來看，使用
者輸入數張收據圖片並要求擷取出特定數據，模型可轉譯圖片文字成數據後以
程式碼清楚呈現數據摘要，如圖所示。

光學字符識別（OCR）示例

（圖片取自 Microsoft 微軟新聞中心：https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/）

負責任原則使隱私安全絕不馬虎

我們都知道當使用 GPT -4 Turbo with Vision 模型時，有時可能會上傳含有人像的圖片，基於保護隱私的原則下，GPT -4 Turbo with Vision 會將輸入的人像圖片先進行臉部模糊處理，在透過辨識臉部以外的影像線索來判別與回應使用者的請求。那您可能會想說模型是如何判斷的呢？依據 Microsoft 官方舉例道，GPT -4 Turbo with Vision 在學習階段時，會將特定圖片與其相關連名稱進行配對標記，這也就是為什麼當使用者輸入一個球星的照片詢問其身分時，即使臉部模糊處理也能正確回應。

參考資料：

Microsoft 微軟新聞中心 - 〈GPT-4 Turbo with Vision 現已於Azure OpenAI Service 上公開預覽，開放使用〉https://news.microsoft.com/zh-tw/features/gpt-4-turbo-with-vision/

分享到