如何使用 AWS Textract 解決大量文件處理問題？

在現代醫療保健、金融服務、公共部門等各行業，許多 AWS 客戶使用 Amazon Simple Storage Service (Amazon S3) 儲存數十億個影像或 PDF 文件。然而，直到現在這些客戶都一直無法有效地從這些文件中提取信息。

如何使用 AWS Textract 解決大量文件處理問題？

AWS 提供了一項名為智慧文件處理 (IDP) 的解決方案，使用了 Amazon Textract 等人工智慧服務。這使得客戶能夠利用機器學習技術，快速且準確地處理 PDF 或文件影像中的資料。透過此解決方案，您可以提取文件中的文字，進而微調模型、匯總資料或將其傳送到資料庫。

此文章將介紹兩種解決方案，將大量文件處理成原始文字檔案並儲存在 Amazon S3 中。第一種方法是使用 Python 腳本，允許從任何伺服器或實例運行。這是最快速的入門方式。第二種方法則是使用 AWS 雲端開發套件 (AWS CDK) 建構對各種基礎設施元件進行交鑰匙部署。AWS CDK 提供了一個有彈性且靈活的框架，可用來處理文件並建立端對端的 IDP 管道，同時還能擴充功能以滿足特定業務需求。

解決方案 1：使用 Python 腳本

這個解決方案使用 Amazon Textract 以最快速度處理原始文字文檔，並期望在腳本故障時能從中斷處繼續。腳本利用 Amazon S3、Amazon DynamoDB 和 Amazon Textract 三種不同的服務。在這個解決方案中，我們建立了 DynamoDB 表，存儲 Amazon S3 中文件的物件引用清單。腳本會枚舉這個清單，並使用 Amazon Textract 非同步 API 以最大限度提高服務吞吐量。

下圖說明了腳本中的事件順序。腳本結束時，完成狀態以及所用時間將返回 SageMaker studio 控制台。

如何使用 AWS Textract 解決大量文件處理問題？

解決方案 2：使用無伺服器 AWS CDK 構造

這個解決方案使用 AWS Step Functions 和 Lambda 函數來編排 IDP 管道。我們使用 IDP AWS CDK 構造，利用 Step Functions 分散式映射迭代 S3 儲存桶中的所有檔案。這個解決方案還包含兩個 Lambda 函數，用於解析和儲存從 Amazon Textract 提取的文字。

下圖說明了 Step Functions 工作流程。

如何使用 AWS Textract 解決大量文件處理問題？

無論您選擇哪種解決方案，都能夠快速處理數百萬頁的文件。在實際運行解決方案之前，建議使用文件子集進行測試，以確保結果符合預期。

總之，這些解決方案使得客戶能夠輕鬆地將大量文件轉換為可用於生成人工智慧和搜尋的文本資料。

資料來源：https://aws.amazon.com/tw/blogs/machine-learning/create-a-document-lake-using-large-scale-text-extraction-from-documents-with-amazon-textract/

分享到