Hoy anunciamos un nuevo Amazon comprende característica para el procesamiento inteligente de documentos (IDP). Esta función le permite clasificar y extraer entidades de documentos PDF, archivos de Microsoft Phrase e imágenes directamente desde Amazon Comprehend sin necesidad de extraer el texto primero.
Muchos clientes necesitan procesar documentos que tienen un formato semiestructurado, como imágenes de recibos escaneados o declaraciones de impuestos en formato PDF. Hasta hoy, esos clientes primero necesitaban preprocesar esos documentos para convertirlos en texto legible por máquina, lo que puede reducir la calidad del contexto del documento. Luego, podrían usar Amazon Comprehend para clasificar y extraer entidades de esos archivos preprocesados.
Ahora, con Amazon Comprehend for IDP, los clientes pueden procesar sus documentos semiestructurados, como imágenes PDF, docx, PNG, JPG o TIFF, así como documentos de texto sin formato, con una sola llamada a la API. Esta nueva característica combina OCR y las capacidades existentes de procesamiento de lenguaje pure (NLP) de Amazon Comprehend para clasificar y extraer entidades de los documentos. La API de clasificación de documentos personalizados le permite organizar documentos en categorías o clases, y la API de reconocimiento de entidades con nombre personalizado le permite extraer entidades de documentos como códigos de productos o entidades específicas del negocio. Por ejemplo, una compañía de seguros ahora puede procesar las reclamaciones de los clientes escaneados con menos llamadas a la API. Mediante el uso de la API de reconocimiento de entidades de Amazon Comprehend, pueden extraer el número de cliente de las reclamaciones y utilizar la API del clasificador personalizado para clasificar la reclamación en las diferentes categorías de seguro: hogar, automóvil o private.
A partir de hoy, las API de Amazon Comprehend for IDP están disponibles para la inferencia de archivos en tiempo actual, así como para el procesamiento por lotes asíncrono en grandes conjuntos de documentos. Esta característica simplifica la canalización de procesamiento de documentos y scale back el esfuerzo de desarrollo.
Empezando
Puede utilizar Amazon Comprehend for IDP desde el Consola de administración de AWS, SDK de AWSo Interfaz de línea de comandos (CLI) de AWS.
En esta demostración, verá cómo procesar de forma asíncrona un archivo semiestructurado con un clasificador personalizado. Para extraer entidades, los pasos son diferentes y puede aprende a hacerlo consultando la documentación.
Para procesar un archivo con un clasificador, primero deberá entrenar un clasificador personalizado. Puedes seguir el pasos en la Guía para desarrolladores de Amazon Comprehend. Debe entrenar este clasificador con datos de texto sin formato.
Después de entrenar su clasificador personalizado, puede clasificar documentos mediante operaciones asíncronas o síncronas. Para usar la operación síncrona para analizar un solo documento, debe crear un punto closing para ejecutar análisis en tiempo actual usando un modelo personalizado. Puede encontrar más información sobre análisis en tiempo actual en la documentación. Para esta demostración, utilizará la operación asíncrona, colocando los documentos para clasificar en un Servicio de almacenamiento easy de Amazon (Amazon S3) depósito y ejecutar un trabajo por lotes de análisis.
Para comenzar a clasificar documentos por lotes desde la consola, en la página de Amazon Comprehend, vaya a Trabajos de análisis y entonces crear trabajo.
Luego puede configurar el nuevo trabajo de análisis. Primero, ingrese un nombre y seleccione Clasificación personalizada y el clasificador personalizado que creó anteriormente.
Luego puede configurar los datos de entrada. Primero, seleccione la ubicación S3 para esos datos. En esa ubicación, puede colocar sus archivos PDF, imágenes y documentos de Phrase. Dado que está procesando documentos semiestructurados, debe elegir Un documento por expediente. Si desea anular la configuración de Amazon Comprehend para extraer y analizar el documento, puede configurar el Entrada avanzada de documentos opciones
Después de configurar los datos de entrada, puede seleccionar dónde se debe almacenar la salida de este análisis. Además, debe otorgar permisos de acceso para que este trabajo de análisis lea y escriba en las ubicaciones de Amazon S3 especificadas y luego estará listo para crear el trabajo.
El trabajo tarda unos minutos en ejecutarse, según el tamaño de la entrada. Cuando el trabajo esté listo, puede comprobar los resultados de salida. Puede encontrar los resultados en la ubicación de Amazon S3 que especificó cuando creó el trabajo.
En la carpeta de resultados, encontrará un .out
archivo para cada uno de los archivos semiestructurados clasificados por Amazon Comprehend. Él .out
file es un JSON, en el que cada línea representa una página del documento. En el amazon-textract-output
directorio, encontrará una carpeta para cada archivo clasificado, y dentro de esa carpeta, hay un archivo por página del archivo unique. Esos archivos de página contienen los resultados de la clasificación. Para obtener más información sobre los resultados de las clasificaciones, consulte la pagina de documentacion.
Disponible ahora
puedes empezar clasificando y entidades extractoras de archivos semiestructurados como PDF, imágenes y documentos de Phrase de forma asincrónica y sincrónica hoy desde Amazon Comprehend en todas las regiones donde Amazon Comprehend está disponible. Conoce más sobre este nuevo lanzamiento en el Guía para desarrolladores de Amazon Comprehend.
— Marcia