Cuando ABBYY Vantage procesa un documento PDF, debe decidir cómo extraer el texto. Los PDF pueden contener una capa de texto incrustada (texto con capacidad de búsqueda escrito directamente en el archivo) o pueden ser archivos compuestos solo por imágenes que requieren Reconocimiento óptico de caracteres (OCR) para extraer el texto. La configuración Modo de procesamiento de PDF le brinda un control explícito sobre el método que usa Vantage. Esto resulta especialmente útil cuando:Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
- Trabaja en sectores regulados donde se exige reproducibilidad y trazabilidad de los resultados de extracción.
- Su conjunto de documentos contiene PDF con capas de texto incrustadas de baja calidad o poco fiables que darían mejores resultados con Reconocimiento óptico de caracteres (OCR).
- Está migrando desde ABBYY FlexiCapture y necesita replicar el comportamiento de procesamiento de sus flujos de trabajo existentes.
- Necesita un comportamiento de procesamiento uniforme y predecible en todos los documentos, independientemente de su contenido.
Modos disponibles
| Modo | Descripción | Cuándo usarlo |
|---|---|---|
| Predeterminado (Recomendado) | Usa la capa de texto incrustada del PDF cuando está disponible y la complementa con Reconocimiento óptico de caracteres (OCR) según sea necesario. Este es el comportamiento de procesamiento estándar de Vantage. | Uso general. Recomendado para la mayoría de los conjuntos de documentos con una combinación de PDF con capa de texto y PDF formados solo por imágenes. |
| Usar solo la capa de texto | Extrae texto exclusivamente de la capa de texto incrustada del PDF. Si no existe una capa de texto, Vantage recurre automáticamente al Reconocimiento óptico de caracteres (OCR). | Úselo cuando disponga de capas de texto confiables y de alta calidad, y quiera una extracción más rápida sin Reconocimiento óptico de caracteres (OCR) completo. Resulta útil en entornos regulados donde la capa de texto existente es la fuente autorizada. |
| Usar solo OCR | Omite cualquier capa de texto incrustada del PDF y realiza Reconocimiento óptico de caracteres (OCR) completo en cada página del documento. | Úselo cuando se sepa que las capas de texto del PDF no son confiables o están dañadas, o cuando necesite una extracción uniforme basada en Reconocimiento óptico de caracteres (OCR) en todos los documentos, independientemente de su estructura. |
Escenarios de ejemplo
Usar solo la capa de texto
Usar solo la capa de texto
Su organización procesa facturas en PDF nativas digitales exportadas desde el sistema ERP de un proveedor. La capa de texto incrustada es precisa y se genera automáticamente. Usar Usar solo la capa de texto permite una extracción rápida y fiable sin ejecutar Reconocimiento óptico de caracteres (OCR) innecesario.
Predeterminado (recomendado)
Predeterminado (recomendado)
Procesa un gran volumen combinado de documentos en papel escaneados y PDF nativos digitales en el mismo flujo de trabajo. Algunos archivos tienen capas de texto limpias; otros, no. Predeterminado (recomendado) gestiona ambos casos automáticamente sin necesidad de configuración por documento.
Usar solo OCR
Usar solo OCR
Su conjunto de documentos consta de PDF generados por un sistema de escaneo heredado que incrusta una capa de texto de baja calidad durante el escaneo. Esa capa incrustada contiene errores de reconocimiento que perjudican la extracción de campos. Usar solo OCR la omite por completo y extrae texto limpio directamente de la imagen de la página.
Entornos regulados
Entornos regulados
Trabaja en un sector regulado (como los servicios financieros o la atención sanitaria) en el que los resultados de la extracción deben ser totalmente reproducibles y auditables. Fijar el modo en Usar solo la capa de texto o Usar solo OCR garantiza que siempre se utilice la misma ruta de procesamiento, independientemente de cómo lleguen los documentos.
Dónde se configura
- Configuración de la skill de OCR — pestaña General, en Procesamiento de imágenes
- Configuración de la actividad de OCR dentro de una Habilidad de proceso — pestaña General, en Procesamiento de imágenes
Versiones compatibles de Technology Core
skill de OCR
Descripción general del skill de OCR y de lo que puede extraer.
Configurar un skill de OCR
Cree un nuevo skill de OCR y configure cada pestaña.
actividad de OCR
Ejecute un skill de OCR como parte del flujo de trabajo de una Habilidad de proceso.
Technology Core versions
Elija la versión del motor que utiliza un skill.
Skill Catalog
Descubra, publique y reutilice skills en todo el tenant.
