Saltar al contenido principal

Document

Conjunto de una o varias imágenes de páginas y de los datos extraídos de ellas.

Definición de Document

Una Definición de Document define los principios que se utilizarán para identificar y procesar un tipo concreto de documento. Una Definición de Document define:
  • La estructura del documento, es decir, el orden permitido de las páginas en los documentos de este tipo (esta información se utilizará para el ensamblado correcto de las páginas en documentos)
  • Las secciones del documento
  • Las reglas que deben cumplir los datos de los campos
  • La ubicación de los campos y sus títulos en el formulario de datos
  • La configuración de exportación de documentos
  • La configuración de procesamiento de documentos

Tipo de documento

Documentos que comparten determinadas características y, por ello, se procesan de manera uniforme dentro de un proceso empresarial. Algunos ejemplos de tipos de documento son las facturas, los contratos y los pasaportes.

Entidad

Un campo o un grupo de campos que contiene información que debe extraerse mediante tecnología de NLP. Algunos ejemplos de entidades son: personas, empresas, lugares, montos y fechas.

Field

Elemento de un documento destinado a la extracción de datos. Los campos pueden ser simples o complejos. Un ejemplo de campo complejo es un campo de tipo “Table”, donde cada celda puede considerarse un campo hijo independiente.

N

NER (Reconocimiento de entidades con nombre) Una tarea de extracción de información cuyo objetivo es localizar y clasificar menciones de entidades con nombre en texto no estructurado. NLP (Procesamiento del lenguaje natural) Una subdisciplina de la inteligencia artificial y la lingüística computacional que estudia el análisis y la síntesis computacionales de las lenguas naturales. Una de las aplicaciones del NLP es la extracción de información. Otros usos del NLP incluyen la traducción automática, los chatbots, la clasificación de documentos y el análisis de sentimientos.

Modelo de NLP

Mecanismo que determina qué entidades y segmentos deben extraerse de los textos y cómo. El área temática y el algoritmo de extracción se seleccionan durante el entrenamiento de un modelo de NLP.

S

Segmento Un fragmento de texto compuesto por uno o más párrafos que contiene datos que deben extraerse. Un segmento también puede ser un campo que deba extraerse (por ejemplo, condiciones para dar por terminado un acuerdo). Segmentation El proceso de identificación de segmentos. Segmentation precede a la extracción de información y resulta útil en el caso de documentos extensos, ya que acota la búsqueda de entidades a fragmentos de texto específicos.