Nuestro Blog

Intelligence Document Processing  (IDP)  o Procesamiento Inteligente de Documentos -en español- se trata de una tecnología basada en Inteligencia Artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para transformar la información no estructurada de documentos de diversos formatos en datos que sean útiles para la gestión de documentos/datos de una empresa.

Actualmente, las empresas poseen miles de datos en formatos poco estructurados (ej. PDFs, imágenes, videos, …), extraer y organizar la información de estos contenidos complejos en información accionable resulta una tarea ardua sino se posee un sistema IDP. Es por ello, que el Procesamiento Inteligente de Documentos puede capturar, extraer y procesar datos de documentos de diversos formatos de forma automática gracias al Machine Learning. Asimismo, gracias a modelos de Deep Learning, un sistema IDP puede extraer información de formatos como imágenes y vídeos.

¿Qué se puede hacer con un sistema de Intelligence Document Processing?

  • Clasificación automática de documentos y contenidos, tanto documentos en PDF, Word, Excel, etc. como formatos de imágenes y vídeos.
  • Gracias al Machine Learning, la mayoría de los procesamientos son automatizados, de forma que el usuario tan solo sube un documento a la plataforma basada en IDP y ésta hace el resto.
  • Extracción de información, análisis semántico, identificación de elementos e imágenes en cada documento, entre otros.
  • Indexación de audios  de vídeos y/o podcasts
  • Obtención de texto procedentes de documentos escaneados (OCR)
  • Extracción de textos y metadatos de documentos en distintos formatos
  • Indexación avanzada de textos e imágenes
  • Obtención de tags de imágenes

¿Qué ventajas obtienes con IDP?

  1. Ahorrar en el procesamiento de los documentos. El retorno de la inversión se obtiene por el ahorro de la mano de obra y la mejora en la calidad de los resultados. Por ejemplo, empresas del sector de la construcción u otros sectores que generan grandes volúmenes de documentos y requieren gestionarlos, como por ejemplo, clasificarlos, un sistema de IDP lo gestiona de forma automática.
  2. Permite generar nueva inteligencia. En este caso, el retorno de la inversión no está tanto en el ahorro -que también- si no en la puesta en valor de contenidos y documentos que debidamente tratados pueden generar nueva inteligencia que aporte valor a la propia actividad de la empresa. Por ejemplo, en un bufete de abogados que desea nuevos usos del conocimiento generado por la empresa y busca reducir el esfuerzo de compartir este conocimiento.
  3. Analítica avanzada para rentabilizar el esfuerzo empresarial. Gracias a la analítica avanzada de netContent podrás optimizar y sacar partido a la gestión documental de tu empresa.
  4. Desarrollo a medida y vuelco de datos en el sistema del cliente. netcontent es adaptable a las necesidades de cada cliente, desde ITELLIGENT desarrollamos aquello que nuestros clientes necesite. La plataforma también permite el vuelco de los datos y/oportunidades destacadas en el sistema de gestión documental del cliente.

En ITELLIGENT, hemos desarrollado netContent, una plataforma basada en IDP e Inteligencia Artificial (IA) que permite automatizar tareas relacionadas con gestión y clasificación de documentos, contenidos multimedia y archivos con otros formatos poco estructurados. Gracias a técnicas de IA y Procesamiento de Lenguaje Natural, esta plataforma IDP permite extraer e indexar datos además de descubrir conocimiento y detectar oportunidades.

¿Qué más ofrece la plataforma IDP netContent?

  • Early Warning System, para la detección temprana de oportunidades a partir de bots de búsqueda de oportunidades potenciales y su evaluación  utilizando técnicas de Inteligencia Artificial
  • Puedes buscar «aquello que se dice» en un vídeo u objetos que aparecen en las imágenes del vídeo. Nuestra plataforma IDP netContent es capaz de localizar este tipo de contenidos a través de técnicas de Procesamiento del Lenguaje Natural (PLN) y modelos de Deep Learning.
  • netContent puede reconocer objetos en imágenes y generar tags. Esto permite buscar y crear alertas sobre los objetos reconocidos en las imágenes así como realizar búsquedas por similitud de imágenes.
  • En relación con lo anterior, netcontent puede detectar documentos duplicados.
  • Además, permite la creación de alertas para que estés informado de lo que sea más relevante para ti y tu trabajo gracias a su sistema de alertas inteligentes.

Para favorecer la recuperación y la transformación del tejido productivo, este fondo fomentará el desarrollo de proyectos digitales de alto impacto y la inversión en empresas en crecimiento mediante el refuerzo de instrumentos públicos de financiación, la atracción de fondos internacionales y la potenciación del capital riesgo.

Esta iniciativa, puesta en marcha a través del Ministerio de Asuntos Económicos y Transformación Digital, busca favorecer la colaboración público-privada y el desarrollo del capital riesgo, con el objetivo de movilizar recursos conjuntos de hasta 4.000 millones de euros.

El Gobierno pone en marcha, a través del Ministerio de Asuntos Económicos y Transformación Digital, el Fondo Next Tech como parte de la Estrategia Nacional de Inteligencia Artificial presentado en diciembre, y dirigido a impulsar el crecimiento de empresas digitales y la inversión en proyectos tecnológicos de alto impacto. Este nuevo mecanismo favorecerá la colaboración público-privada y el desarrollo del capital riesgo, con una partición del Estado en los fondos y empresas de hasta el 49%, lo que permitirá aumentar la capacidad de inversión en empresas y proyectos tecnológicos.

El objetivo de Next Tech, pensado para un plazo inicial de cuatro años, es impulsar el emprendimiento digital y en tecnologías digitales habilitadoras, así como consolidar el crecimiento de empresas altamente innovadoras de base tecnológica. Con ello, fomentar la competitividad, la innovación, la inversión de fondos internacionales y la atracción y retención de talento.

Con este objetivo Next Tech participará en fondos y empresas que desarrollen su actividad en el ámbito digital, en el impulso de proyectos relacionados con la inteligencia artificial, internet de las cosas, tecnologías de procesamiento masivo de datos (big data), computación en la nube (cloud computing), blockchain, procesamiento de lenguaje natural, machine learning, ciberseguridad, biometría e identidad digital y algoritmos verdes, entre otros.

Gracias al Machine Learning es posible realizar tareas de clasificación sobre un conjunto de datos. En el caso de la clasificación automática de documentos se utilizan técnicas de Inteligencia Artificial sobre un conjunto de elementos para ordenarlos por clases o categorías. Sin embargo, también se pueden utilizar estas técnicas para asignar un documento a una determinada clase o categoría.

Para llevar a cabo la clasificación automática de documentos primero hay que realizar una extracción de features (características) destinadas a ser informativos y no redundantes. Esto facilitará los pasos posteriores de machine learning en la clasificación automática de documentos. La extracción de características (features) se trata de un proceso de reducción y codificación, donde un conjunto inicial de variables sin procesar (ej. texto en un documento) se reduce a características más manejables para su procesamiento (ej. números) y que se describa con precisión el conjunto de datos original.

Existen diversas técnicas de extracción de features.

Técnica clásicas:

  • Term frequency – Inverse document frequency (TF IDF). Se trata una técnica muy utilizada en Machine Learning. para otorgar la relevancia de una palabra en un documento de una colección a través de una medida numérica. Esta medida numérica se utiliza para calificar la relevancia de una palabra dentro de un documento a partir de la frecuencia que aparece en el mismo. La idea en la que se basa esta técnica es que si una palabra aparece frecuentemente en el documento, debe ser importante y se le debe dar una puntuación alta. Sin embargo, si una palabra aparece frecuentemente en otros documentos, probablemente no sea un identificador único, y por tanto, se le debe asignar una puntuación más baja. Aquí, puedes consultar la fórmula matemática.

Nuevas técnicas basadas en Deep Learning:

  • Doc2vec. El objetivo principal de Doc2Vec es asociar documentos arbitrarios con etiquetas. Doc2vec es una extensión de word2vec que aprende a correlacionar etiquetas y palabras, en lugar de palabras con otras palabras. El primer paso es crear un vector que represente el «significado» de un documento para que luego se pueda utilizar como entrada a un algoritmo de aprendizaje automático supervisado y así asociar documentos con etiquetas.

Tras la extracción de features y en base a la información previa que se posea de los documentos a clasificar o categorizar, se podrán realizar diversas técnicas para la clasificación automática de documentos:

  • Clasificación supervisada. Cuando tenemos conocimiento del conjunto de documentos previamente clasificados de forma manual, ésto nos servirán para entrenar al sistema inteligente en la clasificación automática.
  • Clasificación no supervisada o clustering de documentos. Cuando no tenemos información a priori del conjunto de documentos ni de las categorías en las que deben estar clasificados.

Cuáles son las técnicas de clasificación automática de documentos más usadas

Según el tipo de clasificación, existen:

  • Técnicas de aprendizaje supervisado para clasificaciones supervisadas. Estas técnicas intentan reducir una función que partiendo de la colección de documentos (clasificación manual), tomando un documento de entrada sea capaz de predecir la clase o categoría a la que corresponde ese documento. En otras palabras, estas técnicas de clasificación supervisadas parten de un conjunto de documentos ya clasificados de forma manual (conjunto de entrenamiento) y se intenta asignar una clasificación a un segundo conjunto de documentos. Dependiendo del tipo de colección de documento o tipo de documentos a clasificar, se utilizarán unas técnicas u otras, desde algoritmos de clasificación bayesianos, arboles de decisiones, redes neuronales, …
  • Algoritmos de clustering para clasificaciones no supervisadas. Cuando no se disponen de un conjunto de documentos previamente clasificados, se opta por, a partir de las propiedades de los documentos, agruparlos (clustering) según sus semejanzas entre sí.

¿Qué herramienta puedes utilizar para clasificar tus archivos de forma automática?

En ITELLIGENT, hemos desarrollado una plataforma basada en Inteligencia Artificial (IA) que permite automatizar tareas relacionadas con gestión y clasificación de documentos, contenidos multimedia y archivos con otros formatos poco estructurados. Gracias a técnicas de IA y Procesamiento de Lenguaje Natural, esta plataforma permite extraer e indexar datos además de descubrir conocimiento y detectar oportunidades.

Se trata de la plataforma netContent y dispone de un acceso para que el cliente pueda realizar diversas gestiones tales como gestionar las reglas a aplicar, habilitar accesosa otros usaurios, supervisar documentos o tener acceso a dashboards con métricas del sistema, según las necesidades de cada empresa.

NetContent-dashboard-2019

Además, permite volcar el resultado de la gestión documental en los sistemas de gestión que utilices, ya sa Sharepoint, Thinkproject, etc. En resumen, gracias a esta plataforma se puede hacer lo siguiente:

  • Clasificación automática de documentos
  • Indexación de audios  de vídeos y/o podcasts
  • Obtención de texto procedentes de documentos escaneados (OCR)
  • Obtención de tags de imágenes
  • Extracción de textos y metadatos de documentos en distintos formatos
  • Indexación avanzada de textos e imágenes
  • Descubridor de conocimiento
  • Detección de oportunidades

netContent se adapta a las necesidades de cada cliente y posee otras funcionales tales como:

  • Early Warning System, para la detección temprana de oportunidades a partir de bots de búsqueda de oportunidades potenciales y su evaluación  utilizando técnicas de Inteligencia Artificial
  • La gestión documental de estas oportunidades detectadas y su vuelco en el sistema de gestión documental del cliente, si hubiere
  • Asimismo, esta gestión documental servirá para re-alimentar los modelos de Inteligencia Artificial del Early Warning System