Tag: open data

Optimiza tus búsquedas de información del sector público con iboof.com, el primer motor de búsqueda gratuito de Open Data en España.

En este post te ofrecemos una guía completa de cómo mejorar tus búsquedas en iboof.com. En el caso que en tu búsqueda incluyas más de una palabra clave o keyword debes tener en cuenta una serie de criterios para que, aquello que buscas, sea realmente lo que te interesa. Para ello, estableceremos un ejemplo de varios términos (palabras) en una única búsqueda, para que te sirva de guía y así optimizar futuras búsquedas en iboof.com. Como ejemplo, supongamos que deseas buscar licitaciones sobre “marketing digital”, ¿qué funcionalidades ofrece iBOOF?

Estas son las 4 funcionalidades en las búsquedas en iboof.com:

  1. Búsqueda por defecto “comillas”~4. Si en el buscador incluyes las palabras (ej. marketing digital), por defecto iboof.com realizará una búsqueda en la base de datos de cualquier aparición de ambas palabras sin que necesariamente éstas aparezca una junto a la otra. Es decir, aparecerán los resultados que contengan todas las palabras de la búsqueda y que estén próximas entre sí. A esta opción se le llama Operador de palabras próximas (ej. “marketing digital”~4). El número (~4) significa que entre la palabra (marketing) y (digital) pueden aparecer en el documento hasta cuatro palabras entre ambas (ej. plan de marketing de contenido y digital).
  2. Búsqueda con operador “comillas”Los resultados que obtendrás en esta búsqueda (ej. “marketing digital”) será una búsqueda literal de los términos, es decir, aparecerán los resultados que contengan ambas palabras, una seguida de la otra, en cada uno de los documentos (ej. ..plan de marketing digital y..).
  3. Búsqueda con operador AND. Los resultados contiene todas las palabras de búsqueda incluyen los dos tipos de búsqueda anterior pero sin limitación de palabaras entre ambos términos. Esto quiere decir que, en los  resultados de búsqueda, aparezca:
    • (…) plan de marketing de contenido y digital (…)
    • (…) plan de marketing digital y (…)
    • (…) plan de marketing (…) -página 2 del documento- (…) en el ámbito digital (…) -página 10 del documento-.
  4. Búsqueda con operador OR. Los resultados contiene al menos una de las palabras de búsqueda. Se trata de una búsqueda más ampliada que contempla todos los resultados de las anteriores búsquedas además de aquellos documentos donde sólo aparezca la palabra marketing (sin digital) o digital (sin marketing). En base al ejemplo expuesto, esto supondría los resultados de textos tales como:
    • (…) plan de marketing de contenido y digital (…)
    • (…) plan de marketing digital y (…)
    • (…) plan de marketing (…) -página 2 del documento- (…) en el ámbito digital (…) -página 10 del docuemento-.
    • (…) plan de marketing (…) -sin necesidad que aparezca la palabra (digital) en el documento-.
    • (…) ámbito digital (…) -sin necesidad que aparezca la palabra (marketing) en el documento-.

¡OJO!  Si realizas esta última búsqueda ampliada puede aparecer mucho contenido irrelevante ya que si tu objetivo es buscar licitaciones de marketing digital, esta búsqueda te aparecerán licitaciones de marketing en general ademas de las digitales.

¿Ya has realizado una búsqueda? Si crees que los resultado mostrados son de interés para ti, el siguiente paso para mantenerte constantemente informado es crear una alerta inteligente en base a la búsqueda realizada. De esta forma, cada vez que se publique un nuevo boletín, licitación o documento de información pública en el que incluyan los términos de interés, recibirás en tu bandeja de entrada de tu correo electrónico un mail con la relación de documentos públicos publicados, un día después a la fecha de publicación. Este sistema de alertas inteligentes de iboof.com es muy sencillo, ¿sabes cómo crear una alerta?

Sigue los siguientes pasos para activar una alerta inteligente en iboof.com:

PASO UNO. Dirígete al icono de la campana que aparece en la parte superior izquierda de la página de resultados de la búsqueda realizada. Haz clic en el icono.

PASO UNO crear alerta en iboof

PASO DOS. Aparecerá un pop up en el que tendrás que introducir el mail al que quieras que lleguen estas alertas de iboof.com. Debes leer la política de privacidad y Aviso Legal de la web iboof.com y marcar la casilla que aceptas las misma. Tan solo haz clic en el boton “….)”

PASO DOS crear alerta en iboof

¡Y listo! Cuando se publique algún boletín/licitación/documento oficial donde aparezca los términos incluidos en la alerta, recibirás un mail en tu bandeja de entrada.

iBOOF es el primer motor de búsqueda de acceso público y gratuito especializado en Open Data e información oficial de las administraciones estatales, autonómicas y provinciales en España

Actualmente iboof.com utiliza un sistema avanzado de indexación orientado a la extracción de grandes volúmenes de datos (Big Data) y técnicas automáticas de Procesamiento del Lenguaje Natural (PLN) desarrollado por  ITELLIGENT Information Technologies SL que permite una rápida indexación de las fuentes oficiales (Open Data) así como resultados muy precisos para un amplio abanico de búsquedas.

Como complemento al motor de búsqueda, iboof.com ofrece al usuario de forma gratuita un punto de acceso único a todos los boletines a través de la opción Base de Datos así como un sistema de alertas inteligentes por correo electrónico. Ambos servicios permiten al usuario estar informado de cualquier novedad aparecida en los boletines sobre un tema de interés.

El proyecto iboof.com se puso en marcha en el año 2006 y es fruto de la colaboración desinteresada de un grupo de ingenieros interesados en la investigación y desarrollo de sistemas avanzados de información basados en la reutilización de información del sector público (ISP) mediante técnicas automáticas de procesamiento del lenguaje natural (PLN).

Entre 2006 y 2007 se desarrolló la primera fase del proyecto con el objetivo de desarrollar una tecnología de búsqueda y crear una interfaz única que permitiera un acceso homogéneo al gran volumen de información pública (Big Data) que se recogía en los distintos boletines oficiales. Entonces, y aún en la actualidad, esta información se encuentra dispersa en un gran número de páginas webs de boletines oficiales con funcionalidades y formatos muy diferentes.

Desde 2009 en adelante, se trabajó en la segunda fase del proyecto que contemplaba la investigación y el desarrollo de nuevas herramientas que permitiesen extraer información del extraordinario volumen de datos (big data) disponibles en el sector publico (ISP) e investigar nuevas formas de presentar y distribuir esta información para conseguir mejorar su puesta en valor.

iboof 2018

Como resultado de esta segunda fase del proyecto, iboof.com se renueva y cambia su imagen corporativa con un toque más moderno e innovador. Esta nueva interfaz se caracteriza por ser más dinámica, visible y navegable. Su objetivo es mostrar una web más minimalista y sencilla. De esta forma, la experiencia en la navegación por iboof.com es más accesible y explícita, únicamente con la información más relevante para los usuarios.

Actualmente, en su afán por una evolución constante, tiene pendiente ampliar iboof.com con nuevas funcionalidades. El objetivo de esta ampliación es desarrollar tecnologías para que el proyecto de Información del Sector Publico (ISP) sea a nivel Europeo. Esto supondría un gran cambio cualitativo para este motor de búsqueda gratuito ya que abarcaría un gran abanico de búsquedas de información pública (open data) a nivel internacional.

ALGORITMO.  En Ciencias de la Computación, un algoritmo es un conjunto de pasos para realizar una tarea. En otras palabras, una secuencia lógica  y con instrucciones que forman una fórmula matemática o estadística para realizar el análisis de datos.

ANÁLISIS DE SENTIMIENTO. El análisis de sentimiento se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital. Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.

ANÁLISIS PREDICTIVO (AP). El análisis predictivo pertenece al área de la Analítica Empresarial. Se trata de utilizar los datos para determinar que puede pasar en el futuro. La AP permite determinar la probabilidad asociada a eventos futuros a partir del análisis de la información disponible (presente y pasada). También permite descubrir relaciones entre los datos que normalmente no es detectada con un análisis menos sofisticado. Técnicas como la minería de datos (data mining) y los modelos predictivos son utilizados.

ANALÍTICA EMPRESARIAL (AE). La Analítica Empresarial comprende los métodos y las técnicas que se utilizan para recopilar, analizar e investigar el conjunto de datos de una organización, lo cual genera conocimiento que se transforma en oportunidades de negocio y mejora la estrategia empresarial. AE permite una mejora en la toma de decisiones ya que éstas se basan en la obtención de datos reales y tiempo real y permite conseguir objetivos empresariales a partir del análisis de estos datos.

BIG DATA (Grande volúmenes de datos). Actualmente nos encontramos en un entorno en el que cada día se generan trillones de bytes de información. A esta enorme cantidad de datos producidos día a día, la denominamos Big Data. El crecimiento de los datos provocados en Internet y otras áreas (Ej. Genómica) hacen necesarias nuevas técnicas para poder acceder y utilizar estos datos. Al mismo tiempo estos grandes volúmenes de datos ofrecen nuevas posibilidades de conocimiento y nuevos modelos de negocio. En particular, en Internet, este crecimiento comienza con la multiplicación en el número de webs comenzando los buscadores (ej. Google) a buscar nuevas formas de almacenar y acceder a estos grandes volúmenes de datos. Esta tendencia (blogs, redes sociales, IoT …) está provocando la aparición de nuevas herramientas de Big Data y la generalización de su uso.

BUSINESS ANALYTICS (Analítica Empresarial). La Analítica Empresarial o Business Analytics permite conseguir los objetivos empresariales, a partir del análisis de datos. Básicamente permite detectar tendencias y realizar pronósticos a partir de modelos predictivos y utilizar estos modelos para optimizar los procesos de negocio.

BUSINESS INTELLIGENCE (Inteligencia de Negocio). Otro concepto relacionado con la AE es la Inteligencia Empresarial (IE) centrada en el uso de los datos de una empresa para facilitar también la toma de decisiones y anticipar acciones empresariales. La diferencia con la AE es que la IE es un concepto más amplio, no solo se centra en el análisis de datos sino que éste es un área dentro de la IE. Es decir, la IE se trata de un conjunto de estrategias, aplicaciones, datos, tecnología y arquitectura técnica entre las que se encuentra la AE; y todo ello, enfocado a la creación de nuevo conocimiento a través de los datos existentes de la empresa

DATA MINING o minería de datos. Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc.  Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

DATA SCIENCE (Ciencia de datos).  La oportunidad que los datos ofrecen para generar nuevo conocimiento requiere de técnicas sofisticadas de preparación de estos datos (estructuración) y análisis de los mismos. Así en Internet, sistemas de recomendación, traducción automática y otros sistemas de Inteligencia Artificial se basan en técnicas de Data Science.

DATA SCIENTIST. El data scientist, como su propio nombre indica, es un experto en la Ciencia de Datos (Data Science). Su trabajo se centra en extraer conocimiento a partir de grandes volúmenes de datos (Big Data) extraídos de diversas fuentes y múltiples formatos para dar respuesta a las cuestiones que se planteen.

DEEP LEARNING o aprendizaje profundo es una técnica dentro del machine learning basado en arquitecturas neuronales. Un modelo basado en deep learning puede aprender a realizar tareas de clasificación directamente a partir de imágenes, texto o sonido, etc. Sin necesidad de intervención humana para la selección de características, esto se puede considera la principal característica y ventaja del deep learning, llamada “feature discovering”. Pueden, además, poseer una precisión que supera al ser humano.

GEOMARKETING. El análisis conjunto de los datos demográficos, económicos y geográficos posibilita estudios de mercado para rentabilizar las estrategias de marketing. El análisis de este tipo de datos se puede llevar a cabo a través del Geomarketing. Tal como su propio nombre indica, Geomarketing es una confluencia entre geografía y marketing. Se trata de un sistema integrado de información -datos de diversa índole-, métodos estadísticos y representaciones gráficas orientados a dar respuestas a cuestiones de marketing de forma rápida y sencilla.

INTELIGENCIA ARTIFICIAL. En computación se trata de programas o bots diseñados para realizar determinadas operaciones que se consideran propias de la inteligencia humana. Se trata de hacer que éstos sean tan inteligentes como un humano. La idea es que perciban su entorno y actúen en base a ello, centrado en el auto-aprendizaje, sean capaces  de reaccionar ante nuevas situaciones.

INTELIGENCIA ELECTORAL. Este nuevo término “Inteligencia Electoral (IE)” es la adaptación de modelos matemáticos y de Inteligencia Artificial a las peculiaridades de una campaña electoral. El objetivo de esta inteligencia es la obtención de una ventaja competitiva en los procesos electorales. ¿Sabes cómo funciona?

INTERNET OF THINGS (IoT). Este concepto, Internet de las Cosas, fue creado por Kevin Ashton y hace referencia al ecosistema en el que los objetos cotidianos están interconectados a través de Internet.

MACHIEN LEARNIN (Aprendizaje automático). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial,  donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención de poder predecir comportamientos futuros.

MINERÍA WEB. La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web. La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs.

OPEN DATA. El Open Data es una práctica que tiene la intención de disponer de unos tipos de datos de forma libre para todo el mundo, sin restricciones de derecho de autor, patentes u otros mecanismos. Su objetivo es que estos datos puedan ser consultados, redistribuidos y reutilizados libremente por cualquiera, respetando siempre la privacidad y seguridad de la información.

PERIODISMO DE DATOS (periodismo computacional). De una forma simple y directa, se trata del periodismo que para crear artículos o investigaciones periodísticas se requiere del conocimiento de técnicas del áreas de data science, big data, inteligencia artificial, entre otras. El periodista de datos debe ser  capaz de dar soporte a sus artículos mediante el análisis de datos, utilizando técnicas analíticas como el análisis de redes sociales, clustering, information retrieval, recommendation systems, etc.

PROCESAMIENTO DEL LENGUAJE NATURAL (PLN). Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas.

PRODUCT MATCHING. El Product Matching es un área perteneciente a Data Matching o Record Linkage encargada de identificar automáticamente aquellas ofertas, productos o entidades en general, que aparecen en la web procedente de diversas fuentes, aparentemente de forma distinta e independiente, pero que hacen referencia a una misma entidad real. En otras palabras, el proceso de Product Matching consiste en relacionar para distintas fuentes aquellos productos que son el mismo.

 

La mayoría de la información ofrecida por instituciones, diputaciones y otros organismos públicos, popularmente conocida como Open Data, es digitalizada y publicada a través de diferentes canales en Internet. Estos datos abiertos pueden ser tanto disposiciones de licitaciones, ayudas, subvenciones, multas de tráfico, oposiciones, concursos oficiales, etc. Este tipo de información es buscada día a día por diversos usuarios y empresas de diferente índole que desean consultar estas bases de datos de Open Data.

Pero, claro, toda esta información no está estructurada (desordenados) y cada dato está publicado en una web diferente bajo un formato distinto (PDF, HTML, XML,…). Hoy en día no existe una página pública o herramienta comercial que aglutine y extraiga todos estos datos descritos bajo una misma web. Tampoco existe un protocolo o normalización estándar de “cómo se deben publicar”.

Además de la gran heterogeneidad del Open Data (origen y formato), en el 95% de los casos, esa información no está estructurada y necesita un tratamiento por una persona para que sea útil. Si se tiene en cuenta la cantidad de canales a extraer y el volumen de información publicado, incluso considerando sólo lo publicado diariamente, se hace inmanejable para una persona.

En resumen, la situación de partida es que estamos ante un gran volumen de datos que requiere la necesidad de una herramienta que facilite la consulta y extracción de estos datos. Gracias a la inteligencia artificial y el Machine Learning (aprendizaje automático), tenemos la solución: NetOpenData. Se trata de una herramienta que facilita el acceso a los datos del sector público y open data. Se trata de un servicio para acceder a la información de forma estructurada y bajo un solo paraguas, una sola web.

¿Cómo funciona el sistema de inteligencia artificial diseñado?

La innovación principal de NetOpenData parte de obtener, procesar y ofrecer este tipo de información de forma estructurada siguiendo un enfoque automático. Para ello se han aplicado diferentes técnicas de aprendizaje, siguiendo un enfoque supervisado relacionado con:

Se han desarrollado sistemas capaces de dar solución a la extracción masiva de recursos a partir de Internet, la segmentación de textos, la clasificación de textos y la extracción de información en textos. Además, de cara a la extracción masiva de información se ha hecho uso de herramientas pensadas para este tipo de entornos que permitan trabajar desde una perspectiva paralela capaz de organizar el trabajo siguiendo un enfoque escalable y distribuido ya que de otra forma el sistema no es capaz de procesar toda la información recogida.

Otros de los puntos fuertes de NetOpenData es la utilización de las últimas tecnologías de almacenamiento. Sistemas que surgieron hace poco y están adaptadas a los procesamientos de información en tiempo real. Esto es una ventaja debido a que desde su base de creación se están enfocando a problemas actuales como cargas masivas de datos (Big Data) o tiempos de respuesta y almacenamiento bajos, una gran problemática que les cuesta solventar a las bases de datos tradicionales, debido a la robustez que ya tienen.

¿Qué ventajas posee este sistema de Inteligencia Artificial?

  • Permite extraer unos recursos concretos (Ej. Boletines Oficiales) a través de diferentes canales (Ej. Web de una Diputación) de una forma automática, teniendo en cuenta las peculiaridades de los datos a extraer, así como el uso que se le tiene pensado dar.
  • Es capaz de tratar cada recurso extraído con el fin de obtener de él una información útil para el usuario:
    • Segmentar el índice del contenido.
    • Segmentar el contenido en disposiciones.
    • Clasificar el idioma de la disposición.
    • Clasificar las disposiciones en función a una taxonomía.
  • Puede ordenar determinadas piezas de información según el idioma y el tipo de la disposición.
  • Hace posible guardar de forma persistente tanto la información bruta como la estructurada fruto del tratamiento indicado anteriormente, teniendo en cuenta el uso que se le tiene pensado dar y el volumen generado.
  • Ofrece al usuario el acceso a los datos de forma más práctica y eficaz posible, a través de una única página web que permite:
    • la visualización y filtración de datos
    • la descarga de disposiciones concretas
    • la creación de alertas de disposiciones en base a una serie de filtros concretos.

¿Qué tipo de datos públicos puedes obtener con NetOpenData?

Boletines Oficiales, Patentes, Marcas, Ayudas, Nombres Comerciales, Contrataciones y Licitaciones. Toda esta información se estructura para puedas utilizarlo de forma fácil y sencilla en tu empresa o para que puedas montar servicios innovadores a partir de estos datos.

NetOpendata

Por otro lado, en ITELLIGENT nos adaptamos a las necesidades de cada uno de nuestros clientes por lo que si tu empresa requiere otros datos diferentes a los que aporta NetOpenData o desea enlazar los datos de nuestro software con otras fuentes, también somos especialistas en hibridación de datos.