Tag: Hibridación de datos

Por Jaime Martel Romero-Valdespino es CTO en  Intelligent Information Technologies SL
LinkedIn

 

Recuerdo que a finales de los 90s desarrollando un proyecto de Revenue Management para el sector hotelero, cuyo primer componente era un sistema de predicción de la demanda para las habitaciones del hotel, me sorprendió que dichos modelos de predicción no tuviesen en cuenta los precios de hoteles cercanos de la competencia que ya estaban disponibles en las plataformas webs. Mucho más sorprendente es que después de casi 20 años me siga encontrando con empresas en distintas áreas que todavía continúen sin sacarle partido al gran volumen de datos que tienen a su disposición. En este artículo se intenta arrojar un poco de luz en cómo sacar partido a distintas fuentes de datos, mediante la hibridación de datos de distintas fuentes y en particular como los puede aprovechar la industria en sus plantas de producción.

Datos internos, datos externos, datos estructurados y poco estructurados

Hasta la llegada de Internet, las empresa tenían a su disposición principalmente datos procedentes de su propia actividad (compras, ventas, nominas, contabilidad, …) a este tipo de datos propios de cada empresas los denominaremos datos internos. La llegada de Internet pone a disposición de las organizaciones una gran cantidad de datos externos de gran interés (precios de la competencia, catalogo de productos de la competencia, opiniones de productos, licitaciones y ayudas públicas,….). Las empresas que se disponen a sacar partido a estos datos (ej. inteligencia competitiva, inteligencia comercial,…) observan que no es nada fácil utilizar estos datos externos. En muchos casos estos datos están en formatos complejos de utilizar (ej. textos, pdfs, audio, video, …) y en otros, existen ambigüedades inherentes (ej. el nombre de un mismo producto en un página web es diferente que el nombre en el sistema de gestión de la empresa). Generalmente,  estas dificultades obedecen a que la mayor parte de estos datos externos están en mayor o menor medida poco estructurados en comparación con los datos internos que suelen ser datos estructurados en sistemas que facilitan su uso automático (bases de datos, hojas de Excel,…).

Hibridación de Datos

Aunque siempre cabe la posibilidad de recopilar datos poco estructurados de forma manual, por ejemplo, recopilar precios de la competencia de páginas webs o fotos de productos de interés en redes sociales; lo interesante es recopilar los datos poco estructurados de forma automatiza y “unirlos” al resto de los datos para poder generar “inteligencia”. A esto último lo llamamos, “hibridación de datos”, aquellos procesos que permiten generar de un conjunto de datos único y listo para ser utilizado desde herramientas informáticas, a partir de fuentes de datos heterogéneas y con distintos grados de estructuración. A partir de nuestra experiencia en la  “hibridación de datos”, podemos afirmar ésta debe requerir al menos cuatro pasos:

  1. ESTRUCTURACIÓN DE DATOS. Si los datos son poco estructurados –por ejemplo, textos en formato libre, imágenes, etc.- antes de utilizarlos hace falta conseguir una representación que permitan su uso. En muchos casos, esto requiere la utilización de técnicas de Procesamiento del Lenguaje Natural o PLN –por ejemplo, clasificar un conjunto de tweets en distintas categorías según su contenido- o nuevas técnicas de Deep learning –por ejemplo, para obtener una representación de imágenes que permitan su utilización en modelos analíticos-.
  2. HOMOGENIZACIÓN DE DATOS. Es necesario “normalizar” los datos. Esto se refiere, por ejemplo, pasar a mililitros el volumen de bebidas obtenidas de una página web u obtener las temperaturas horarias a partir de las máximas y mínimas diarias obtenidas de la AEMET.
  3. ARMONIZACIÓN DE DATOS. Las distintas fuentes de datos hace falta “ponerlas en común” o “enlazarlas”. Un ejemplo podría ser tener dos series temporales procedentes de distintos sensores con frecuencias diferentes y decidir “unirlas” en una base común como agregando los datos de la serie de mayor frecuencia, por ejemplo. En otros casos, pueden hacer falta modelos de Product Matching como cuando se tienen datos de productos procedentes de webs diferentes y debemos ser capaces de saber que productos son equivalentes en ambas webs.
  4. ENRIQUECIMIENTO DE DATOS. En algunos casos se puede disponer de fuentes que son fáciles de “enlazar”, por lo que no hablamos de armonización si no de enriquecimiento. De esta forma, si disponemos de la referencia catastral de una parcela, podemos fácilmente obtener del catastro sus datos. A esto le llamamos enriquecimiento.

Aplicación en la Industria 4.0

Actualmente, la hibridación de datos en el sector industrial está mucho menos presente que en otros sectores como servicios o retail. Además, para obtener cierta “inteligencia” que suponga una ventaja competitiva para la empresa, en el sector industrial se suele “hibridar” datos con el objetivo de explicar o predecir la demanda. Esto suele hacerse mediante la hibridación de datos internos de ventas de productos o servicios con los datos externos de diversas fuentes –tales como meteorología, geodemografía, trafico, festivos, etc.-. Por norma general, estos proyectos suelen estar orientados a la mejora de la logística, distribución, desarrollo de negocio, inteligencia comercial o como sistema de previsión de demanda para la planificación de la producción.

Salvando el caso de previsión de demanda, dentro de las plantas industriales suele ser mucho menos habitual encontrar casos “potentes” de hibridación de datos. En general, los sistemas de información no suelen estar integrados y cuando lo están, suele ser una integración encaminada a un propósito operativo (ej. trazabilidad) y no a la obtención de unos datos de calidad que permitan su uso por sistemas de inteligencia. Desgraciadamente, cualquier avance para generar plantas industriales más inteligentes estará cimentado en la disponibilidad de datos de calidad sobre su actividad. Por lo que es prioritario disponer de repositorios de datos de los procesos productivos correctamente hibridados.

  • ITELLIGENT, GRUPO TOPDigital y el Cluster Andalucía Smart City colaboran en el proyecto SIPREDE
  • El objetivo ha sido mejorar el conocimiento de la demanda en las tiendas físicas de TOPDigital – Vodafone

portada-proyecto-siprede-itelligent

El consorcio formado por las empresas TOPDigital y Itelligent Information Technologies y el Cluster Andalucía Smart City recibió el pasado 2017 financiación del Ministerio de Industria, Energía y Turismo, dentro del programa Agrupaciones Empresariales Innovadoras (AEI), en su convocatoria 2017, para el desarrollo del proyecto “Sistema de previsión de la demanda”, (SIPREDE).

El Cluster Andalucía Smart City, está formado por la alianza de multitud de empresas e instituciones andaluzas dedicadas al desarrollo de ciudades inteligentes, eficientes, sostenibles y confortables. TOPDigital, es un grupo enfocado a diversas actividades en los sectores de las telecomunicaciones, la eficiencia energética, la consultoría, el marketing, los electrodomésticos, el equipamiento de hogar y profesional, el emprendimiento así como el desarrollo de software. ITELLIGENT Information Technologies es una empresa pionera en España en las áreas de la Inteligencia Artificial, el Big Data y el Procesamiento del Lenguaje Natural (PLN) dedicada desde el 2008 al desarrollo de proyectos en dichas áreas.

El objetivo del proyecto SIPREDE ha sido mejorar el conocimiento de la demanda de las tiendas de TOPDigital y para ello se han realizado la hibridación de datos internos del cliente (demanda) y datos procedentes de Open Data (ej. Dataos sociodemográficos, meteorológicos, etc…) y se ha tenido en cuenta la geolocalización de mucho de estos datos. A partir de esta hibridación se han creado modelos que teniendo en cuenta las capacidades explicativas y predictivas de dichos datos y la distribución espacial de los mismos, permitan una mejora en el conocimiento de la demanda y poder tomar decisiones más informadas.

Los resultados del proyecto obtenidos han sido satisfactorios y abren una oportunidad a muchas otras empresas, las cuales puedan aprovechar la información que aportan la hibridación de sus datos, tanto temporales como geoespaciales y demográficos y de esta forma mejorar el conocimiento de su demanda y con posterioridad poder tomar decisiones mucho más informadas y óptimas que las actualmente consideradas, entre las cuales podían no estar contenidas las ventajas que los datos anteriormente expuestos aportan.

A continuación, se va a realizar una pequeña descripción técnica del proyecto, el cual se fundamenta en el análisis de los factores que más influyen a la hora de producirse una acción de venta. Se han tenido en cuenta 11 tiendas de telefonía propias del grupo TOPDigital en colaboración con uno de sus principales asociados, el operador de telefonía móvil Vodafone. Las tiendas están localizadas en el municipio de Malaga y los datos han sido del año 2017.

Este artículo se centrará en el análisis el análisis de la captación de usuarios (creación de una nueva línea móvil). Para el análisis disponíamos además de los datos de las captaciones las direcciones de dichas tiendas a través de las cuales fueron geolocalizadas determinando su ubicación, latitud/longitud.

Una vez tenida en cuenta esta información, se realizó una búsqueda anexa de la información contenida en Google tanto de las opiniones de los usuarios que realizaron alguna actividad en alguna de las tiendas de estudios, (cantidad de reseñas y puntuaciones aportadas), como de los centros comerciales presentes en la ciudad de Málaga, dentro de los cuales podría encontrarse (o no) alguna de las citadas 11 tiendas. En la siguiente figura, Figura-1, mostramos un ejemplo de la ubicación de 6 de las 11 tiendas anteriormente mencionadas:

Figura-1. Muestra localización de 6 de las 11 tiendas Vodafone-TOPDigital de la ciudad de Málaga

Figura-1. Muestra localización de 6 de las 11 tiendas Vodafone-TOPDigital de la ciudad de Málaga

Como últimos recursos a considerar se tomaron los datos meteorológicos, temperatura media y precipitaciones, aportadas por la Agencia Estatal de Meteorología,  , así como las horas de sol del día estimadas por el Instituto Geográfico Nacional a través de las puesta y la salida del sol, y los días laborales, festivos y de apertura especiales de los centros comerciales recogidos en Boletines Oficiales del Estados, BOE, de la provincia de Málaga.

Antes de proceder a modelar los datos de venta decidimos aplicar diversos análisis estadísticos para determinar las características de cada factor, entre los cuales no se tuvieron en cuenta los de carácter espacial (latitud/longitud, presencia en centros comerciales, reseñas de Google) que serán considerados posteriormente, solo los de carácter temporal (series temporales de captación, meses del año, días horas de sol, etc…). En las siguientes figuras, Figura-2, Figura-3, Figura-4, mostramos un pequeño ejemplo de los análisis de influencia de los factores temporales para una de las 11 tiendas, serie temporal, influencia de dos de los factores, meses del año y las horas que poseen los días:

Figura-2. Serie temporal de captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-2. Serie temporal de captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-3. Influencia del factor meses del año en las captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-3. Influencia del factor meses del año en las captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-4. Influencia del factor horas de sol en las captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-4. Influencia del factor horas de sol en las captaciones de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Una vez consideradas tanto el formato de los datos como las influencias anteriormente descritas y las características aportadas por el problema con respecto a los factores espaciales decimos aplicar un modelo Generalizad Linear Models, espacial y autoregresivo, una variante del Hurdle Count Model, el cual aporta ventajas sobre otros count models, principalmente porque permite corregir ciertas discapacidades como puede ser el problema de la overdispersión.

Una vez generado el modelo, se compararon el valor de estimación del modelo Hurdle Count Model para cada serie temporal de las captaciones con la serie temporal real para el año 2017 de las 11 tiendas presentes en el estudio. En la Figura-5 se muestra un ejemplo de la comparación para una de las 11 tiendas de estas dos series temporales expuestas anteriormente:

Figura-5. Serie temporal de captaciones estimadas por el Hurdle Count Model versus serie temporal real de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017

Figura-5. Serie temporal de captaciones estimadas por el Hurdle Count Model versus serie temporal real de una determinada tienda Vodafone-TOPDigital de la ciudad de Málaga, año 2017