Análisis de datos

Análisis de datos: técnicas y metodologías para la aplicación de Analytics

Cómo se estructura el análisis de datos, cuáles son las principales metodologías y técnicas que pueden aplicarse y cómo se aplican en diferentes contextos y campos de aplicación.

28 Dic 2021

Andrea Mordenti

análisis de los datos

Existen diferentes técnicas y metodologías que, según el área de negocio y las necesidades, pueden aplicarse para analizar los datos en sus diferentes formas; éstas se basan tanto en aspectos matemático-estadísticos como visuales. Algunas de ellas existen desde hace mucho tiempo, mientras que otras han tomado el relevo principalmente en la última década gracias a una importante mejora de la tecnología y las herramientas disponibles. Hoy en día no hay ningún ámbito de aplicación en el que no se utilice el análisis de datos día tras día, para proporcionar información significativa y apoyar/guiar al personal de todos los niveles de la empresa para tomar decisiones basadas en datos y hechos. En algunos contextos este análisis ya está consolidado y ha pasado a formar parte de los mecanismos organizativos, mientras que en otros todavía hay aspectos éticos y culturales que deben madurar para que sea plenamente aceptado.

¿Qué es el análisis de datos?

La aplicación metodológica de funciones matemáticas, estadísticas y lógicas para manipular, organizar, limpiar, presentar los datos en diferentes formas y evaluarlos para obtener indicaciones útiles que apoyen las decisiones, es una de las definiciones que se dan al análisis de datos.

Los primeros indicios de lo que podemos considerar un proceso de análisis de datos surgieron entre los siglos XVIII y XIX, cuando los economistas Charles Joseph Minard y William Playfair utilizaron datos sobre la importación-exportación de alimentos del Reino Unido, el algodón en Europa y la campaña de Napoleón en Rusia para crear análisis cuantitativos de comparaciones y visualizaciones de información numérica, respectivamente.

Llegando a tiempos más recientes, el uso de las matemáticas y la estadística, junto con la creciente potencia computacional del hardware, principalmente en la nube, ha contribuido a la difusión de metodologías que pretenden replicar la inteligencia humana para extraer información útil en el análisis de datos. Por lo tanto, podemos decir en general que se aprovechan todos los conocimientos lógicos y tecnológicos para apoyar eficazmente las decisiones futuras y comprender mejor lo que ocurrió en el pasado.

Análisis de datos, cómo hacerlo

Hay una multitud de pasos y actividades que, en conjunto, conforman todo el proceso de análisis de datos. Algunas de ellas a veces sólo se llevan a cabo parcialmente, mientras que otras son más importantes y requieren más tiempo en algunas técnicas y contextos que en otros; las principales se enumeran a continuación.

Recopilación de requisitos

La fase primordial del proceso de análisis de datos no puede separarse de una definición cuidadosa y clara del problema, de la necesidad, del objetivo del propio análisis. Identificar los desiderata y el valor que el análisis debe aportar a la empresa, ayuda a guiar las fases posteriores; cómo elegir las fuentes de datos correctas (o partes de ellas) que debemos considerar, qué debemos medir dentro de este perímetro de información y cómo se comunicarán luego los resultados de forma adecuada. Este primer paso también ayuda a orientar la elección de la mejor metodología y las herramientas a utilizar.

Recolección de datos

A partir de lo que resulta de una primera fase de análisis de requisitos, se pasa a la recogida de los datos necesarios para poder satisfacer las necesidades finales, los comportamientos a evaluar y los aspectos a medir. Los datos se recogen de diversas fuentes (BD, ERP, sensores, alimentación de sitios web,…) que contienen información estructurada y no estructurada. A menudo, en este contexto, es necesario emprender acciones técnicas/comerciales para recuperar cierta información que aún no está presente en los sistemas de referencia.

Procesamiento de datos

Tras recoger los datos de las fuentes, hay que procesarlos y organizarlos adecuadamente para utilizarlos en el análisis. En este momento, se aplican medidas como la comprobación de la integridad referencial o la conversión de los datos a un formato útil para su posterior procesamiento.

Limpieza de datos

Una vez organizados y procesados, los datos pueden estar incompletos, contener duplicados o errores. Para garantizar que los resultados generados por los análisis que se preparan son coherentes y fiables, es importante contar con iniciativas de limpieza de datos que puedan proporcionar un nivel adecuado de calidad de los mismos. A menudo, esta fase, junto con la anterior, es la que más tiempo consume, dada la variedad y el volumen de datos que implican los procesos de análisis.

Análisis/Comunicación

Limpiados y organizados, los datos están listos para la fase de análisis propiamente dicha. Dependiendo de las técnicas elegidas, este paso puede abordarse de formas muy diferentes. Sin embargo, lo que tienen en común estas diferentes formas de enfocar el problema es la comunicación hacia las partes interesadas o que han encargado directamente el análisis de los datos en cuestión: la información puede presentarse en diferentes formatos para satisfacer los requisitos iniciales. Para ello, se suelen aplicar diferentes metodologías de visualización de datos que guían la comunicación de los mensajes clave contenidos en la información analizada.

Los usuarios finales, basándose en todo el proceso, pueden decidir tomar las medidas oportunas y aportar comentarios sobre el análisis generado, lo que generará nuevos análisis, dando lugar a un proceso analítico iterativo.

Metodologías

Los diferentes métodos que pueden utilizarse para analizar los datos se dividen generalmente en dos macrogrupos: los análisis cuantitativos y los cualitativos. Los análisis cuantitativos son aquellos en los que la información se expresa numéricamente, puede utilizarse en consecuencia en cálculos de distinta naturaleza y puede representarse visualmente mediante tablas o gráficos. Por lo tanto, proporcionan indicaciones sobre cómo clasificar las posibles causas de los problemas o cuantificar su impacto, pero no nos dicen directamente cómo y qué problema abordar primero. El segundo macrogrupo de análisis responde a las preguntas “cómo, por qué, qué” en forma de texto y ofrece la posibilidad de definir un problema y las acciones para abordarlo.

Análisis descriptivo

Entre las metodologías más populares, el análisis descriptivo o estadístico aplica todos los pasos mencionados anteriormente para ofrecer una imagen global de lo que ha ocurrido en la historia de los datos recogidos. Este tipo de análisis proporciona una visión clara de lo que ha sucedido en el pasado, aportando así los elementos necesarios para respaldar las decisiones que suelen basarse en la experiencia del usuario. El siguiente paso en el análisis descriptivo es el llamado análisis de diagnóstico, que proporciona un análisis más profundo de las razones por las que se produjeron los acontecimientos del pasado.

Análisis predictivo

Utilizar las observaciones obtenidas para derivar predicciones sobre cómo podría ser el comportamiento futuro es lo que se conoce como metodología de análisis predictivo. La identificación de tendencias, patrones, clusters o relaciones causa-efecto, realizada de manera ingenieril gracias a la aplicación de algoritmos de Machine Learning, asegura que la cantidad de datos disponibles se aproveche al máximo para no dejar las acciones a tomar enteramente a la experiencia del decisor, a su instinto: por lo tanto, proporciona una ayuda válida hacia un verdadero enfoque basado en datos.

Análisis prescriptivo

Esta metodología no se limita a predecir o describir lo que ha sucedido (o es probable que suceda); también sugiere cuál es el curso de acción y las posibles implicaciones que pueden tener, con el objetivo de generar recomendaciones o decisiones automatizadas. Requiere un perímetro bien definido y algoritmos específicos para proporcionar las indicaciones correctas.

Técnicas

Las metodologías descritas anteriormente pueden aplicarse utilizando diferentes técnicas y tecnologías. Tratando de generalizar, podemos clasificar el análisis de datos en tres técnicas principales (hay que tener en cuenta que al ser el análisis de datos una materia que no tiene límites claros entre los diferentes objetivos que pretende alcanzar, es habitual que determinadas técnicas pretendan satisfacer varias necesidades a través de diferentes metodologías, de forma combinada): Business Intelligence, Data Mining y Data Visualization.

Inteligencia empresarial (BI)

BI y Analytics en un sentido más amplio es la principal técnica que se ha utilizado y se utiliza actualmente para el análisis de datos. Se basa en la estructuración de los datos empresariales procedentes de diferentes fuentes y en la definición de un modelo semántico de metadatos en el que se aplican reglas de lógica empresarial y de contexto empresarial para convertir los datos brutos en información real de valor. Los sistemas de BI se han convertido en un producto básico en todas las empresas, en todos los sectores, y permiten el apoyo a la toma de decisiones descriptivas y de diagnóstico dentro de una organización.

La ventaja de estas técnicas es la ya conocida de los sistemas de BI que tienen un fuerte componente de conocimiento y gobierno centralizado, utilizable por todos los niveles de la organización. Por otro lado, la falta de puntualidad en los nuevos desarrollos, la limitación de los conocimientos y los elevados costes de gestión han hecho que a lo largo de los años se hayan evaluado alternativas para el análisis de datos.

Minería de datos

El nombre de Minería de Datos se interpreta a veces de forma errónea, ya que el objetivo de esta técnica es la extracción de patrones y conocimientos de los datos y no la extracción de datos en sí. Representa el proceso que combina la estadística, el aprendizaje automático y la tecnología para el descubrimiento automático o semiautomático de patrones, correlaciones, clusters, clasificaciones, perfiles y regresiones de grandes volúmenes de datos. Podemos decir, simplificando, que las técnicas de Minería de Datos son las centrales en las iniciativas modernas de Ciencia de Datos e Inteligencia Artificial, proporcionando la posibilidad de ir más allá de una metodología de análisis meramente descriptiva, aportando conocimiento adicional y apoyando a los analistas de forma aún más precisa, ayudándoles a entender cuál puede ser el comportamiento futuro.

La gran ventaja es ver una verdadera extracción de conocimientos, realmente procesables para aportar valor a la empresa. Sin embargo, las organizaciones no siempre cuentan con las competencias adecuadas a nivel interno para lograrlo: recurrir a figuras externas y formar técnicamente a los empleados no siempre es posible debido a las limitaciones de tiempo y presupuesto.

Visualización y exploración de datos

Como corolario de las técnicas mencionadas, hay un mundo de tecnologías que se están haciendo cada vez más populares y que responden a la creciente necesidad de pasar de una cultura centrada en las TI a un enfoque mixto, en el que las figuras empresariales también entran en el proceso de modelización real del análisis de datos; este conjunto de técnicas incluye la visualización de datos, la exploración de datos y el descubrimiento de datos. En estas técnicas, el mayor esfuerzo no está en la fase de procesamiento y modelización de los datos, sino en su interpretación mediante la representación gráfica para poder identificar situaciones anómalas o potenciales oportunidades explotando visualizaciones avanzadas. Este tipo de técnica hace uso de herramientas que se basan en una fuerte predisposición a analizar los datos en modo autoservicio, donde son directamente los profesionales con actitudes más orientadas al proceso y menos técnicas los que aplican sus conocimientos y experiencia para tratar de extraer información útil.

Estas tecnologías se han extendido tanto que algunas ya integran pequeñas funcionalidades derivadas del mundo estadístico, como la integración de líneas de tendencia, la detección de valores atípicos o la agrupación.

Gracias a este tipo de técnicas, no estamos atados al tiempo técnico del departamento de informática, podemos crear un fuerte compromiso empresarial y no dependemos de las competencias técnicas, aprovechando así los conocimientos internos. Por otro lado, estos enfoques, a largo plazo, acaban sufriendo la falta de una “estructura” subyacente para diseñar los resultados obtenidos dentro de la cadena de valor de la empresa y es poco probable que se amplíen a un uso más amplio.

Ámbitos de aplicación

Hoy en día, es difícil imaginar contextos en los que no se aplique el análisis de datos, aunque sea de forma no exhaustiva. Desde las pequeñas empresas que quieren controlar su inventario y su tesorería, hasta las grandes organizaciones que quieren ofrecer automáticamente el artículo que mejor se adapte a los gustos de sus usuarios, el análisis de datos se ha convertido en una parte integral de la cadena de valor de las organizaciones, como un proceso que apoya las actividades principales.

Hay infinidad de ejemplos de las distintas técnicas y metodologías descritas; a continuación trataremos de generalizarlas por aplicación, considerando las más interesantes:

Marketing: Las tecnologías y los algoritmos de extracción de datos se han consolidado como un enfoque para dirigirse a los clientes con campañas publicitarias ad hoc. Entre otras muchas, Coca Cola ha emprendido fuertes iniciativas de análisis para apoyar sus operaciones con datos de sus clientes.

Fabricación: la analítica avanzada, gracias a las técnicas de Aprendizaje Automático e Inteligencia Artificial, está impulsando la transición hacia la Industria 4.0, donde el alto nivel de conectividad entre máquinas y componentes puede ayudar a optimizar los procesos de producción y aplicar iniciativas de mantenimiento predictivo para evitar paros y fallos en la producción (normalmente también se requieren componentes prescriptivos y automatizados para sustituir la intervención humana en determinadas situaciones). Bayer y Rold son casos italianos de excelencia en este contexto, tanto que han sido invitados al Foro Económico Mundial en 2019.

Finanzas: este ámbito se presta a diversas aplicaciones, como la explotación del BI descriptivo para proporcionar indicaciones resumidas y significativas de las principales tendencias para comparar el rendimiento de diferentes instrumentos financieros, hasta técnicas más avanzadas para predecir las tendencias del mercado o detectar el fraude con antelación y actuar en consecuencia.

Logística: la analítica también es especialmente eficaz en el apoyo a las operaciones para optimizar el almacenamiento de mercancías entre los centros de distribución centrales y los más pequeños del territorio para reducir los costes de envío. Aplicando algoritmos de asociación de productos para entender qué productos menos populares tienden a ser comprados por los más populares, es posible clasificar mejor los almacenes, en línea con la política de ahorro de costes y mejora de los tiempos de envío. Ni que decir tiene que Amazon está a la vanguardia, entre otros, en lo que respecta al aprovisionamiento “inteligente” de sus centros de distribución.

Ciberseguridad: Luxottica y Enel son sólo las últimas de una larga lista de empresas que han sufrido un ataque de ransomware a sus sistemas de información, con daños potenciales muy elevados. El análisis estadístico avanzado de los datos de la red de la propia empresa (junto con una formación adecuada del personal en esta materia) y la supervisión de los dispositivos que se comunican con el exterior son pasos fundamentales para identificar anomalías y predecir posibles intrusiones.

Gestión de activos: los productos de Business Intelligence, especialmente los visuales, de síntesis y geoespaciales, permiten supervisar el estado y los KPI asociados a los distintos activos (puentes, tuberías, vías, por ejemplo) para organizar los ciclos de mantenimiento y las zonas de intervención. Trenitalia, por ejemplo, ha puesto en marcha su proyecto de gestión dinámica del mantenimiento para gestionar de forma inteligente los trenes y las vías y reducir los costes de explotación.

Los tipos de análisis descriptivos, poco mencionados hasta ahora, deben considerarse sin embargo como el mínimo común denominador entre las diferentes realidades. Aunque no generen nuevos conocimientos, su linealidad y sencillez (en comparación con otras técnicas), han sido el punto de partida para la creación de una cultura de Análisis de Datos en la empresa y siguen siendo las más extendidas y utilizadas incluso en realidades que hacen de la analítica avanzada el principal motor de su negocio.

Conclusiones

Desde el momento en que las empresas vieron los flujos de datos y los depósitos de información como un activo estratégico, su análisis se convirtió en una actividad totalmente integrada en el tejido organizativo. A medida que la tecnología ha mejorado y el volumen de datos disponibles ha aumentado, las técnicas y metodologías aplicadas también han evolucionado en consecuencia (y seguirán haciéndolo). Estos, así como las herramientas y los diversos pasos que sustentan el proceso, se fusionan, se cruzan y a veces se retroalimentan en la complejidad y heterogeneidad de la multitud de análisis de datos existentes.

Tanto si se trata de orientar mejor a sus clientes, como de anticiparse a una avería en la cadena de producción, de comprender qué rendimiento de la inversión se ha obtenido con la última campaña de marketing o de evaluar el rendimiento de su fuerza de ventas, el análisis de datos (y la analítica en el sentido más amplio) le ayuda a tomar las decisiones que con mayor probabilidad le permitirán alcanzar los objetivos que se ha fijado, de forma objetiva.

@RESERVADOS TODOS LOS DERECHOS
M
Andrea Mordenti
Temas principales

Especificaciones

B
backup
B
base de datos
B
big data
M
marketing

Nota 1 de 2