27 recursos y herramientas para Big Data y Data Science

Para trabajar como científico de datos, primero es necesario tener una visión clara de las herramientas o plataformas de trabajo más populares para cada objetivo.

Este servicio inicia un proceso de conocimiento de las plataformas y herramientas más adecuadas para ser adoptadas en todas las circunstancias posibles. El servicio se actualiza constantemente con nueva información e indicaciones sobre los servicios cubiertos y con la inclusión de nuevos servicios.

Revisión de las herramientas de trabajo

Para obtener más información sobre las oportunidades de la ciencia de datos y el trabajo de los científicos de datos, sugerimos la lectura de este artículo: Working with Data Scientists: a guide to seize the opportunities of big data (Trabajar con científicos de datos: una guía para aprovechar las oportunidades de los grandes datos) y otros recursos útiles: libros blancos, encuestas, eventos y entrevistas.

Lenguajes y marcos de programación

Python

Python es un lenguaje de programación que nació en 1991 gracias al programador holandés Guido van Rossum, que lo bautizó celebrando la comedia Monty Python’s Flying Circus, uno de los programas más vistos de los años 70 en la BBC. El lenguaje Python ha tenido un importante seguimiento y ha conseguido una amplia aceptación entre la comunidad de desarrolladores y hoy su desarrollo está gestionado por la Python Software Foundation en forma de organización sin ánimo de lucro.

Python es un lenguaje de programación orientado a objetos que puede utilizarse para muchos tipos de desarrollo de software. En particular, Python admite varios paradigmas de programación, empezando por el orientado a objetos, tiene una rica biblioteca incorporada, gestión automática de la memoria e importantes “construcciones” de manejo de excepciones que contribuyen a hacer de Python uno de los lenguajes más ricos y cómodos de usar.

Especialmente adecuado para implementar aplicaciones distribuidas, Python se utiliza para la creación de scripts, el cálculo numérico y la comprobación de sistemas. Los ámbitos de uso de este lenguaje son el desarrollo web, las funciones de acceso a bases de datos, las interfaces gráficas de usuario de escritorio, la formación educativa y la programación de redes.

Python funciona en Windows, Linux/Unix, Mac OS X, OS/2, ha sido exportado a máquinas virtuales Java y .NET y se distribuye bajo una licencia de código abierto aprobada por la OSI. Su uso es gratuito y también lo es para los productos comerciales.

Python fue diseñado para ser un lenguaje intuitivo, cómodo, fácil de usar y de aprender. Ha sido diseñado con una sintaxis limpia y ligera, así como sus construcciones. Python es también un lenguaje “pseudocompilado”: un intérprete se encarga de analizar el código fuente (simples archivos de texto con extensión .py) y, una vez comprobada la sintaxis, puede ejecutarlo inmediatamente. Por último, Python es un software de código abierto: no sólo a nivel de descarga del intérprete para la propia plataforma, sino también como uso en aplicaciones totalmente gratuito y que también puede ser modificado y redistribuido libremente, respetando las reglas definidas por la licencia de código abierto.

En los últimos años, Python también ha ganado una enorme popularidad como lenguaje de programación para el análisis de la ciencia de datos. Hay varias bibliotecas utilizadas en el campo de la ciencia de datos, las más famosas son NumPy, SciPy, Pandas, Matplotlib y Plotly.

Python también se utiliza especialmente para la creación de modelos de Deep Learning, sobre todo mediante el uso de las librerías Keras, Tensorflow y Theano.

Lenguaje de programación R

R es un lenguaje de programación y un entorno de desarrollo específico para el análisis estadístico de datos. Es un software libre que se distribuye bajo la licencia GNU GPL, y está disponible para varios sistemas operativos (por ejemplo, Unix, GNU/Linux, macOS, Microsoft Windows). R es un lenguaje que utilizan los desarrolladores y los científicos de datos para la computación estadística. Debido a la creciente cantidad de datos recogidos por los sistemas de software y a la necesidad de analizar grandes cantidades de datos, R es una de las tecnologías de mayor crecimiento en la ciencia de los datos en la actualidad. El lenguaje de R forma parte de un proyecto GNU y es de código abierto. R se deriva más precisamente de un lenguaje llamado S (S de “estadística” en inglés) desarrollado en los Laboratorios Bell en la década de 1970. El lenguaje orientado a objetos es un conjunto integrado de funciones de software para la manipulación de datos, el cálculo estadístico y la visualización gráfica que incluye un sistema eficaz de gestión y almacenamiento de datos, un conjunto de operadores para el cálculo de matrices, en particular de matrices, una colección amplia, coherente e integrada de herramientas intermedias para el análisis de datos, así como facilidades gráficas para el análisis y la visualización de datos en pantalla o en papel, y un lenguaje de programación sencillo y eficaz que incluye condicionales, bucles, funciones recursivas definidas por el usuario y herramientas de entrada y salida.

R, gracias a la enorme cantidad de librerías estadístico-matemáticas disponibles, se ha convertido inmediatamente en uno de los lenguajes más apreciados y utilizados en Data Science. Sin embargo, hay algunos puntos de atención, como la gestión de la memoria y la falta de paralelización automática, que lo hacen más adecuado para el desarrollo de prototipos que para la realización de modelos que vayan a salir a producción.

También existe una versión comercial de R, Microsoft R Server, que supera las limitaciones tradicionales de la versión de código abierto de R.

IDE – Entorno de desarrollo integrado

Estudio R

RStudio es el Entorno de Desarrollo Integrado (IDE) gratuito y de código abierto de R: un lenguaje de programación para la computación estadística y los gráficos. RStudio está disponible en ediciones comerciales y de código abierto y se ejecuta en el escritorio (Windows, macOS y Linux) o en un navegador conectado a RStudio Server o RStudio Server Pro (Debian, Ubuntu, Red Hat Linux, CentOS, openSUSE y SLES).

RStudio está escrito en el lenguaje de programación C++ y utiliza el framework Qt para su interfaz gráfica de usuario.

Apache Spark

Apache Spark es un marco de trabajo de código abierto para gestionar la computación distribuida. Spark fue desarrollado por AMPlab en la Universidad de California y posteriormente donado a la Apache Software Foundation. A diferencia del paradigma MapReduce de Hadoop, el multinivel en memoria de Spark permite nuevas posibilidades de rendimiento en determinados dominios de aplicación, como la computación cognitiva. Spark está diseñado específicamente para algoritmos de aprendizaje automático y requiere un gestor de clústeres y un sistema de almacenamiento distribuido. Para el primero, soporta de forma nativa un clúster de Spark, pero también Hadoop YARN, o Apache Mesos; para el segundo, Spark puede interactuar con Hadoop Distributed File System (HDFS), Apache Cassandra, OpenStack Swift, Amazon S3, Apache Kudu, pero también soluciones personalizables. Spark también admite soluciones pseudodistribuidas en modo local, que suelen utilizarse con fines de desarrollo o prueba.

Scala

Scala es un lenguaje de programación orientado a objetos que se creó en 2001 gracias a la iniciativa de Martin Odersky y la EPFL, la Escuela Politécnica Federal de Lausana, y que llegó al “mercado” en 2004 en las plataformas Java y .NET (esta última, sin embargo, ya no recibe soporte).

Scala son las siglas de Scalable Language (lenguaje escalable) y es un lenguaje de programación multiparadigma de propósito general diseñado para integrar las características y funcionalidades de los lenguajes orientados a objetos y funciones. La compilación del código fuente de Scala produce bytecode Java para su ejecución en una JVM. Scala está diseñado para interoperar con la plataforma Java 2 Runtime Environment (JRE), lo que facilita la integración con aplicaciones y componentes Java. Scala utiliza el mismo modelo de compilación (compilación separada, carga de clases dinámicas) que Java, lo que permite acceder a muchas bibliotecas desarrolladas en este entorno. Al ser un lenguaje orientado a objetos, cada elemento del lenguaje se trata como un objeto, incluidos los números y las funciones.

Scala es también un lenguaje funcional: cada función representa un valor y proporciona un lenguaje muy sencillo para definir funciones anónimas (declaradas y utilizadas sin estar atadas a un nombre). Scala tiene soporte nativo para la concordancia de patrones, lo que permite mejorar el procesamiento de datos XML con el apoyo de expresiones regulares. Esta característica, junto con la posibilidad de definir comprensiones de listas, hace que este lenguaje sea adecuado para el desarrollo de aplicaciones de servicios web.

Hadoop

Hadoop es, ante todo, un marco de herramientas para almacenar y procesar grandes cantidades de datos. Hadoop se utiliza para gestionar aplicaciones de Big Data y se presenta en forma de un conjunto de software de código abierto distribuido bajo la licencia Apache Hadoop Open Source. Hadoop debe ser utilizado y visto como un software de infraestructura para la gestión y el procesamiento de grandes cantidades de datos y es un proyecto que se refiere a dos temas principales: el almacenamiento y el procesamiento de grandes cantidades de datos (con el supuesto vinculado al análisis correcto de la naturaleza de los datos para poder gestionarlos de la mejor manera posible).

A nivel de almacenamiento, Hadoop es una infraestructura de cluster para el sistema de archivos en forma de HDFS (Hadoop Distributed File System). Si, por ejemplo, hay que gestionar un archivo cuyo tamaño supera la memoria disponible, Hadoop permite “distribuirlo” entre varios servidores o nodos. Hadoop permite entonces gestionar las funciones de procesamiento sobre estos datos distribuidos a través de la función MapReduce que cambia la lógica del procesamiento de datos, trasladando la capacidad de aplicación del software al nivel de los datos con importantes ventajas en términos de mejora del rendimiento. En otras palabras, MapReduce permite distribuir la capacidad de procesamiento del mismo modo que HDFS permite distribuir la capacidad de almacenamiento en varios nodos. Con HDFS y MapReduce es posible pasar del procesamiento en serie al paralelo. Hadoop también puede manejar archivos estructurados y no estructurados.

Con Hadoop, las aplicaciones pueden trabajar con miles de nodos y petabytes de datos, y en términos de capacidad de cálculo, Hadoop se inspiró en la lógica del algoritmo MapReduce de Google y ahora se ha convertido en un proyecto Apache de alto nivel construido y utilizado por una comunidad global de colaboradores, utilizando el lenguaje de programación Java. Hadoop ofrece un gran número de bibliotecas fáciles de usar para Hadoop Map Reduce y para el sistema de archivos distribuidos Hadoop (HDFS).

Jupyter Notebook

Jupyter Notebook es una aplicación web de código abierto que permite crear y compartir documentos que contienen código en vivo, ecuaciones, visualizaciones y texto narrativo. Es una herramienta que se utiliza para diversas actividades, como la limpieza y transformación de datos, la simulación numérica, la modelización estadística, la visualización de datos y el aprendizaje automático, entre otras. A nivel de cuaderno, la herramienta es compatible con más de 40 lenguajes de programación, incluidos Python, R, Julia y Scala.

Desde el punto de vista operativo, los cuadernos se pueden compartir con otros usuarios a través del correo electrónico, Dropbox, GitHub y Jupyter Notebook Viewer. Además, el código puede producir una salida rica e interactiva en forma de HTML, imágenes, pero también vídeo, LaTeX y tipos MIME personalizados. Jupyter Notebook permite aprovechar las herramientas de Big Data como Apache Spark, Python, R y Scala y explorar estos mismos datos con panda, scikit-learn, ggplot2, TensorFlow.

Por qué la transformación digital es esencial para las empresas hoy en día. Descargar el libro blanco

Banco de trabajo MySQL

MySQL nació gracias a la empresa sueca MySQL AB, creadora del código fuente que ahora está disponible para su distribución bajo la licencia GNU GPL y bajo una licencia comercial. La historia de MySQL cambió significativamente en 2008 cuando MySQL fue adquirida por Sun Microsystem por mil millones de dólares. Una adquisición que a su vez cambió el panorama al año siguiente cuando la propia Sun Microsystem fue adquirida por Oracle en una operación que se cerró en 2010. MySQL se apoya en MySQL Workbench, que se presenta como una herramienta visual unificada de bases de datos para arquitectos de bases de datos, desarrolladores y DBA. MySQL Workbench permite específicamente el modelado de datos, el desarrollo de SQL y proporciona un conjunto completo de herramientas administrativas para la configuración del servidor, la administración de usuarios y mucho más. MySQL Workbench está disponible para las plataformas Windows, Linux y Mac OSX. MySQL permite a un DBA, desarrollador o arquitecto de datos diseñar, modelar, generar y gestionar visualmente las bases de datos. La herramienta incluye todo lo que un modelador de datos necesita para crear complejos modelos entidad-relación (ER), diseñar inversiones y funciones clave para realizar tareas de gestión de cambios y documentación difíciles, que requieren mucho tiempo y trabajo.

MySQL Workbench ofrece herramientas visuales para crear, ejecutar y optimizar las consultas SQL. El editor de SQL ofrece resaltado de sintaxis en color, autocompletado, reutilización de fragmentos de SQL e historial de ejecución de SQL. El panel de conexiones de bases de datos permite a los desarrolladores gestionar fácilmente las conexiones de bases de datos estándar, incluyendo MySQL Fabric. El Visor de Objetos también proporciona acceso instantáneo a los objetos del esquema y de la base de datos. MySQL Workbench proporciona una consola gráfica para administrar fácilmente los entornos de MySQL y obtener una mejor visibilidad de las bases de datos. Los desarrolladores y administradores de bases de datos pueden utilizar las herramientas visuales para configurar servidores, administrar usuarios, realizar copias de seguridad y restauraciones, inspeccionar datos y ver el estado de las bases de datos.

SQL Server Management Studio SSMS

SQL Server Management Studio (SSMS) es una aplicación de software lanzada por primera vez con Microsoft SQL Server 2005 que se utiliza para la configuración, gestión y administración de todos los componentes de Microsoft SQL Server. La herramienta incluye tanto editores de scripts como herramientas gráficas que trabajan con los objetos y las funciones del servidor.

SSMS es un entorno integrado para gestionar cualquier infraestructura SQL, desde SQL Server hasta las bases de datos SQL. SSMS también proporciona herramientas para configurar, supervisar y administrar instancias de SQL, puede utilizarse para desplegar, supervisar y actualizar los componentes de la capa de datos utilizados por las aplicaciones, así como para crear consultas y scripts; consultar, diseñar y gestionar bases de datos y almacenes de datos, dondequiera que se encuentren (ya sea localmente o en la nube).

Toad

Toad Software es un conjunto de herramientas de gestión de bases de datos de Quest que los desarrolladores de bases de datos, los administradores de bases de datos y los analistas de datos utilizan para gestionar bases de datos relacionales y no relacionales mediante SQL.

Toad funciona en la mayoría de las bases de datos más populares (incluyendo RDBMS y NoSQL), soporta un rico conjunto de entornos y bases de datos, incluyendo Amazon Redshift, Amazon SimpleDB, Apache Hbase, Google Analytics, IBM DB2, IBM Informix Dynamic, Microsoft Excel, Microsoft SQL Server, Microsoft SQL Server Analysis Services, Microsoft Windows Azure SQL Database, MongoDB, MySQL, Oracle, PostgreSQL, salesforce, SAP Business Objects, SAP Sybase ASE

PyCharm

PyCharm es un Entorno de Desarrollo Integrado (IDE) utilizado en la programación informática, en particular para el lenguaje Python. Está desarrollado por la empresa JetBrains y proporciona análisis de código, un depurador gráfico, un probador de unidades integrado, integración con sistemas de control de versiones (VCS) con soporte para el desarrollo web sobre Django.

PyCharm es multiplataforma con versiones para Windows, macOS y Linux. La Community Edition se publica bajo la licencia Apache; la Professional Edition, en cambio, se publica bajo una licencia propietaria. Además de Python, PyCharm proporciona soporte para varios marcos de desarrollo web de Python, lenguajes específicos de plantillas, JavaScript, CoffeeScript, TypeScript, HTML/CSS, AngularJS, Node.js y más.

PyCharm también se integra con IPython Notebook, tiene una consola interactiva de Python y es compatible con Anaconda, así como con múltiples paquetes científicos, como Matplotlib y NumPy.

Spyder

Spyder (antes Pydee) es un entorno de desarrollo integrado (IDE) multiplataforma de código abierto para la programación científica en el lenguaje Python. Spyder integra NumP, SciPy, Matplotlib e IPython, así como otros programas de código abierto. Está publicado bajo la licencia MIT. Spyder es extensible con una serie de plugins e incluye soporte para herramientas interactivas, inspección de datos e integración de herramientas de introspección y aseguramiento de la calidad del código específicas de Python, como Pyflakes, Pylint y Rope. Disponible en modo multiplataforma a través de Anaconda, en Windows con WinPython y Python (x, y), en macOS a través de MacPorts y en las principales distribuciones de Linux como Arch Linux, Debian, Fedora, Gentoo Linux, openSUSE y Ubuntu, Spyder hace uso de Qt a través de PyQt o PySide.

GIT

Git es un software de control gestionado con una interfaz de línea de comandos, creado en 2005. Git admite la ramificación y la fusión e incluye herramientas específicas para ver y navegar por un historial de desarrollo no lineal. Git tiene dos estructuras de datos, un índice editable que mantiene información sobre el contenido de la siguiente revisión, y una base de datos de objetos que contiene cuatro tipos de objetos: un objeto blob, un objeto árbol, un objeto commit (revisión) y un objeto tag (etiqueta). Cada objeto se identifica con un código hash SHA-1 de su contenido.

Plataformas de Big Data

Hortonworks

Hortonworks es una empresa de software estadounidense fundada en 2011 centrada en el desarrollo y soporte de Apache Hadoop, el marco que permite el almacenamiento y el procesamiento distribuido de grandes conjuntos de datos en grupos de ordenadores (Big Data).

Hortonworks se especializa en la creación, distribución y soporte de plataformas orientadas a Apache Hadoop, NiFi y Spark. La empresa cuenta con plataformas de datos conectadas que permiten que las aplicaciones basadas en datos utilicen los conocimientos en todas las condiciones. Hortonworks Data Platform HDP se ha creado para permitir la implantación en toda la empresa de soluciones Apache Hadoop basadas en arquitecturas centralizadas de tipo Yarn. La base de Hortonworks HDP es YARN y HDFS (Hadoop Distributed File System) para gestionar los datos en reposo. HDFS proporciona una gestión de almacenamiento escalable para los lagos de big data, YARN es la arquitectura centralizada capaz de procesar múltiples cargas de trabajo simultáneamente y proporcionar tanto la gestión de recursos como la arquitectura modular, además de permitir una amplia gama de métodos de acceso a los datos.

Cloudera

Cloudera es una empresa fundada en 2008 por ingenieros con experiencia en grandes empresas informáticas y digitales como Google, Yahoo!, Oracle y Facebook. La base de la empresa es la creencia en el papel cada vez más importante de los estándares abiertos y el código abierto. En el área de Big Data, Cloudera ha creado Cloudera Data Science Workbench, una solución de aprendizaje automático que combina la analítica y el trabajo en equipo. Cloudera Data Science Workbench permite agilizar los proyectos de Data Science en las empresas en modo autoservicio. En concreto, Cloudera Data Science Workbench permite trabajar desde la fase de experimentación hasta la de producción utilizando R, Python, Spark. Para los científicos de datos en particular, Cloudera proporciona acceso directo a los datos con clusters Hadoop gracias a Apache Spark y Apache Impala. Al mismo tiempo, Cloudera trabaja en herramientas de colaboración y compromiso con el equipo. Cloudera puede activarse tanto en las instalaciones como en la nube.

Gestión de datos, minería de datos y aprendizaje automático

Trifacta

Trifacta es una plataforma que permite explorar y preparar los datos para su análisis. Trifacta funciona con plataformas de datos locales y en la nube, y está diseñado para permitir a los analistas explorar, transformar y enriquecer datos crudos y heterogéneos en formatos limpios y estructurados para el análisis de autoservicio. El enfoque de Trifacta se centra en el uso de las últimas técnicas de aprendizaje automático, visualización de datos e interacción entre el hombre y el ordenador.

KNIME

KNIME o Konstanz Information Miner es una plataforma de código abierto con licencia GPLv3 para el análisis, la elaboración de informes y la integración de datos. Tiene componentes de aprendizaje automático y minería de datos. Su interfaz gráfica permite el montaje de nodos para el preprocesamiento, la modelización, el análisis y la visualización de datos. Desde 2006, se utiliza sobre todo en el sector sanitario y farmacéutico.

H2O.ai

H2O es un software de código abierto para el análisis de Big Data. Está producido por la empresa H2O.ai y permite a los usuarios gestionar miles de patrones potenciales para la detección de patrones. El software H2O puede utilizarse con R, Python y otros entornos. Se utiliza para explorar y analizar conjuntos de datos contenidos en sistemas de computación en la nube y en el sistema de archivos distribuidos Apache Hadoop, así como en los sistemas operativos convencionales Linux, macOS y Microsoft Windows. El software H2O está escrito en Java, Python y R. Su interfaz gráfica de usuario es compatible con cuatro navegadores: Chrome, Safari, Firefox e Internet Explorer.

Weka

Weka es un software de código abierto publicado bajo la Licencia Pública General de GNU y consiste en una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o llamarse desde su propio código Java. Weka contiene herramientas para el preprocesamiento de datos, la clasificación, la regresión, la agrupación, las reglas de asociación y la visualización.

IBM Watson

Watson es un sistema de inteligencia artificial que simplifica al máximo la relación hombre-máquina. Watson también está diseñado para responder a preguntas (sistema informático de respuesta a preguntas) expresadas en lenguaje natural, y se desarrolla como parte del proyecto DeepQA de IBM. Watson es una aplicación avanzada de procesamiento del lenguaje natural, recuperación de información y representación del conocimiento combinada con formas de aprendizaje cognitivo y tecnologías de aprendizaje automático en el campo de la “respuesta a preguntas de dominio abierto”. Uno de los fundamentos se encuentra, como se ha mencionado, en DeepQA, la tecnología de IBM para la formulación de hipótesis, la recopilación masiva de contrapruebas, el análisis y la puntuación (con la mayor capacidad para alcanzar un objetivo en términos de desarrollo de conocimiento).

Watson utiliza el software de IBM DeepQA y el marco Apache UIMA. El sistema se ha programado en varios lenguajes, como Java, C++ y Prolog, y se ejecuta en un sistema SUSE Linux Enterprise Server 11 que utiliza Apache Hadoop como marco para la computación distribuida. El sistema está optimizado para manejar la carga de trabajo necesaria para generar hipótesis, reconocer las máximas pruebas y analizar los datos, integrando procesadores POWER7 altamente paralelizados. Watson consiste en una red de servidores IBM Power 750, cada uno de ellos equipado con un procesador POWER7 de ocho núcleos a 3,5 GHz con cuatro hilos por núcleo. En total, el sistema cuenta con 2880 hilos de procesadores POWER7 y 16 terabytes de RAM. Desde la sanidad hasta la educación y las finanzas, pasando por el transporte y la energía, Watson se adapta a toda una serie de áreas de aplicación en la economía impulsada por los datos y se basa en un profundo conocimiento del dominio para permitir a los operadores tomar decisiones más informadas y con mayor rapidez.

Experiencia en ciencia de datos IBM

DSX (Data Science Experience) es un entorno interactivo y colaborativo de ciencia de datos con herramientas para capturar y compartir ideas, como los cuadernos Jupyter con Python, R y Scala. Puede utilizarlo en IBM Cloud, en una nube segura (Local) o en su escritorio. En pocas palabras, las funciones de DSX le permiten realizar tareas en un solo lugar, sin tener que salir del sitio, con la posibilidad de conectarse a más de 30 tipos de almacenes de datos, con acceso a la Plataforma de Datos Watson y con la ventaja de compartir conjuntos de datos, cuadernos, artículos y otras opciones.

Visualización de datos

D3

D3.js (o simplemente D3 para documentos basados en datos) es una biblioteca de JavaScript para crear visualizaciones dinámicas e interactivas a partir de datos organizados, visibles a través de un navegador común. D3.js utiliza los estándares web: SVG, HTML5 y CSS. La biblioteca D3 JavaScript, incrustada en una página web HTML, utiliza funciones JavaScript predefinidas para seleccionar elementos DOM, crear elementos SVG, añadir un estilo gráfico o transiciones, efectos de movimiento y/o información sobre herramientas. Estos objetos pueden personalizarse ampliamente mediante el estándar web de las “hojas de estilo en cascada” (CSS). De este modo, grandes colecciones de datos pueden convertirse fácilmente en objetos SVG mediante sencillas funciones D3 y generar así ricas representaciones gráficas de números, texto, mapas y diagramas. Los datos utilizados pueden estar en una variedad de formatos, siendo los más comunes JSON, valores separados por comas CSV o geoJSON, pero, si es necesario, se pueden escribir funciones de JavaScript específicamente para leer datos en otros formatos.

QLIK

Qlik es una plataforma de soluciones dedicadas a la visualización de datos en modo autoservicio, de aplicaciones para el análisis, para el análisis integrado y para la elaboración de informes. Qlik le permite visualizar y explorar la información, interpretar los fenómenos y tener visiones que le permitan tomar decisiones de forma más consciente y rápida. Qlik integra la Inteligencia de Negocio (BI) partiendo de la convicción de que para optimizar la Inteligencia de Negocio es necesario, en primer lugar, poner en uso la inteligencia, partiendo del concepto de que los datos no son más que una fuente y que las herramientas y tecnologías de análisis son eficaces por las personas que las utilizan. Este es el punto de partida de las soluciones de Visual Analytics, que incluyen tres soluciones: Qlik Sense, la plataforma de Análisis Visual de última generación, QlikView, es la solución para el análisis guiado y los cuadros de mando y Qlik Cloud es la cartera de aplicaciones SaaS.

Power BI

Power BI es una familia de herramientas de análisis de datos para empresas que puede producir información crítica. Power BI permite conectar cientos de tipos de datos, simplificando la preparación de los mismos y la posibilidad de crear análisis personalizados. Power BI le permite crear cuadros de mando personalizados con la posibilidad de dar vida a visualizaciones personalizadas. Power BI permite gestionar los datos de cualquier fuente (ya sea localmente o desde la nube) en una única ubicación. La plataforma muestra cuadros de mando y procesos en tiempo real con informes interactivos y facilita la exploración de datos y las consultas en lenguaje natural con la posibilidad de enviar preguntas y obtener respuestas en forma de visualizaciones personalizables.

Tableau

Tableau es una plataforma de soluciones de visualización de datos basada en tres principios:

la capacidad de fusionar infografías y bases de datos
trabajar en los principios de la comprensión visual
desarrollar ciclos de análisis visual

La filosofía de la empresa se resume en la creencia en el papel fundamental de los hechos y la capacidad de utilizar los datos para marcar la diferencia. La plataforma de Tableau consta de una serie de herramientas como VizQL, Live Query Engine, In-Memory Data Engine, Tableau Public y Tableau Mobile.

VizQL es un lenguaje de consulta visual que traduce las acciones de arrastrar y soltar en consultas y gestiona su visualización.

Tableau se apoya en un motor de datos en forma de base de datos analítica de vanguardia, diseñado para superar las limitaciones de las bases de datos y los silos de datos existentes y proporcionar un verdadero apoyo a nivel de análisis visual. El motor de datos de Tableau tiende un puente entre el Big Data y la velocidad de análisis.

Zeppelin

Apache Zeppelin es un cuaderno basado en la web que permite formas interactivas y colaborativas de análisis basados en datos con SQL, Scala y otras plataformas. Zeppelin se basa en un sistema de plugins y soporta Apache Spark, Python, JDBC, Markdown y Shell.

Zeppelin es una solución polivalente para la ingestión de datos, el descubrimiento de datos, el análisis de datos y la visualización y colaboración de datos.

Ploty

Plotly (Plot.ly) es una herramienta de análisis y visualización de datos. Plotly proporciona herramientas gráficas, analíticas y estadísticas en línea, así como bibliotecas de gráficos científicos para Python, R, MATLAB , Perl, Julia, Arduino y REST. Plotly está construido con Python y el framework Django, con un front-end que utiliza JavaScript y la biblioteca de visualización D3.js, HTML y CSS. Los servidores de colaboración de Ploty (disponibles en la nube o localmente) permiten a los científicos de datos mostrar su trabajo, crear gráficos sin necesidad de codificar y colaborar con los analistas de negocio para diseñadores, ejecutivos y clientes.

Datos abiertos

El término “datos abiertos” se refiere a todos los datos que son de libre acceso: que pueden ser utilizados por cualquiera sin restricciones de derechos de autor, patentes u otros mecanismos de control, aparte de la obligación de citar la fuente o mantener la base de datos abierta. (Datos abiertos y código abierto: por qué lo abierto es mejor)

Los objetivos del movimiento de “datos abiertos” son similares a los de otros movimientos “abiertos” como el de código abierto, hardware abierto, contenidos abiertos, gobierno abierto y acceso abierto. El crecimiento del movimiento “Open Data” va acompañado de un aumento de los derechos de propiedad intelectual. La filosofía de los datos abiertos está bien establecida, mientras que el término “Datos Abiertos” es más reciente y ha ganado popularidad con la llegada de Internet y la World Wide Web y, en particular, con el lanzamiento de iniciativas gubernamentales de Datos Abiertos como Data.gov y Data.gov.uk.

*Luca Flecchia creció profesionalmente en empresas de consultoría líderes (KPMG, Capgemini), donde participó tanto en proyectos de consultoría de gestión como de implantación de sistemas de información. Su experiencia abarca desde el análisis del rendimiento de los procesos (por ejemplo, la cadena de suministro) hasta la redacción de análisis funcionales para la implantación de aplicaciones personalizadas. Ha desarrollado su experiencia en proyectos de CRM, planificación financiera de mercancías y analítica, tanto en términos de analítica “tradicional” (por ejemplo, cuadros de mando, informes, almacenamiento de datos) como de analítica “avanzada”. Actualmente dirige la unidad de Data Driven Innovation en Partners4Innovation, donde, entre otras cosas, combina sus conocimientos de analítica con los de Business Process Management (BPM) en la aplicación de técnicas de Process Mining.