Hadoop: por qué es crucial para el big data y cuáles son las evoluciones

Hadoop es un marco tecnológico de código abierto que soporta Big Data y análisis empresariales, permitiendo que las aplicaciones trabajen con miles de nodos y petabytes de datos, estructurados y no estructurados. Cuáles son las implantaciones actuales y sus evoluciones futuras

Hadoop es una tecnología de código abierto reconocida unánimemente como la plataforma de referencia en el campo de la gestión y distribución de big data. Se trata de un marco que actúa como capa intermedia entre un sistema operativo y el software que lo utiliza, permitiendo a las aplicaciones trabajar con miles de nodos y petabytes de datos.

El valor de Hadoop es que también es capaz de procesar los datos no estructurados que proceden del mundo digital, colaborativo y social, así como todo el mundo de la comunicación y la detección asociado a la Internet de las cosas.

Índice de temas

Los orígenes del marco, de Apache Hadoop en adelante

La matriz original de Hadoop es Apache, el lenguaje de programación es Java y el punto a favor de la tecnología es soportar aplicaciones distribuidas y con gran cantidad de datos con una licencia gratuita. La historia cuenta cómo sus dos creadores, Mike Cafrella y Doug Cutting, diseñaron el marco informático en 2005, basándose en ideas que Google había esbozado en un par de documentos técnicos. ¿El símbolo de Hadoop, representado por un elefante amarillo sonriente? Una idea de Doug Cutting, que bautizó el proyecto con el nombre de la marioneta favorita de su hijo.

En 2006, Yahoo fue la primera empresa en adoptar la tecnología y contribuyó a su desarrollo. Le siguieron de cerca otras empresas del universo online como Ebay, Facebook, LinkedIn, Twitter y Spotify. Hoy en día, Hadoop ha evolucionado hasta convertirse en un complejo ecosistema de componentes de infraestructura y herramientas relacionadas que varios proveedores comercializan en suites.

Hadoop: cómo funciona y ejemplos de uso

Hadoop, que se ejecuta en un clúster de servidores, ofrece a los usuarios un enfoque de alto rendimiento y bajo costo para construir una arquitectura de gestión de big data especialmente adecuada para respaldar iniciativas de análisis avanzado.

A medida que las capacidades de Hadoop se hicieron evidentes para la mayoría, su uso se extendió a otros sectores. No solo para las aplicaciones vinculadas a la elaboración de informes, sino también para las vinculadas a análisis más avanzados, asociados a una mezcla de datos estructurados tradicionales y nuevas formas de datos no estructurados y semiestructurados. El marco, de hecho, es capaz de procesar

datos de clics en la web
información de anuncios en línea
datos de redes sociales
registros de solicitudes de asistencia sanitaria
datos de sensores de equipos de producción
información asociada a dispositivos IoT

Cuáles son los componentes del marco

Hadoop está formado por un gran número de componentes de software de código abierto que incluyen una serie de módulos principales que sirven para adquirir, procesar, gestionar y analizar enormes cantidades de datos. Los componentes principales son:

Hadoop Distributed File System (HDFS):

Soporta un sistema jerárquico convencional de directorios y archivos, que distribuye los archivos entre los nodos de almacenamiento, denominados Nodos de Datos, de un clúster Hadoop.

YARN (acrónimo de Yet Another Resource Negotiator)

Gestiona la programación de trabajos, asignando los recursos del clúster a las aplicaciones en ejecución, decidiendo la priorización si hay contención por los recursos disponibles. La tecnología rastrea y supervisa el progreso del procesamiento de los trabajos.

MapReduce

Es tanto un modelo de programación como un marco de ejecución para el procesamiento paralelo de aplicaciones por lotes. El principio es el siguiente: en lugar de transferir los datos al sistema computacional, HDFS procesa directamente los nodos de datos y la transformación de estos se realiza localmente, a través de MapReduce. Cada nodo procesa los datos de acuerdo con la solicitud y luego reenvía los resultados, que se consolidan en un nodo maestro, que también almacena todos los metadatos asociados a la gestión del clúster.

Paquete común Hadoop

Se trata de un conjunto de bibliotecas y utilidades que también utilizan otros componentes. El paquete HCP contiene los archivos jar y los scripts necesarios para iniciar Hadoop. El paquete también proporciona código fuente, documentación, así como una sección de contribuciones que incluye proyectos de la comunidad Hadoop.

Hadoop Ozone y Hadoop Submarine

Se trata de dos tecnologías más recientes que ofrecen a los usuarios una tienda de objetos y un motor de aprendizaje automático, respectivamente.

En los clusters Hadoop, los componentes centrales, junto con otros módulos de software, se superponen a una colección de nodos de hardware para procesar y almacenar datos. Los nodos se conectan a través de una red interna de alta velocidad para formar un sistema informático de alto rendimiento distribuido y paralelo.

Como conjunto de tecnologías de código abierto, ningún proveedor controla Hadoop, sino que la Fundación del Software Apache coordina su desarrollo. Apache, de hecho, ofrece Hadoop bajo una licencia que concede a los usuarios el derecho a utilizar el software de forma gratuita.

Características de las versiones comerciales de Hadoop

Los usuarios y programadores pueden descargar el software directamente del sitio web de Apache para crear entornos Hadoop por sí mismos. Sin embargo, los proveedores de Hadoop ofrecen versiones predefinidas de la comunidad de desarrolladores, con funcionalidades básicas que los usuarios pueden descargar gratuitamente e instalar en diversas plataformas de hardware. Los proveedores también comercializan versiones preconfiguradas de Hadoop que, además del software, ofrecen un paquete de servicios relacionados con las actividades de mantenimiento y soporte.

En algunos casos, algunos vendedores ofrecen mejoras de rendimiento y funcionalidad con respecto a la tecnología Apache original: por ejemplo, proporcionando herramientas de software adicionales para facilitar la configuración y gestión de clústeres o la integración de datos con plataformas externas.

Estas ofertas comerciales hacen que Hadoop sea cada vez más asequible, independientemente del tamaño de una empresa.

Los componentes de una pila de software Hadoop típica

¿Qué significa utilizar una versión comercial de Hadoop? Como explican los expertos, significa que, además de los componentes principales, las implantaciones típicas de Hadoop incluirán, entre otras cosas:

-Procesamiento alternativo de datos y todas las aplicaciones útiles de gestión ejecutiva como, por ejemplo, Spark, Kafka, Flink, Storm o Tez, que pueden ejecutarse encima o junto a YARN para proporcionar gestión de clústeres, gestión de datos en caché y otras herramientas que mejoran el rendimiento del procesamiento.

-Apache HBase, un sistema de gestión de bases de datos orientado a columnas que sigue el modelo del proyecto Bigtable de Google y que se ejecuta sobre HDFS (Hadoop Distributed File System).

–Herramientas SQL-on-Hadoop, como Hive, Impala, Presto, Drill y Spark SQL, que ofrecen diversos grados de cumplimiento del estándar SQL para la consulta directa de los datos almacenados en HDFS.

-Herramientas de desarrollo, como Pig, que ayudan a los desarrolladores a crear MapReduce.

-Herramientas de configuración y gestión, como ZooKeeper o Ambari, que son útiles tanto para la supervisión como para la gestión.

–Entornos de análisis, como Mahout, que proporcionan modelos analíticos para el aprendizaje automático, la minería de datos y el análisis predictivo.

-Dado que el software es de código abierto, las empresas no tienen que comprar la distribución de Hadoop como si fuera un producto. En su lugar, los proveedores venden suscripciones anuales de soporte con varios acuerdos de nivel de servicio (SLA). Todos los proveedores participan activamente en la comunidad Apache Hadoop, aunque cada uno puede promocionar sus propios complementos.

¿Quién gestiona el entorno de gestión de big data de Hadoop?

Es importante reconocer que conseguir el rendimiento deseado de un sistema Hadoop requiere un equipo coordinado de profesionales informáticos cualificados, que colaboren en:

planificando la arquitectura
el diseño
el desarrollo
comprobación
la implementación
hasta las operaciones y el mantenimiento continuos para garantizar el máximo rendimiento.

Esos equipos de TI suelen incluir

-analistas especializados en evaluar los requisitos de rendimiento del sistema en función de los tipos de aplicaciones que se ejecutarán en el entorno Hadoop

-arquitectos de sistemas para considerar los requisitos de rendimiento y diseñar las configuraciones de hardware

-ingenieros de sistemas para instalar, configurar y optimizar la pila de software Hadoop

-desarrolladores de aplicaciones para diseñar e implementar las aplicaciones

profesionales de gestión de datos que preparan todo el trabajo de integración de datos, crean disposiciones de datos y se encargan de otras tareas de gestión

-gestores de sistemas que se encargan de la gestión operativa y el mantenimiento

-gestores de proyectos que supervisan la implantación de los distintos niveles de la pila y el desarrollo de las aplicaciones

-un gestor de programas que supervisa la implantación del entorno Hadoop, el establecimiento de prioridades, el desarrollo de aplicaciones y la implantación.

El mercado de proveedores de Hadoop

La evolución de Hadoop como ecosistema de gestión de datos a gran escala ha creado un nuevo mercado de software que está transformando progresivamente el sector del análisis y la inteligencia empresarial. De hecho, este tipo de desarrollo ha ampliado tanto los tipos de aplicaciones relacionadas con la analítica como los tipos de datos integrados en las aplicaciones que las empresas pueden recopilar y analizar. De hecho, existen otros proveedores que ofrecen un entorno de almacenamiento compartido al que se conectan los nodos informáticos. Por otra parte, el uso de una infraestructura de almacenamiento compartido para almacenar los datos de Hadoop garantiza una protección más eficaz de los datos y una mejor protección del nodo maestro de Hadoop.

Los dos principales proveedores independientes especializados en Hadoop son Cloudera Inc (que se fusionó con Hortonworks en octubre de 2018) y MapR Technologies Inc. Existen otras empresas que ofrecen políticas de despliegue o funcionalidades asociadas a Hadoop como, por ejemplo, AWS, Google y Microsoft.

A lo largo de los años, el mercado de Hadoop se ha consolidado de forma significativa. Mientras que IBM, Intel y Pivotal Software han decidido abandonar la competición, la fusión de los dos antiguos rivales otorga a la nueva Cloudera la mayor cuota de mercado, lo que le permite competir con mayor eficacia en la nube.

Cloudera: oportunidades y evolución

El nuevo sistema de mensajería de Cloudera proporcionará la primera nube de datos empresariales del sector. Cloudera desarrolló una oferta unificada llamada Cloudera Data Platform, que ya salió a en las nubes de Microsoft Azure y AWS. Luego hay una “segunda versión” que soporta despliegues en nubes privadas, containers, Kubernetes, etc.

Aunque la nueva Cloudera puede ser más competitiva, la desventaja potencial de la fusión es que los usuarios de Hadoop tienen ahora menos opciones. Por eso es importante evaluar a los proveedores que ofrecen distribuciones de Hadoop, comprendiendo las similitudes y las diferencias.

De hecho, la propia tecnología: ¿qué se incluye en las distintas modalidades de distribución, en qué plataformas son compatibles y, lo que es más importante, qué componentes específicos soportan los distintos proveedores? ¿Qué tipos de soporte y SLA ofrecen los proveedores dentro de cada nivel de suscripción y cuánto cuestan las diferentes suscripciones?

Comprender cómo se relacionan estos aspectos con los requisitos empresariales específicos ayuda a destacar las características que son importantes para establecer una relación rentable con el proveedor.