Tutoriales

Introducción a la Sandbox HDP – Hortonworks Data Platform

Por

Juan Alonso Ramos

5 marzo, 2015

13866

Introducción a la Sandbox HDP – Hortonworks Data Platform

0. Índice de contenidos.

1. Introducción.
2. Entorno.
3. Instalación
4. Herramientas de la sandbox
5. Conclusiones

1. Introducción.

En este tutorial vamos a tratar sobre la Sandbox de Hortonworks, una máquina virtual que se distribuye de forma abierta con un montón de aplicaciones para proyectos de Big Data. Todos los proyectos instalados en la máquina virtual tienen licencia de ASF – Apache Software Foundation. Hortonworks es una empresa fundada en 2011 y contribuidora del proyecto Apache Hadoop. Es uno de los principales proveedores de soluciones Big Data con el ecosistema de Hadoop que existen actualmente.

La Sandbox HDP es muy útil para tener instalado en una máquina de desarrollo una arquitectura Big Data con la que poder hacer pruebas de concepto o pequeños procesos de análisis y procesado de datos sin necesidad de tener que instalar, configurar y mantener este software con los costes que ello supone.

La base de HDP (Hortonworks Data Platform) es Hadoop y el sistema de archivos distribuidos HDFS. También vienen instalados el framework Pig para scripts de procesos MapReduce, Hive y HCatalog para lanzar queries sobre conjuntos de datos, Storm para el procesado de datos en real time, Kafka, Solr, Spark, HBase, Ambari, etc.

Fuente: Hortonworks

En este tutorial vamos a ver la forma de instalar la máquina virtual y a trastear un poco con las utilidades que vienen instaladas.

2. Entorno.

El tutorial se ha realizado con el siguiente entorno:

MacBook Pro 15′ (2.4 GHz Intel Core i5, 8GB DDR3 SDRAM).
VirtualBox
Hortonworks Data Platform 2.2

3. Instalación

Lo primero será descargarnos la máquina virtual de la página oficial. Está disponible para VirtualBox , VMWare e Hyper-V.

Las características de la máquina virtual son:

Arquitectura de 32 o 64 bits (Windows XP, Windows 7, Windows 8 y Mac OSX)
4Gb de RAM. Si arrancas Ambari o HBase se requiren 8Gb.
2 procesadores
8Mb de memoria de vídeo
Sistema operativo Red Hat

Una vez descargada la abrimos, en mi caso con VirtualBox:

Paciencia que tarda un rato el proceso de instalación.

Y finalmente arranca mostrando lo siguiente.

4. Herramientas de la Sandbox

La máquina virtual no tiene entorno gráfico. Levanta un servidor web en la URL http://127.0.0.1:8888/ para inicialiar la sesión en la Sandbox. Abrimos un navegador desde nuestra máquina anfitriona y entramos en dicha URL.

Nos pide una serie de datos de registro y una vez introducidos entramos en la Sandbox.

Aquí nos indica que la interfaz web para utilizar los servicios de la Sandbox está en la URL http://127.0.0.1:8000/. Usuario ‘hue’, password ‘1111’.

También podemos entrar por SSH, algo muy útil para poder ver la configuración de los distintos servicios y poder lanzar y gestionar las aplicaciones:

ssh root:127.0.0.1 -p 2222

Desde la interfaz web resulta sencillo ver los servicios disponibles como por ejemplo Hive o Pig. Con Hive podemos crear tablas estructuradas para cargar datos y proporciona un subconjunto de SQL para operar con ellos. Por debajo las queries que escribimos son convertidas a jobs MapReduce. Con Pig se hace algo parecido pero con una sintaxis propia más de scripts.

Comprobamos mediante el comando ‘jps’ los procesos Java levantados:

[root@sandbox ~]# jps
2269 Portmap
2778 RunJar
1761 DataNode
2673 ResourceManager
2271 Nfs3
3101 RunJar
3343 gateway.jar
1735 SecondaryNameNode
2071 Bootstrap
2533 RunJar
1737 NameNode
2040 QuorumPeerMain
2769 JobHistoryServer
15334 -- process information unavailable
2655 ApplicationHistoryServer
18166 Jps
4550 UnixAuthenticationService
1486 ldap.jar
2664 NodeManager
1180 EmbededServer
2942 Main

Para acceder al interfaz WebUI del cluster de Hadoop entramos desde un navegador de la máquina anfitriona a http://localhost:8088/cluster. Desde aquí podemos realizar el seguimiento de los jobs que se vayan ejecutando, los logs, el histórico de jobs ejecutados, la configuración de MapReduce, etc.

Otra interfaz muy útil para ver el filesystem HDFS es mediante http://localhost:50070/explorer.html#/. Desde aquí podemos ver el contenido del sistema de ficheros, tamaño de los archivos, permisos, información del NameNode, etc.

Por último mencionar que al tener acceso total a la máquina por ssh podemos arrancar, parar, configurar y en general utilizar todos los servicios disponibles de la máquina virtual lo que nos da una libertad total. Y si rompemos algo y no sabemos volver a hacerlo funcional, bastará con instalar una nueva mÃ¡quina virtual 🙂

5. Conclusiones.

En este tutorial hemos visto la manera de tener un montón de herramientas instaladas y listas para utilizar de una forma muy sencilla. Si estás pensando en iniciarte en algunas de las herramientas más utilizadas para análisis de grandes volúmenes de datos y no quieres perder tiempo instalando y configurando, la opción de utilizar la Sandbox de Hortonworks es una buena recomendación. También si tienes que hacer alguna prueba de concepto sobre alguna de estas tecnologías y te da pereza montar una máquina con todo lo necesario.

Por otro lado se aprende mucho viendo los ficheros de configuración de las distintas herramientas en una máquina 100% operativa por si tuvieras que montar alguna vez un sistema parecido.

Espero que te haya sido de ayuda.

Un saludo.

Juan

2 COMENTARIOS

Frank 19 mayo, 2016 En 2:15 am

Muy bueno, me fue de mucha utilidad, gracias.

Respuesta
Jonathan Camargo 24 agosto, 2016 En 4:17 am

Hola, muy bueno tu introducción sobre el tema, quisiera saber cuales fueron las características del pc físico para soportar la maquina virtual. Muchas gracias.

Respuesta

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

He leído y acepto la política de privacidad

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

He leído la política de privacidad y acepto recibir la newsletter con las últimas novedades vía email.

Información básica acerca de la protección de datos

Responsable:
Finalidad:
Legitimación:
Destinatarios:
Derechos:
Más información: Puedes ampliar información acerca de la protección de datos en el siguiente enlace:política de privacidad

Introducción a la Sandbox HDP – Hortonworks Data Platform

Introducción a la Sandbox HDP – Hortonworks Data Platform

0. Índice de contenidos.

1. Introducción.

2. Entorno.

3. Instalación

4. Herramientas de la Sandbox

5. Conclusiones.

2 COMENTARIOS

DEJA UNA RESPUESTA Cancelar respuesta

Información básica acerca de la protección de datos

Menú

Envíanos tu tutorial