Consultor tecnológico de desarrollo de proyectos informáticos.
Ingeniero en Informática con especialidad en Ingeniería del Conocimiento *.
Fecha de publicación del tutorial: 2010-05-06
Talend Open Studio (TOS) 4.0
0. Índice de contenidos.
- 1. Introducción.
- 2. Diferencias entre versiones.
- 3. Entorno.
- 4. Instalación.
- 5. Configuración.
- 6. Conclusiones.
1. Introducción
En este tutorial os voy a enseñar a instalar Talend Open Studio 4.0 que es una herramienta ETL de código libre creada por la empresa Talend.
¿Qué es ETL?
ETL es el acrónimo de Extract, Transform y Load (en español extraer, transformar y cargar) y hace referencia al proceso que permite obtener la información de una fuente de datos, procesarla | formatearla | limpiarla y cargarla en otra fuente de datos .
Características principales de la herramienta :
- Sincronización o replicación de bases de datos
- Intercambios de datos en el momento correcto o por lotes entre los sistemas de la infraestructura de TI
- Migración de datos
- Transformación y carga de datos complejas
Talend Open Studio se basa en programación por componentes (para algunos en cajitas ;-) ) por lo que el desarrollo de cualquier script/programa varía bastante respecto a la programación habitual. Esta forma de programar consiste en ir uniendo diferentes componentes con funcionalidades diversas mediante sus flujos de entrada y flujos de salida para realizar una tarea más compleja. Como ya os habréis dado cuenta, ésto cumpliría con el método algorítmico de Divide y vencerás (DYV) que consiste en resolver un problema complejo dividiéndolo en partes más simples tantas veces como sea necesario, hasta que la resolución de las partes sencillas se torne obvia. Con lo que la solución del problema principal se construye a partir de las soluciones de los problemas más simples.
Es cierto que programar al estilo "Old School" , es decir, programando normalmente, te proporciona toda la libertad del mundo (cosa lógica y normal porque tú eres dueño de todas y cada una de las líneas que tiene tu programa). Pero creo que se le debería dar una oportunidad a este tipo de programación porque casi no te limita en esa libertad como ya iré explicando en próximos tutoriales y sobre todo porque permite realizar cambios críticos con relativa facilidad cosa que programando normalmente no sería tan sencillo o bien requeriría más tiempo.
Aspectos destacados de esta herramienta:
- Modelo de proceso orientado al negocio.
- Repositorio centralizado: Información de todos los proyectos.
- Consistencia de datos y reutilización de componentes.
- Rápido desarrollo.
- Fácil de mantener.
- Desarrollo gráfico.
- Aumenta la productividad.
- Combina vistas gráficas con técnicas.
- Arrastrar y soltar componentes en la ventana de diseño.
- Amplia gama de componentes y conectores.
- Ejecución robusta y escalable.
- Proceso distribuido en red. Aprovecha al máximo el hardware. Indicado para todo tipo se servidores (gama alta y baja), ya que maximiza la tasa de utilización de los recursos.
- Genera código estándar. Utiliza motores optimizados (JAVA o PERL).
2. Diferencias entre versiones.
En primer lugar decir que Talend dispone de 2 categorías para sus diferentes versiones :
-> Versión gratuita (Talend Open Studio)
- Versión Talend Open Studio : Proporciona características avanzadas para mejorar la productividad en la integración de datos.
-> Versiones de pago (Talend Integration Suite)
Talend Integration Suite es la versión empresarial para dar solución a la integración de datos que proporciona mediante una subscripción el apoyo técnico por parte de profesionales de Talend así como funciones adicionales para facilitar el trabajo a escala empresarial.
Decir que Talend Open Studio (TOS) es el núcleo de Talend Integration Suite (TIS)
- Versión Team .
- Versión Professional.
- Versión Enterprise.
- Versión RTx (Permite la integración de datos en plataformas que requieren trabajo en tiempo real).
- Versión Mpx (Permite la integración de datos en plataformas masivamente paralelas donde se adapta a los volúmenes de datos) más altos.
Estas versiones difieren entre ellas en la funcionalidad que permiten que varía segun el coste de la licencia
Diferencias principales entre la version Talend Open Studio (TOS) y Talend Integration Suite (TIS)
1) Funcionalidad básica de integración de datos
Características comunes:
- Modelado de negocio
- Diseño de trabajos
- Gestión de metadatos
- Más de 400 componentes disponibles
- Asistentes en la creación de ficheros, base de datos , etc.
- Importanción de componentes Talend
Características únicamente de TIS
Nota : Estas características también difieren seguún la versión
- Comparador de gestión del campo con trabajos
- Análisis de impato e histórico de datos
- Captura de cambios de datos
- Reglas de negocio impulsado por la Integración (BRMS)
- Opciones de calidad de datos
2) Desarrollo avanzado de productividad
No tienen características comunes
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Asistentes avanzados (SAP , WSDL, migración y replicación, etc)
- Previsualización de datos
- Joblets
- Documentación automática
- Importación de metadatos
- Soporte Apache Hadoop (plataforma para trabajar con grandes cantidades de informacion incluso petabytes)
3) Trabajo en equipo y consolidación del desarrollo
No tienen características comunes
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Repositorio compartido con Check In / Out
- Gestión de acceso
- Gestión de usuarios con directorio LDAP
- Almacenar metadatos y proyectos en SVN
- Proyecto Audit
4) Facilidades de despliegue
Características comunes
- Generar un trabajo como un servicio web
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Opciones por línea de comandos
- Planificador basado en tiempo
- Planificador basado en eventos
- Gestión de SOA
- Gestión GRID (Balanceo de carga y comuntación por error)
- Alta disponibilidad
- Tecnología altamente escalable FileScale
- Arquitectura masivamente paralela
5) Monitorización
No tienen características comunes
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Consola de monitorización de actividad
- Seguimiento de monitorización de actividad
- Gestión de recuperación de errores
- Estadísticas e informes de ejecución de tiempo real
6) Soporte
Características comunes
- Comunidad : Foros, Bugtracker
- Soporte técnico (Opcional para TOS)
- Documentación
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Acceso a servicio premium (asesoría, etc)
7) Tipo de licencia e idemnización
Características comunes
- Licencia GPL (Sólo TOS)
- Acceso al código fuente
Características únicamente de TIS
Nota : Estas características también difieren según la versión
- Subscripción Licencia
- Indemnización
3. Entorno.
El tutorial está escrito usando el siguiente entorno:
- Hardware: Portátil Asus G50Vseries (Core Duo P8600 2.4GHz, 4GB RAM,320 GB HD).
- Sistema operativo: Windows Vista Ultimate.
- Mozilla Firefox 3.6.3
4. Instalación.
Para comenzar la instalación nos conectaremos a la página web de Talend

En la parte de la derecha de la web (en color rojo) existe un acceso directo a las descargas de sus productos.
Seleccionamos el producto Talend Open Studio. Para ello seleccionamos la opción que ellos denominan como Telecargue ahora! ;-)

Seleccionaremos la opción de instalación que necesitemos :
- Windows 32
- Windows 32 / Unix / Linux
En nuestro caso seleccionaremos la opción de Windows 32. Una vez seleccionada, nos mostrará los servidores desde los que se pueden descargar.

Una vez seleccionado el servidor nos descargaremos el instalador.

Cuando tengamos el instalador descargado lo ejecutaremos y mostrará una ventana que nos solicitará el directorio de instalación. Nosotros elegiremos C:\TOS4.0
Nota : A partir de ahora a este directorio más la carpeta que genera la denominaremos TOS_HOME. En mi caso la TOS_HOME es C:\TOS4.0\TOS-Win32-r41260-V4.0.1

Seleccionamos la opción de instalar

Una vez haya terminado estaremos en disposición de empezar a utilizarlo
4. Configuración.
Tras la instalación voy a enseñar a cómo generar un proyecto y configurar un repositorio.
PASO 1 : Ejecutamos Talend Open Studio 4.0

PASO 2 : La primera vez que lo ejecutamos no mostrará las condiciones de la licencia.

PASO 3 : Cargará la pantalla inicial de Talend que indicará la existencia de un error al NO existir ninguna conexión.
Con conexión se refiere a la existencia de un repositorio con el que trabajar.

PASO 4 : Crear un repositorio. En esta pantalla se le indicará el nombre así como la localización.

PASO 5 : Es obligatorio introducir un correo para que nos deje crear el repositorio.

PASO 6 : Una vez creado ése podrá ser seleccionable para crear proyectos, por lo que modificaremos el seleccionable de proyectos para crear un nuevo proyecto.

PASO 7 : Tras seleccionar GO! aparecerá la ventana de alta del proyecto donde podremos darle un nombre, una descripción e indicar el tipo de lenguaje con el que se puede trabajar : Java o Perl

PASO 8 : Una vez esté dado de alta podremos seleccionarlo para abrir el proyecto, por lo que lo seleccinaremos en el desplegable apropiado y pulsaremos Open.

PASO 9 : Tras pulsar sobre Open se cargará el proyecto

PASO 10 : La primera ejecución solicitará un registro que solicitará un correo.

PASO 11 : Una vez finalizado el registro estaremos listos para comenzar a trabajar.

PASO 12 : Y ésta sería la pantalla pera comenzar a trabajar ;-)

5. Conclusiones.
Con este tutorial se pretende detallar la instalación de este productor para poco a poco ir enseñando a utilizarlo , pero claro, para eso hay que tenerlo bien instalado y configurado. Aquí termina esta primera introducción a la progrmación con cajitas ;-)
A continuación puedes evaluarlo:
Fecha publicación: 2012-08-03-18:44:37
Autor: LuciferianJ
Fecha publicación: 2011-04-13-22:01:17
Autor: aReLlaNo
Fecha publicación: 2011-04-13-22:00:42
Autor: aReLlaNo











