FINALIDAD DEL PROGRAMA FORMATIVO:

- Ajustar ambiente de Apache Hadoop al ciclo de vida del procesamiento de datos.
- Aprender la forma en que se distribuyen, almacenan y procesan los datos en un Clúster de Hadoop.
- Escribir, desplegar y configurar aplicaciones Apache Spark en un Clúster de Hadoop.
- Manejar la Spark shell y aplicaciones Spark para estudiar, procesar y examinar datos distribuidos.
- Ejecutar consultas de datos con Spark SQL, Dataframes y Datasets.
- Implementar Spark Streaming para el procesamiento de datos en tiempo real.

TITULACIÓN

Curso Cloudera Developer Training for Spark and Hadoop

TEMARIO

CONTENIDOS
INTRODUCCIÓN A APACHE HADOOP Y EL ECOSISTEMA HADOOP
- Aspectos generales de Apache Hadoop
- Proceso de datos
- Ejercicios prácticos
ARCHIVOS DE ALMACENAMIENTO DE APACHE HADOOP
- Componentes del Clúster Apache Hadoop
- Arquitectura HDFS
- Uso de HDFS
PROCESO DE DATOS EN UN CLÚSTER DE APACHE HADOOP
- Arquitectura YARN
- Trabajando con YARN
FUNDAMENTOS DE APACHE SPARK
- ¿Qué es Apache Spark?
- Arranque del Spark Shell
- Uso de Spark Shell
- Primeros pasos con Datasets y Dataframes
- Operaciones en Dataframe
TRABAJAR CON DATAFRAMES Y SCHEMAS
- Crear Dataframes a partir de Data Sources
- Guardar DataFrames en Data Sources
- DataFrame Schemas
- Primeros pasos con Datasets y Dataframes
- Rapidez y lentitud de ejecución
ANÁLISIS DE DATOS CON CONSULTAS DE DATAFRAME
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDDS: SUMARIO
- Vistazo general sobre RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
TRANSFORMACIÓN DE DATOS CON RDDS
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
AGREGACIÓN DE DATOS CON PAIR RDDS
- Key-Value Pair RDDs
- Map-Reduce
- Otras operaciones Pair RDD
CONSULTA Y VISTAS DE TABLAS MEDIANTE SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
CREACIÓN, CONFIGURACIÓN Y EJECUCIÓN DE APLICACIONES SPARK
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
PROCESAMIENTO DISTRIBUIDO SPARK
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
- Ejemplo: Programar la ejecución de Catalyst
- Ejemplo: Programar la ejecución de un RDD
PERSISTENCIA DE DATOS DISTRIBUIDOS
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
PATRONES COMUNES AL PROCESAR DATOS CON SPARK
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
- Caso práctico
INTRODUCCIÓN A LAS ESTRUCTURAS STREAMING
- Visión general de Apache Spark Streaming
- Creación de Streaming DataFrames
- Transformación de Dataframes
- Ejecución de consultas Streaming
ESTRUCTURAS STREAMING CON APACHE KAFKA
- Vistazo general
- Recepción de mensajes Kafka
- Envío de mensajes Kafka
AGREGACIÓN Y UNIÓN DE STREAMING DATAFRAMES
- Agregación Streaming
- Unión de Streaming Dataframes
CONCLUSIÓN
PROCESAMIENTO DE MENSAJES CON APACHE KAFKA
- ¿Qué es Apache Kafka?
- Visión general de Apache Kafka
- Escalado de Apache Kafka
- Arquitectura de un Clúster Apache Kafka
- Herramientas Apache Kafka de la linea de comandos

UBICACIONES DE NUESTRAS SEDES

Barcelona

Avinguda Diagonal, 98-100 - Distrito 22
Madrid

c/ Arregui y Aruej, 25-27

Curso Cloudera Developer Training for Spark and Hadoop - Pue

Pue

Recibir más información

Información general

DESCRIPCIÓN:

ASPECTOS A TENER EN CUENTA

FINALIDAD DEL PROGRAMA FORMATIVO:

¿A quién va dirigido?

TITULACIÓN

Requisitos

TEMARIO

SALIDAS PROFESIONALES

TE RECOMENDAMOS VER TAMBIÉN

UBICACIONES DE NUESTRAS SEDES

Opiniones