-
Tipo
Cursos
-
Modalidad
Online / A distancia (+)
-
Duración / Créditos
28 h.
-
Fechas
Matric. Permanente
-
Sedes
Barcelona/Madrid
Información general
DESCRIPCIÓN:
El presente curso, brindará los conceptos fundamentales que aunados a la experiencia de los participantes profundizarán en el tema de ingresar y gestionar datos en un clúster Hadoop a través del empleo de recursos y técnicas actualizadas tales como Spark (Spark Streaming y Spark SQL), Flume, Kafka y Sqoop. Esta capacitación facilitará una excelente preparación para los retos que enfrentan los desarrolladores de Hadoop.
El curso se desarrollará en 28 horas y será impartido en modalidad Online o Live Virtual Class, está dirigido a profesionales con experiencia en la codificación de aplicaciones. Algunas destrezas y conocimientos en los lenguajes Scala y Python, así como manejo del sistema operativo Linux en línea de comandos, otorgaran un mejor aprovechamiento de la capacitación.
El curso se desarrollará en 28 horas y será impartido en modalidad Online o Live Virtual Class, está dirigido a profesionales con experiencia en la codificación de aplicaciones. Algunas destrezas y conocimientos en los lenguajes Scala y Python, así como manejo del sistema operativo Linux en línea de comandos, otorgaran un mejor aprovechamiento de la capacitación.
Titulación universitaria
Certificado de profesionalidad
ASPECTOS A TENER EN CUENTA
FINALIDAD DEL PROGRAMA FORMATIVO:
- Ajustar ambiente de Apache Hadoop al ciclo de vida del procesamiento de datos.
- Aprender la forma en que se distribuyen, almacenan y procesan los datos en un Clúster de Hadoop.
- Escribir, desplegar y configurar aplicaciones Apache Spark en un Clúster de Hadoop.
- Manejar la Spark shell y aplicaciones Spark para estudiar, procesar y examinar datos distribuidos.
- Ejecutar consultas de datos con Spark SQL, Dataframes y Datasets.
- Implementar Spark Streaming para el procesamiento de datos en tiempo real.
- Aprender la forma en que se distribuyen, almacenan y procesan los datos en un Clúster de Hadoop.
- Escribir, desplegar y configurar aplicaciones Apache Spark en un Clúster de Hadoop.
- Manejar la Spark shell y aplicaciones Spark para estudiar, procesar y examinar datos distribuidos.
- Ejecutar consultas de datos con Spark SQL, Dataframes y Datasets.
- Implementar Spark Streaming para el procesamiento de datos en tiempo real.
¿A quién va dirigido?
Este curso está diseñado para desarrolladores e ingenieros que tienen experiencia en programación, pero no se requieren conocimientos previos de Hadoop y / o Spark.
TITULACIÓN
Curso Cloudera Developer Training for Spark and Hadoop
Requisitos
Se recomienda estar familiarizado con la línea de comandos básica de Linux.
El conocimiento básico de SQL es útil.
El conocimiento básico de SQL es útil.
TEMARIO
CONTENIDOS
INTRODUCCIÓN A APACHE HADOOP Y EL ECOSISTEMA HADOOP
- Aspectos generales de Apache Hadoop
- Proceso de datos
- Ejercicios prácticos
ARCHIVOS DE ALMACENAMIENTO DE APACHE HADOOP
- Componentes del Clúster Apache Hadoop
- Arquitectura HDFS
- Uso de HDFS
PROCESO DE DATOS EN UN CLÚSTER DE APACHE HADOOP
- Arquitectura YARN
- Trabajando con YARN
FUNDAMENTOS DE APACHE SPARK
- ¿Qué es Apache Spark?
- Arranque del Spark Shell
- Uso de Spark Shell
- Primeros pasos con Datasets y Dataframes
- Operaciones en Dataframe
TRABAJAR CON DATAFRAMES Y SCHEMAS
- Crear Dataframes a partir de Data Sources
- Guardar DataFrames en Data Sources
- DataFrame Schemas
- Primeros pasos con Datasets y Dataframes
- Rapidez y lentitud de ejecución
ANÁLISIS DE DATOS CON CONSULTAS DE DATAFRAME
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDDS: SUMARIO
- Vistazo general sobre RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
TRANSFORMACIÓN DE DATOS CON RDDS
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
AGREGACIÓN DE DATOS CON PAIR RDDS
- Key-Value Pair RDDs
- Map-Reduce
- Otras operaciones Pair RDD
CONSULTA Y VISTAS DE TABLAS MEDIANTE SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
CREACIÓN, CONFIGURACIÓN Y EJECUCIÓN DE APLICACIONES SPARK
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
PROCESAMIENTO DISTRIBUIDO SPARK
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
- Ejemplo: Programar la ejecución de Catalyst
- Ejemplo: Programar la ejecución de un RDD
PERSISTENCIA DE DATOS DISTRIBUIDOS
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
PATRONES COMUNES AL PROCESAR DATOS CON SPARK
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
- Caso práctico
INTRODUCCIÓN A LAS ESTRUCTURAS STREAMING
- Visión general de Apache Spark Streaming
- Creación de Streaming DataFrames
- Transformación de Dataframes
- Ejecución de consultas Streaming
ESTRUCTURAS STREAMING CON APACHE KAFKA
- Vistazo general
- Recepción de mensajes Kafka
- Envío de mensajes Kafka
AGREGACIÓN Y UNIÓN DE STREAMING DATAFRAMES
- Agregación Streaming
- Unión de Streaming Dataframes
CONCLUSIÓN
PROCESAMIENTO DE MENSAJES CON APACHE KAFKA
- ¿Qué es Apache Kafka?
- Visión general de Apache Kafka
- Escalado de Apache Kafka
- Arquitectura de un Clúster Apache Kafka
- Herramientas Apache Kafka de la linea de comandos
INTRODUCCIÓN A APACHE HADOOP Y EL ECOSISTEMA HADOOP
- Aspectos generales de Apache Hadoop
- Proceso de datos
- Ejercicios prácticos
ARCHIVOS DE ALMACENAMIENTO DE APACHE HADOOP
- Componentes del Clúster Apache Hadoop
- Arquitectura HDFS
- Uso de HDFS
PROCESO DE DATOS EN UN CLÚSTER DE APACHE HADOOP
- Arquitectura YARN
- Trabajando con YARN
FUNDAMENTOS DE APACHE SPARK
- ¿Qué es Apache Spark?
- Arranque del Spark Shell
- Uso de Spark Shell
- Primeros pasos con Datasets y Dataframes
- Operaciones en Dataframe
TRABAJAR CON DATAFRAMES Y SCHEMAS
- Crear Dataframes a partir de Data Sources
- Guardar DataFrames en Data Sources
- DataFrame Schemas
- Primeros pasos con Datasets y Dataframes
- Rapidez y lentitud de ejecución
ANÁLISIS DE DATOS CON CONSULTAS DE DATAFRAME
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDDS: SUMARIO
- Vistazo general sobre RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
TRANSFORMACIÓN DE DATOS CON RDDS
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
AGREGACIÓN DE DATOS CON PAIR RDDS
- Key-Value Pair RDDs
- Map-Reduce
- Otras operaciones Pair RDD
CONSULTA Y VISTAS DE TABLAS MEDIANTE SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
CREACIÓN, CONFIGURACIÓN Y EJECUCIÓN DE APLICACIONES SPARK
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
PROCESAMIENTO DISTRIBUIDO SPARK
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
- Ejemplo: Programar la ejecución de Catalyst
- Ejemplo: Programar la ejecución de un RDD
PERSISTENCIA DE DATOS DISTRIBUIDOS
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
PATRONES COMUNES AL PROCESAR DATOS CON SPARK
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
- Caso práctico
INTRODUCCIÓN A LAS ESTRUCTURAS STREAMING
- Visión general de Apache Spark Streaming
- Creación de Streaming DataFrames
- Transformación de Dataframes
- Ejecución de consultas Streaming
ESTRUCTURAS STREAMING CON APACHE KAFKA
- Vistazo general
- Recepción de mensajes Kafka
- Envío de mensajes Kafka
AGREGACIÓN Y UNIÓN DE STREAMING DATAFRAMES
- Agregación Streaming
- Unión de Streaming Dataframes
CONCLUSIÓN
PROCESAMIENTO DE MENSAJES CON APACHE KAFKA
- ¿Qué es Apache Kafka?
- Visión general de Apache Kafka
- Escalado de Apache Kafka
- Arquitectura de un Clúster Apache Kafka
- Herramientas Apache Kafka de la linea de comandos
SALIDAS PROFESIONALES
Con esta formación podrás ejercer como profesional cualificado en puestos de trabajo de:
- Asesor de sistemas informáticos
- Programación
- Departamentos de informática
- Administración de sistemas y redes
- Administrador de sistemas operativos Linux
- Trabajar como experto en plataformas computacionales e informáticas
- Gestor de clústers Apache Hadoo
TE RECOMENDAMOS VER TAMBIÉN
En los siguientes enlaces podrás ver programas formativos similares:
UBICACIONES DE NUESTRAS SEDES
-
Barcelona
Avinguda Diagonal, 98-100 - Distrito 22
-
Madrid
c/ Arregui y Aruej, 25-27
Opiniones
No hay opiniones registradas para este curso