Cloudera Data Scientist - Pue

Centro de formación:

Pue

0,0

0 opiniones /

Precio

1.670 €

Tipo Cursos

Modalidad Online / A distancia, Presencial

ver más información de este curso

más información de este centro

En Docenzia te asesoramos de forma gratuita para que escojas el mejor programa formativo que se adapte a tus necesidades y así poder mejorar tu carrera profesional. ¡Contáctanos para ayudarte!

Enviar WhatsApp

Te llamamos

Recibir más información

¿Cuándo contactamos contigo?

Mañana

Mediodía

Tarde

Enviando...

Tipo

Cursos
Modalidad

Online / A distancia (+)
Duración / Créditos

28 h.
Fechas

Matric. Permanente
Sedes

Barcelona/Madrid

Información general

DESCRIPCIÓN:

La presente capacitación, cuyo objetivo es proporcionar conocimientos y habilidades en el uso del poderoso framework Apache Spark para para el almacenamiento, procesamiento y análisis de grandes volúmenes de datos, tarea fundamental para el trabajo de los científicos de datos. Con Spark SQL se podrá realizar la carga, exploración, limpieza, unión y análisis de datos y con Spark MLlib se especificarán, entrenaran, evaluaran, ajustaran e implementaran pipelines de aprendizaje automático.

Esta formación se desarrollará en el transcurso de 28 horas, bajo modalidad Online, está dirigido a científicos de datos, analistas de datos, ingenieros de datos y desarrolladores. Es recomendable poseer conocimiento en la codificación en lenguaje Python, así como en la búsqueda, análisis y creación de modelos estadísticos y aprendizaje automático.

Certificado de profesionalidad

ASPECTOS A TENER EN CUENTA

FINALIDAD DEL PROGRAMA FORMATIVO:

- Proveer los conceptos y fundamentos de la ciencia de datos.
- Conocer el funcionamiento y aplicación de Cloudera Data Science Workbench (CDSW).
- Desarrollar y entender el caso de estudio DuoCar.
- Aprender el funcionamiento del marco de trabajo Apache Spark.
- Ejecutar una aplicación Spark desde Cloudera Data Science Workbench (CDSW).
- Inspeccionar y convertir una estructura de datos o Dataframe con la aplicación Spark SQL.
- Combinar y dividir estructuras de datos con el uso de la sentencia JOIN de SQL.
- Comprender los conceptos y fundamentos del aprendizaje automático.
- Entrenar y evaluar modelos de regresión estadística.
- Entrenar y evaluar modelos de clasificación.

¿A quién va dirigido?

Este curso está diseñado para científicos de datos que usan Python o R para trabajar con pequeños conjuntos de datos en una sola máquina y que necesitan ampliar sus flujos de trabajo de data science y aprendizaje automático a grandes conjuntos de datos en clústeres distribuidos.

Aquellos ingenieros de datos, analistas de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán provechosa esta formación.

TITULACIÓN

Cloudera Data Scientist

Requisitos

Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.

TEMARIO

CONTENIDOS
MÓDULO 1. INTRODUCCIÓN
MÓDULO 2. DESCRIPCIÓN GENERAL DE LA CIENCIA DE DATOS (DATA SCIENCE)
- Qué hacen los científicos de datos
- Qué procesos utilizan los científicos de datos
- Qué herramientas utilizan los científicos de datos
MÓDULO 3. CLOUDERA DATA SCIENCE WORKBENCH (CDSW)
- Introducción a Cloudera Data Science Workbench
- Cómo funciona Cloudera Data Science Workbench
- Cómo utilizar Cloudera Data Science Workbench
- Ingresando código
- Obteniendo ayuda
- Acceder a la línea de comandos de Linux
- Trabajar con paquetes de Python
- Formatear la salida de la sesión
MÓDULO 4. CASOS DE ESTUDIO
- DuoCar
- Cómo funciona DuoCar
- Conjuntos de datos de DuoCar
- Objetivos comerciales de DuoCar
- Plataforma de ciencia de datos DuoCar
- Clúster DuoCar Cloudera EDH
- HDFS
- Apache Spark
- Apache Hive
- Apache Impala
- Matiz
- HILO
- Arquitectura de clúster de DuoCar
MÓDULO 5. APACHE SPARK
- Apache Spark
- Cómo funciona Spark
- La Spark Stack
- Spark SQL
- DataFrames
- Formatos de archivo en Apache Spark
- Formatos de archivo de texto
- Formato de archivo Parquet
- Idiomas de la interfaz de Spark
- PySpark
- Data Science con PySpark
- sparklyr
- dplyr y sparklyr
- Comparación de PySpark y sparklyr
- Cómo funciona Sparklyr con dplyr
- Funciones Sparklyr DataFrame y MLlib
- Cuándo usar PySpark y sparklyr
MÓDULO 6. EJECUCIÓN DE UNA APLICACIÓN SPARK DESDE CDSW
- Descripción general
- Iniciar una aplicación Spark
- Lectura de datos en un marco de datos (DataFrame) de Spark SQL
- Examinar el esquema de un marco de datos
- Calcular el número de filas y columnas de un marco de datos
- Examinar filas de un marco de datos
- Detener una aplicación Spark
MÓDULO 7. INSPECCIÓN DE UN DATAFRAME DE SPARK SQL
- Descripción general
- Inspeccionando un DataFrame
- Inspeccionar una columna DataFrame
- Inspección de una variable de clave principal
- Inspeccionar una variable categórica
- Inspeccionar una variable numérica
- Inspección de una variable de fecha y hora
MÓDULO 8. TRANSFORMAR DATAFRAMES
- Spark SQL DataFrames
- Trabajar con columnas
- Seleccionar columnas
- Dejar caer columnas
- Especificar columnas
- Agregar columnas
- Cambiar el nombre de la columna
- Cambiar el tipo de columna
- Trabajar con filas
- Ordenar filas
- Seleccionar un número fijo de filas
- Seleccionar filas distintas
- Filtrar filas
- Filas de muestreo
- Trabajar con valores perdidos
MÓDULO 9. TRANSFORMACIÓN DE COLUMNAS DE DATAFRAME
- Tipos de datos de Spark SQL
- Trabajar con columnas numéricas
- Trabajar con columnas de cadena
- Trabajar con columnas de fecha y marca de tiempo
- Trabajar con columnas booleanas
MÓDULO 10. TIPOS COMPLEJOS (OPCIONAL)
- Tipos de datos de recopilación complejos
- Arrays
- Maps
- Structs
MÓDULO 11. FUNCIONES DEFINIDAS POR EL USUARIO (OPCIONAL)
- Funciones definidas por el usuario
- Definición de una función de Python
- Registro de una función de Python como función definida por el usuario
- Aplicar una función definida por el usuario
MÓDULO 12. LECTURA Y ESCRITURA DE DATOS
- Leer y escribir datos
- Trabajar con archivos de texto delimitados
- Trabajar con archivos de texto
- Trabajar con archivos Parquet
- Trabajar con tablas de Hive
- Trabajar con almacenes de objetos
- Trabajar con pandas DataFrames
MÓDULO 13. COMBINACIÓN Y DIVISIÓN DE MARCOS DE DATOS
- Unirse a DataFrames
- Cross Join
- Inner Join
- Left Semi Join
- Left Anti Join
- Left Outer Join
- Right Outer Join
- Full Outer Join
- Aplicar operaciones de conjunto a DataFrames
- Dividir un DataFrame
MÓDULO 14. RESUMEN Y AGRUPACIÓN DE MARCOS DE DATOS
- Resumen de datos con funciones agregadas
- Agrupar datos
- Datos pivotantes
MÓDULO 15. FUNCIONES DE VENTANA (OPCIONAL)
- Introducción a las funciones de ventana
- Crear una especificación de ventana
- Agregando sobre una especificación de ventana
MÓDULO 16. EXPLORACIÓN DE DATAFRAMES
- Posibles flujos de trabajo para Big Data
- Explorando una sola variable
- Explorando una variable categórica
- Explorando una variable continua
- Explorando un par de variables
- Par categórico-categórico
- Par categórico-continuo
- Par continuo-continuo
MÓDULO 17. EJECUCIÓN DE TRABAJOS DE APACHE SPARK
- Operaciones de DataFrame
- Divisiones de entrada
- Operaciones estrechas
- Operaciones amplias
- Etapas y tareas
- Barajar
MÓDULO 18. SUPERVISIÓN, AJUSTE Y CONFIGURACIÓN DE APLICACIONES SPARK
- Supervisión de aplicaciones Spark
- DataFrames persistentes
- Particionamiento de DataFrames
- Configuración del entorno Spark
MÓDULO 19. DESCRIPCIÓN GENERAL DEL APRENDIZAJE AUTOMÁTICO
- Aprendizaje automático
- Ajuste insuficiente y excesivo
- Modelo de validación
- Hiperparámetros
- Aprendizaje supervisado y no supervisado
- Algoritmos de aprendizaje automático
- Bibliotecas de aprendizaje automático
- Apache Spark MLlib
MÓDULO 20. ENTRENAMIENTO Y EVALUACIÓN DE MODELOS DE REGRESIÓN
- Introducción a los modelos de regresión
- Guión
- Preparación de los datos de regresión
- Ensamblaje del vector de características
- Creación de un Train y un conjunto de pruebas (Test Set)
- Especificar un modelo de regresión lineal
- Entrenamiento de un modelo de regresión lineal
- Examinar los parámetros del modelo
- Examinar varias medidas de rendimiento del modelo
- Examinar varios diagnósticos de modelos
- Aplicar el modelo de regresión lineal a los datos de prueba (Test Data)
- Evaluación del modelo de regresión lineal en los datos de prueba
- Trazado del modelo de regresión lineal
MÓDULO 21. CAPACITACIÓN Y EVALUACIÓN DE MODELOS DE CLASIFICACIÓN
- Introducción a los modelos de clasificación
- Guión
- Procesamiento previo de los datos de modelado
- Generar una etiqueta
- Extraer, transformar y seleccionar funciones
- Crear conjuntos de pruebas y Train
- Especificar un modelo de regresión logística
- Entrenar el modelo de regresión logística
- Examinar el modelo de regresión logística
- Evaluar el rendimiento del modelo en el conjunto de prueba
MÓDULO 22. AJUSTE DE LOS HIPERPARÁMETROS DEL ALGORITMO MEDIANTE LA BÚSQUEDA EN CUADRÍCULA
- Requisitos para el ajuste de hiperparámetros
- Especificar el estimador
- Especificación de la cuadrícula de hiperparámetros
- Especificar el evaluador
- Ajuste de hiperparámetros mediante la validación cruzada de Holdout
- Ajuste de hiperparámetros mediante la validación cruzada de K-fold
MÓDULO 23. CAPACITACIÓN Y EVALUACIÓN DE MODELOS DE AGRUPACIÓN EN CLÚSTERES
- Introducción a la agrupación en clústeres
- Guión
- Procesamiento previo de los datos
- Extracción, transformación y selección de funciones
- Especificación de un modelo de mezcla gaussiana
- Entrenamiento de un modelo de mezcla gaussiana
- Examinando el modelo de mezcla gaussiana
- Trazar los clústeres
- Explorando los perfiles de clúster
- Guardar y cargar el modelo de mezcla gaussiana
MÓDULO 24. PROCESAMIENTO DE TEXTO Y CAPACITACIÓN Y EVALUACIÓN DE MODELOS DE TEMAS (OPCIONAL)
- Introducción a los modelos de temas
- Guión
- Extraer y transformar características
- Analizar datos de texto
- Eliminación de palabras comunes (Stop)
- Contando la frecuencia de las palabras
- Especificar un modelo de tema
- Entrenamiento de un modelo de tema mediante Latent Dirichlet Allocation (LDA)
- Evaluación del ajuste del modelo de tema
- Examinar un modelo de tema
- Aplicar un modelo de tema
MÓDULO 25. CAPACITACIÓN Y EVALUACIÓN DE MODELOS DE RECOMENDACIÓN (OPCIONAL)
- Introducción a los modelos de recomendación
- Guión
- Preparación de datos para un modelo de recomendación
- Especificar un modelo de recomendación
- Entrenamiento de un modelo de recomendación usando mínimos cuadrados alternos
- Examinar un modelo de recomendación
- Aplicar un modelo de recomendación
- Evaluación de un modelo de recomendación
- Generando recomendaciones
MÓDULO 26. TRABAJAR CON CANALIZACIONES DE APRENDIZAJE AUTOMÁTICO
- Especificación de las etapas de la canalización
- Especificar una canalización
- Entrenamiento de un modelo de canalización
- Consultar un modelo de canalización
- Aplicar un modelo de canalización
MÓDULO 27. IMPLEMENTACIÓN DE CANALIZACIONES DE APRENDIZAJE AUTOMÁTICO
- Guardar y cargar canalizaciones y modelos de canalización en Python
- Carga de tuberías y modelos de tuberías en Scala
MÓDULO 28. DESCRIPCIÓN GENERAL DE SPARKLYR (OPCIONAL)
- Conectando a Spark
- Leer datos
- Inspección de datos
- Transformar datos usando verbos dplyr
- Usar consultas SQL
- Funciones de Spark DataFrames
- Visualización de datos de Spark
- Aprendizaje automático con MLlib
MÓDULO 29. INTRODUCCIÓN A LAS FUNCIONES ADICIONALES DE CDSW (OPCIONAL)
- Colaboración
- Trabajos
- Experimentos
- Modelos
- Aplicaciones
MÓDULO 30. CONCLUSIÓN

SALIDAS PROFESIONALES

Con esta formación podrás ejercer como profesional cualificado en puestos de trabajo de:

Asesor de sistemas informáticos
Programación
Departamentos de informática
Administración de sistemas y redes
Administrador de sistemas operativos Linux
Trabajar como experto en plataformas computacionales e informáticas
Gestor de clústers Apache Hadoo

Opiniones

No hay opiniones registradas para este curso