docenzia
¡ME INTERESA!

Curso Apache Spark Application Performance Tuning - Pue

Centro de formación

Pue

0,0

0 opiniones /
Curso Apache Spark Application Performance Tuning - Pue
Precio
1.360 €
Tipo Cursos
Modalidad Online / A distancia, Presencial
En Docenzia te asesoramos de forma gratuita para que escojas el mejor programa formativo que se adapte a tus necesidades y así poder mejorar tu carrera profesional. ¡Contáctanos para ayudarte!

Recibir más información

¿Cuándo contactamos contigo?


Enviando...

Curso Apache Spark Application Performance Tuning - Pue

Información general

DESCRIPCIÓN:

La presente formación, dotará al participante con los conceptos y fundamentos de la arquitectura Apache Spark y la plataforma de datos relacionada, una vez comprendido esto, el participante será inducido a la realización de los ajustes necesarios en el código de la aplicación Spark aplicando las técnicas adecuadas y desarrollando prácticas en un ambiente interactivo que permitirá aplicar lo aprendido.

La capacitación tiene una duración de 21 horas, bajo la modalidad Online y está dirigida a desarrolladores de aplicaciones, ingenieros y científicos de datos. Es necesario poseer conocimientos teóricos y prácticos en el uso de Spark.
Titulación universitaria Certificado de profesionalidad

ASPECTOS A TENER EN CUENTA

OBJETIVOS DEL CURSO:

- Entender la arquitectura de Apache Spark, la puesta en marcha de técnicas y trabajos como la canalización y ejecución diferida para el mejoramiento del rendimiento en tiempo de ejecución.
- Observar los patrones de rendimiento de las estructuras de datos centralizados como DataFrames y RDD.
- Escoger los formatos de archivo que prestarán el mayor rendimiento de la aplicación.
- Detectar y solucionar conflictos de rendimiento originados por la desviación de datos.
- Aplicar optimizaciones de partición, agrupamiento y unión para obtener un mejor funcionamiento de SparkSQL.
- Percibir la sobrecarga de rendimiento de RDD en base a Python, DataFrames y funciones establecidas por el usuario.
Utilizar el almacenamiento caché para un mejor desempeño de la aplicación.
- Entender cómo trabajan los optimizadores Catalyst y Tungsten.
- Conocer la utilidad de Workload XM para la solución de conflictos y monitoreo de la aplicación Spark.
- Identificar las nuevas utilidades de Spark 3.0, específicamente el motor Adaptive Query Execution y su aporte para un mejor rendimiento.

¿A quién va dirigido?

Este curso está diseñado para desarrolladores de software, ingenieros y científicos de datos que tienen experiencia en el desarrollo de aplicaciones Spark y desean aprender cómo mejorar el rendimiento de su código. Esta formación no es una introducción a Spark.

TITULACIÓN

Curso Apache Spark Application Performance Tuning

Requisitos

Se requiere la capacidad de programar en este lenguaje de programación para un total aprovechamiento del curso. Se asume, por parte del alumno, una familiaridad básica con la línea de comandos de Linux y resultará de utilidad un conocimiento básico de SQL.

TEMARIO

CONTENIDOS
MÓDULO 1: SPARK ARCHITECTURE

- RDDs
- DataFrames and Datasets
- Lazy Evaluation
- Pipelining
MÓDULO 2: DATA SOURCES AND FORMATS
- Available Formats Overview
- Impact on Performance
- The Small Files Problem
MÓDULO 3: INFERRING SCHEMAS
- The Cost of Inference
- Mitigating Tactics
MÓDULO 4: DEALING WITH SKEWED DATA
- Recognizing Skew
- Mitigating Tactics
MÓDULO 5: CATALYST AND TUNGSTEN OVERVIEW
- Catalyst Overview
- Tungsten Overview
MÓDULO 6: MITIGATING SPARK SHUFFLES
- Denormalization
- Broadcast Joins
- Map-Side Operations
- Sort Merge Joins
MÓDULO 7: PARTITIONED AND BUCKETED TABLES
- Partitioned Tables
- Bucketed Tables
- Impact on Performance
MÓDULO 8: IMPROVING JOIN PERFORMANCE
- Skewed Joins
- Bucketed Joins
- Incremental Joins
MÓDULO 9: PYSPARK OVERHEAD AND UDFS
- Pyspark Overhead
- Scalar UDFs
- Vector UDFs using Apache Arrow
- Scala UDFs
MÓDULO 10: CACHING DATA FOR REUSE
- Caching Options
- Impact on Performance
- Caching Pitfalls
MÓDULO 11: WORKLOAD XM (WXM) INTRODUCTION
- WXM Overview
- WXM for Spark Developers
MÓDULO 12: WHAT'S NEW IN SPARK 3.0?
- Adaptive Number of Shuffle Partitions
- Skew Joins
- Convert Sort Merge Joins to Broadcast Joins
- Dynamic Partition Pruning
- Dynamic Coalesce Shuffle Partitions

SALIDAS PROFESIONALES

  • - Asesor de sistemas informáticos
  • - Programación
  • - Departamentos de informática
  • - Administración de sistemas y redes
  • - Administrador de sistemas operativos Linux
  • - Trabajar como experto en plataformas computacionales e informáticas
  • - Gestor de clústers Apache Hadoo

TE RECOMENDAMOS VER TAMBIÉN

En los siguientes enlaces podrás ver programas formativos similares:

UBICACIONES DE NUESTRAS SEDES

Opiniones

No hay opiniones registradas para este curso