Máster Data Science - CEUPE - Centro Europeo de Postgrado y Empresa

Centro de formación:

CEUPE - Centro Europeo de Postgrado y Empresa

0,0

0 opiniones /

Máster Data Science - CEUPE - Centro Europeo de Postgrado y Empresa

Precio

A CONSULTAR

Tipo Masters

Modalidad Online / A distancia

ver más información de este curso

más información de este centro

En Docenzia te asesoramos de forma gratuita para que escojas el mejor programa formativo que se adapte a tus necesidades y así poder mejorar tu carrera profesional. ¡Contáctanos para ayudarte!

Enviar WhatsApp

Te llamamos

Recibir más información

¿Cuándo contactamos contigo?

Mañana

Mediodía

Tarde

Enviando...

Tipo

Masters
Modalidad

Online / A distancia
Duración / Créditos

60 Créditos ECTS
Fechas

Matric. Permanente
Sedes

Madrid

Información general

DESCRIPCIÓN:

El Máster Data Science es una formación profesional, que se especializa en ofrecer contenidos actualizados acerca de la importancia del metadato, el procesamiento de datos en streaming, el lenguaje vehicular del máster, las metodologías del versionado, la capa de consumo, el prototipado de modelos, y mucho más.

Se basa en un interesante programa académico ofrecido por el prestigioso y reconocido Centro Europeo de Postgrado y Empresa, que posee una duración de 12 meses, mencionando que el máster sólo se encuentra disponible en modalidad online, y podrás pagar en cuotas mensuales sin intereses.

Titulación universitaria Apostilla de la Haya Certificado de profesionalidad

ASPECTOS A TENER EN CUENTA

FINALIDAD DEL PROGRAMA FORMATIVO:

- Proporcionar conocimientos acerca del almacenamiento y procesamiento distributivo, la declaración de variables, el control de flujo, los entornos de desarrollo, las metodologías de versionado, y la tipología de datos.
- Desarrollar un interesante programa de contenidos, en el cual se profundiza sobre los modelos basados en árboles, el principio de funcionamiento, la detección de anomalías, y la división en un conjunto de entrenamiento.
- Conocer sobre la optimización automática de hiperparámetros, las técnicas de reducción de la dimensionalidad, el funcionamiento de las redes neuronales, la evaluación de la calidad del dato, y los casos de utilización.

¿A quién va dirigido?

- Estudiantes y profesionales que quieran desarrollar o fortalecer las capacidades técnicas y analíticas necesarias para una carrera de éxito en Big Data o Data Science.
- Perfiles que, teniendo parte de esas capacidades analíticas, deseen fortalecer sus capacidades técnicas para poder desarrollar una carrera en la industria del Big Data obteniendo una visión más completa (end to end).
En general, el público objetivo será personal técnico con conocimientos básicos en programación e interpretación de conceptos matemáticos.

TITULACIÓN

- Máster Data Science, expedido por el Centro Europeo de Postgrado (Centro Oficial de la Asociación Española de Escuelas de Negocios)
- Professional Certificate - Data Science Expert

Requisitos

Titulación Universitaria o experiencia profesional acreditada en el área

TEMARIO

HERRAMIENTAS ANALÍTICAS Y NOCIONES DE BIG DATA
FUNDAMENTOS BÁSICOS DE BIG DATA
- ¿Qué es? Múltiples definiciones. Poner énfasis en que los mismos datos se convierten en big data en función de lo que se quiera hacer con ellos. Ejemplo: 100M registros, hacer una media = no big data, entrenar un modelo complejo = big data.
- Principio de funcionamiento: MapReduce. Ejemplos clásicos para entender el concepto (contar palabras en un texto, etc.).
- Framework Open Source para computación distribuida. Basado en el whitepaper de Google sobre MapReduce de 2004 y GFS (Google File System).
- Concepto de Data Lake
- Concepto ETL, ELT
- La importancia del metadato y el data governance para la analítica.
- Los Datalabs en un modelo de integración analítica con el Data Lake y el Gobierno del dato.
INFRAESTRUCTURA BIG DATA
- Hadoop: Almacenamiento y procesamiento distribuido
- Herramientas de obtención de datos: Sqoop , Flume y Nifi.
- Motores de consulta SQL:
- Hive e impala:
- Principio de funcionamiento.
- Sintaxis y funciones propias de HiveQL e Impala.
- Introducción y principio de funcionamiento.
- Spark Core.
- DataFrames & Spark SQL.
- Configuración y ejecución
- Buenas prácticas.
- Interfaces:
- Web (Hue,Oozie Ambari,Cloudera Manager).
- Bases de datos NoSQL:
- Hbase, Cassandra, MongoDB y Neo4J
- Procesamiento de datos en Streaming: Kafka y Spark Streaming
LENGUAJES DE PROGRAMACIÓN DE UN DATA SCIENCE
- Python: lenguaje vehicular del máster.
- Principios, sintaxis y buenas prácticas. Casos típicos de utilización.
- Declaración de variables.
- Control de flujo (condicionales, bucles, etc.).
- Input / Ouput (lectura y escritura de ficheros, salida por pantalla, etc.).
- Orientación a objetos.
- Distribución del código (módulos, paquetes y librerías).
- Gestión de entornos: Anaconda, virtualenv.
- Notebooks analíticos: Jupyter (Notebook, Lab). ¿Por qué utilizarlos? Casos típicos de uso.
- Entornos de desarrollo: PyCharm, Spyder. ¿Qué ofrece un entorno de desarrollo frente a un editor de texto?
- R: todavía es muy utilizado en estadística y por perfiles provenientes de ciencias puras, se darían algunas nociones del mismo.
- Principios y sintaxis. Casos típicos de utilización.
- IDE’s: RStudio.
- Control de versiones con Git.
- Fundamentos del control de versiones.
- Conceptos básicos (branch, commit, pull, push, merge).
- Metodologías de versionado: Gitflow.
- Estudio y Modelado del Dato
ANÁLISIS INICIAL DEL DATO
- Análisis exploratorio.
- Localización de dato atípico y métodos de detección de outliers.
- Realización de estadísticos descriptivos.
- Evaluación de la calidad del dato.
- Tipologías de datos: categóricos, numéricos, ordinales, temporales (fechas).
EL MODELO DE DATOS EN TRES CAPAS.
- Capa raw.
- Capa Master.
- Capa de consumo.
- Caso Práctico: Construir un modelo en tres capas a partir del análisis anterior.
EXPLOTACIÓN EFICIENTE DEL DATO MEDIANTE HERRAMIENTAS DE BI Y DATA DISCOVERY.
- Cómo explotar un modelo de datos sin sobrecargar el sistema.
- Herramientas de reporting. (Spotfire, PBI…).
Diseño de un Modelo Escalable
PROTOTIPADO DE MODELOS
- Preprocesamiento
- Feature selection
- Prototipado en local
ELECCIÓN DEL JUEGO DE ALGORITMOS ÓPTIMO
- Aprendizaje supervisado:
- Modelos lineales:
- Regresión lineal.
- Regresión logística.
- Máquinas de Soporte Vectorial.
- Modelos basados en árboles:
- Árbol de decisión.
- Random Forest.
- Gradient Boosting.
- Redes neuronales:
- Principio de funcionamiento. Perceptrón.
- Aprendizaje profundo. Se explicaría muy por encima.
- Regresión vs. Clasificación.
- Aprendizaje no supervisado:
- Clusterización.
- Jerárquica.
- Detección de anomalías.
- Técnicas de reducción de la dimensionalidad:
- t-SNE.
- Análisis de series temporales.
- Entrenamiento:
- Nociones básicas para entrenar un modelo correctamente:
- División en conjunto de entrenamiento, validación y test. Concepto de Data Leakage.
- Bias, Variance y Overfitting. Cómo detectarlos y prevenirlos. Curvas de entrenamiento.
- Validación cruzada.
- Optimización automática de hiperparámetros:
- Grid Search.
- Random Search.
- Basados en gradiente.
- Elección óptima del algoritmo:
- Según la tipología de los datos.
- Según el número de observaciones.
- Según el objetivo del modelo.
Herramientas de un Data Science: Librerías
LIBRERÍAS PARA MACHINE LEARNING
- scikit-learn: exclusiva para Python. Librería genérica de Machine Learning. Funcionamiento en local con opción a distribuir. Idónea para prototipado.
- XGboost: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Open Source desarrollado para competir en Kaggle.
- LightGBM: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Desarrollado por Microsoft, Open Source.
- catboost: API en múltiples lenguajes. Modelo de boosting especializado en datos con variables categóricas. Desarrollada por Yandex.
- Spark ML: API en múltiples lenguajes, distribuida de forma nativa con el motor de Spark.
- TensorFlow: librería de referencia para el desarrollo de redes neuronales, tiene API en múltiples lenguajes aunque la de Python es la más ampliamente usada.
- Keras: API de Python consistente en una capa de abstracción para el manejo de las librerías de TensorFlow, CNTK y Theano a la hora de realizar modelos de redes neuronales
- fbprophet:es una librería en Python y R que implementa un procedimiento para pronosticar datos de series temporales basados ??en un modelo aditivo en el que las tendencias no lineales se ajustan a la estacionalidad anual, semanal y diaria, más los efectos festivos
- H2O: framework para el aprendizaje automático desarrollado por H2O.ai en Java. Tiene API en múltiples lenguajes e introduce el concepto de AutoML para la generación automática de modelos.
- Caret: exclusiva para R. Desarrollo de modelos de aprendizaje automático en general.
LIBRERÍAS PARA INTERACTUAR CON ENTORNOS BIG DATA
- impyla: cliente python para implementaciones de HiveServer2 con motores de búsqueda distribuida como Impala o Hive.
- Apache Arrow: API para múltiples lenguajes (C++, Python, Ruby…) para almacenamiento de datos representados de forma columnar. Permite intercambiar de forma nativa datos entre diferentes plataformas (Python, R, Hadoop, Spark, etc.).
- HdfsCLI: API de WebHDFS para Python.
- Ibis: toolbox para conectar Python con distintos componentes de Hadoop como HDFS.
- PySpark: API de Python para manejo de Spark.
LIBRERÍAS PARA TRATAMIENTO DE DATOS EN MEMORIA Y CÁLCULO NUMÉRICO
- NumPy: principal librería de álgebra lineal en Python.
- pandas: principal herramienta para el tratamiento de datos tabulares en Python.
- Dask: distribución de tareas analíticas en Python de forma nativa.
- dplyr: exclusiva de R. Soporte a la manipulación de datos.
- tidyR: exclusiva de R. Tratamiento de datos tabulares.
VISUALIZACIÓN
- Matplotlib: principal librería de visualización en Python.
- folium: librería para visualización geográfica en Python.
- seaborn: librería a alto nivel de visualización estadística basada en Matplotlib.
- Basadas en D3: Bokeh, Plotly. Visualización general. Gráficos interactivos usando Javascript.
- Para Big Data (visualización de millones / billones de registros): datashader.
ORQUESTACIÓN
- Oozie: orquestador incluido con las distribuciones de Hadoop. Basado en configuración mediante archivos .xml.
- Airflow: herramienta de creación de data pipelines programada en Python muy flexible. Soporte para gran cantidad de tecnologías (Spark, Hive, HDFS, etc.). Definición mediante DAGs en archivos Python.
- Luigi: Es una alternativa a Airflow. Herramienta de creación de pipelines en batch. Lo que busca al igual que el resto de herramientas de orquestación es automatizar de forma visual los distintos procesos que se realizan en el flujo del programa.
CASOS DE USO Y TRABAJO FIN DE MASTER

SALIDAS PROFESIONALES

Con esta formación podrás ejercer como profesional cualificado en puestos de trabajo de:

Analista de Big Data
Analista de datos
Consultor en el desarrollo de proyectos que vinculen el manejo de bases de datos e inteligencia del negocio.
Data Scientist
Emprendedor de negocios basados en el análisis de datos y en productos y servicios basados en datos

Opiniones

No hay opiniones registradas para este curso