CIENCIA DE DATOS Y BIG DATA
BIG DATA CON PYSPARK Y AWS
Fecha de Inicio: 5 de octubre de 2025
Duración: 45 Horas
Modalidades: Live Stream / Presencial C. de México
Inversión: $14,999.00 + I.V.A. / $16,999.00 + I.V.A.
Promoción: Hasta 30% de Descuento.
MÓDULO I: SPARK CON RDDs
Spark Context es la puerta de entrada al mundo de spark, en este módulo se trasmiten los conocimientos para crear y manipular RDDs (Resilent Distributed Datasets) que es la estructura base de spark y de otras herramientas para la manipulación y análisis de datos y la importancia del cómputo en paralelo.
- Levantamiento de Máquina EC2 en AWS
- Instalación de PySpark en una Máquina EC2
- Introducción a Spark
- Creación de RDDs
- Carga de Datos
- Operaciones con RDDs
- Map, Reduce, Filter, Union, Intersection, Group, Distinct
- KeyFunctions
- Persistencia
- Variables Broadcast
- PRÁCTICA: Construcción de Wordcloud en Tiempo Real
MÓDULO II: SPARK SQL
En este módulo se trasmiten los conocimientos para manipular bases (selección, filtrado, ordenamiento, agrupación y sumarizado) con el lenjuaje SQL dentro de spark y con las funciones que pyspark incorpora para estas tareas, además de generar cruce de tablas y agrupaciones especiales conocidas como funciones de ventana.
- Definición y Creación de Dataframes en PySpark
- Tipos de Datos
- Datos Especiales
- Manejo de Fechas y Horas en PySpark
- Transformación de Tipos de Datos
- Generando Consultas SQL con PySpark
- Funciones con Dataframes
- Windows Functions
- Join’s con Dataframes
- Variables Broadcast
- PRÁCTICA: Data Engine de una Base de Datos
MÓDULO III: MACHINE LEARNING CON PYSPARK
En este módulo se explotará el potencial de Spark para crear algunos de los principales modelos analíticos y predictivos de Machine Learning.
- Preparación de las Bases
- Modelos de Machine Learning con PySpark
- Regresión Lineal
- Regresión Logística
- Clustering K-means
- Arboles Aleatorios
- Sistemas de Recomendación
- PRÁCTICA: Se Genera un Entrenamiento Ejemplo con Cada Modelo
Andrés Octavio
Actuario, científico de datos en BBVA: forma parte de un grupo de Científicos de Datos en el área de ingeniería con tareas de desarrollar modelos predictivos para las diferentes Subdirecciones. Trabaja y explota la volumetría de las bases con Spark y modelos en Pyspark, Python y R (Árboles y Bosques de decisión, regresión logística, Perceptrón Multicapa, Cluster y Análisis de componentes principales, entre otros). Cuenta con amplia experiencia docente, dirigiendo cursos exitosamente en RHCECAM División Capacitación.