Temario del curso
Semana 1 — Introducción a la Ingeniería de Datos
- Fundamentos de ingeniería de datos y pilas de datos modernas
- Patrones y fuentes de ingestión de datos
- Conceptos y casos de uso de batch vs streaming
- Taller práctico: ingesta de datos de muestra en almacenamiento en la nube
Semana 2 — Fundación Databricks Lakehouse Badge
- Fundamentos de la plataforma Databricks y navegación del espacio de trabajo
- Conceptos de Delta Lake: ACID, viaje en el tiempo y evolución de esquemas
- Seguridad del espacio de trabajo, controles de acceso y conceptos básicos de Unity Catalog
- Taller práctico: creación y gestión de tablas Delta
Semana 3 — SQL Avanzado en Databricks
- Construcciones de SQL avanzadas y funciones de ventana a escala
- Optimización de consultas, planes explicativos y patrones conscientes del costo
- Vistas materializadas, almacenamiento en caché y optimización de rendimiento
- Taller práctico: optimización de consultas analíticas en conjuntos de datos grandes
Semana 4 — Databricks Certified Developer for Apache Spark (Prep)
- Arquitectura de Spark, RDDs, DataFrames y Datasets a profundidad
- Transformaciones y acciones clave de Spark; consideraciones de rendimiento
- Básicos del streaming de Spark y patrones de streaming estructurado
- Ejercicios de práctica de examen y problemas de prueba prácticos
Semana 5 — Introducción al Modelado de Datos
- Conceptos: modelado dimensional, diseño de estrella/esquema y normalización
- Modelado de Lakehouse vs enfoques tradicionales de almacenamiento de datos
- Patrones de diseño para conjuntos de datos listos para análisis
- Taller práctico: construcción de tablas y vistas listas para consumo
Semana 6 — Introducción a Herramientas de Importación y Automatización de Ingestión de Datos
- Conectores e herramientas de ingestión para Databricks (AWS Glue, Data Factory, Kafka)
- Patrones de ingestión en streaming y diseños de micro-batch
- Validación de datos, controles de calidad y aplicación de esquemas
- Taller práctico: construcción de pipelines de ingestión resistentes
Semana 7 — Introducción a Git Flow y CI/CD para Ingeniería de Datos
- Estrategias de ramificación Git Flow y organización de repositorios
- Pipelines de CI/CD para cuadernos, trabajos e infraestructura como código
- Pruebas, linters y automatización de despliegue para el código de datos
- Taller práctico: implementación de flujo basado en Git y despliegue de trabajos automatizados
Semana 8 — Databricks Certified Data Engineer Associate (Prep) y Patrones de Ingeniería de Datos
- Revisión de temas de certificación y ejercicios prácticos
- Patrones arquitectónicos: bronce/plata/oro, CDC, dimensiones que cambian lentamente
- Patrones operativos: monitoreo, alertas y linaje
- Taller práctico: pipeline de extremo a extremo aplicando patrones de ingeniería
Semana 9 — Introducción a Airflow y Astronomer; Scripting
- Conceptos de Airflow: DAGs, tareas, operadores y programación
- Descripción general de la plataforma Astronomer y mejores prácticas de orquestación
- Scripting para automatización: patrones de scripting en Python para tareas de datos
- Taller práctico: orquestación de trabajos de Databricks con DAGs de Airflow
Semana 10 — Visualización de Datos, Tableau y Proyecto Final Personalizado
- Conexión de Tableau a Databricks y mejores prácticas para capas de BI
- Principios de diseño de paneles y visualizaciones conscientes del rendimiento
- Proyecto final: definición, implementación y presentación de un proyecto final personalizado
- Presentaciones finales, revisión por pares y retroalimentación del instructor
Resumen y Pasos Siguientes
Requerimientos
- Comprensión de conceptos básicos de SQL y datos
- Experiencia en programación con Python o Scala
- Familiaridad con servicios en la nube y entornos virtuales
Audiencia
- Ingenieros de datos aspirantes y en práctica
- Desarrolladores ETL/BI e ingenieros de analítica
- Equipos de plataformas de datos y DevOps que soportan pipelines
Testimonios (1)
Todos los temas que abarca, aunque muchos fueron muy rápidos, nos da una idea de lo que necesitaremos ahondar. Además me gustó que pudimos hacer practicas, aunque insisto, creo que el curso amerita mas.