Programa del Curso

 

Introducción:

  • Apache Spark en el ecosistema Hadoop
  • Breve introducción para python, scala

Conceptos básicos (teoría):

  • Arquitectura
  • RDD
  • Transformación y Acciones
  • Etapa, tarea, dependencias

Uso del entorno Databricks comprender los conceptos básicos (taller práctico):

  • Ejercicios con RDD API
  • Funciones básicas de acción y transformación
  • PairRDD
  • Juntar
  • Estrategias de almacenamiento en caché
  • Ejercicios con la API de DataFrame
  • ChispaSQL
  • DataFrame: seleccionar, filtrar, agrupar, ordenar
  • UDF (Función definida por el usuario)
  • Examinando la API de DataSet
  • Streaming

Uso del entorno de AWS Comprender la implementación (taller práctico):

  • Conceptos básicos de AWS Glue
  • Comprender las diferencias entre AWS EMR yAWS Glue
  • Ejemplos de trabajos en ambos entornos
  • Comprender los pros y los contras

Extra:

  • Introducción a laorquestación Apache Airflow

Requerimientos

Habilidades de programación (preferiblemente python, scala)

SQL Conceptos básicos

 21 horas

Número de participantes



Precio por participante

Testimonios (2)

Cursos Relacionados

Python y Spark para Big Data (PySpark)

21 horas

Introducción a Graph Computing

28 horas

Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL

21 horas

Apache Spark MLlib

35 horas

Big Data Analytics in Health

21 horas

Hadoop and Spark for Administrators

35 horas

Hortonworks Data Platform (HDP) para Administradores

21 horas

Una introducción práctica al procesamiento de flujo

21 horas

Magellan: Análisis Geoespacial con Spark

14 horas

Apache Spark for .NET Developers

21 horas

SMACK Stack for Data Science

14 horas

Apache Spark Fundamentals

21 horas

Administration of Apache Spark

35 horas

Spark para Desarrolladores

21 horas

Scaling Data Pipelines with Spark NLP

14 horas

Categorías Relacionadas