Programa del Curso

Introducción

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm y Flink

Instalación y configuración Apache Beam

Descripción general de Apache Beam Características y arquitectura

  • Modelo de viga, SDK, correderas de tubería de viga
  • Back-ends de procesamiento distribuido

Descripción del modelo Apache Beam Programming

  • Cómo se ejecuta una canalización

Ejecución de una canalización de ejemplo

  • Preparación de una canalización WordCount
  • Ejecución de la canalización localmente

Diseño de una canalización

  • Planificación de la estructura, elección de las transformaciones y determinación de los métodos de entrada y salida

Creación de la canalización

  • Escribir el programa del controlador y definir la canalización
  • Uso de clases Apache Beam
  • Conjuntos de datos, transformaciones, E/S, codificación de datos, etc.

Ejecución de la canalización

  • Ejecución de la canalización localmente, en máquinas remotas y en una nube pública
  • Elegir un corredor
  • Configuraciones específicas del corredor

Pruebas y depuración Apache Beam

  • Uso de sugerencias de tipo para emular la tipificación estática
  • Administración de Python dependencias de canalización

Procesamiento de conjuntos de datos delimitados y no enlazados

  • Ventanas y disparadores

Hacer que sus tuberías sean reutilizables y mantenibles

Crear nuevos orígenes y receptores de datos

  • Apache Beam API de origen y receptor

Integración de Apache Beam con otros Big Data sistemas

  • Apache Hadoop, Apache Spark, Apache Kafka

Solución de problemas

Resumen y conclusión

Requerimientos

  • Experiencia con Python Programación.
  • Experiencia con la línea de comandos de Linux.

Audiencia

  • Desarrolladores
 14 horas

Número de participantes



Precio por participante

Testimonios (4)

Cursos Relacionados

Building Kafka Solutions with Confluent

14 horas

Una introducción práctica al procesamiento de flujo

21 horas

Apache Kafka for Python Programmers

7 horas

Creación de aplicaciones de procesamiento de flujo con Kafka Streams

7 horas

Samza para el Procesamiento de la Secuencia

14 horas

Flink para Flujo Escalable y Procesamiento de Datos por Lotes

28 horas

Apache NiFi para administradores

21 horas

Apache NiFi para desarrolladores

7 horas

Curso de Apache Storm

28 horas

Apache Apex: Procesamiento de Big Data-in-Motion

21 horas

Apache Ignite: Mejora la Velocidad, la Escala y la Disponibilidad con la Informática en la Memoria

14 horas

Confluent KSQL

7 horas

Spark Streaming with Python and Kafka

7 horas

Categorías Relacionadas