Programa del Curso

Introducción

Scala Revisión de la programación en profundidad

  • Sintaxis y estructura
  • Control de caudal y funciones

Componentes internos de Spark

  • Conjuntos de datos distribuidos resistentes (RDD)
  • Script de Spark para graficar en clúster

Descripción general de Spark Streaming

  • Arquitectura de streaming
  • Intervalos en streaming
  • Tolerancia a fallos

Preparación del entorno de desarrollo

  • Instalación y configuración de Apache Spark
  • Instalación y configuración del IDE Scala
  • Instalación y configuración de JDK

Spark Streaming De principiante a avanzado

  • Trabajar con RDD clave/valor
  • Filtrado de RDD's
  • Mejora de los scripts de Spark con expresiones regulares
  • Uso compartido de datos en un clúster
  • Trabajar con conjuntos de datos de red
  • Implementación de algoritmos BFS
  • Creación de scripts de controlador de Spark
  • Seguimiento en tiempo real con scripts
  • Escritura de aplicaciones continuas
  • Regresión lineal de streaming
  • Uso de la biblioteca de Spark Machine Learning

Spark y clústeres

  • Agrupación de dependencias y scripts de Spark mediante la herramienta SBT
  • Uso de EMR para ilustrar clústeres
  • Optimización mediante la partición de RDD
  • Uso de registros de Spark

Integración en Spark Streaming

  • Integración de Apache Kafka y trabajo con temas de Kafka
  • Integración de Apache Fume y trabajo con configuraciones de Flume basadas en pull/push
  • Escritura de una clase receptora personalizada
  • Integración Cassandra y exposición de datos como servicios en tiempo real

En producción

  • Empaquetado de una aplicación y ejecución con Spark-Submit
  • Solución de problemas, ajuste y depuración de clústeres y trabajos de Spark

Resumen y conclusión

Requerimientos

  • Programming y experiencia en scripting

Audiencia

  • Ingenieros de Software
 21 horas

Número de participantes



Precio por participante

Testimonios (5)

Cursos Relacionados

Python y Spark para Big Data (PySpark)

21 horas

Introducción a Graph Computing

28 horas

Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL

21 horas

Apache Spark MLlib

35 horas

Akka - from Beginner to Intermediate

21 horas

Fundamentos de Aprendizaje Automático con Scala y Apache Spark

14 horas

Scala: Programación Funcional Avanzada de Objetos

14 horas

Scala: Programación Funcional Avanzada

14 horas

Programación en Scala

14 horas

Big Data Analytics in Health

21 horas

Hadoop and Spark for Administrators

35 horas

Hortonworks Data Platform (HDP) para Administradores

21 horas

Una introducción práctica al procesamiento de flujo

21 horas

Magellan: Análisis Geoespacial con Spark

14 horas

Apache Spark for .NET Developers

21 horas

Categorías Relacionadas

1