Temario del curso

Fundamentos de NiFi y Flujo de Datos

  • Datos en movimiento vs datos en reposo: conceptos y desafíos
  • Arquitectura de NiFi: núcleos, controlador de flujo, procedencia y boletines informativos
  • Componentes clave: procesadores, conexiones, controladores y procedencia

Contexto e Integración de Big Data

  • El papel de NiFi en los ecosistemas de Big Data (Hadoop, Kafka, almacenamiento en la nube)
  • Resumen de HDFS, MapReduce y alternativas modernas
  • Casos de uso: ingestión de flujos, envío de registros, pipelines de eventos

Instalación, Configuración y Configuración en Clúster

  • Instalando NiFi en un nodo único y modo de clúster
  • Configuración del clúster: roles de nodos, Zookeeper y balanceo de carga
  • Orquestación de implementaciones de NiFi: usando Ansible, Docker o Helm

Diseño y Gestión de Flujo de Datos

  • Ruteo, filtrado, división y fusión de flujos
  • Configuración del procesador (InvokeHTTP, QueryRecord, PutDatabaseRecord, etc.)
  • Gestión de esquemas, enriquecimiento y operaciones de transformación
  • Gestión de errores, relaciones de reintento y retroceso

Escenarios de Integración

  • Conexión a bases de datos, sistemas de mensajería, APIs REST
  • Flujo de transmisión a sistemas de análisis: Kafka, Elasticsearch o almacenamiento en la nube
  • Integración con Splunk, Prometheus o pipelines de registro

Monitoreo, Recuperación y Procedencia

  • Uso de la interfaz de usuario de NiFi, métricas y visualizador de procedencia
  • Diseño de recuperación autónoma y manejo de fallas graceful
  • Copia de seguridad, versión del flujo y gestión de cambios

Afinación y Optimización del Rendimiento

  • Ajuste de JVM, heap, grupos de hilos y parámetros de clúster
  • Optimización del diseño del flujo para reducir cuellos de botella
  • Aislamiento de recursos, priorización de flujos y control de rendimiento

Buenas Prácticas y Gobierno

  • Documentación del flujo, estándares de nombre, diseño modular
  • Seguridad: TLS, autenticación, control de acceso, cifrado de datos
  • Gestión de cambios, versión, acceso basado en roles y rastros de auditoría

Solución de Problemas y Respuesta a Incidentes

  • Problemas comunes: bloqueos, fugas de memoria, errores de procesador
  • Análisis de registros, diagnóstico de errores e investigación de la causa raíz
  • Estrategias de recuperación y reversión del flujo

Laboratorio Práctico: Implementación Realista de un Pipeline de Datos

  • Construcción de un flujo de extremo a extremo: ingestión, transformación y entrega
  • Implementación de manejo de errores, retroceso y escalabilidad
  • Prueba y ajuste del rendimiento del pipeline

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con la línea de comandos de Linux
  • Comprensión básica de redes y sistemas de datos
  • Familiaridad con conceptos de transmisión de datos o ETL

Audiencia

  • Administradores de sistemas
  • Ingenieros de datos
  • Desarrolladores
  • Profesionales DevOps
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (7)

Próximos cursos

Categorías Relacionadas