Programa del Curso

Introducción a Predictive AIOps

  • Visión general de la analítica predictiva en las operaciones de TI
  • Fuentes de datos para la predicción (registros, métricas, eventos)
  • Conceptos clave en pronóstico de series temporales y patrones de anomalías

Diseño de Modelos de Predicción de Incidentes

  • Etiquetado de incidentes históricos y comportamiento del sistema
  • Selección y entrenamiento de modelos (por ejemplo, LSTM, Random Forest, AutoML)
  • Evaluación del rendimiento del modelo y manejo de falsos positivos

Recolección de Datos e Ingeniería de Características

  • Ingesta y alineamiento de datos de registros y métricas para la entrada del modelo
  • Extracción de características desde datos estructurados y no estructurados
  • Manejo de ruido y datos faltantes en las canalizaciones operacionales

Automatización del Análisis de Causa Raíz (RCA)

  • Correlación basada en grafos de servicios e infraestructura
  • Uso de IA para inferir causas raíz probables a partir de cadenas de eventos
  • Visualización del RCA con paneles conscientes de la topología

Remediación y Workflow Automation

  • Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck)
  • Desencadenamiento de despliegues atrás, reinicios o redirección del tráfico
  • Auditoría y documentación de intervenciones automatizadas

Escalado de Canalizaciones Inteligentes AIOps

  • MLOps para la observabilidad: reentrenamiento y versionado del modelo
  • Ejecución de predicciones en tiempo real a través de nodos distribuidos
  • Mejores prácticas para desplegar AIOps en entornos de producción

Estudios de Caso y Aplicaciones Prácticas

  • Análisis de datos de incidentes reales utilizando modelos predictivos AIOps
  • Despliegue de canalizaciones RCA con datos sintéticos y de producción
  • Revisión de casos de uso de la industria: apagones en la nube, inestabilidad de microservicios, degradación de redes

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con sistemas de monitoreo como Prometheus o ELK
  • Conocimientos prácticos en Python y aprendizaje automático básico
  • Familiaridad con los flujos de trabajo de gestión de incidentes

Destinatarios

  • Ingenieros avanzados de confiabilidad del sitio (SREs)
  • Arquitectos de automatización IT
  • Líderes de plataformas de DevOps y observabilidad
 14 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas