Programa del Curso

Módulo 1. Introducción a Hadoop

  • El Sistema de Archivos Distribuidos Hadoop (HDFS)
  • La ruta de lectura y la ruta de escritura
  • Gestión de metadatos del sistema de archivos
  • El Namenode y el Datanode
  • La Alta Disponibilidad Namenode
  • Federación de Namenode
  • Las herramientas de línea de comandos
  • Entender la compatibilidad con REST

Módulo 2. Introducción a MapReduce

  • Análisis de los datos con Hadoop
  • Mapa y reducir el patrón
  • Java MapReduce
  • Escalando hacia fuera
  • Flujo de datos
  • Desarrollo de funciones de combinador
  • Ejecución de un trabajo distribuido de MapReduce

Módulo 3. Planificación de un clúster Hadoop

  • Elegir una distribución y una versión de Hadoop
  • Versiones y características
  • Selección de hardware
  • Maestro y Selección de Hardware del Trabajador
  • Tamaño de Clúster
  • Selección y preparación del sistema operativo
  • Disposición del despliegue
  • Configuración de usuarios, grupos y privilegios
  • Configuración del disco
  • Diseño de red

Módulo 4. Instalación y configuración

  • Instalación de Hadoop
  • Configuración: una visión general
  • Los archivos de configuración Hadoop XML
  • Variables de entorno y scripts de Shell
  • Configuración de registro
  • Gestión de HDFS
  • Optimización y ajuste
  • Formato del Namenode
  • Creación de un directorio / tmp
  • Pensando Namenode Alta Disponibilidad
  • Opciones de Esgrima
  • Configuración automática de conmutación por error
  • Formato y arranque de los Namenodes
  • Federación de Namenode

Módulo 5. Entendiendo Hadoop I / O

  • Integridad de datos en HDFS
  • Descripción de los codecs
  • Compresión y fracciones de entrada
  • Uso de la compresión en MapReduce
  • El mecanismo de serialización
  • Estructuras de datos basadas en archivos
  • El formato SequenceFile
  • Otros formatos de archivo y formatos orientados a columnas

Módulo 6. Desarrollo de una aplicación MapReduce

  • La API de configuración
  • Configuración del entorno de desarrollo
  • Administración de la configuración
  • GenericOptionsParser, Tool y ToolRunner
  • Escribir una prueba de unidad con MRUnit
  • El mapeador y reductor
  • Ejecución local en los datos de prueba
  • Prueba del controlador
  • Corriendo en un grupo
  • Embalaje y lanzamiento de un trabajo
  • La interfaz web de MapReduce
  • Sintonizando un trabajo

Módulo 7. Identidad, Autenticación y Autorización

  • Gestión de Identidad
  • Kerberos y Hadoop
  • Comprensión de la autorización

Módulo 8. Gestión de Recursos

  • ¿Qué es la gestión de recursos?
  • Cuotas HDFS
  • Planificadores de MapReduce
  • Anatomía de una ejecución de la aplicación YARN
  • Solicitudes de recursos
  • Tiempo de vida de la aplicación
  • YARN en comparación con MapReduce 1
  • Programación en YARN
  • Opciones de Scheduler
  • Configuración del programador de capacidad
  • Configuración justa del programador
  • Programación Del Tiempo
  • Equidad de Recursos Dominante

Módulo 9. Tipos y formatos de MapReduce

  • Tipos de MapReduce
  • El trabajo predeterminado de MapReduce
  • Definición de los formatos de entrada
  • Gestión de divisiones y registros de entrada
  • Entrada de texto y entrada binaria
  • Gestión de múltiples entradas
  • Entrada de base de datos (y salida)
  • Formatos de salida
  • Salida de texto y salida binaria
  • Gestión de múltiples salidas
  • La salida de la base de datos

Módulo 10. Uso de las funciones de MapReduce

  • Uso de contadores
  • Lectura de contadores incorporados
  • Contadores Java definidos por el usuario
  • Comprensión de clasificación
  • Uso del caché distribuido

Módulo 11. Mantenimiento del clúster y solución de problemas

  • Gestión de procesos Hadoop
  • Iniciando y Deteniendo Procesos con Init Scripts
  • Inicio y detención de procesos manualmente
  • Tareas de mantenimiento HDFS
  • Adición de un Datanode
  • Desmantelamiento de un Datanode
  • Comprobación de la integridad del sistema de archivos con fsck
  • Equilibrio de los datos del bloque HDFS
  • Tratamiento de un disco fallido
  • Tareas de mantenimiento de MapReduce
  • Matando a un trabajo MapReduce
  • Matar una tarea MapReduce
  • Gestión del agotamiento de recursos

Módulo 12. Monitoreo

  • El Hadoop Metrics disponible
  • El papel de SNMP
  • Vigilancia de la salud
  • Comprobaciones de nivel de host
  • Cheques de HDFS
  • MapReduce Cheques

Módulo 13. Copia de seguridad y recuperación

  • Copias de seguridad
  • Copia distribuida (distcp)
  • Ingesta de datos paralelos
  • Metadatos de Namenode
 21 horas

Número de participantes



Precio por participante

Testimonios (4)

Cursos Relacionados

Categorías Relacionadas