Cursos de Apache Hadoop: manipulación y transformación del rendimiento de los datos

Este curso está dirigido a desarrolladores, arquitectos, científicos de datos o cualquier perfil que requiera acceso a los datos de forma intensiva o regular.

El enfoque principal del curso es la manipulación y transformación de datos.

Entre las herramientas del ecosistema de Hadoop, este curso incluye el uso de Pig y Hive, que se utilizan mucho para la transformación y manipulación de datos.

Esta capacitación también aborda las métricas de rendimiento y la optimización del rendimiento.

El curso es completamente práctico y está marcado por presentaciones de los aspectos teóricos.

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

Programa del Curso

1.1 Conceptos de Hadoop

1.1.1HDFS

El diseño de HDFS
Interfaz de línea de comando
Sistema de archivos Hadoop

1.1.2 Clusters

Anatomía de un grupo
Nodo maestro / Nodo esclavo
Nombre Nodo / Nodo de datos

1.2 Manipulación de datos

1.2.1MapReduce detallado

Fase del mapa
Reducir fase
Barajar

1.2.2 Analítica con reducción de mapa

Group-By con MapReduce
Distribuciones de frecuencia y clasificación con MapReduce
Trazado de resultados (GNU Plot)
Histogramas con MapReduce
Diagramas de dispersión con MapReduce
Análisis de conjuntos de datos complejos
Contando con MapReduce y Combiners
Generar informes

1.2.3 Limpieza de datos

Limpieza de documentos
Búsqueda de cadenas borrosas
Registrar deduplicación de enlace / datos
Transformar y ordenar fechas de eventos
Validar la fiabilidad de la fuente
Recortar valores atípicos

1.2.4Extracción y transformación de datos

Transformando troncos
Usando Apache Pig para filtrar
Usando Apache Pig para ordenar
Usando Apache Pig para sesionar

1.2.5 Uniones avanzadas

Unir datos en Mapper usando MapReduce
Unir datos usando Apache Pig replicar join
Unir datos ordenados utilizando Apache Pig merge join
Unir datos asimétricos utilizando Apache Pig skewed join
Usando una unión del lado del mapa en Apache Hive
Usando uniones exteriores completas optimizadas en Apache Hive
Unir datos usando un almacén de valores de clave externa

1.3 Diagnóstico de rendimiento y técnicas de optimización

Mapa
- Investigando picos en los datos de entrada
- Identificación de problemas de sesgo de datos del lado del mapa
- Asignar rendimiento de la tarea
- Archivos pequeños
- Archivos no divisibles
Reducir
- Muy pocos o muchos reductores
- Reducir los problemas de sesgo de datos del lado
- Reducir el rendimiento de las tareas
- Mezcla lenta y clasificación
Trabajos en competencia y estrangulamiento del programador
Volcados de pila y código no optimizado
Fallas de hardware
Contención de CPU
Tareas
- Extrayendo y visualizando tiempos de ejecución de tareas
- Perfilando su mapa y reduciendo tareas
Evita el reductor
Filtro y proyecto
Usando el combinador
Clasificación rápida con comparadores
Recolectando datos sesgados
Reducir la mitigación oblicua

Requerimientos

Los asistentes no están obligados a tener ninguna habilidad específica ya que la capacitación se centra en las habilidades de los usuarios finales tanto para la administración como para la manipulación de datos bajo Apache Hadoop.

21 horas

Número de participantes

En línea

Nuestras oficinas

Precio por participante

Testimonios (6)

I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.

ian reif - Franchise Tax Board

Curso - Data Analysis with Hive/HiveQL

Trainer's preparation & organization, and quality of materials provided on github.

Mateusz Rek - MicroStrategy Poland Sp. z o.o.

Curso - Impala for Business Intelligence

Many hands-on sessions.

Jacek Pieczątka

Curso - Administrator Training for Apache Hadoop

The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.

Safar Alqahtani - Elm Information Security

Curso - Big Data Analytics in Health

The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.

vyzVoice

Curso - Hadoop for Developers and Administrators

practical things of doing, also theory was served good by Ajay

Dominik Mazur - Capgemini Polska Sp. z o.o.

Curso - Hadoop Administration on MapR

Cursos Relacionados

Hortonworks Data Platform (HDP) para Administradores

21 horas

Apache Ambari: Administre de manera eficiente los clústeres de Hadoop

21 horas

Impala para Inteligencia Empresarial

21 horas

Análisis de Datos con Hive / HiveQL

7 horas

Capacitación de Administrador para Apache Hadoop

35 horas

Big Data Analytics in Health

21 horas

Datameer para Analistas de Datos

14 horas

Administración de Hadoop

21 horas

Hadoop para Administradores

21 horas

Hadoop para Desarrolladores (4 días)

28 horas

Hadoop Avanzado para Desarrolladores

21 horas

Hadoop para Desarrolladores y Administradores

21 horas

Hadoop para jefes de proyecto

14 horas

Administración de Hadoop en MapR

28 horas

Hadoop con Python

28 horas

Categorías Relacionadas

Este sitio en otros países / regiones

Cursos de Apache Hadoop: manipulación y transformación del rendimiento de los datos

Programa del Curso

1.1 Conceptos de Hadoop

1.1.1HDFS

1.1.2 Clusters

1.2 Manipulación de datos

1.2.1MapReduce detallado

1.2.2 Analítica con reducción de mapa

1.2.3 Limpieza de datos

1.2.4Extracción y transformación de datos

1.2.5 Uniones avanzadas

1.3 Diagnóstico de rendimiento y técnicas de optimización

Requerimientos

Testimonios (6)

ian reif - Franchise Tax Board

Curso - Data Analysis with Hive/HiveQL

Mateusz Rek - MicroStrategy Poland Sp. z o.o.

Curso - Impala for Business Intelligence

Jacek Pieczątka

Curso - Administrator Training for Apache Hadoop

Safar Alqahtani - Elm Information Security

Curso - Big Data Analytics in Health

vyzVoice

Curso - Hadoop for Developers and Administrators

Dominik Mazur - Capgemini Polska Sp. z o.o.

Curso - Hadoop Administration on MapR

Cursos Relacionados

Hortonworks Data Platform (HDP) para Administradores

Apache Ambari: Administre de manera eficiente los clústeres de Hadoop

Audiencia

Formato del curso

Impala para Inteligencia Empresarial

Análisis de Datos con Hive / HiveQL

Capacitación de Administrador para Apache Hadoop

Audiencia:

Gol:

Big Data Analytics in Health

Datameer para Analistas de Datos

Audiencia

Formato del curso

Administración de Hadoop

Objetivo del curso:

Hadoop para Administradores

Hadoop para Desarrolladores (4 días)

Hadoop Avanzado para Desarrolladores

Hadoop para Desarrolladores y Administradores

Hadoop para jefes de proyecto

Administración de Hadoop en MapR

Audiencia:

Hadoop con Python

Audiencia

Formato del curso

Categorías Relacionadas

Hadoop

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites