Programa del Curso

Introducción al análisis de datos y Big Data

  • ¿Qué hace que Big Data sea "grande"?
    • Velocidad, Volumen, Variedad, Veracidad (VVVV)
  • Límites al procesamiento de datos tradicional
  • Procesamiento distribuido
  • Análisis estadístico
  • Tipos de análisis de aprendizaje automático
  • Visualización de datos

Idiomas utilizados para el análisis de datos

  • Lenguaje R
    • ¿Por qué R para el análisis de datos?
    • Manipulación de datos, cálculo y visualización gráfica
  • Pitón
    • ¿Por qué Python para el análisis de datos?
    • Manipulación, procesamiento, limpieza y crujido de datos

Enfoques para el análisis de datos

  • Análisis estadístico
    • Análisis de series temporales
    • Predicción con modelos de correlación y regresión
    • Estadística Inferencial (estimación)
    • Estadística descriptiva en conjuntos de Big Data (por ejemplo, cálculo de la media)
  • Aprendizaje automático
    • Aprendizaje supervisado vs no supervisado
    • Clasificación y agrupamiento
    • Estimando el costo de métodos específicos
    • Filtración
  • Procesamiento natural del lenguaje
    • Procesando texto
    • Subestimando el significado del texto
    • Generación automática de texto
    • Análisis de sentimiento / Análisis de tema
  • Visión por computador
    • Adquirir, procesar, analizar y comprender imágenes
    • Reconstruyendo, interpretando y entendiendo escenas 3D
    • Usar datos de imagen para tomar decisiones

Infraestructura Big Data

  • Almacenamiento de datos
    • Bases de datos relacionales (SQL)
      • MySQL
      • Postgres
      • Oráculo
    • Bases de datos no relacionales (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Comprender los matices
      • Bases de datos jerárquicas
      • Bases de datos orientadas a objetos
      • Bases de datos orientadas a documentos
      • Bases de datos orientadas a gráficos
      • Otro
  • Procesamiento distribuido
    • Hadoop
      • HDFS como un sistema de archivos distribuido
      • MapReduce para procesamiento distribuido
    • Spark
      • Marco de computación en clúster en memoria todo en uno para el procesamiento de datos a gran escala
      • Streaming estructurado
      • Spark SQL
      • Bibliotecas de aprendizaje automático: MLlib
      • Procesamiento de gráficos con GraphX
  • Escalabilidad
    • Nube pública
      • AWS, Google, Aliyun, etc.
    • Nube privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidad automática
  • Elegir la solución correcta para el problema
  • El futuro de Big Data
  • Observaciones finales

Requerimientos

  • Una comprensión general de las matemáticas
  • Una comprensión general de la programación
  • Una comprensión general de las bases de datos
 35 horas

Número de participantes



Precio por participante

Testimonios (5)

Cursos Relacionados

Categorías Relacionadas