Programa del Curso
Introducción al análisis de datos y Big Data
- ¿Qué hace que Big Data sea "grande"?
- Velocidad, Volumen, Variedad, Veracidad (VVVV)
- Límites al procesamiento de datos tradicional
- Procesamiento distribuido
- Análisis estadístico
- Tipos de análisis de aprendizaje automático
- Visualización de datos
Idiomas utilizados para el análisis de datos
- Lenguaje R
- ¿Por qué R para el análisis de datos?
- Manipulación de datos, cálculo y visualización gráfica
- Pitón
- ¿Por qué Python para el análisis de datos?
- Manipulación, procesamiento, limpieza y crujido de datos
Enfoques para el análisis de datos
- Análisis estadístico
- Análisis de series temporales
- Predicción con modelos de correlación y regresión
- Estadística Inferencial (estimación)
- Estadística descriptiva en conjuntos de Big Data (por ejemplo, cálculo de la media)
- Aprendizaje automático
- Aprendizaje supervisado vs no supervisado
- Clasificación y agrupamiento
- Estimando el costo de métodos específicos
- Filtración
- Procesamiento natural del lenguaje
- Procesando texto
- Subestimando el significado del texto
- Generación automática de texto
- Análisis de sentimiento / Análisis de tema
- Visión por computador
- Adquirir, procesar, analizar y comprender imágenes
- Reconstruyendo, interpretando y entendiendo escenas 3D
- Usar datos de imagen para tomar decisiones
Infraestructura Big Data
- Almacenamiento de datos
- Bases de datos relacionales (SQL)
- MySQL
- Postgres
- Oráculo
- Bases de datos no relacionales (NoSQL)
- Cassandra
- MongoDB
- Neo4js
- Comprender los matices
- Bases de datos jerárquicas
- Bases de datos orientadas a objetos
- Bases de datos orientadas a documentos
- Bases de datos orientadas a gráficos
- Otro
- Bases de datos relacionales (SQL)
- Procesamiento distribuido
- Hadoop
- HDFS como un sistema de archivos distribuido
- MapReduce para procesamiento distribuido
- Spark
- Marco de computación en clúster en memoria todo en uno para el procesamiento de datos a gran escala
- Streaming estructurado
- Spark SQL
- Bibliotecas de aprendizaje automático: MLlib
- Procesamiento de gráficos con GraphX
- Hadoop
- Escalabilidad
- Nube pública
- AWS, Google, Aliyun, etc.
- Nube privada
- OpenStack, Cloud Foundry, etc.
- Escalabilidad automática
- Nube pública
- Elegir la solución correcta para el problema
- El futuro de Big Data
- Observaciones finales
Requerimientos
- Una comprensión general de las matemáticas
- Una comprensión general de la programación
- Una comprensión general de las bases de datos
Testimonios (5)
Dużo cierpliwości
Mateusz - WestWind Energy Polska Sp. z o.o.
Curso - ArcGIS for Spatial Analysis
El formador adaptó los materiales y contenidos a lo que creía que sería mejor para nosotros y lo consiguió. La calidad de la formación fue excelente.
Jorge Sanchez Hernandez - CSMART - Carnival
Curso - QGIS for Geographic Information System
Traducción Automática
Profesional y muy práctico, habitual en un trabajo diario
Jozefin Rékasi - SC Automobile Dacia SA
Curso - Advanced Data Analysis with TIBCO Spotfire
Traducción Automática
Cubrió las áreas en las que dije que estaba interesado antes del curso: relaciones de datos, usando script de python. La conexión a bases de datos se tratará en el módulo avanzado.
Cristian Tudose - SC Automobile Dacia SA
Curso - Introduction to Spotfire
Traducción Automática
I genuinely enjoyed the lots of labs and practices.