Cursos de SMACK Stack for Data Science
SMACK es una colección de software de plataforma de datos, es decir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, y Apache Kafka. Utilizando el paquete SMACK, los usuarios pueden crear y escalar plataformas de procesamiento de datos.
Este entrenamiento guiado por instructores, en vivo (online o on-site) está dirigido a científicos de datos que desean utilizar el SMACK stack para construir plataformas de procesamiento de datos para soluciones de datos grandes.
Al final de este curso, los participantes podrán:
- Implementar una arquitectura de pipeline de datos para el procesamiento de datos grandes.
- Desarrollar una infraestructura de cluster con Apache Mesos y Docker.
- Analizar los datos con Spark y Scala.
- Gestión de datos no estructurados con Apache Cassandra.
Formato del curso
- Lecciones y discusiones interactivas.
- Muchos ejercicios y prácticas.
- Implementación de manos en un entorno de laboratorio en vivo.
Opciones de Customización de Curso
- Para solicitar una formación personalizada para este curso, por favor contacta con nosotros para organizar.
Programa del Curso
Introducción
Descripción general de SMACK Stack
- ¿Qué es Apache Spark? Características de Apache Spark
- ¿Qué es Apache Mesos? Características de Apache Mesos
- ¿Qué es Apache Akka? Características de Apache Akka
- ¿Qué es Apache Cassandra? Características de Apache Cassandra
- ¿Qué es Apache Kafka? Características de Apache Kafka
Scala Idioma
- Scala Sintaxis y estructura
- Scala Flujo de control
Preparación del entorno de desarrollo
- Instalación y configuración de la pila SMACK
- Instalación y configuración Docker
Apache Akka
- Uso de actores
Apache Cassandra
- Creación de una base de datos para operaciones de lectura
- Trabajar con copias de seguridad y recuperación
Conectores
- Creación de una secuencia
- Creación de una aplicación Akka
- Almacenamiento de datos con Cassandra
- Revisión de conectores
Apache Kafka
- Trabajar con clústeres
- Creación, publicación y consumo de mensajes
Apache Mesos
- Asignación de recursos
- Ejecución de clústeres
- Trabajar con Apache Aurora y Docker
- Ejecución de servicios y trabajos
- Implementación de Spark, Cassandra y Kafka en Mesos
Apache Spark
- Administración de flujos de datos
- Trabajar con RDD y tramas de datos
- Realización de análisis de datos
Solución de problemas
- Manejo de fallas de servicios y errores
Resumen y conclusión
Requerimientos
- Comprensión de los sistemas de procesamiento de datos
Audiencia
- Científicos de datos
Los cursos de formación abiertos requieren más de 5 participantes.
Cursos de SMACK Stack for Data Science - Booking
Cursos de SMACK Stack for Data Science - CONSULTA
SMACK Stack for Data Science - Consultas
Testimonios (1)
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Cursos Relacionados
Kaggle
14 horasEsta capacitación en vivo dirigida por un instructor en los Estados Unidos (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que desean aprender y desarrollar sus carreras en Ciencia de Datos utilizando Kaggle.
Al final de esta capacitación, los participantes serán capaces de:
- Obtenga más información sobre la ciencia de datos y el aprendizaje automático.
- Explora el análisis de datos.
- Obtenga más información sobre Kaggle y cómo funciona.
Accelerating Python Pandas Workflows with Modin
14 horasEsta capacitación en vivo dirigida por un instructor en los Estados Unidos (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que deseen usar Modin para construir e implementar cálculos paralelos con Pandas para un análisis de datos más rápido.
Al final de esta capacitación, los participantes serán capaces de:
- Configure el entorno necesario para comenzar a desarrollar Pandas flujos de trabajo a escala con Modin.
- Comprenda las características, la arquitectura y las ventajas de Modin.
- Conoce las diferencias entre Modin, Dask y Ray.
- Realice Pandas operaciones más rápido con Modin.
- Implemente toda la API Pandas y las funciones.
GPU Data Science with NVIDIA RAPIDS
14 horasEsta capacitación en vivo dirigida por un instructor en los Estados Unidos (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que deseen utilizar RAPIDS para crear canalizaciones de datos, flujos de trabajo y visualizaciones aceleradas por GPU, aplicando algoritmos de aprendizaje automático, como XGBoost, cuML, etc.
Al final de esta capacitación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para crear modelos de datos con NVIDIA RAPIDS.
- Comprender las características, componentes y ventajas de RAPIDS.
- Aproveche las GPU para acelerar las canalizaciones de datos y análisis de extremo a extremo.
- Implemente la preparación de datos acelerada por GPU y ETL con cuDF y Apache Arrow.
- Aprenda a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
- Cree visualizaciones de datos y ejecute análisis de gráficos con cuXfilter y cuGraph.
Anaconda Ecosystem for Data Scientists
14 horasEsta capacitación en vivo dirigida por un instructor en los Estados Unidos (en línea o en el sitio) está dirigida a científicos de datos que desean utilizar el ecosistema Anaconda para capturar, administrar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure los componentes y bibliotecas de Anaconda.
- Comprender los conceptos básicos, las características y los beneficios de Anaconda.
- Administre paquetes, entornos y canales con Anaconda Navigator.
- Utilice los paquetes Conda, R y Python para la ciencia de datos y el aprendizaje automático.
- Conozca algunos casos de uso prácticos y técnicas para administrar múltiples entornos de datos.
Python y Spark para Big Data (PySpark)
21 horasEn esta capacitación en vivo dirigida por un instructor en los Estados Unidos, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta capacitación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Introducción a Graph Computing
28 horasEn esta capacitación en vivo dirigida por un instructor en los Estados Unidos, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como Graph Analytics). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta capacitación, los participantes serán capaces de:
- Comprenda cómo se conservan y recorren los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 horasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Apache Spark MLlib
35 horasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje práctico de la máquina sea escalable y fácil. Consiste en algoritmos comunes de aprendizaje y utilidades, incluyendo clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel más bajo y API de oleoducto de nivel superior.
Se divide en dos paquetes:
- spark.mllib contiene la API original construida sobre RDDs.
- spark.ml proporciona una API de nivel superior construida en la parte superior de DataFrames para la construcción de tuberías de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas construida para Apache Spark
Introduction to Data Science and AI using Python
35 horasEsta es una introducción de 5 días a Data Science y AI.
El curso se entrega con ejemplos y ejercicios con Python
Inteligencia de Negocios Big Data para Proveedores de Servicios de Comunicaciones y Telecomunicaciones
35 horasVisión general
Los proveedores de servicios (CSP) se enfrentan a la presión de reducir los costes y maximizar los ingresos medios por usuario (ARPU), al tiempo que garantizan una excelente experiencia al cliente, pero los volúmenes de datos siguen creciendo. El tráfico global de datos móviles crecerá a una tasa de crecimiento anual compuesta (CAGR) del 78 por ciento hasta 2016, alcanzando los 10,8 exabytes por mes.
Mientras tanto, los CSP están generando grandes volúmenes de datos, incluidos los registros detallados de llamadas (CDR), los datos de red y los datos de los clientes. Las empresas que explotan al máximo estos datos obtienen una ventaja competitiva. Según una encuesta reciente de The Economist Intelligence Unit, las empresas que utilizan la toma de decisiones dirigida por datos disfrutan de un aumento del 5-6% en la productividad. Sin embargo, el 53% de las empresas aprovechan solo la mitad de sus valiosos datos, y una cuarta parte de los encuestados señaló que grandes cantidades de datos útiles no se explotan. Los volúmenes de datos son tan altos que el análisis manual es imposible, y la mayoría de los sistemas de software heredados no pueden seguir el ritmo, lo que hace que los datos valiosos se descarten o se ignoren.
Con el software de big data escalable y de alta velocidad de Big Data & Analytics, los CSP pueden extraer todos sus datos para una mejor toma de decisiones en menos tiempo. Los diferentes productos y técnicas de Big Data proporcionan una plataforma de software de extremo a extremo para recopilar, preparar, analizar y presentar información a partir de Big Data. Las áreas de aplicación incluyen el monitoreo del rendimiento de la red, la detección de fraudes, la detección de pérdida de clientes y el análisis de riesgo crediticio. Los productos de Big Data y Analytics se escalan para manejar terabytes de datos, pero la implementación de tales herramientas necesita un nuevo tipo de sistema de base de datos basado en la nube como Hadoop o un procesador de computación paralela a escala masiva (KPU, etc.)
Este curso sobre Big Data BI para telecomunicaciones cubre todas las nuevas áreas emergentes en las que los CSP están invirtiendo para aumentar la productividad y abrir nuevas fuentes de ingresos comerciales. El curso proporcionará una visión completa de 360 grados de Big Data BI en Telco para que los responsables de la toma de decisiones y los gerentes puedan tener una visión general muy amplia y completa de las posibilidades de Big Data BI en Telco para la productividad y el aumento de ingresos.
Objetivos del curso
El objetivo principal del curso es introducir nuevas técnicas de inteligencia de negocio Big Data en 4 sectores de Telecom Negocio (Marketing/Ventas, Operación de Red, Operación Financiera y Gestión de Relaciones con el Cliente). A los estudiantes se les presentará lo siguiente:
- Introducción al Big Data: qué son las 4V (volumen, velocidad, variedad y veracidad) en Big Data: generación, extracción y gestión desde la perspectiva de las telecomunicaciones
- En qué se diferencia el análisis de Big Data del análisis de datos heredado
- Justificación interna de la perspectiva Big Data -Telco
- Introducción al ecosistema de Hadoop: familiaridad con todas las herramientas de Hadoop como Hive, Pig, SPARC: cuándo y cómo se utilizan para resolver problemas de Big Data.
- Cómo se extrae Big Data para analizarlo para la herramienta de análisis: cómo los análisis de negocios pueden reducir sus puntos débiles de recopilación y análisis de datos a través del enfoque integrado del panel de control de Hadoop
- Introducción básica de la analítica de Insight, la analítica de visualización y la analítica predictiva para las empresas de telecomunicaciones
- Análisis de pérdida de clientes y Big Data: cómo el análisis de Big Data puede reducir la pérdida de clientes y la insatisfacción de los clientes en los estudios de casos de telecomunicaciones
- Análisis de fallos de red y fallos de servicio a partir de metadatos de red e IPDR
- Análisis financiero: estimación de fraude, desperdicio y ROI a partir de datos operativos y de ventas
- Problema de adquisición de clientes: marketing objetivo, segmentación de clientes y venta cruzada a partir de datos de ventas
- Introducción y resumen de todos los productos analíticos de Big Data y dónde encajan en el espacio analítico de las telecomunicaciones
- Conclusión: cómo adoptar un enfoque paso a paso para introducir Big Data Business Intelligence en su organización
Público objetivo
- Operación de redes, gerentes financieros, gerentes de CRM y altos gerentes de TI en la oficina de CIO de telecomunicaciones.
- Business Analistas de telecomunicaciones
- Gerentes/analistas de la oficina del CFO
- Gerentes de operaciones
- Gerentes de control de calidad
A Practical Introduction to Data Science
35 horasCiencia de Datos para Big Data Analytics
35 horasBig data son conjuntos de datos que son tan voluminosos y complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Los grandes desafíos de datos incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.
Data Science essential for para los profesionales de marketing / ventas
21 horasEste curso está dirigido a Marketing profesionales de ventas que tienen la intención de profundizar en la aplicación de la ciencia de datos en Marketing/ Ventas. El curso proporciona Cobertura detallada de las diferentes técnicas de ciencia de datos utilizadas para "upsale", "cross-sale", segmentación de mercado, branding y CLV.
Diferencia de Marketing y Ventas: ¿en qué se diferencian las ventas y el marketing?
En palabras muy simples, las ventas se pueden denominar como un proceso que se enfoca o se dirige a individuos o grupos pequeños. Marketing Por otro lado, se dirige a un grupo más grande o al público en general. Marketing incluye la investigación (identificación de las necesidades del cliente), el desarrollo de productos (producción de productos innovadores) y la promoción del producto (a través de anuncios) y la creación de conciencia sobre el producto entre los consumidores. Como tal, el marketing significa generar clientes potenciales o prospectos. Una vez que el producto está en el mercado, es tarea del vendedor persuadir al cliente para que compre el producto. Las ventas significan convertir los clientes potenciales o potenciales en compras y pedidos, mientras que el marketing está dirigido a plazos más largos, las ventas pertenecen a objetivos más cortos.
F # para Ciencia de datos
21 horasLa ciencia de datos es la aplicación de análisis estadístico, aprendizaje automático, visualización de datos y programación con el fin de comprender e interpretar datos del mundo real. F # es un lenguaje de programación adecuado para la ciencia de datos, ya que combina una ejecución eficiente, REPL-scripting, potentes bibliotecas e integración de datos escalables.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a usar F # para resolver una serie de problemas de ciencia de datos del mundo real.
Al final de esta capacitación, los participantes podrán:
- Use los paquetes de ciencia de datos integrados de F #
- Use F # para interoperar con otros lenguajes y plataformas, incluidos Excel, R, Matlab y Python.
- Usa el paquete Deedle para resolver problemas de series de tiempo
- Llevar a cabo análisis avanzados con líneas mínimas de código de calidad de producción
- Comprender cómo la programación funcional es una opción natural para los cálculos científicos y de big data
- Acceda y visualice datos con F #
- Aplicar F # para el aprendizaje automático
- Explore soluciones para problemas en dominios tales como inteligencia empresarial y juegos sociales
Audiencia
- Desarrolladores
- Científicos de datos
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica
Introduction to Data Science
35 horasEsta capacitación en vivo dirigida por un instructor (en el sitio o remota) está dirigida a profesionales que desean comenzar una carrera en Data Science .
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Python y MySql.
- Comprenda qué es la Data Science y cómo puede agregar valor a prácticamente cualquier negocio.
- Aprende los fundamentos de la codificación en Python
- Aprenda técnicas de Machine Learning supervisadas y no supervisadas, y cómo implementarlas e interpretar los resultados.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para organizarlo.