Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a la Síntesis de Voz y el Clonado de Voces
- Resumen de síntesis de texto a voz (TTS) y síntesis neural de voz
- Clonado de voz vs generación de habla: casos de uso y límites
- Modelos clave: Tacotron, WaveNet, FastSpeech, VITS
Trabajando con Plataformas Comerciales
- Usando ElevenLabs y Resemble AI
- Creación, clonado y edición de voces
- Acceso a la API y flujos de trabajo TTS
Construyendo con Herramientas de Código Abierto
- Instalación y configuración de Coqui TTS
- Entrenamiento de voces personalizadas y gestión de conjuntos de datos
- Generación de habla con control fino (tono, velocidad, emoción)
Preparación de Datos y Conjunto de Datos de Voz Management
- Recolección y limpieza de muestras vocales
- Segmentación, etiquetado y alineación de transcripciones
- Procedimientos éticos para la obtención de datos y consentimiento de voz
Integración de Aplicaciones
- Incorporar TTS en sitios web y aplicaciones
- Creación de sistemas IVR y bots interactivos
- Generación de diálogos sintéticos para videojuegos y videos
Evaluación de Calidad y Realismo
- Pruebas MOS (Puntuación Media de Opinión) e inteligibilidad
- Control de expresividad y prosodia
- Comparación de latencia, fidelidad y realismo
Consideraciones Éticas, Legales y GoGubernativas
- Riesgos de deepfakes y uso responsable
- Consentimiento, atribución e implicaciones de derechos de autor
- Regulaciones y políticas organizacionales
Resumen y Próximos Pasos
Requerimientos
- Comprender los fundamentos de la inteligencia artificial
- Familiaridad con formatos de archivos de audio y herramientas de edición
- Habilidades básicas de programación Python
Público objetivo
- Desarrolladores e ingenieros de IA interesados en la síntesis de voz
- Creadores de contenido y tecnólogos del medio que exploran la generación de voz
- Equipos de I+D construyendo sistemas de audio personalizados o dinámicos
14 Horas