Temario del curso

Introducción a los Modelos de Visión-Lenguaje

  • Visión general de los VLM y su papel en la IA multimodal
  • Arquitecturas populares: CLIP, Flamingo, BLIP, etc.
  • Casos de uso: búsqueda, generación de descripciones, sistemas autónomos, análisis de contenido

Preparando el Entorno de Ajuste Fino

  • Configuración de OpenCLIP y otras bibliotecas VLM
  • Formatos de conjuntos de datos para pares imagen-texto
  • Canales de preprocesamiento para entradas de visión y lenguaje

Ajuste Fino de CLIP y Modelos Similares

  • Pérdida contrastiva y espacios de embebidos conjuntos
  • Práctica: ajuste fino de CLIP en conjuntos de datos personalizados
  • Gestión de datos específicos del dominio y multilingües

Técnicas Avanzadas de Ajuste Fino

  • Uso de LoRA y métodos basados en adaptadores para eficiencia
  • Ajuste de prompts e inyección de prompts visuales
  • Dilemas entre evaluación a ciegas y ajuste fino

Evaluación y Benchmarking

  • Métricas para VLMs: precisión de recuperación, BLEU, CIDEr, recall
  • Diagnósticos de alineamiento visual-textual
  • Visualización de espacios de embebidos y malas clasificaciones

Despliegue y Uso en Aplicaciones Reales

  • Exportación de modelos para inferencia (TorchScript, ONNX)
  • Integración de VLMs en pipelines o APIs
  • Consideraciones de recursos y escalado del modelo

Estudios de Caso y Escenarios Aplicados

  • Análisis de medios y moderación de contenido
  • Búsqueda y recuperación en comercio electrónico y bibliotecas digitales
  • Interacción multimodal en robótica y sistemas autónomos

Resumen y Próximos Pasos

Requerimientos

  • Un conocimiento de deep learning para visión y NLP (Procesamiento del Lenguaje Natural)
  • Experiencia con PyTorch y modelos basados en transformers
  • Familiaridad con arquitecturas de modelos multimodales

Audiencia

  • Ingenieros de visión por computadora
  • Desarrolladores de IA
 14 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas