Groq: transcribe vídeos de YouTube a texto, gratis y sin tarjeta de crédito
Llevas meses escuchando que la IA va a cambiar cómo consumimos información. Esta herramienta ya lo hace. Y no te pide nada a cambio.
Groq es una plataforma de inferencia de IA. No es un chatbot como ChatGPT. Es la infraestructura que ejecuta modelos como LLaMA, Whisper o Qwen a una velocidad muy por encima de lo habitual. La consola pública está en console.groq.com, y crear una cuenta es gratis, sin poner ningún número de tarjeta.
Qué puedes hacer desde la consola
Desde console.groq.com tienes acceso a tres cosas principales desde el primer día:
Modelos de lenguaje. Puedes conversar o hacer consultas con modelos como LLaMA 3 o Qwen directamente desde el playground. Sin pagar. El plan gratuito incluye hasta 14.400 peticiones al día para algunos modelos.
Transcripción de audio con Whisper. Esta es la parte más interesante para mucha gente. Groq ejecuta Whisper Large V3, el modelo de reconocimiento de voz de OpenAI, en sus propios chips. El resultado: transcripciones rápidas en más de 50 idiomas, incluyendo español. El límite gratuito equivale a unas 4 horas de audio al día.
API para desarrolladores. Si sabes un poco de código, o quieres aprender, Groq da una API key desde la consola. Esa clave es lo que necesitas para conectar scripts y herramientas externas.
El caso práctico: transcribir vídeos de YouTube a Markdown
Aquí es donde esto se vuelve muy útil. Existe un script en Python llamado mediatranscribe, disponible en GitHub (github.com/Asesorian/mediatranscribe), que usa la API de Groq para transcribir vídeos de YouTube o archivos de audio locales. El resultado se guarda como Markdown con timestamps, listo para pegar en Notion, Obsidian o cualquier editor de texto.
El proceso es simple:
- Creas una cuenta en
console.groq.comy copias tu API key. - Descargas el repositorio desde GitHub.
- Instalas las dependencias con
pip install -r requirements.txt. - Ejecutas el script con la URL del vídeo o la ruta a un archivo local.
El script descarga el audio, lo envía a Whisper a través de la API de Groq y devuelve la transcripción en texto. En minutos tienes el contenido de una conferencia de una hora convertido en texto navegable.
Para quién tiene sentido esto
No hace falta ser programador para sacarle partido. Si consumes muchos podcasts en inglés, puedes transcribirlos y traducirlos. Si estudias y hay clases grabadas en YouTube, tienes el texto en segundos. Si eres creador de contenido, puedes usar la transcripción como base para un artículo o un hilo.
El límite de 4 horas de audio al día es más que suficiente para uso personal.
Lo que me parece destacable de Groq no es solo la velocidad. Es que el acceso gratuito es real: sin prueba de 7 días, sin tarjeta, sin fricción. Eso no es lo habitual en este sector.
Pruébalo con un vídeo corto primero. Una charla TED, una clase, un episodio de podcast. Luego decides si quieres ir más lejos.
Mediatranscribe, el script que convierte todo esto en un comando, nació en SaaS Factory, la comunidad donde makers españoles construyen herramientas reales con IA. Si te interesa ese tipo de proyectos, échale un vistazo.
