El error más grande que cometemos en una PyME es delegar las ventas y el marketing.
Hay que estar muy encima de estas tareas aunque tengas ayuda interna o externa.
Esto también vale para Entidades locales
Puede que hayas grabado el video de una presentación de tu empresa.
Puedes estar en un sector como el jurídico o legal, en el cultivo de cereal o en la fabricación de algo. Cada vez hay más conocimiento asociado. P.e. puede que tengas un video de cómo abonar las tierras para producir garbanzos y quieras pasarlo a texto. Si eres abogado tienes el video de la vista de una audiencia del juicio y quieras transcribirlo para preparar una demanda.
Hoy voy a simplificar la vida del que tiene que transcribir un audio extraído de un Vídeo y pasar ese audio a texto. Si lo has hecho y lo has logrado tus nervios son de acero y tu paciencia infinita.
Usaremos Whisper, una Inteligencia Artificial de OpenAI.
Whisper, que es de OpenAI. La unica pega es que tienes que instalarte cosas en el ordenador: chocolatey, python y FFMPEG
Los pasos para instalar en tu ordenador estas herramientas los hemos explicado en otro artículo aquí
Nota: si esto es complejo para tí ponte en contacto conmigo via email (info @ driveo.es) y vemos cómo ayudarte.
Cómo usar Whisper para extraer el audio y crear texto o subtítulos a partir de un archivo de video
Necesitas 2 datos: un archivo de video estándar, p.e. mp4 y elegir un «modelo» de Whisper. He añadido un parámetro –output_format para que me escriba en un fichero de texto la transcripción. Yo he puesto ‘txt’ pero puedes usar formatos para subtítulos como ‘srt’. Este formato se usa en YouTube para subtitular videos.
whisper f:\videos\conasa\cel\CEL-CARRION.mp4 --model medium --language 'Spanish' --output_format txt
Como ves, le pasas la ruta al archivo MP4 a whisper
. Este video está creado directamente en microsoft Teams en una videoconferencia.
En otras palabras, Whisper es capaz de extraer automáticamente la pista de audio de un archivo de vídeo. En cuanto al otro parámetro, el modelo es importante porque eso determina características de velocidad y precisión importantes a la hora de transcribir audio. En este caso, le estoy pidiendo explícitamente el uso de un modelo de tamaño medio, pero hay en total cinco: tiny
, base
, small
, medium
y large
.
Cada uno tiene un tamaño distinto y también tiene unos requisitos de uso mínimos diferentes, algo que en dispositivos móviles puede ser deseable, aunque tienes que saber que los modelos más grandes también necesitan más memoria VRAM, así que puede que no funcionen en todas las tarjetas gráficas, sobre todo las más antiguas. Aquí tu ordenador cuenta mucho.
Según el modelo que elijas el tiempo de extracción se alargará o acortará.
Y la orden que he ejecutado en powershell es:
El resultado es:
(solo pongo las primeras frases extraidas del audio)
Este audio se ha pasado a texto con un 100% de precisión.
Además te pone un indice de tiempo para saber en qué momento se dijo cada frase
¿Puede Whisper hacer algo más?
Sí. Puede traducir el audio a texto en otro idioma.
Prueba:
whisper c:\{mi-carpeta}\mi-video.mp4 --language Spanish --task translate