Saltar al contenido

De ruido a claridad: ¡Descubre las 3 estrellas de IA para transcribir audio desafiante!

06/12/2023

[vc_row][vc_column][vc_column_text]

Puedes ahorrar mucho tiempo con estas herramientas de IA para transcribir audio a texto en español

Me imagino que eres una persona que trabaja con el conocimiento que tienes de algo específico.

Puedes estar en un sector como el jurídico o legal, en el cultivo de cereal o en la fabricación de algo. Cada vez hay más conocimiento asociado. P.e. puede que tengas un audio de cómo abonar las tierras para producir garbanzos y quieras pasarlo a texto. Si eres abogado tienes el audio de calidad lamentable sobre la audiencia del juicio y quieras transcribirlo para preparar una demanda.

Hoy voy a simplificar la vida del que tiene que transcribir un audio a texto. Si lo has hecho y lo has logrado tus nervios son de acero y tu paciencia infinita. Bravo. El resto de los mortales simplemente renuncia. Como mucho oyen el audio y ya.

Esto era hasta ahora. Con herramientas de IA puedes sacar texto de audios con muy baja calidad, ruido y con un 98% de efectividad. Como siempre las herramientas que mejor lo hacen son de pago. Pero hay ya muchas opciones.

Es retador y apasionante solucionar esa sensación de no estar al día usando las nuevas herramientas que van saliendo. En el mundo IA cada 3 meses todo se revoluciona. Haz memoria. Piensa en alguna solucion con Inteligencia Artificial que hayas visto hace meses, ni siquiera años. La herramienta que medio funcionaba hace 6 meses ahora ha desaparecido o ha evolucionado para ser mucho mejor.

El tiempo aquí cuenta mucho.

Junto al tiempo cuenta saber de dónde sacamos la información porque hay mucha paja y poco trigo. Ahí te quiero aportar algo para que ganes ese tiempo que no tienes y accedas a contenido bueno y probado a fecha de hoy (bueno, a fecha de cuando yo escribo esto).

No me paga ni patrocina nadie ni ninguna marca.

3 Herramientas revisadas y revisitadas:

  • DeepGram
  • Transkriptor
  • Whisper
  • Descript

 

Voy a aplicar esta tecnología a un audio de muy mala calidad que grabé en una sesión de coaching para mejorar la escucha activa.  No, no la comparto, de momento. Es genial pero nos desviamos del tema. Quizá en el podcast lo tratemos si hay interés.

Mi archivo de audio lo grabé con la grabadora de voz que  viene en mi Samsung Android en formato .m4a y ocupa 1.42 Gb

He necesitado convertirlo a archivo .MP3

Con la herramienta gratuita VLC lo he pasado a .MP3

 

Deepgram

Impresionante. 100% de acierto. La herramienta afirma que consigue un 99,33177% de precisión.

  • confidence: 0.9933177

Te registras, subes tu audio y este es el resultado:

Deepgram es el que mejor y más rápido ha funcionado de los servicios de transcripción gratuitos que usan una web.

Whisper de OpenAI es el más completo muy interesante porque permite instalarlo localmente y crear ficheros de subtitulos para videos y otros usos, como traducir el texto a otros idiomas.

Transkriptor

Es otro servicio en la web y no ha funcionado tan bien. Es bastante bueno pero se ha equivocado en las frases que más ruido había de fondo. Inferior a Deepgram y a Whisper

 

Whisper es la IA de OpenAI para audio

Si google me pone como lo que mejor responde a mi intención de búsqueda es lo de creatubers y dotcsv pues a ser humildes y empezar por lo que el algortimo me sugiere.

Voy a usar Whisper desde mi ordenador, no en una web. Esto ya es algo bastante técnico pero más potente. La única pega es que tienes que instalarte cosas en el ordenador: git, chocolatey, python y FFMPEG

1º Instalar FFmpeg que es una utilidad para editar videos. Solo queremos la parte de audio pero viene todo integrado. se descarga aqui https://ffmpeg.org/download.html para linux y mac. Como yo uso Windows te aconsejo ir directamente a Chocolatey y instalarlo desde allí. Es aquí https://community.chocolatey.org/

Find Packages e instala FFmpeg y git

Tienes que ejecutar desde windows powershell comandos. Para FFmpeg es este:

choco install ffmpeg

 

Nota: si esto es complejo para tí ponte en contacto conmigo via email (info @ driveo.es) y vemos cómo ayudarte.

2º Instalar o actualizar Python en tu ordenador.

Whisper funciona mejor con versiones de python hasta la 3.11.0. No instales la última version porque whisper va un poco por detrás en actualizaciones.

Como yo tengo la 3.10 de momento no la actualizo:

Uso sencillo de Whisper

1º lo instalamos con esta orden en la terminal de powershell:

pip install openai-whisper

 

2º Lo usamos. Necesitas 2 datos: un archivo de audio estándar, p.e. mp3 y elegir un «modelo» de Whisper.

whisper mi-audio.mp3 --model medium

Como ves, le pasas la ruta al archivo MP3 a whisper. He podido comprobar que si tienes un vídeo, pasarle la ruta al archivo de vídeo también funciona. En otras palabras, Whisper es capaz de extraer automáticamente la pista de audio de un archivo de vídeo. En cuanto al otro parámetro, el modelo es importante porque eso determina características de velocidad y precisión importantes a la hora de transcribir audio. En este caso, le estoy pidiendo explícitamente el uso de un modelo de tamaño medio, pero hay en total cinco: tinybasesmallmedium y large.

Y la orden que he ejecutado en powershell es:

whisper d:\Elespejodevoz.mp3 –model medium

El resultado  es:

(solo pongo las primeras frases extraidas del audio)

Este audio se ha pasado a texto con un 99% de precisión. Es un audio grabado en la calle con mucho ruido de fondo. Ha fallado dos o 3 palabras.

Además te pone un indice de tiempo para saber en qué momento se dijo cada frase

¿Puede Whisper hacer algo más?

Sí. Puede traducir el audio a texto en otro idioma.

Prueba:

whisper mi-audio.mp3 --language Spanish --task translate

Interés en BI, desarrollo web, RPA, Automatizaciones, IA, DriveoMap

¡No hacemos spam! Lee nuestra política de privacidad para obtener más información.

Descript

Descript.com puedes descargar un archivo de instalación directamente o desde la tienda de Microsoft

Desde Microsoft app store:

una vez instalado elegimos un nuevo proyecto (audio):

el resultado es este:

El texto extraido es ininteligible.

Opinión: No consigue identificar muchas palabras que tienen ruido de fondo. Además me gusta menos de los otros porque es más lento, hay que instalar un programa en la computadora y la versión gratis está limitada en el tiempo

En su dia probamos Google, IBM Watson y Azure speech service y el resultado fue malo. Perdimos mucho tiempo corrigiendo los fallos de transcripción. El audio era especialmente malo y con mucho ruido. Si tienes interés revisamos estas herramientas y te damos una evaluación. Escribenos en el formulario.

[/vc_column_text][vc_column_text]

Interés en BI, desarrollo web, RPA, Automatizaciones, IA, DriveoMap

¡No hacemos spam! Lee nuestra política de privacidad para obtener más información.

[/vc_column_text][/vc_column][/vc_row]

Simplifica

Tengo interés en un proyecto de Discovery RPA (c)

Sin tu permiso nada. Ahorremos tiempo y simplifiquemos nuestra vida (profesional). Echa un vistazo a nuestra política de privacidad para obtener más información.