Saltar al contenido

IA para transcribir audios o extraer lo que se habla de un video y crear textos

20/06/2024

Los audios en la vida real tienen muy mala calidad: ruidos de fondo, interrupciones y cruces de voces, interrupcionnes,etc

Hemos probado audios grabados con un movil y audios grabados en una videoconferencia

herramientas:

GOOGLE IA:

En cloud puedes crear un proyecto SPEECH-TO-TEXT con varios modelos entrenados de IA. Lo más eficiente que hemos visto, para español, es Chirp Telephony y Chrip que son modelos entrenados por Google para llamadas telefónicas grabadas en movil en torno a los 8khz de frecuencia

Lo mejor:

  • calidad de la transcripción
  • capacidad de cálculo y almacenamiento en google cloud (es de pago pero consume muy poco dinero)
  • puedes descargarte el texto en varios formatos (texto, CSV con marcas de tiempo, SRT para subtitulos)
  • puedes pulsar en el play del audio y el texto se va mostrando en negrita para que compares lo que oyes con lo que Google Chrip ha extraido
  • Puedes entrenar al modelo con un audio base, muestras, etc
  • Puedes separar a los que hablan por canales

Lo peor:

  • si te equivocas de modelo o si la calidad es excesivamente mala se enfoca en rescatar el texto pero olvida signos de puntuación
  • Esto se puede arreglar con un prompt en chatgpt

en medios on line especializados hemos probado varios pero el que mejores resultados  nos ha dado es https://speechtext.ai/