IA para transcribir audios o extraer lo que se habla de un video y crear textos

Los audios en la vida real tienen muy mala calidad: ruidos de fondo, interrupciones y cruces de voces, interrupcionnes,etc

Hemos probado audios grabados con un movil y audios grabados en una videoconferencia

herramientas:

GOOGLE IA:

En cloud puedes crear un proyecto SPEECH-TO-TEXT con varios modelos entrenados de IA. Lo más eficiente que hemos visto, para español, es Chirp Telephony y Chrip que son modelos entrenados por Google para llamadas telefónicas grabadas en movil en torno a los 8khz de frecuencia

Lo mejor:

calidad de la transcripción
capacidad de cálculo y almacenamiento en google cloud (es de pago pero consume muy poco dinero)
puedes descargarte el texto en varios formatos (texto, CSV con marcas de tiempo, SRT para subtitulos)
puedes pulsar en el play del audio y el texto se va mostrando en negrita para que compares lo que oyes con lo que Google Chrip ha extraido
Puedes entrenar al modelo con un audio base, muestras, etc
Puedes separar a los que hablan por canales

Lo peor:

si te equivocas de modelo o si la calidad es excesivamente mala se enfoca en rescatar el texto pero olvida signos de puntuación
Esto se puede arreglar con un prompt en chatgpt

en medios on line especializados hemos probado varios pero el que mejores resultados nos ha dado es https://speechtext.ai/