Los audios en la vida real tienen muy mala calidad: ruidos de fondo, interrupciones y cruces de voces, interrupcionnes,etc
Hemos probado audios grabados con un movil y audios grabados en una videoconferencia
herramientas:
GOOGLE IA:
En cloud puedes crear un proyecto SPEECH-TO-TEXT con varios modelos entrenados de IA. Lo más eficiente que hemos visto, para español, es Chirp Telephony y Chrip que son modelos entrenados por Google para llamadas telefónicas grabadas en movil en torno a los 8khz de frecuencia
Lo mejor:
- calidad de la transcripción
- capacidad de cálculo y almacenamiento en google cloud (es de pago pero consume muy poco dinero)
- puedes descargarte el texto en varios formatos (texto, CSV con marcas de tiempo, SRT para subtitulos)
- puedes pulsar en el play del audio y el texto se va mostrando en negrita para que compares lo que oyes con lo que Google Chrip ha extraido
- Puedes entrenar al modelo con un audio base, muestras, etc
- Puedes separar a los que hablan por canales
Lo peor:
- si te equivocas de modelo o si la calidad es excesivamente mala se enfoca en rescatar el texto pero olvida signos de puntuación
- Esto se puede arreglar con un prompt en chatgpt
en medios on line especializados hemos probado varios pero el que mejores resultados nos ha dado es https://speechtext.ai/
