Investigadores de Oxford Open-Supply WhisperX: un sistema de reconocimiento de voz preciso en el tiempo con marcas de tiempo a nivel de palabra


Los enfoques de capacitación débilmente supervisados ​​y no supervisados ​​han mostrado un desempeño sobresaliente en varias tareas de procesamiento de audio, incluido el reconocimiento de voz, el reconocimiento del hablante, la separación del habla y la detección de palabras clave, gracias a la disponibilidad de conjuntos de datos en línea a gran escala. Investigadores de Oxford desarrollaron un sistema de reconocimiento de voz llamado Whisper que hace uso de esta extensa base de datos a mayor escala. Utilizando 125 000 horas de datos de traducción al inglés y 680 000 horas de datos de entrenamiento de voz ruidosa en 96 idiomas adicionales, demuestran cómo el entrenamiento previo supervisado débilmente de un transformador de codificador-decodificador sencillo puede lograr con éxito la transcripción de voz multilingüe de disparo cero en puntos de referencia establecidos.

La mayoría de los puntos de referencia académicos se componen de declaraciones breves, pero en aplicaciones del mundo actual, como reuniones, podcasts y movies, generalmente se requiere la transcripción de audio de formato largo que puede durar horas o minutos. Debido a las limitaciones de memoria, los diseños de transformadores utilizados para los modelos de reconocimiento automático de voz (ASR) evitan la transcripción de audio de entrada arbitrariamente largo (hasta 30 segundos en el caso de Whisper). Investigaciones recientes utilizan enfoques heurísticos de estilo de ventana deslizante, que son propensos a errores debido a la superposición de audio, lo que puede causar transcripciones inconsistentes cuando el modelo procesa el mismo discurso dos veces; y (ii) audio incompleto, donde algunas palabras pueden perderse o transcribirse incorrectamente si están al principio o al closing del segmento de entrada.

Whisper sugiere un método de transcripción en búfer que depende de la predicción precisa de la marca de tiempo para establecer cuánto se debe cambiar la ventana de entrada. Como los errores de marca de tiempo en una ventana pueden sumarse a los errores en ventanas sucesivas, dicha solución es susceptible a una desviación significativa. Intentan eliminar estos errores utilizando una variedad de heurísticas hechas a mano, pero sus esfuerzos a menudo no tienen éxito. La decodificación vinculada de Whisper, que utiliza un solo codificador-descodificador para decodificar transcripciones y marcas de tiempo, es vulnerable a los problemas estándar con la producción de lenguaje autorregresivo, específicamente la alucinación y la repetición. Esto afecta desastrosamente la transcripción amortiguada de actividades de larga duración y otras actividades sensibles a la marca de tiempo, como la diarización del hablante, la lectura de labios y el aprendizaje audiovisual.

De acuerdo con la papel de susurro, una parte importante del corpus de entrenamiento comprende datos incompletos (emparejamientos de transcripción de audio sin información de marca de tiempo), representados por el token |nottimestamps|>. Cuando se escala en datos de transcripción incompletos y ruidosos, el rendimiento de la transcripción de voz se cambia inadvertidamente por una predicción de marca de tiempo menos precisa. Como resultado, al emplear módulos adicionales, la transcripción y el discurso deben alinearse con precisión. Hay una tonelada de esfuerzo en la “alineación forzada”, que alinea la transcripción del habla con formas de onda de audio a nivel de palabra o fonema. Los modelos de teléfonos acústicos a menudo se entrenan para utilizar el marco del modelo oculto de Markov (HMM) y el subproducto de posibles alineaciones de estado.

Las marcas de tiempo de estas palabras o números de teléfono a menudo se corrigen mediante modelos de corrección de límites externos. Algunos estudios recientes utilizan tácticas de aprendizaje profundo para la alineación forzada, como el empleo de una matriz de atención bidireccional o la segmentación CTC con el modelo capacitado de extremo a extremo debido al rápido crecimiento de los enfoques basados ​​en el aprendizaje profundo. La combinación de un modelo ASR de vanguardia con un modelo easy de reconocimiento de fonemas, ambos preparados utilizando conjuntos de datos significativos a gran escala, podría resultar en una mejora adicional.

Para superar estas dificultades, sugieren WhisperX, un método para la transcripción de voz efectiva de audio de formato largo con marcas de tiempo precisas a nivel de palabra. Incluye tres pasos adicionales además de la transcripción susurrante:

  1. Segmentación previa del audio de entrada con un modelo externo de detección de actividad de voz (VAD).
  2. Cortar y fusionar los segmentos VAD resultantes en fragmentos de entrada de aproximadamente 30 segundos con límites en regiones de voz mínimamente activas.
  3. Forzan la alineación con un modelo de fonema externo para proporcionar marcas de tiempo precisas a nivel de palabra.

Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Synthetic en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.


Related Articles

Cómo cerrar sesión | Revisión de tecnología del MIT

Por ejemplo, señala, no hay necesidad de realizar una desintoxicación...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

Cómo cerrar sesión | Revisión de tecnología del MIT

Por ejemplo, señala, no hay necesidad de realizar...

Meta anuncia un nuevo grupo de productos de alto nivel para IA generativa

Mark Zuckerberg, director ejecutivo de Meta Platforms, anunció...
spot_img

Stay in touch!

Follow our Instagram