Investigadores de Sony presentan M2FNet: una crimson de fusión multimodal para el reconocimiento de emociones en la conversación


Saber cómo las personas interactúan con el contenido es una habilidad essential. Los estados mentales invisibles conectados con el pensamiento y el sentimiento se llaman emociones. Sin señales físicas, tendrían que confiar en los movimientos humanos como el habla, el gesto y el sonido para identificarlos.

El reconocimiento de emociones en conversaciones (ERC) tiene como objetivo analizar información textual, visible y auditiva para identificar las emociones expresadas en una conversación. El uso de ERC para analizar y moderar la información multimedia se ha vuelto rápidamente más importante. Se puede utilizar para entrevistas de IA, interfaces de conversación individualizadas, análisis de la opinión del usuario y materials de contextualización en sitios de redes sociales como YouTube, Fb y Twitter.

Muchos métodos de última generación para realizar un ERC sólido se basan en el procesamiento basado en texto, que ignora las grandes cantidades de información disponible de los canales auditivo y visible.

El grupo de análisis de medios de Sony Analysis India cree que el rendimiento y la solidez de los sistemas existentes se pueden mejorar fusionando las tres modalidades presentes en los datos del ERC: texto, visible y auditivo. El sistema ERC acepta una muestra de expresiones emocionales en tres modalidades como entrada y predice la emoción correspondiente para cada una.

Su nuevo estudio presenta una crimson de fusión multimodal (M2FNet) que utiliza una novedosa capa de atención de fusión de múltiples cabezales para aprovechar al máximo la diversidad inherente de los medios. Las capas de datos de audio y visuales se asignan al espacio latente de las propiedades textuales, lo que permite la generación de representaciones ricas que son emocionalmente relevantes. El uso de las tres modalidades mejora la precisión, y el proceso Fusion del método sugerido aumenta aún más la precisión.

Hay dos fases clave en este concepto:

  1. Nivel de expresión realiza la extracción de características en una expresión particular person (intra-hablante) y nivel de modalidad.
  2. A la mitad del nivel de diálogo, se recuperan las funciones para cada inter-hablante (Inter-Speaker) y se registra la información contextual.

Las etiquetas finales de emoción se estiman cuando se recupera el vínculo entre las modalidades.

Un estudio anterior demostró que tratar los datos de voz como una imagen en lugar de un espectrograma Mel de características de frecuencia trazadas mejora la precisión del reconocimiento de emociones. Inspirándose en esto, M2FNet extrae características de un lenguaje hablado, como imágenes extraídas de un texto. Para extraer más datos relacionados con las emociones de los movies, M2FNet presenta una crimson twin que tiene en cuenta no solo las emociones faciales de la persona, sino también todo el marco para capturar el contexto.

Además, también sugieren un nuevo modelo para la extracción de características usando exHere. Desarrollan una nueva función de pérdida de triplete basada en el margen adaptativo que facilita la capacidad del extractor propuesto para adquirir representaciones precisas.

El equipo afirma que la incapacidad de cada incrustación para aumentar la precisión por sí sola demuestra la importancia del contexto de la escena además de los aspectos de las expresiones faciales en el reconocimiento de emociones. Presentan una crimson twin inspirada en la fusión del contenido emocional de la escena, considerando a las diferentes personas que la componen. Además, la investigación muestra que el rendimiento de los enfoques ERC de última generación disminuye en conjuntos de datos más complicados como MELD, a pesar de su éxito en un conjunto de datos de referencia como IEMOCAP.

Más de 1.400 chats y 13.000 declaraciones de la serie de televisión “Buddies” conforman MELD. Se aplican siete etiquetas de emoción (ira, desprecio, tristeza, alegría, sorpresa, miedo y impartial) a cada declaración. El Prepare/Legitimate prefabricado se utiliza exactamente como está.

IEMOCAP es una base de datos conversacional con seis etiquetas de emociones: feliz, triste, impartial, furiosa, emocionada e irritada. En el experimento, el 10 % de los datos de entrenamiento se eligió al azar y se utilizó para ajustar los hiperparámetros. El 10% de los datos de entrenamiento se eligieron aleatoriamente para crear la base de datos.

El equipo experimentó comparando el rendimiento de la crimson propuesta con las técnicas ERC multimodales y basadas en texto existentes, verificando la solidez de la crimson. Compararon los conjuntos de datos MELD e IEMOCAP como puntajes F1 promedio ponderados. Los resultados sugieren que el modelo M2FNet supera a la competencia por un margen significativo cuando se comparan los puntajes F1 promedio ponderados. Los hallazgos también sugieren que M2FNet utilizó efectivamente características multimodales para mejorar la precisión del reconocimiento de emociones.


Revisar la Papel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro 13k+ ML SubReddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


Tanushree Shenwai es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Es una entusiasta de la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia synthetic en varios campos. Le apasiona explorar los nuevos avances en tecnologías y su aplicación en la vida actual.


Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram