Hablamos a una velocidad de aproximadamente 160 palabras por minuto. Esa velocidad es increíblemente difícil de lograr para los implantes cerebrales del habla.
Con décadas de fabricación, los implantes del habla utilizan pequeños conjuntos de electrodos insertados en el cerebro para medir la actividad neuronal, con el objetivo de transformar los pensamientos en texto o sonido. Son invaluables para las personas que pierden la capacidad de hablar debido a parálisis, enfermedades u otras lesiones. Pero también son increíblemente lentos, reduciendo el número de palabras por minuto casi diez veces. Al igual que una página net o un archivo de audio que se carga lentamente, la demora puede volverse frustrante para las conversaciones cotidianas.
Un equipo dirigido por los Dres. Krishna Shenoy y Jaimie Henderson de la Universidad de Stanford están cerrando esa brecha de velocidad.
Publicado en el servidor de preimpresión bioRxiv, su estudio ayudó a una mujer de 67 años a restaurar su capacidad de comunicarse con el mundo exterior usando implantes cerebrales a una velocidad sin precedentes. Conocida como “T12”, la mujer perdió gradualmente el habla debido a la esclerosis lateral amiotrófica (ELA), o enfermedad de Lou Gehrig, que progresivamente roba la capacidad del cerebro para controlar los músculos del cuerpo. T12 todavía podía vocalizar sonidos cuando intentaba hablar, pero las palabras le salían ininteligibles.
Con su implante, los intentos de hablar de T12 ahora se decodifican en tiempo actual como texto en una pantalla y se pronuncian en voz alta con una voz computarizada, incluidas frases como “es simplemente difícil” o “disfruto que vengan”. Las palabras llegaron rápidas y furiosas a 62 por minuto, más de tres veces la velocidad de los récords anteriores.
No es sólo una necesidad de velocidad. El estudio también aprovechó la biblioteca de vocabulario más grande utilizada para decodificar el habla usando un implante, con aproximadamente 125,000 palabras, en una primera demostración en esa escala.
Para ser claros, aunque fue un “gran avance” y alcanzó “nuevos puntos de referencia de rendimiento impresionantes” según los expertos, el estudio aún no ha sido revisado por pares y los resultados se limitan a un participante.
Dicho esto, la tecnología subyacente no se limita a ALS. El impulso en el reconocimiento de voz se deriva de un matrimonio entre RNN (redes neuronales recurrentes, un algoritmo de aprendizaje automático que antes period efectivo para decodificar señales neuronales) y modelos de lenguaje. Cuando se pruebe más, la configuración podría allanar el camino para permitir que las personas con parálisis severa, accidente cerebrovascular o síndrome de enclaustramiento conversen casualmente con sus seres queridos usando solo sus pensamientos.
Estamos comenzando a “acercarnos a la velocidad de una conversación pure”, dijeron los autores.
Pérdida de palabras
El equipo no es ajeno a devolver a las personas su capacidad de hablar.
Como parte de BrainGateuna colaboración world pionera para restaurar las comunicaciones usando implantes cerebrales, el equipo imaginó, y luego se dio cuenta, la capacidad de restaurar las comunicaciones usando señales neuronales del cerebro.
En 2021, diseñaron una interfaz cerebro-computadora (BCI) que ayudó a una persona con lesión de la médula espinal y tipo de parálisis con su mente. Con una matriz de 96 microelectrodos insertada en las áreas motoras del cerebro del paciente, el equipo pudo decodificar las señales cerebrales de diferentes letras mientras imaginaba los movimientos para escribir cada carácter, logrando una especie de “mensaje de texto psychological” con más del 94 por ciento de precisión.
¿El problema? La velocidad period de aproximadamente 90 caracteres por minuto como máximo. Si bien fue una gran mejora con respecto a las configuraciones anteriores, todavía period dolorosamente lento para el uso diario.
Entonces, ¿por qué no acceder directamente a los centros del habla del cerebro?
Independientemente del idioma, decodificar el habla es una pesadilla. Los movimientos pequeños y, a menudo, subconscientes de la lengua y los músculos circundantes pueden desencadenar grupos de sonidos muy diferentes, también conocidos como fonemas. Tratar de vincular la actividad cerebral de cada movimiento de un músculo facial o parpadeo de la lengua con un sonido es una tarea hercúlea.
Discurso de piratería
El nuevo estudio, que forma parte de la prueba del sistema de interfaz neuronal BrainGate2, utilizó una solución alternativa inteligente.
El equipo primero colocó cuatro micromatrices de electrodos estratégicamente ubicados en la capa externa del cerebro de T12. Se insertaron dos en áreas que controlan los movimientos alrededor de los músculos faciales que rodean la boca. Los otros dos tocaron directamente en el “centro del lenguaje” del cerebro, que se llama área de Broca.
En teoría, la ubicación period un genio dos en uno: capturaba tanto lo que la persona quería decir como la ejecución actual del habla a través de los movimientos musculares.
Pero también period una propuesta arriesgada: aún no sabemos si el habla se limita a una pequeña área del cerebro que controla los músculos alrededor de la boca y la cara, o si el lenguaje está codificado a una escala más world dentro del cerebro.
Ingrese los RNN. Un tipo de aprendizaje profundo, el algoritmo ha traducido previamente señales neuronales de las áreas motoras del cerebro en texto. En una primera prueba, el equipo descubrió que separaba fácilmente diferentes tipos de movimientos faciales para el habla, por ejemplo, fruncir el ceño, fruncir los labios o mover la lengua, basándose solo en señales neuronales con más del 92 por ciento de precisión.
Luego se le enseñó a la RNN a sugerir fonemas en tiempo actual, por ejemplo, “huh”, “ah” y “tze”. Los fenómenos ayudan a distinguir una palabra de otra; en esencia, son el elemento básico del discurso.
El entrenamiento requirió trabajo: todos los días, T12 intentó hablar entre 260 y 480 oraciones a su propio ritmo para enseñarle al algoritmo la actividad neuronal specific que subyace a sus patrones de habla. En common, la RNN fue entrenada en casi 11,000 oraciones.
Con un decodificador para su mente, el equipo vinculó la interfaz RNN con dos modelos de lenguaje. Uno tenía un vocabulario especialmente amplio de 125.000 palabras. La otra period una biblioteca más pequeña con 50 palabras que se usa para oraciones simples en la vida cotidiana.
Después de cinco días de intentar hablar, ambos modelos de lenguaje pudieron decodificar las palabras de T12. El sistema tenía errores: alrededor del 10 por ciento para la biblioteca pequeña y casi el 24 por ciento para la más grande. Sin embargo, cuando se le pidió que repitiera las instrucciones de las oraciones en una pantalla, el sistema tradujo fácilmente su actividad neuronal en oraciones tres veces más rápido que los modelos anteriores.
El implante funcionó independientemente de si intentaba hablar o si simplemente pronunciaba las oraciones en silencio (prefería lo último, ya que requería menos energía).
Al analizar las señales neuronales de T12, el equipo descubrió que ciertas regiones del cerebro retenían patrones de señalización neuronal para codificar vocales y otros fonemas. En otras palabras, incluso después de años de parálisis del habla, el cerebro aún mantiene un “código articulatorio detallado”, es decir, un diccionario de fonemas incrustados dentro de las señales neuronales, que se puede decodificar mediante implantes cerebrales.
Di lo que piensas
El estudio se basa en muchos otros que usan un implante cerebral para restaurar el habla, a menudo décadas después de lesiones graves o parálisis que se propaga lentamente por trastornos neurodegenerativos. El {hardware} es bien conocido: la matriz de microelectrodos Blackrock, que consta de 64 canales para escuchar las señales eléctricas del cerebro.
Lo que es diferente es cómo funciona; es decir, cómo el software program transforma la charla neuronal ruidosa en significados o intenciones coherentes. Los modelos anteriores se basaban principalmente en la decodificación de datos obtenidos directamente de grabaciones neuronales del cerebro.
Aquí, el equipo aprovechó un nuevo recurso: modelos de lenguaje o algoritmos de IA similares a la función de autocompletar ahora ampliamente disponible para Gmail o mensajes de texto. El tag-team tecnológico es especialmente prometedor con el surgimiento de GPT-3 y otros modelos lingüísticos grandes emergentes. Excelente para generar patrones de voz a partir de indicaciones simples, la tecnología, cuando se combina con las propias señales neuronales del paciente, podría potencialmente “autocompletar” sus pensamientos sin necesidad de horas de entrenamiento.
La perspectiva, aunque atractiva, viene con un lado de precaución. GPT-3 y modelos de IA similares pueden generar un discurso convincente por sí mismos en función de los datos de entrenamiento previos. Para una persona con parálisis que no puede hablar, necesitaríamos barandillas ya que la IA genera lo que la persona está tratando de decir.
Los autores coinciden en que, por ahora, su trabajo es una prueba de concepto. Si bien es prometedor, “todavía no es un sistema completo y clínicamente viable” para decodificar el habla. Por un lado, dijeron, necesitamos entrenar el decodificador con menos tiempo y hacerlo más versatile, permitiéndole adaptarse a la actividad cerebral en constante cambio. Por otro lado, la tasa de error de aproximadamente el 24 por ciento es demasiado alta para el uso diario, aunque aumentar la cantidad de canales de implante podría aumentar la precisión.
Pero por ahora, nos acerca al objetivo remaining de “restaurar las comunicaciones rápidas para las personas con parálisis que ya no pueden hablar”, dijeron los autores.
Credito de imagen: Miguel Á. padriñán de pixabay