Innovadora interfaz cerebro-computadora permite a una persona con parálisis «hablar»

En un desarrollo interesante, los científicos han creado una interfaz cerebro-computadora (BCI) de alto rendimiento que permite a una persona con parálisis severa comunicarse a través de texto, voz y expresiones faciales. 

Los hallazgos de investigadores de la Universidad de California en San Francisco se publicaron el 23 de agosto en la revista Nature.

La participante en el estudio fue una mujer de 47 años que sufrió un derrame cerebral hace 18 años que la dejó incapaz de hablar o moverse.  Había estado confiando en una lenta tecnología de comunicación asistida para deletrear laboriosamente las palabras letra por letra. 

Pero ahora, gracias al nuevo BCI, puede «hablar» a un ritmo casi normal a través de texto, voz sintetizada y expresiones faciales en un avatar animado.

El BCI funciona registrando señales cerebrales de una serie de electrodos de alta densidad implantados en la superficie de la corteza motora del cerebro.   Luego, sofisticados algoritmos de aprendizaje automático pueden decodificar estos patrones neuronales en el discurso previsto por el usuario.

Para el texto, el sistema logró una tasa media de decodificación de palabras de 78 palabras por minuto con una baja tasa de error, lo que permitió al usuario deletrear mensajes de manera eficiente. 

La decodificación de texto se generalizó para trabajar con un vocabulario amplio para que el usuario pudiera comunicar libremente cualquier idea.

Aún más notable es que el BCI puede sintetizar directamente audio de voz inteligible a partir de señales cerebrales a un ritmo de habla natural.   Esto permite una comunicación más natural utilizando la propia voz del usuario. 

Los investigadores incluso implementaron la conversión de voz para que el habla sintetizada sonara como la voz del participante antes de su lesión.

Finalmente, el BCI es capaz de animar un avatar digital 3D personalizado con movimientos faciales y labiales sincronizados con el texto o el habla decodificados.   Esta cara parlante virtual puede transmitir información no verbal para hacer que la comunicación sea más expresiva y agradable.

Los investigadores señalan que todo esto se logró con sólo dos semanas de capacitación del sistema, lo que demuestra el potencial de su traducción al uso clínico. 

La combinación de alto rendimiento y comunicación multimodal expresiva podría aumentar en gran medida la independencia y la calidad de vida de las personas con parálisis grave.

¿Cómo decodifica el modelo de aprendizaje profundo las modalidades de salida relacionadas con el habla en tiempo real?

El estudio utilizó un modelo de aprendizaje profundo entrenado en grabaciones superficiales de alta densidad de la corteza del habla. 

Este modelo puede decodificar resultados relacionados con el habla en tiempo real, incluido texto, síntesis de voz y control orofacial virtual. Al utilizar múltiples modalidades, se logra una comprensión integral del mensaje deseado. 

El sistema recopila datos neuronales a medida que el participante pronuncia oraciones en silencio y los usa para predecir probabilidades telefónicas, sonidos del habla y gestos articulatorios. 

Estas predicciones se utilizan luego para decodificar texto, sintetizar voz y animar un avatar virtual. El modelo de aprendizaje profundo procesa estos datos de forma rápida y precisa, lo que permite una decodificación rápida de la salida relacionada con el habla.

¿Cuál es la tasa mediana de error de palabras para la modalidad de decodificación de texto?

La tasa media de error de palabras para la modalidad de decodificación de texto es del 3,5 %, y se logra mediante un modelo de aprendizaje profundo entrenado en un gran conjunto de datos de oraciones. 

El sistema decodifica texto con precisión a una velocidad de 78 palabras por minuto, con una tasa de error de palabras del 25%. 

Los investigadores utilizaron el modelo de conversión de texto a voz de Wavenet y HuBERT para una decodificación rápida y precisa, lo que resultó en una baja tasa de error de palabras.

¿Cuánto tiempo llevó entrenar a los decodificadores para que alcanzaran un alto rendimiento?

Se necesitaron aproximadamente 13 días de recopilación de datos de entrenamiento para que los decodificadores alcanzaran un alto rendimiento en el estudio. 

Los investigadores observaron una disminución de las tasas de error durante este período, recopilando 9.506 oraciones de prueba que equivalían a aproximadamente 1,6 horas de datos de entrenamiento por día. 

Esto sugiere que el rendimiento funcional de la decodificación de voz se puede lograr con relativa rapidez y se espera que mejore aún más con más datos.

El autor principal, el Dr. Edward Chang, comentó que «esta tecnología devuelve la identidad personal a una persona. Le permite transmitir no sólo palabras sino información no verbal a través de expresiones faciales, para encarnar verdaderamente los mensajes que desea transmitir».

Edward Chang, MD, presidente de cirugía neurológica de la Universidad de San Francisco,  quien ha dedicado más de una década al desarrollo de la tecnología interfaz cerebro-computadora (BCI), alberga esperanzas para un sistema aprobado por la FDA que pronto permitirá el habla a través de señales cerebrales.

Chang visualiza un futuro en el que las personas puedan recuperar una forma de comunicación completa y natural. Restaurar la capacidad de las personas para participar en conversaciones plenas es el núcleo de su misión.

El estudio ofrece la esperanza de que, con una investigación continua, la tecnología interfaz cerebro-computadora algún día podrían convertirse en dispositivos de asistencia viables para que las personas con parálisis o enfermedades neurológicas se reconecten y participen en la sociedad de una manera más natural. 

La capacidad de comunicarse y expresarse es invaluable para el bienestar social y emocional.

Te podría interesar!