Версия // Общество // Мозговую активность человека впервые удалось транслировать в четкую речь

Мозговую активность человека впервые удалось транслировать в четкую речь

4746

Мысли вслух

В разделе

Нейроинженеры из Колумбийского университета в США первыми в мире смогли создать систему, которая переводит мысли человека в понятную речь. Это нельзя назвать озвучиванием мыслей в полном смысле слова, но важный шаг в данном направлении уже сделан.

Американские ученые совершили настоящий прорыв, научившись переводить мысли человека в четкую речь. Это достижение принадлежит нейроинженерам из Колумбийского университета. Разработанная ими система наблюдает за активностью в слуховой коре головного мозга, а затем восстанавливает слова, которые слышит человек. Разумеется, это сложно назвать озвучиванием мыслей, но определенный прогресс в данном направлении уже достигнут, ведь подобные механизмы мозговой активности действуют в коре головного мозга, когда человек представляет себе, что слушает речь, или мысленно произносит те или иные слова.

Научный прорыв в денной области, который был совершен с использованием технологий искусственного интеллекта, позволяет приблизиться к созданию высокоэффективных нейроинтерфейсов, которые будут соединять компьютер непосредственно с мозгом. Такое устройство позволит общаться людям, которые лишены возможности говорить, а также пациентам, перенесшим инсульт и восстанавливающимся после него, либо неспособным произносить слова по другим причинам.

Долгие годы исследований позволили выяснить, что в процессе речи или даже мысленного воспроизведения слов в мозге возникают контрольные модели активности. Также отчетливый паттерн сигналов, который несложно идентифицировать, появляется, когда человек слушает чью-то речь, или просто представляет, что слушает. Специалисты давно работают над расшифровкой этих паттернов, так как это позволит выпустить мысли человека из черепной коробки и обеспечит возможность автоматически переводить их в устную форму.

Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

(А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)

Доктор Нима Месгарани, ведущий эксперт в данном направлении исследований, обращает внимание, что аналогичная технология используется в работе сервисов Amazon Echo и Apple Siri для устных ответов на вопросы пользователей. Для того, чтобы научить программу правильно расшифровывать мозговую активность, ученые привлекли пятерых пациентов, страдающих эпилепсией, которые уже перенесли операцию на головном мозге. Им предложили прослушать ряд предложений, произнесенных разными людьми, и при этом измеряли их мозговую активность с помощью электродов. С помощью их нейронных паттернов специалисты обучили вокодер. Затем ученые попросили этих же пациентов послушать, как динамики произносят цифры от нуля до девяти, и параллельно записывали возникающие в их мозгу сигналы, которые можно было обработать через вокодер. Звук, который вокодер производил в ответ на эти сигналы, был проанализирован и очищен несколькими нейросетями.

После обработки на выходе нейросети удалось получить голос робота, проговаривающий последовательность числе. Для того, чтобы проверить точность распознавания, участникам эксперимента дали прослушать звуки, синтезированные по их собственной мозговой активности. В результате, по словам доктора Месгарани, удалось обнаружить, что люди способны понимать и повторять звуки в 75 процентах случаев – этот показатель намного выше, чем в ходе предыдущих попыток.

Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.

В скором времени ученые намерены повторить эксперимент с более сложными словами и фразами. Кроме того, аналогичные тесты будут запущены для сигналов мозга, которые возникают, когда человек представляет, что он говорит. В итоге специалисты рассчитывают сделать систему частью имплантата, который переводит мысли человека непосредственно в слова.

Логотип versia.ru
Опубликовано:
Отредактировано: 16.03.2019 18:30
Комментарии 0
Наверх