Menu

Microsoft VALL-E

Американская корпорация Microsoft анонсировала систему искусственного интеллекта VALL-E. Эта нейросеть умеет достоверно имитировать любой человеческий голос, воспроизводя не только тембр, но и эмоциональную окраску оригинала. При этом для анализа образца звучания ей требуется всего трехсекундная запись.

Сами разработчики позиционируют VALL-E как «языковую модель нейронного кодека». Система базируется на технологиях EnCodec. Это не похоже на обычные методы преобразования текста в речь, которые синтезируют звук по жестко заданным алгоритмам, манипулируя формами сигнала.

Microsoft VALL-E

Нейросеть VALL-E тщательно анализирует, как звучит человеческая речь, разбивая полученную информацию на отдельные «токены». Система сопоставляет собственные «знания» с полученным образцом голоса, а затем сама моделирует звучание для других фраз. Кстати, при обучении нейросети была использована библиотека LibriLight, которая содержит 60 тысяч часов англоязычной речи и более семи тысяч образцов человеческого голоса.

Напомним, в 2018 году компания Google показала свою систему искусственного интеллекта, которая обеспечивает почти натуральное звучание человеческой речи. Но решение Microsoft дает возможность воспроизводить голос конкретного человека.

Источник: Engadget



Добавьте «Superplanshet» в ваши источники в дзен Дзен
Подписывайтесь на «Superplanshet.Ru» в Google News
Наш канал в Телеграм и группа VK


 

 

Комментарии для сайта Cackle