Нейросеть Microsoft VALL-E способна имитировать любой человеческий голос
- Автор: Артем Тарасов
Американская корпорация Microsoft анонсировала систему искусственного интеллекта VALL-E. Эта нейросеть умеет достоверно имитировать любой человеческий голос, воспроизводя не только тембр, но и эмоциональную окраску оригинала. При этом для анализа образца звучания ей требуется всего трехсекундная запись.
Сами разработчики позиционируют VALL-E как «языковую модель нейронного кодека». Система базируется на технологиях EnCodec. Это не похоже на обычные методы преобразования текста в речь, которые синтезируют звук по жестко заданным алгоритмам, манипулируя формами сигнала.
Нейросеть VALL-E тщательно анализирует, как звучит человеческая речь, разбивая полученную информацию на отдельные «токены». Система сопоставляет собственные «знания» с полученным образцом голоса, а затем сама моделирует звучание для других фраз. Кстати, при обучении нейросети была использована библиотека LibriLight, которая содержит 60 тысяч часов англоязычной речи и более семи тысяч образцов человеческого голоса.
Напомним, в 2018 году компания Google показала свою систему искусственного интеллекта, которая обеспечивает почти натуральное звучание человеческой речи. Но решение Microsoft дает возможность воспроизводить голос конкретного человека.
Источник: Engadget
Добавьте «Superplanshet» в ваши источники в
Подписывайтесь на «Superplanshet.Ru» в Google News
Наш канал в Телеграм и группа VK