ИИ Microsoft под названием VALL-E требуется 3 секунды, чтобы имитировать чей-либо голос - Обзоры в мире техники

Microsoft показала ИИ, способный имитировать любой человеческий голос. Это называется VALL-E, как и предыдущий алгоритм DALL-E. Если вы знаете, последний создает изображение на основе текста.

VALL-E может имитировать тембр и манеру речи, прослушивая голос реального человека всего за три секунды. Хотя звук немного похож на голос робота, результат все равно впечатляет.

Microsoft назвала это «языковой моделью нейронного кодека». VALL-E был построен на основе EnCodec (аудиокодек с использованием методов машинного обучения), разработанного компанией Meta год назад, в 2022 году.

Гизчина Новости недели
[embed]https://www.youtube.com/watch?v=NVsC3pBT_2M[/embed]

ВАЛЛ-И имитирует любой голос

Другие методы преобразования текста в речь учитывают формы сигналов. Но VALL-E генерирует отдельные аудиокодеки из текста и аудио. По сути, он анализирует, как звучит человек. Затем он разбивает эту информацию на отдельные части (называемые «токенами») через EnCodec. И, наконец, он использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос звучал бы, если бы он произносил другие фразы за пределами трехсекундного образца.

ВАЛЛ-И обучали с помощью специального библиотека. Последний содержит 60 000 часов английской речи от более чем 7 000 человек. Разработчики предполагают, что метод можно использовать для высококачественных приложений преобразования текста в речь. Например, вы можете использовать его для редактирования записей речи, где допускается изменение человеческих слов. В результате вы можете создавать аудиоконтент (например, озвучку для аудиокниг) и многое другое.

Конечно, такая техника может нести и определенную опасность. Рано или поздно «одноглазые» пользователи сделают из него инструмент шантажа. Скажем, они могут использовать ИИ, чтобы доказать, что известные люди сказали что-то, чего они не говорили. Такие случаи уже были дипфейки в видеоформате.

Мы думаем, вы смотрели видео с Илоном Маском, который обещает огромные доходы от инвестиций в сомнительную криптовалюту.

(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src="https://connect.facebook.net/en_US/sdk.js#xfbml=1&version=v3.2&appId=1623298447970991&autoLogAppEvents=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));

ИИ Microsoft под названием VALL-E требуется 3 секунды, чтобы имитировать чей-либо голос

Comments

No comments yet. Why don’t you start the discussion?

Добавить комментарий Отменить ответ