Microsoft показала ИИ, способный имитировать любой человеческий голос. Это называется VALL-E, как и предыдущий алгоритм DALL-E. Если вы знаете, последний создает изображение на основе текста.
VALL-E может имитировать тембр и манеру речи, прослушивая голос реального человека всего за три секунды. Хотя звук немного похож на голос робота, результат все равно впечатляет.
Microsoft назвала это «языковой моделью нейронного кодека». VALL-E был построен на основе EnCodec (аудиокодек с использованием методов машинного обучения), разработанного компанией Meta год назад, в 2022 году.
Гизчина Новости недели
[embed]https://www.youtube.com/watch?v=NVsC3pBT_2M[/embed]
ВАЛЛ-И имитирует любой голос
Другие методы преобразования текста в речь учитывают формы сигналов. Но VALL-E генерирует отдельные аудиокодеки из текста и аудио. По сути, он анализирует, как звучит человек. Затем он разбивает эту информацию на отдельные части (называемые «токенами») через EnCodec. И, наконец, он использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос звучал бы, если бы он произносил другие фразы за пределами трехсекундного образца.
ВАЛЛ-И обучали с помощью специального библиотека. Последний содержит 60 000 часов английской речи от более чем 7 000 человек. Разработчики предполагают, что метод можно использовать для высококачественных приложений преобразования текста в речь. Например, вы можете использовать его для редактирования записей речи, где допускается изменение человеческих слов. В результате вы можете создавать аудиоконтент (например, озвучку для аудиокниг) и многое другое.
Конечно, такая техника может нести и определенную опасность. Рано или поздно «одноглазые» пользователи сделают из него инструмент шантажа. Скажем, они могут использовать ИИ, чтобы доказать, что известные люди сказали что-то, чего они не говорили. Такие случаи уже были дипфейки в видеоформате.
Мы думаем, вы смотрели видео с Илоном Маском, который обещает огромные доходы от инвестиций в сомнительную криптовалюту.
(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s);
js.id = id;
js.src="https://connect.facebook.net/en_US/sdk.js#xfbml=1&version=v3.2&appId=1623298447970991&autoLogAppEvents=1";
fjs.parentNode.insertBefore(js, fjs);
}(document, 'script', 'facebook-jssdk'));
Microsoft показала ИИ, способный имитировать любой человеческий голос. Это называется VALL-E, как и предыдущий алгоритм DALL-E. Если вы знаете, последний создает изображение на основе текста.
VALL-E может имитировать тембр и манеру речи, прослушивая голос реального человека всего за три секунды. Хотя звук немного похож на голос робота, результат все равно впечатляет.
Microsoft назвала это «языковой моделью нейронного кодека». VALL-E был построен на основе EnCodec (аудиокодек с использованием методов машинного обучения), разработанного компанией Meta год назад, в 2022 году.
Гизчина Новости недели
[embed]https://www.youtube.com/watch?v=NVsC3pBT_2M[/embed]ВАЛЛ-И имитирует любой голос
Другие методы преобразования текста в речь учитывают формы сигналов. Но VALL-E генерирует отдельные аудиокодеки из текста и аудио. По сути, он анализирует, как звучит человек. Затем он разбивает эту информацию на отдельные части (называемые «токенами») через EnCodec. И, наконец, он использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос звучал бы, если бы он произносил другие фразы за пределами трехсекундного образца.
ВАЛЛ-И обучали с помощью специального библиотека. Последний содержит 60 000 часов английской речи от более чем 7 000 человек. Разработчики предполагают, что метод можно использовать для высококачественных приложений преобразования текста в речь. Например, вы можете использовать его для редактирования записей речи, где допускается изменение человеческих слов. В результате вы можете создавать аудиоконтент (например, озвучку для аудиокниг) и многое другое.
Конечно, такая техника может нести и определенную опасность. Рано или поздно «одноглазые» пользователи сделают из него инструмент шантажа. Скажем, они могут использовать ИИ, чтобы доказать, что известные люди сказали что-то, чего они не говорили. Такие случаи уже были дипфейки в видеоформате.
Мы думаем, вы смотрели видео с Илоном Маском, который обещает огромные доходы от инвестиций в сомнительную криптовалюту.