Искусственный интеллект научился подделывать любой голос

24 Апреля 2017, 19:44 / 2032 0

Программа на основе искусственного интеллекта канадского стартапа Lyrebird может подделывать голос любого человека на основе короткого аудио.

Освоение естественных языков дается искусственному разуму плохо, но с голосом человека дела обстоят проще. Адоб в прошлом году выпустил бета-версию «фотошопа для голоса» Project VoCo. В этой программе можно менять отдельные слова и даже короткие фразы в готовой записи с помощью текстового редактора. Незадолго до того искусственный интеллект Гугла DeepMind стал говорить почти по-человечески на китайском и английском.

Однако для того, чтобы Project VoCo смог дополнять звуковые дорожки словами, которые не произносились, при этом имитируя голос, программе необходима запись как минимум 20 минут непрерывного речевого потока. А канадскому Lyrebird достаточно минуты. Разумеется, результат можно отличить от живой речи, но он обладает поразительным сходством. Программу продолжают совершенствовать, поэтому эксперименты с собственным голосом пока невозможны, зато на портале SoundCloud уже можно услышать, как обсуждают Lyrebird синтезированные голоса Хилари Клинтон, Барака Обамы и Дональда Трампа.

На примере лишь нескольких записей с портала SoundCloud можно убедиться, что алгоритмы программы уже могут всевозможно варьировать интонацию. Это служит доказательством, что подобных искусственных голосов можно создать очень и очень много. Создатели Lyrebird смогли научить искусственный разум звучать эмоционально, как если бы человек ощущал сочувствие, раздражение или злость.

На вопрос о потенциальном применении разработки трое создателей – профессоров Монреальского университета ответили, что искусственным голосом известного человека можно снабдить устройство с голосовым интерфейсом, использовать его в играх и анимации, записывать целые аудиобиблиотеки и синтезировать речь для потерявших собственный голос. Разумеется, здесь не предусматривается использование разработки в преступных целях типа создания алиби и т. п. В разделе «Этика» на сайте разработчиков указано, что авторы предвидят новые мошенничества на базе их технологии. Они предлагают сделать свою разработку доступной всем, чтобы люди знали об этом достижении и не особенно доверяли даже хорошо знакомым голосам. Например, не стоит излишне верить звонку близкого вам человека, если тот знакомым, пусть и несколько неестественным голосом настоятельно просит снабдить его круглой суммой денег.