База синтезированных голосов от Google повысит безопасность инфопространства

Специалистам Google удалось создать единую базу данных, объединяющую несколько тысяч записей вариантов синтезированной речи, приблизив таким образом тот день, когда живая и искусственная речь станут неотличимыми друг от друга.

Синтез речи используется для трансформации набранного текста в речевой сигнал. При этом проговаривать фразу целиком необходимости нет, достаточно лишь обозначить фразу, а система сама подберет ее продолжение.

В чем цель создания такого архива данных? Задачей участников проекта Google является предотвращение действий злоумышленников. Ведь если качественно синтезированная запись попадет в их руки, любой из голосов может быть использован в личных целях. Эксперты опубликовали базу, включающую несколько тысяч отрывков, прочтенных 68 различными голосовыми тембрами. В настоящий момент данными могут воспользоваться только участники конкурса Automatic Speaker Verification, специализирующиеся на создании синтезирующих голоса систем.

Справедливости ради, стоит отметить, что Google не являются первопроходцами в данной области. Пару лет назад компания Lyrebird создала инструмент со встроенной системой искусственного интеллекта, способной воспроизводить любой голос. Аппарату было достаточно всего несколько минут записи для того, чтобы воссоздать звуковой фрагмент. Система ИИ изучала особенность голоса каждого человека и на основе полученной информации осуществляла воспроизведение. Точное копирование было возможно благодаря использованию нейронных сетей, работающих по сценарию, идентичному процессам естественных сетей человеческого мозга. Система не была лишена недостатков. Так, например, часто полученная речь не была достаточно разборчивой, иногда присутствовали явные помехи, слишком явно указывающие на искусственность голоса.

Комментариев: 0
Подписывайтесь, и в вашей ленте ВК будет все самое интересное о технике: