🎼 Как мы создали виртуального диктора и научили его читать
В прошлом году на Practical ML Conf было много крутых выступлений. Например, доклад Степана Комкова из службы синтеза речи Яндекса о том, как ребята разрабатывали виртуального рассказчика для Букмейта.
Степан рассказал, как родилась эта идея, как команда её воплотила и какие у службы синтеза планы на будущее. В видео показываем принцип устройства базовой модели, а о предыстории и деталях написали ниже
⚪️ Букмейт в числах — это примерно 250 тысяч книг
За год до начала нашего проекта пользователи прослушали около 4 миллионов часов аудиокниг через обычную читалку в браузере. Мы восприняли это как сигнал: нужно дать людям возможность слушать как можно больше книжек в хорошем качестве.
⚪️ Как это сделать?
Профессиональные дикторы — удовольствие дорогое, а базовый синтез речи требует ручной полировки. Поэтому мы решили разработать автоматизированного виртуального рассказчика, который сэкономит нам как время, так и деньги.
⚪️ Проблема в том, что сгенерированная речь сильно утомляет
Поэтому перед нами встало сразу несколько задач: научить виртуального рассказчика читать немонотонно, с паузами, имитацией дыхания и разнообразными интонациями и эмоциями. В общем, синтез должен быть по-человечески неидеальным.
⚪️ Так мы положили начало проекту
В прошлом году мы запустили виртуального рассказчика. Сначала использовали Tacotron с контекстным контролем через PnG BERT, который помогал согласовывать интонацию между предложениями и избегать монотонности. Сейчас же мы переходим на next-gen-методы: модель Tortoise, где GPT-подобная архитектура генерирует токены звука, а кодек превращает их в аудиодорожку.
🔳 Полный доклад Степана ищите в VK Видео и на ютубе — там же будет плейлист с другими выступлениями прошлого года.
🛄 А мы уже открыли регистрацию на PML Conf 2025. Скорее заполняйте форму: чем раньше вы это сделаете, тем больше у вас будет шансов попасть на офлайн.
Подписывайтесь:
💬 @Yandex4ML
📹 @Yg>andexML>