Методологія синтезу мовлення з використанням технології нейронних мереж

Ескіз недоступний
Дата
2025
Автори
Єфремов Андрій Валерійович
Протас, Надія Михайлівна
Назва журналу
Номер ISSN
Назва тому
Видавець
Полтавський державний аграрний університет (ПДАУ)
Анотація
Робота присвячена проблематиці побудови сучасних систем синтезу мовлення на основі нейронних мереж. Досліджено теоретичні та прикладні аспекти процесу синтезу мовлення, проаналізовано еволюцію методів від конкатенативних і формантних підходів до глибоких нейромережевих моделей. Визначено вимоги до лінгвістичного препроцесингу, акустичної репрезентації та вокодерів, що забезпечують високу якість, масштабованість і керованість синтезованого мовлення. У першому розділі виконано огляд принципів синтезу мовлення, класифіковано сучасні підходи та розглянуто нейромережеві архітектури Tacotron, FastSpeech, VITS, а також вокодери WaveNet і HiFi-GAN. Показано, як вибір архітектури впливає на природність звучання, швидкодію та стабільність системи. У другому розділі розроблено архітектуру системи синтезу мовлення з використанням глибоких нейронних мереж, описано підготовку корпусу, процедури навчання, механізм переозвучення аудіофайлів та засоби керування голосовими характеристиками. Третій розділ присвячено експериментальній перевірці запропонованої методології, оцінюванню якості синтезованого мовлення за суб’єктивними та об’єктивними метриками та техніко-економічному обґрунтуванню впровадження системи у практичні інформаційні сервіси. Робота має значення для розроблення голосових інтерфейсів, мультимедійних і освітніх платформ, інклюзивних технологій та інших систем, де потрібне автоматичне генерування природного мовлення. Запропоновані підходи можуть бути використані для подальшої оптимізації архітектур нейромережевого синтезу мовлення, підвищення якості звуку та розширення можливостей персоналізації голосу.
Опис
Єфремов А.В. Методологія синтезу мовлення з використанням технології нейронних мереж : кваліфікаційна робота на здобуття ступеня вищої освіти Магістр за ОПП Інформаційні управляючі системи та технології 126 Інформаційні системи та технології. Полтава: Полтавський державний аграрний університет. 2025. 79 с.
Ключові слова
синтез мовлення, нейронні мережі, Tacotron, FastSpeech, VITS, WaveNet, HiFi-GAN, вокодер
Бібліографічний опис
Єфремов А.В. Методологія синтезу мовлення з використанням технології нейронних мереж : кваліфікаційна робота на здобуття ступеня вищої освіти Магістр за ОПП Інформаційні управляючі системи та технології 126 Інформаційні системи та технології. Полтава: Полтавський державний аграрний університет. 2025. 79 с.