126 «Інформаційні системи та технології» - Магістри 2025-2026
Постійне посилання зібрання
Переглянути
Перегляд 126 «Інформаційні системи та технології» - Магістри 2025-2026 за Ключові слова "HiFi-GAN"
Зараз показуємо 1 - 1 з 1
Результатів на сторінці
Налаштування сортування
Документ Методологія синтезу мовлення з використанням технології нейронних мереж(Полтавський державний аграрний університет (ПДАУ), 2025) Єфремов Андрій Валерійович; Протас, Надія МихайлівнаРобота присвячена проблематиці побудови сучасних систем синтезу мовлення на основі нейронних мереж. Досліджено теоретичні та прикладні аспекти процесу синтезу мовлення, проаналізовано еволюцію методів від конкатенативних і формантних підходів до глибоких нейромережевих моделей. Визначено вимоги до лінгвістичного препроцесингу, акустичної репрезентації та вокодерів, що забезпечують високу якість, масштабованість і керованість синтезованого мовлення. У першому розділі виконано огляд принципів синтезу мовлення, класифіковано сучасні підходи та розглянуто нейромережеві архітектури Tacotron, FastSpeech, VITS, а також вокодери WaveNet і HiFi-GAN. Показано, як вибір архітектури впливає на природність звучання, швидкодію та стабільність системи. У другому розділі розроблено архітектуру системи синтезу мовлення з використанням глибоких нейронних мереж, описано підготовку корпусу, процедури навчання, механізм переозвучення аудіофайлів та засоби керування голосовими характеристиками. Третій розділ присвячено експериментальній перевірці запропонованої методології, оцінюванню якості синтезованого мовлення за суб’єктивними та об’єктивними метриками та техніко-економічному обґрунтуванню впровадження системи у практичні інформаційні сервіси. Робота має значення для розроблення голосових інтерфейсів, мультимедійних і освітніх платформ, інклюзивних технологій та інших систем, де потрібне автоматичне генерування природного мовлення. Запропоновані підходи можуть бути використані для подальшої оптимізації архітектур нейромережевого синтезу мовлення, підвищення якості звуку та розширення можливостей персоналізації голосу.