catalog / TECHNICAL SCIENCES / Automated control systems and progressive information technologies
скачать файл: 
- title:
- Сажок Микола Миколайович. Автоматизовані засоби формування баз даних і знань для озвучення українських текстів
- Альтернативное название:
- Сажок Николай Николаевич. Автоматизированные способы формирования баз данных и знаний для озвучивания украинских текстов
- university:
- НАН України; Міжнародний науково-навчальний центр інформаційних технологій та систем. - К
- The year of defence:
- 2004
- brief description:
- Сажок Микола Миколайович. Автоматизовані засоби формування баз даних і знань для озвучення українських текстів: дис... канд. техн. наук: 05.13.06 / НАН України; Міжнародний науково-навчальний центр інформаційних технологій та систем. - К., 2004.
Сажок М.М. Автоматизовані засоби формування баз даних і знань для озвучення українських текстів. Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 автоматизовані системи управління та прогресивні інформаційні технології. Міжнародний науково-навчальний центр інформаційних технологій та систем, Київ, 2004.
Дисертація присвячена розробленню та реалізації інформаційної технології автоматичного озвучення довільних текстів українською мовою. Обґрунтовано структуру моделі синтезу мовлення за текстом в амплітудно-часовому просторі на основі фонемно-трифонної моделі. Проведене дослідження складових фонетико-акустичної бази даних і знань усномовного файлу диктора та фонетичної бази знань дало змогу обґрунтувати їх структуру, використання та сформулювати принципи їх наповнення. Автоматизовано процедуру розбиття усного сигналу на одноквазіперіодичні ділянки та квазіперіодичні і неперіодичні сегменти. Сформовано експериментальну базу даних і знань озвучення текстів та розроблено програмну модель синтезатора мовленнєвого сигналу за текстом на основі природного мовленнєвого сигналу. Дослідження розбірливості та натуральності синтезованого мовленнєвого сигналу підтверджують практичну цінність отриманого результату.
В рамках дисертаційної роботи розроблено автоматизовані засоби формування акустико-фонетичної бази даних і знань та на її основі створено інформаційну технологію озвучення довільних українських текстів. Основні наукові та практичні результати дисертаційної роботи:
Розроблено структуру моделі синтезу мовлення за текстом у амплітудно-часовому просторі на основі фонемно-трифонної моделі з використанням природного мовленнєвого сигналу, що дає змогу озвучити довільний україномовний орфографічний текст. Досліджені фонетичні й акустичні аспекти синтезу мовленнєвого сигналу за текстом дали змогу врахувати явище взаємовпливу звуків у потоці мовлення або коартикуляцію і забезпечити можливість темпоральних і інтонаційних змін у контексті особливостей української мови. Перетворення акустичних прототипів фонем-трифонів виключно в часовому просторі дає змогу значною мірою уникати спотворень природного сигналу, що забезпечує натуральність звучання та зменшує обчислення в процесі синтезу мовлення.
Обґрунтовано структуру бази даних і знань для озвучення українських текстів. Виділено дві основні складові бази даних і знань: фонетична база знань і усномовний паспорт диктора (ІУП).
Фонетична база знань описує усну мову з використанням фонетичних знань і понять, забезпечуючи функціонування лінгвістичного блоку синтезатора. ІУП містить акустичні прототипи фонем-трифонів і описує все фонетико-акустичне розмаїття та особливості вимови особи.
Автоматизовано найбільш трудомістку процедуру при формуванні ІУПу розбиття мовленнєвого сигналу на одноквазіперіодичні сегменти та квазіперіодичні й неперіодичні ділянки. Модель квазіперіодичності та неперіодичності побудовано в амплітудно-часовій області, що дозволяє знайти точні початки та закінчення квазіперіодів.
Постановка задачі розбиття мовленнєвого сигналу на сегменти, що відповідають одному квазіперіоду (одноквазіперіодичні сегменти), і її вирішення проведені в рамках генеративної моделі. Алгоритм розв’язку задачі є еквівалентом перебору всіх можливих початків і закінчень квазіперіодів зі знаходженням найкращого варіанту розбиття згідно з уведеною елементарною мірою квазіперіодичності.
Критерії віднесення тієї чи іншої ділянки мовленнєвого сигналу до класу квазіперіодичних, напівшумних чи шумних сформульовані на основі проведеної одноквазіперіодичної сегментації.
Розроблено програмний комплекс автоматизованих засобів формування бази даних і знань озвучення текстів. З використанням цього програмного комплексу експерт має змогу формувати базові фонетичні знання про природні мови, проводити запис навчальної вибірки згідно орфографічного або фонемного тексту, сегментувати навчальну вибірку на фонеми-трифони та проводити автоматичне сегментування на одноквазіперіодичні сегменти (мікрофонеми).
З використанням самостійно розробленого програмного забезпечення стало можливим формувати ІУП із залученням експертів, які мають лише незначний досвід роботи з мовленнєвим сигналом.
Опрацьовано теоретично та експериментально модель синтезу мовлення за текстом в амплітудно-часовому просторі з використанням математичної моделі лінійного прогнозування відліків мовленнєвого сигналу на основі фонемно-трифонної моделі. Вимоги до використання оперативної пам’яті та до швидкодії процесора в процесі синтезу досить помірні.
Таким чином, розроблено автоматизовані засоби формування баз даних і знань для озвучення текстів згідно обґрунтованих структури синтезу мовлення та структури бази даних і знань. При формуванні усномовного файлу диктора автоматично виконується найбільш трудомістка процедура. Експериментально підтверджено придатність сформованої бази даних. Визначено подальші шляхи вдосконалення технології озвучення українських текстів, сформульовано деякі нові актуальні задачі, що стосуються синтезу мовлення.
- Стоимость доставки:
- 125.00 грн