Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання Диссертация

VACANCIES AND COOPERATION

LATEST NEWS

Бесплатное скачивание авторефератов

СКИДКА НА ДОСТАВКУ РАБОТ!

Увеличение числа диссертаций в базе

Снижение цен на доставку работ 2002-2008 годов

Доставка любых диссертаций из России и Украины

THE LAST FEEDBACK

Замечательный сайт. Доставки всегда вовремя.

Большое спасибо, с вами работать удобно и просто. Я благодарен за сотрудничество с вами.

Здравствуйте, уважаемый Сергей! Материал получен, спасибо. Вам и вашей фирме успешной работы и процветания. Надеюсь на дальнейшее плодотворное сотрудничество.

Роботою задоволена.

Получил заказанную диссертацию очень быстро, качество на высоте. Рекомендую пользоваться их услугами. Отправлял деньги предоплатой.

catalog / TECHNICAL SCIENCES / Systems and artificial intelligence

скачать файл:

title:
Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання

Альтернативное название:
Ермоленко Татьяна Владимировна. Применение вейвлет-анализа для предварительной обработки голосовых сигналов в задачах сегментации, классификации и пофонемного распознавания.

The number of pages:
200

university:
Донецький інститут проблем штучного інтелекту, Донецьк

The year of defence:
2008

brief description:
Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання : Дис... канд. наук: 05.13.23 2008

Єрмоленко Т. В. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання. Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за фахом 05.13.23 системи та засоби штучного інтелекту. Донецький інститут проблем штучного інтелекту, Донецьк, 2008.
Дисертаційна робота присвячена рішенню завдань попередньої обробки, сегментації мовного голосового сигналу, класифікації звуків мовлення та розпізнаванню фонем за допомогою методів вейвлет-аналізу. У роботі запропоновано методики попередньої обробки сигналу на основі вейвлет-аналізу, що передбачають критерій вибору найбільш інформативного базису; розроблено методики зниження рівня шумів, визначення границь слів і сегментації мовного голосового сигналу на основі енергетичних характеристик вейвлет-спектра, що враховують широку класифікацію звуків мовлення; виділено період основного тону і сформовано набори ознак, що дозволяють здійснити класифікацію фонем. На базі запропонованих методик розроблено алгоритми, що реалізують функції обробки, сегментації мовного голосового сигналу й класифікації звуків мовлення, проведено чисельне дослідження ефективності роботи цих алгоритмів На їх основі створено інформаційну технологію, що здійснює попередню обробку, сегментацію мовного голосового сигналу, класифікацію звуків мовлення і розпізнавання фонем.

У дисертаційній роботі представлено вирішення актуальної наукової задач попередньої обробки МГС, сегментації і пофонемного розпізнавання на основі вейвлет-аналізу. Аналіз отриманих результатів дозволяє зробити наступні висновки.

Проведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, об'єднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження.
Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності.
Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT.
Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення. Це виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення, низькоамплітудного МГС за шум і підвищує ефективність подальшого розпізнавання.
Одержали подальший розвиток методики узагальненої і детальної сегментації МГС, що використовують FWT. Вони дозволяють виділяти міжфонемні переходи незалежно від голосових даних диктора та інтенсивності МГС в результаті аналізу динаміки енергетичних характеристик його вейвлет-спектра.
Розроблено методику визначення періоду основного тону за вейвлет-спектром. Сформовано набори ознак, що дозволяють зробити класифікацію фонем. При цьому для виділення акустичних характеристик звуків мовлення використовувалися методи, що базуються на психофізичних особливостях сприйняття мовлення, та методи, засновані на акустичній теорії мовотворення. Для класифікації сегментів запропонована методика, що поєднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання МГС. Це дозволило прискорити процедуру навчання нейромережі та підвищити ефективність розпізнавання.
На базі запропонованих методик розроблено алгоритми попередньої обробки, сегментації голосового сигналу і класифікації звуків мовлення та виконано порівняльний аналіз ефективності їх роботи. Отримані результати функціонування алгоритмів зниження рівня шуму порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком. Кращими є методики, запропоновані в дисертаційній роботі та засновані на вейвлет-перетворенні. Чисельне дослідження функціонування алгоритмів класифікації фонем полягало в порівняльному аналізі ефективності запропонованих у роботі наборів ознак і виборі архітектури нейромережі. Найкращими для розпізнавання в межах розглянутих ШФК є ознаки, засновані на мірі контрастності Морле. Помилки розпізнавання не перевищують 5 %.
На базі розроблених алгоритмів створено нову ІТ, що здійснює обробку МГС і класифікацію звуків мовлення. Її функціональна структура сформована у вигляді 4 блоків, які можуть функціонувати в режимі навчання або робочому режимі: зниження рівня шуму; визначен-ня границь слова й сегментації МГС; узагальненої класифікації; розпізнавання фонем. Для функціонування цих блоків у робочому режимі розроблено структуру бази даних фонем і шуму, що складається з 4 розділів, які заповнюються даними в результаті роботи відповідних блоків у режимі навчання.

Запропоновані методики та алгоритми можуть бути використані при розробці систем комп’ютерного розпізнавання мовних образів. Практична значимість підтверджена актами впровадження.