Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання




  • скачать файл:
  • title:
  • Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання
  • Альтернативное название:
  • Ермоленко Татьяна Владимировна. Применение вейвлет-анализа для предварительной обработки голосовых сигналов в задачах сегментации, классификации и пофонемного распознавания.
  • The number of pages:
  • 200
  • university:
  • Донецький інститут проблем штучного інтелекту, Донецьк
  • The year of defence:
  • 2008
  • brief description:
  • Єрмоленко Тетяна Володимирівна. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання : Дис... канд. наук: 05.13.23 2008








    Єрмоленко Т. В. Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання. Рукопис.
    Дисертація на здобуття наукового ступеня кандидата технічних наук за фахом 05.13.23 системи та засоби штучного інтелекту. Донецький інститут проблем штучного інтелекту, Донецьк, 2008.
    Дисертаційна робота присвячена рішенню завдань попередньої обробки, сегментації мовного голосового сигналу, класифікації звуків мовлення та розпізнаванню фонем за допомогою методів вейвлет-аналізу. У роботі запропоновано методики попередньої обробки сигналу на основі вейвлет-аналізу, що передбачають критерій вибору найбільш інформативного базису; розроблено методики зниження рівня шумів, визначення границь слів і сегментації мовного голосового сигналу на основі енергетичних характеристик вейвлет-спектра, що враховують широку класифікацію звуків мовлення; виділено період основного тону і сформовано набори ознак, що дозволяють здійснити класифікацію фонем. На базі запропонованих методик розроблено алгоритми, що реалізують функції обробки, сегментації мовного голосового сигналу й класифікації звуків мовлення, проведено чисельне дослідження ефективності роботи цих алгоритмів На їх основі створено інформаційну технологію, що здійснює попередню обробку, сегментацію мовного голосового сигналу, класифікацію звуків мовлення і розпізнавання фонем.












    У дисертаційній роботі представлено вирішення актуальної наукової задач попередньої обробки МГС, сегментації і пофонемного розпізнавання на основі вейвлет-аналізу. Аналіз отриманих результатів дозволяє зробити наступні висновки.

    Проведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, об'єднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження.
    Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності.
    Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT.
    Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення. Це виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення, низькоамплітудного МГС за шум і підвищує ефективність подальшого розпізнавання.
    Одержали подальший розвиток методики узагальненої і детальної сегментації МГС, що використовують FWT. Вони дозволяють виділяти міжфонемні переходи незалежно від голосових даних диктора та інтенсивності МГС в результаті аналізу динаміки енергетичних характеристик його вейвлет-спектра.
    Розроблено методику визначення періоду основного тону за вейвлет-спектром. Сформовано набори ознак, що дозволяють зробити класифікацію фонем. При цьому для виділення акустичних характеристик звуків мовлення використовувалися методи, що базуються на психофізичних особливостях сприйняття мовлення, та методи, засновані на акустичній теорії мовотворення. Для класифікації сегментів запропонована методика, що поєднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання МГС. Це дозволило прискорити процедуру навчання нейромережі та підвищити ефективність розпізнавання.
    На базі запропонованих методик розроблено алгоритми попередньої обробки, сегментації голосового сигналу і класифікації звуків мовлення та виконано порівняльний аналіз ефективності їх роботи. Отримані результати функціонування алгоритмів зниження рівня шуму порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком. Кращими є методики, запропоновані в дисертаційній роботі та засновані на вейвлет-перетворенні. Чисельне дослідження функціонування алгоритмів класифікації фонем полягало в порівняльному аналізі ефективності запропонованих у роботі наборів ознак і виборі архітектури нейромережі. Найкращими для розпізнавання в межах розглянутих ШФК є ознаки, засновані на мірі контрастності Морле. Помилки розпізнавання не перевищують 5 %.
    На базі розроблених алгоритмів створено нову ІТ, що здійснює обробку МГС і класифікацію звуків мовлення. Її функціональна структура сформована у вигляді 4 блоків, які можуть функціонувати в режимі навчання або робочому режимі: зниження рівня шуму; визначен-ня границь слова й сегментації МГС; узагальненої класифікації; розпізнавання фонем. Для функціонування цих блоків у робочому режимі розроблено структуру бази даних фонем і шуму, що складається з 4 розділів, які заповнюються даними в результаті роботи відповідних блоків у режимі навчання.

    Запропоновані методики та алгоритми можуть бути використані при розробці систем комп’ютерного розпізнавання мовних образів. Практична значимість підтверджена актами впровадження.
  • bibliography:
  • -
  • Стоимость доставки:
  • 125.00 грн


SEARCH READY THESIS OR ARTICLE


Доставка любой диссертации из России и Украины


THE LAST ARTICLES AND ABSTRACTS

ГБУР ЛЮСЯ ВОЛОДИМИРІВНА АДМІНІСТРАТИВНА ВІДПОВІДАЛЬНІСТЬ ЗА ПРАВОПОРУШЕННЯ У СФЕРІ ВИКОРИСТАННЯ ТА ОХОРОНИ ВОДНИХ РЕСУРСІВ УКРАЇНИ
МИШУНЕНКОВА ОЛЬГА ВЛАДИМИРОВНА Взаимосвязь теоретической и практической подготовки бакалавров по направлению «Туризм и рекреация» в Республике Польша»
Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА