Каталог / ТЕХНИЧЕСКИЕ НАУКИ / Автоматизированные системы управления и прогрессивные информационные технологии
скачать файл:
- Название:
- Ломонос Ярослав Геннадійович. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу
- Альтернативное название:
- Ломонос Ярослав Геннадьевич. Система обработки электронных документов на базе нечеткой модели терминологического анализа
- Краткое описание:
- Ломонос Ярослав Геннадійович. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу : Дис... канд. наук: 05.13.06 - 2009.
Ломонос Я. Г. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу. Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 «Інформаційні технології». Донецький національний університет, Донецьк, 2008.
В дисертаційній роботі вирішується актуальна наукова задача підвищення якості виділення смислових одиниць тексту (термінів) під час обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. В процесі вирішення задачі розроблена концептуальна багаторівнева модель обробки тексту на базі розділення семантичних шарів, модель подання тексту через нечіткі характеристики семантичних складових тексту різного ступеня узагальнення смислу та метод узагальнення семантичного навантаження тексту за шарами символ-морфема-термін. Розроблений метод дозволяє вирішувати задачу пошуку терміну в тексті з мінімумом помилок пропуску та задачу ідентифікації терміну з мінімумом помилок помилкового спрацювання. Розробленого методу може бути використано при розробки інформаціонно-пошукових систем, систем категоризації та інших систем, що включають до себе підсистеми морфологічного, термінологічного та семантичного аналізу.
У дисертації подано нове розв'язання наукової проблеми обробки природно-мовних текстів в автоматизованих системах аналізу текстової інформації. Створені моделі обробки тексту дозволяють підвищити якість виділення значеннєвих елементів у природно-мовних текстах, що містять помилки. Основні результати роботи зводяться до зазначеного нижче.
Аналіз документів, що відносяться до динамічного контенту мережі Інтернет показав високий вміст помилок в документах. Це обмежує можливості пошукових і аналітичних систем. На основі класифікації помилок як інформаційного шуму, що зустрічаються в текстових документах синтаксичних помилок (зміна, вставка або випадіння символу), та семантичних змін (зміни порядку слідування слів, зміни множини/роду/відмінку, вставка слів в середину фрази), запропоновано багаторівневу модель подання тексту. Це дозволяє врахувати можливі помилки на різних рівнях: синтаксичні помилки на символьному та морфемному та семантичні зміни на термінологічному рівні подання тексту.
Багаторівнева модель подання тексту, що побудована на основі формалізації нечіткого фактору впевненості, дозволяє однорідно виразити нечіткі характеристики тексту рівнів символів, морфем та термінів у вигляді послідовності множин нечітких множин. Однорідність апарату подання и обробки нечітких характеристик на різних шарах спрощує фізичну реалізацію моделі та подання даних в базі даних.
Первинний текст незалежно від рівня зашумленості відображається у формі послідовності множин нечітких множин. Рівень зашумленості й кількість помилок відображається в значенні впевненості семантичних елементів. Під час нечіткого порівняння словарного еталону з первинним текстом досягається роздільність впевненості між різними по смислу термінами та одним терміном написаним з помилками та без.
Процес обробки тексту зведено до поетапного вирахування нечітких характеристик на базі первинного тексту та базових свідотств про спосіб створення тексту. Класифікація способів створення тексту задається в формі нечіткої характеристики алфавіту й дозволяють підвищити достовірність обробки синтаксичних помилок в первинному тексті.
В основу механізму вирахування нечітких характеристик покладени модель фактора впевненості й ідея логогену Мортона. Формалізовано три путі обробки лінгвістичної інформації: порівняння з еталоном (використовується для створення нечіткої характеристики тексту рівня символів), послідовне накопичення впевненості (використовується при морфологічному аналізі) й паралельне накопичення впевненості (використовується при термінологічному аналізі).
Розроблена модель подання тексту нечіткими характеристиками різних семантичних рівнів дозволяє для рівня термінів істотно зменшити розмір інформації що зберігається (до 50 % по об’єму). Це збільшує швидкість подальшої обробки тексту (наприклад, фразеологічного аналізу) за рахунок зменшення інформаційного навантаження тексту, кількості обробляємих елементів тексту й відсутності необхідності перевірки тексту на помилки.
Проведений комп’ютерний експеримент для двох варіантів використання методу термінологічної розмітки тексту з різною кількістю орфографічних помилок показав:
задача пошуку може бути вирішена з мінімумом помилок пропуску (до 0,1%) при долі помилок помилкового спрацювання до 10% (2,5% на текстах з малою кількістю помилок одна на слово);
задача ідентифікації може бути вирішена з мінімумом помилок помилкового спрацювання (до 0,1%) при долі помилок пропуску до 20% (10% на текстах з малою кількістю помилок одна на слово).
Опитна експлуатація системи «Text-to-Term» в складі програмного комплексу інформаційної системи АИБС бібліотеки Донецького національного університету підтвердила результати комп’ютерних експериментів по задаче пошуку. Експлуатація системи «Text-to-Term» в складі системи спілкування з клієнтом через короткі мобільні повідомлення сервісу Getitcard.com показала збільшення ефективності в задачі ідентифікації термінів зменшення помилкових запитів на 15%.
- Стоимость доставки:
- 150.00 грн