Каталог / ТЕХНИЧЕСКИЕ НАУКИ / Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей
скачать файл:
- Название:
- Глибовець Андрій Миколайович Агентно-базовані програмні системи пошуку та аналізу інформації
- Альтернативное название:
- Глибовець Андрей Николаевич Агентно-основанные программные системы поиска и анализа информации
- ВУЗ:
- у Київському національному університеті імені Тараса Шевченка
- Краткое описание:
- Глибовець Андрій Миколайович, доцент кафедри мережних технологій факультету інформатики Національного університету «Києво-Могилянська академія»: «Агентно-базовані програмні системи пошуку та аналізу інформації» (01.05.03 - математичне та програмне забезпечення обчислювальних машин і систем). Спецрада Д 26.001.09 у Київському національному університеті імені Тараса Шевченка
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
«КИЄВО-МОГИЛЯНСЬКА АКАДЕМІЯ»
КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
ІМЕНІ ТАРАСА ШЕВЧЕНКА
Кваліфікаційна наукова
праця на правах рукопису
ГЛИБОВЕЦЬ АНДРІЙ МИКОЛАЙОВИЧ
УДК 004.42
ДИСЕРТАЦІЯ
АГЕНТНО-БАЗОВАНІ ПРОГРАМНІ СИСТЕМИ ПОШУКУ ТА АНАЛІЗУ
ІНФОРМАЦІЇ
Спеціальність 01.05.03 - математичне та програмне забезпечення обчислювальних
машин і систем
Подається на здобуття наукового ступеня доктора технічних наук
Дисертація містить результати власних досліджень. Використання ідей, результатів і текстів інших авторів мають посилання на відповідне джерело
_________________________________
(підпис,ініціали та прізвище здобувача)
Науковий консультант Анісімов Анатолій Васильович, доктор фізико - математичних наук, професор, член-кореспондент НАН України
Київ – 2018
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ ...................................................................................... 2
ВСТУП..................................................................................................................................... 3
1 РОЗДІЛ. ОСНОВНІ ВИЗНАЧЕННЯ ТА БАЗОВІ ПІДХОДИ ........................................ 20
1.1 Термінологія ............................................................................................................................. 20
1.1.1 Технічні основи інформаційного пошуку ..................................................................................................... 21
1.2 Інформаційні пошукові системи ........................................................................................... 31
1.3 Провідні світові пошукові машини ...................................................................................... 45
1.3.1 Google ................................................................................................................................................................... 45
1.3.2 Cognition .............................................................................................................................................................. 50
1.3.3 Відомі пошукові системи ................................................................................................................................. 55
1.3.4 Пошукові системи наукових матеріалів ....................................................................................................... 58
1.4 Особливості пошуку і класифікації україномовних матеріалів з ознаками наукового
стилю ..................................................................................................................................................... 62
1.5 Агентно-базоване моделювання ............................................................................................ 70
1.5.1 Структура агентно-базованої моделі ............................................................................................................. 72
1.5.2 Побудова агентно-базованої моделі ............................................................................................................... 74
1.5.3 Засоби розробки агентних моделей ................................................................................................................ 75
1.5.4 Спеціальні середовища моделювання ........................................................................................................... 77
1.6 Заключення ............................................................................................................................... 80
2 РОЗДІЛ. МУЛЬТИАГЕНТНА СИСТЕМА ЗБОРУ І КЛАСИФІКАЦІЇ УКРАЇНОМОВНИХ
МАТЕРІАЛІВ З ОЗНАКАМИ НАУКОВОГО СТИЛЮ .......................................................... 81
2.1 Основні функції МАЗКУН ..................................................................................................... 81
2.2 Архітектура МАЗКУН ............................................................................................................ 85
2.3 Структура мультиагентної системи ..................................................................................... 90
2.4 Реалізація базових модулів ..................................................................................................... 93
2.5 Організація черги задач ........................................................................................................ 101
2.6 Підсистема роботи з посиланнями ...................................................................................... 103
2.7 Підсистема роботи з базою даних ........................................................................................ 105
2.8 Заключення ............................................................................................................................. 108
3 РОЗДІЛ. СТВОРЕННЯ СПЕЦІАЛІЗОВАНОЇ ПОШУКОВОЇ СИСТЕМИ НА БАЗІ
ХМАРНИХ ТЕХНОЛОГІЙ ................................................................................................... 111
3.1 Вибір технологій ..................................................................................................................... 111
3.2 Деталі реалізації ..................................................................................................................... 113
3.3 Алгоритм аналізу PDF-документів ..................................................................................... 121
3.4 Заключення ............................................................................................................................. 127
4 РОЗДІЛ. АВТОМАТИЗОВАНА ОБРОБКА ТЕКСТУ З ЕЛЕМЕНТАМИ
СЕМАНТИЧНОГО АНАЛІЗУ ............................................................................................. 129
4.1 Аналіз останніх досліджень .................................................................................................. 129
4.2 Автоматизований пошук кореферентних звязків у нерозмічених текстах
українською мовою .......................................................................................................................... 142
4.3 Алгоритм виділення іменованих сутностей...................................................................... 148
4.4 Алгоритму виділення кореферентних зв’язків ................................................................ 151
4.5 Заключення ............................................................................................................................. 158
5 РОЗДІЛ. МОДУЛЬ РАНЖУВАННЯ ДОКУМЕНТІВ НА БАЗІ ІНДЕКСУ ЦИТУВАНЬ
162
5.1 Розробка модуля завантаження наукових документів ................................................... 162
5.1.1 Модель акторів ................................................................................................................................................ 163
5.1.2 Реалізація модуля завантаження документів ............................................................................................ 169
5.2 Модуль обробки pdf-документів ......................................................................................... 171
5.2.1 Зчитування документа у форматі pdf .......................................................................................................... 172
5.2.2 Алгоритм виокремлення структурних елементів документу ................................................................. 173
5.2.3 Пошук необхідних для побудови індексу цитувань даних ...................................................................... 175
5.3 Побудова та збереження індексу цитувань ....................................................................... 179
5.3.1 Тестування на прикладі колекції наукових документів .......................................................................... 182
5.4 Заключення ............................................................................................................................. 190
6 РОЗДІЛ. МОДУЛЬ ПОБУДОВИ ТЕЗАУРУСА КОЛЕКЦІЇ НАУКОВИХ ДОКУМЕНТІВ
192
6.1 Тезаурус .................................................................................................................................... 192
6.2 Автоматизовані методи побудови тезаурусів ................................................................... 194
6.3 Структурна схема алгоритму побудови тезауруса .......................................................... 206
6.4 Математична модель і формалізація методу .................................................................... 214
6.5 Програмна реалізація побудови тезауруса........................................................................ 217
6.6 Заключення ............................................................................................................................. 220
7 РОЗДІЛ. ПІДСИСТЕМА ПОШУКУ ЗОБРАЖЕНЬ ЗА ВМІСТОМ .............................. 222
7.1 Пошук зображень за вмістом ............................................................................................... 223
7.2 Алгоритми формування ознак зображень ........................................................................ 226
7.3 Опис програмної реалізації підсистеми ............................................................................. 228
7.4 Заключення ............................................................................................................................. 237
8 ВИДОБУВАННЯ ДАНИХ ІЗ СОЦІАЛЬНИХ МЕРЕЖ ................................................. 239
8.1 Аналіз соціальних мереж ...................................................................................................... 239
8.2 Опрацювання даних в режимі реального часу ................................................................ 246
8.3 Розробка Web-прототипу для аналізу висловлювань користувачів соціальної мережі
Twitter .................................................................................................................................................. 253
8.4 Автоматизована побудова електронного портрету особи з Facebook .......................... 273
8.5 Заключення ............................................................................................................................. 277
9 РОЗДІЛ. ІНТЕЛЕКТУАЛЬНА МУЛЬТИАГЕНТНА СИСТЕМА ПРИЙНЯТТЯ РІШЕНЬ І
АНАЛІЗУ МІРКУВАНЬ ....................................................................................................... 280
9.1 Огляд використаних технологій і методів ........................................................................ 281
9.2 Проектування та розробка системи ................................................................................... 282
9.3 Моделювання предметної області....................................................................................... 291
9.4 Заключення ............................................................................................................................. 293
10 РОЗДІЛ. ВИДОБУВАННЯ ТА АНАЛІЗ ІНФОРМАЦІЇ, ЩО ЗНАХОДИТЬСЯ У
ВІЛЬНОМУ ДОСТУПІ В МЕРЕЖІ ІНТЕРНЕТ, ДЛЯ СТВОРЕННЯ ПРОФАЙЛІВ
КОРИСТУВАЧІВ................................................................................................................. 294
10.1 Видобування веб-контента ................................................................................................... 294
10.2 Алгоритм пошуку зв'язків і залежностей у даних веб-сторінок ................................... 296
10.3 Прототип системи реалізації АПЗЗ у колекціях документів ......................................... 301
10.4 Заключення ............................................................................................................................. 306
11 ГЛОСАРІЙ ................................................................................................................ 307
12 ЛІТЕРАТУРА ............................................................................................................ 308
Додаток 1. Діаграми класів алгоритму аналізу PDF-документів ............................................ 328
Додаток 2. Можливі конструкції при побудові правил для створеного GLR парсера ........ 331
Додаток 3. Модуль ранжування документів на базі індексу цитувань .................................. 334
Додаток 4. Програмний модуль побудови тезауруса ................................................................. 351
Додаток 5. Обробка зображень ....................................................................................................... 361
Додаток 6. Створення профілю користувача з соціальних мереж .......................................... 376
Додаток 7. Прототип системи реалізації АПЗЗ ........................................................................... 393
- Список литературы:
- На основі запропонованого алгоитму пошуку зв’язків і залежностей було розроблено програмну систему створення профайлів користувачів мережі Інтернет.
Система реалізована у вигляді веб-застосунку. Основними програмними інструментами при розробці системи були мова програмування Python і фреймворк Django.
Система має клієнт-серверну архітектуру. На стороні клієнта здійснюється
взаємодія з користувачем: отримання запиту, представлення результатів, отримання уточнюючих запитів. На сереверній частині застосунку здійснюється робота
із сховищем даних і основа логіка програми. Отриманий від користувача запит
обробляється (нормалізується) і за допомогою алгоритму пошуку зв'язків і залежностей будується множина зв'язків (профайл) користувача.
Система показала хороші результати роботи. Окрім посилань на сторінки користувача, який є об'єктом запиту, у соціальних мережах користувач системи отримує таблицю із зв'язками (профайл) об'єкта пошуку з іншими об'єктами. Середнє
відношення корисних даних серед усіх у результуючій таблиці складє 55 - 65%
- Стоимость доставки:
- 200.00 грн