Каталог / ТЕХНІЧНІ НАУКИ / Стандартизація та сертифікація
скачать файл:
- Назва:
- Семенов Павел Олегович. ПРИМЕНЕНИЕ МЕТОДОВ DATA MINING ДЛЯ ПОСТРОЕНИЯ СИСТЕМ ОБНАРУЖЕНИЯ СЕТЕВЫХ АТАК В РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ
- Альтернативное название:
- Семенов Павло Олегович. ЗАСТОСУВАННЯ МЕТОДІВ DATA MINING ДЛЯ ПОБУДОВИ СИСТЕМ ВИЯВЛЕННЯ МЕРЕЖЕВИХ АТАК У розподілених обчислювальних мережах
- ВНЗ:
- ФГБОУ ВО Петербургский государственный университет путей сообщения Императора Александра I
- Короткий опис:
- Семенов Павел Олегович. ПРИМЕНЕНИЕ МЕТОДОВ DATA MINING ДЛЯ ПОСТРОЕНИЯ СИСТЕМ ОБНАРУЖЕНИЯ СЕТЕВЫХ АТАК В РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ: диссертация ... кандидата Технических наук: 05.13.19 / Семенов Павел Олегович;[Место защиты: ФГБОУ ВО Петербургский государственный университет путей сообщения Императора Александра I], 2016.- 145 с.
Федеральное государственное автономное образовательное учреждение
высшего образования «Санкт-Петербургский политехнический университет Петра Великого»
На правах рукописи
Семенов Павел Олегович
ПРИМЕНЕНИЕ МЕТОДОВ DATA MINING ДЛЯ ПОСТРОЕНИЯ СИСТЕМ ОБНАРУЖЕНИЯ СЕТЕВЫХ АТАК В РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ
Специальность 05.13.19 - Методы и системы защиты информации,
информационная безопасность
Диссертация на соискание учёной степени кандидата технических наук
Научный руководитель: кандидат технических наук Платонов Владимир Владимирович
Санкт-Петербург — 2016
ОГЛАВЛЕНИЕ
Введение 6
1 Теоретические основы обнаружения сетевых атак 11
1.1 Удалённые сетевые атаки 11
1.1.1 Понятие удалённой сетевой атаки 11
1.1.2 Подходы к классификации атак 12
1.1.3 Тренировочные базы данных с сетевыми атаками 13
1.1.4 Описание распространённых атак 17
1.2 Обнаружение сетевых атак 20
1.2.1 Методы обнаружения сетевых атак 20
1.2.2 Системы обнаружения вторжений 21
1.2.3 Сигнатурные системы обнаружения вторжений 24
1.2.4 Обнаружение статистических аномалий 25
1.2.5 Недостатки систем обнаружения вторжений 26
1.3 Обзор существующих исследований 28
1.3.1 Обнаружение атак с помощью скрытой марковской модели 28
1.3.2 Обнаружение атак с помощью байесовских сетей 29
1.3.3 Обнаружение атак с помощью методов кластеризации 30
1.3.4 Обнаружение атак с помощью метода опорных векторов 31
1.3.5 Обнаружение атак с помощью нейронных сетей 32
1.3.6 Обнаружение атак с помощью генетических алгоритмов 33
1.3.7 Обнаружение атак с помощью правил нечёткой логики 33
1.3.8 Выводы по анализу исследований в области обнаружения сетевых
атак, основанных на методах Data Mining 34
1.4 Выводы по главе 36
2 Разработка модели системы обнаружения сетевых атак в распределённой
вычислительной сети 38
2.1 Применение методов Data Mining в задаче обнаружения сетевых атак
38
2.1.1 Функциональные компоненты системы обнаружения сетевых атак 38
2.1.2 Группы методов Data Mining для проектирования системы обнаружения сетевых атак 41
2.2 Основы выбранных методов Data Mining 44
2.2.1 Метод опорных векторов 44
2.2.2 Методы сокращения размерности 46
2.2.3 Методы кластеризации 57
2.2.4 Аппарат нечёткой логики 61
2.3 Формализация модели системы обнаружения сетевых атак 63
2.3.1 Формирование архитектуры системы обнаружения сетевых атак 63
2.3.2 Метод адаптации системы обнаружения сетевых атак под программно-аппаратную структуру распределённой вычислительной сети . 69
2.4 Выводы по главе 72
3 Формирование методики применения методов Data Mining в задаче
обнаружения сетевых атак 73
3.1 Методика применения метода опорных векторов 73
3.1.1 Основы применения метода главных компонент 73
3.1.2 Особенности данных рассматриваемой предметной области для применения методов опорных векторов 75
3.1.3 Разделение параметров трафика для метода опорных векторов .. 78
3.1.4 Выводы по применению метода опорных векторов 80
3.2 Методика применения метода главных компонент 82
3.2.1 Основы применения метода главных компонент 82
3.2.2 Обучение метода главных компонент на множестве пакетов с атаками 84
3.2.3 Выводы по подбору параметров блока сокращения размерности 84
3.3 Примеры применения представленных методик для обнаружения конкретных атак 85
3.3.1 Пример применения метода главных компонент для формирования признакового пространства 85
3.3.2 Пример применения метода опорных векторов для классификации векторов 86
3.4 Методика применения методов кластеризации 89
3.4.1 Основы применения метода k-средних 89
3.4.2 Основы применения агломеративного иерархического метода ... 91
3.4.3 Построение избыточной модульной архитектуры 92
3.4.4 Выводы по применению методов кластерного анализа 92
3.5 Методика применения нечёткой логики 93
3.6 Выводы по главе 94
4 Проведение экспериментов по обнаружению атак 96
4.1 Описание программного прототипа СОВ 96
4.1.1 Характеристики программного прототипа 96
4.1.2 Структура модуля обнаружения 98
4.1.3 Блок извлечения базовых параметров трафика 101
4.1.4 Блок сокращения размерности 102
4.1.5 Блок классификации 105
4.1.6 Автоматическая настройка модуля обнаружения 107
4.1.7 Визуализация работы блока сокращения размерности и блока классификации 109
4.1.8 Блок кластеризации 111
4.1.9 Взаимодействие модулей обнаружения 112
4.1.10 Редактор сетевых дампов 114
4.2 Результаты экспериментов по обнаружению атак 116
4.2.1 Методика проведения экспериментального исследования 116
4.2.2 Результаты обнаружения отдельных сетевых атак 119
4.3 Выводы по главе 124
Заключение 126
Список сокращений и условных обозначений 127
Список литературы 128
Приложение А Акт о внедрении результатов диссертационной работы на
ФГУП «КБ «Арсенал» 139
Приложение Б Акт об использовании научных и практических результатов
диссертационной работы в учебном процессе ФГАОУ ВО «СПбПУ» 141
Приложение В Схема работы прототипа СОВ 142
Приложение Г Список базовых параметров, обрабатываемых в прототипе СОВ 144
ВВЕДЕНИЕ
Актуальность темы исследования. Развитие вычислительных средств и информационных технологий приводит к автоматизации различных процессов практически во всех сферах жизни общества: увеличиваются вычислительные мощности компьютерных средств, совершенствуются технологии сетевого взаимодействия, меняются форматы и требования к построению информационных систем. Вслед за развитием информационных технологий с не меньшей скоростью появляются новые угрозы информационной безопасности, поэтому проблема защиты информации остаётся ключевым направлением научных исследований.
За последние годы был создан ряд вредоносных средств, использующих принципиально новые методы и подходы, не позволяющие традиционным средствам защиты выявлять и адекватно реагировать на данные угрозы. Примером таких средств являются полиморфные вирусы, не позволяющие обнаружить себя при помощи сигнатурных антивирусов или требующие постоянной большой вычислительной нагрузки средств защиты, или руткиты, использующие аппаратную виртуализацию, полностью контролирующие любые действия антивирусов и даже простых антируткитов. Эти угрозы касаются как отдельно взятых пользовательских или серверных компьютеров, так и сетевой безопасности. Для обнаружения некоторых видов современных сетевых атак необходимо хранить большой объём сигнатур и использовать множество дополнительных вычислений для контроля трафика.
В последние годы наблюдается тенденция к объединению вычислительных ресурсов в распределённые вычислительные сети. Принципы обработки данных в распределённых вычислительных сетях имеют существенные отличия от работы простых электронно-вычислительных машин, что касается и различных аспектов защиты информации. Сетевые атаки являются одним из основных видов нарушения информационной безопасности в распределённых вычислительных сетях. Качественное развитие данного вида угроз вызывает необходимость постоянного совершенствования средств защиты, предлагая принципиально новые методы обнаружения сетевых атак.
Одним из ключевых средств защиты вычислительных систем являются системы обнаружения вторжений (СОВ, Intrusion Detection System). Система обнаружения вторжений - это программное или программно-аппаратное средство, предназначенное для выявления фактов неавторизованного доступа в вычислительную систему или сеть. Системы обнаружения вторжений используются для обнаружения различных видов вредоносной активности: сетевых атак против множества сервисов; атак, направленных на повышение пользовательских привилегий, неавторизованного доступа к важным системным и пользовательским файлам, а также действий вредоносного программного обеспечения (компьютерных вирусов, троянов и червей). Традиционные СОВ работают по схожей с большинством антивирусных средств сигнатурной схеме и сталкиваются со схожими проблемами, что и другие средства защиты.
С развитием информационных технологий особенно актуальной стала проблема обработки больших данных. В этом случае недостаточно простого статистического анализа, что вызывает переход к более сложному интеллектуальному анализу данных. Основная задача методов Data Mining заключается в обнаружении в данных неструктурированной информации и представлении её в наглядном виде. Множество параметров для обнаружения сетевых атак составляет значительный объём данных, что определяет возможность их обработки именно методами Data Mining.
Из вышеизложенного следует актуальность поставленной задачи по разработке системы обнаружения сетевых атак в распределённых вычислительных сетях, основанной на различных методах Data Mining.
Степень разработанности темы исследования. Исследованием проблемы обнаружения сетевых атак занимается множество известных отечественных и зарубежных учёных, таких как В.А. Галатенко, П.Д. Зегжда, А.В. Лукацкий, М.И. Петровский, D.E. Denning, P. Gogoi, W. Lee, J. Markovic, S.J. Stolfo, X. Xu. Предложенные в их работах методы и решения имеют фундаментальный характер и не учитывают ни особенностей построения распределённых вычислительных сетей, ни программно-аппаратного наполнения узлов сети. Кроме того, в большинстве исследований развивается только один из двух подходов к обнаружению сетевых атак: обнаружение аномалий или обнаружение сигнатур, но практически нет попыток сочетания принципиальных преимуществ этих двух подходов.
Целью работы является защита распределённых вычислительных сетей от сетевых атак за счёт применения различных методов Data Mining, используемых в адаптивной системе обнаружения.
Объектом исследования являются распределённые вычислительные сети и их узлы.
Предметом исследования являются сетевой трафик и сетевые атаки.
Научная задача состоит в разработке методики обнаружения сетевых атак в распределённых вычислительных сетях на основе методов Data Mining. Для достижения поставленной цели и решения научной задачи решались следующие задачи:
- Проведение анализа применимости методов Data Mining в задаче обнаружения сетевых атак.
- Разработка модели системы обнаружения сетевых атак (СОВ) в распределённых вычислительных сетях.
- Разработка метода адаптации СОВ под программно-аппаратную структуру распределённой вычислительной сети.
- Разработка программного прототипа системы обнаружения сетевых атак на основе выбранных методов Data Mining.
- Разработка методики применения выбранных методов Data Mining в задаче обнаружения сетевых атак.
Методология и методы исследования. Для решения поставленных задач использовались методы системного анализа, теории вероятностей, теории множеств, теории распределённых вычислений и методы математического моделирования.
Научная новизна диссертационной работы состоит в следующем:
- Разработана архитектура адаптивной системы обнаружения сетевых атак в распределённой вычислительной сети.
- Разработан метод адаптации СОВ под программно-аппаратную структуру распределённой вычислительной сети.
- Предложены методики применения следующих методов и средств Data Mining в задаче обнаружения сетевых атак: метод главных компонент, метод опорных векторов, метод ^-средних и нечёткая логика.
Теоретическую значимость работы составляет разработка аналитической модели распределённой системы обнаружения сетевых атак и методики применения различных методов Data Mining в данной предметной области.
Практическая значимость работы определяется возможностью использования предложенных модели и методик для практической реализации систем обнаружения сетевых атак, обеспечивающих защиту распределённой вычислительной сети. Также предложенные методики применения различных методов Data Mining могут быть использованы при проектировании других видов средств защиты информации.
Степень достоверности результатов определяется теоретическим обоснованием предлагаемой модели системы обнаружения сетевых атак, эффективностью практического применения выбранных методов Data Mining и результатами экспериментальных исследований.
Апробация результатов работы. Основные результаты диссертации обсуждались на научно-технических конференциях «Методы и технические средства обеспечения безопасности информации» в 2010, 2013, 2014 и 2015 гг., «Неделя науки СПбГПУ» в 2010, 2011 и 2012 гг.
Выступление на конференции «40 неделя науки СПбГПУ» отмечено дипломом первой степени. В открытом Московском конкурсе в 2011 г. на лучшую научную работу студентов вузов в области информационной безопасности работа награждена дипломом второй степени.
Внедрение результатов исследований. Предложенная модель адаптивной системы обнаружения сетевых атак использована в НИР «Разработка технологии защиты данных в вычислительных сетях типа «грид» на основе моделирования адаптивного распределения вычислительных задач» по государственному заданию № 2.1778.2014/К от 15.07.2014.
Теоретические результаты работы использованы в организации дисциплин «Защита от программных угроз» и «Программно-аппаратные средства обеспечения информационной безопасности» на кафедре «Информационная безопасность компьютерных систем» СПбПУ, а практические результаты работы и научные рекомендации использованы в ФГУП «КБ «Арсенал», что подтверждается соответствующими актами об использовании (приложения А и
Б).
Основные положения, выносимые на защиту:
- Модель адаптивной системы обнаружения сетевых атак в распределённой вычислительной сети.
- Архитектура адаптивной системы обнаружения сетевых атак в распределённой вычислительной сети.
- Методики применения следующих методов Data Mining в задаче обнаружения сетевых атак:
о метод главных компонент; о метод опорных векторов; о метод ^-средних; о нечёткая логика.
Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, 4 приложений и списка использованных источников. Общий объём диссертации - 145 с., из которых основного текста - 134 с. Библиографический список содержит 112 наименования. Основной текст включает 28 рисунков и 15 таблиц.
- Список літератури:
- ЗАКЛЮЧЕНИЕ
В диссертационной работе для защиты распределённых вычислительных сетей от сетевых атак проведён анализ существующих средств защиты и выявлены их основные недостатки. Проведён анализ применимости различных методов и средств Data Mining для задач, связанных с обнаружением сетевых атак.
Построена модель системы обнаружения сетевых атак в распределённых вычислительных сетях на основе различных групп методов Data Mining.
Разработан метод адаптации системы обнаружения сетевых атак под программно-аппаратную среду распределённой вычислительной сети.
Разработана архитектура адаптивной системы обнаружения сетевых атак в распределённой вычислительной сети.
Разработаны методики применения следующих методов и средств Data Mining в задаче обнаружения сетевых атак: метод главных компонент, метод опорных векторов, метод ^-средних, нечёткая логика.
Разработан программный прототип системы обнаружения сетевых атак на основе выбранных методов Data Mining и проведены экспериментальные исследования, подтверждающие эффективность созданной модели обнаружения для защиты распределённой вычислительной сети.
Проведённые эксперименты с программным прототипом показали высокое качество обнаружения сетевых атак и доказали правильность выбора методов Data Mining и применимость выработанных методик. Применение различных методов, возможность настройки внутренних параметров и пороговых значений позволяют добиться оптимального соотношения производительности системы и точности распознавания атак в распределённой вычислительной сети.
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
БД - база данных;
МГК - метод главных компонент;
СОВ - система обнаружения вторжений;
СУБД - система управления базами данных;
ФА - факторный анализ;
CIDF - общая структура обнаружения вторжений, Common Intrusion Detection Framework;
DARPA - агентство передовых оборонных исследовательских проектов, Defense Advanced Research Project Agency;
DoS - отказ в обслуживании, Denial of Service;
FN - пропуск атаки, False Negative;
FP - ложное срабатывание, False Positive;
ICMP - протокол управляющих сообщений, Internet Control Message Protocol;
IDS - система обнаружения вторжений, Intrusion Detection System;
IP - интернет протокол, Internet Protocol;
PCA - метод главных компонент, Principal Component Analyze;
R2L - удалённое получение локальных привилегий, Remote to Locale;
RBF - радиально-базисная функция, Radial Basis Function;
SSCP - матрица суммы квадратов и смешанных произведений, Sums of squares and cross products;
SV - опорные вектора, Support Vectors;
SVM - метод опорных векторов, Support Vector Machine;
TCP - протокол управления передачей, Transmission Control Protocol;
TN - правильно зафиксированная атаки, True Negative;
TP - правильно зафиксированная атака, True Positive;
U2R - получение привилегий суперпользователя, User to Root;
UDP - протокол пользовательских дейтаграмм, User Datagram Protocol;
VC - вариационно-ковариационная матрица, Variance Covariance.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян, С. А. Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин; Под ред. С.А. Айвазяна. — М.: Финансы и статистика, 1989. — 607 с.
2. Барсегян, А. А. Анализ данных и процессов : учеб. пособие. / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. — СПб.: БХВ-Петербург, 2009. — 512 с.
3. Барсегян, А. А. Технологии анализа данных : Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — СПб.: БХВ-Петербург, 2007. — 384 с.
4. Бобров, А. Системы обнаружения вторжений. Intrusion Detection System — IDS. [Электронный ресурс] / А. Бобров. — Режим доступа:
http://www2.icmm.ru/~masich/win/lexion/ids/ids.html (дата обращения: 20.05.2016)
5. Боршевников, А. Е. Сетевые атаки. Виды. Способы борьбы. / А. Е. Боршевников // Современные тенденции технических наук: материалы междунар. заоч. науч. конф. (г. Уфа, октябрь 2011 г.). / Под общ. ред. Г. Д. Ахметовой. — Уфа: Лето, 2011. — С. 8-13.
6. Вапник, В. Н. Восстановление зависимости по эмпирическим данным / В. Н. Вапник. — М.: «Наука», Главная редакция физико-математической
литературы, 1979. — 448 с.
7. Вапник, В. Н. Теория распознавания образов / В. Н. Вапник, А. Я.
Червоненкис. — М.: «Наука», Главная редакция физико-математической
литературы, 1974. — 416 с.
8. Вапник, В. Н. The Nature of Statistical Learning Theory / В. Н. Вапник. — 2-е изд. — Springer, 2000. — 314 с.
9. Васильев, В. И. Применение нейронных сетей при обнаружении атак на компьютеры в сети Internet (на примере атаки SYNFLOOD) / В. И. Васильев, А. Ф. Хафизов // Нейрокомпьютеры: разработка и применение. — 2001. — №4-5. — С. 108-114.
10. Вятченин, Д. А. Нечёткие методы автоматической классификации / Д. А. Вятченин. — Минск: Технопринт, 2004. — 219 с.
- Стоимость доставки:
- 230.00 руб