ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ




  • скачать файл:
  • title:
  • ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ
  • Альтернативное название:
  • ГІБРИДНІ МЕТОДИ МАШИННОГО НАВЧАННЯ В СИСТЕМАХ ІНТЕЛЕКТУАЛЬНОЇ ОБРОБКИ ДАНИХ
  • The number of pages:
  • 169
  • university:
  • ХАРЬКОВСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ РАДИОЭЛЕКТРОНИКИ
  • The year of defence:
  • 2012
  • brief description:
  • МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ, МОЛОДЕЖИ И СПОРТА УКРАИНЫ
    ХАРЬКОВСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ РАДИОЭЛЕКТРОНИКИ
    На правах рукописи

    Гришко Андрей Александрович
    УДК 519.6:004.89

    ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ

    05.13.23 системы искусственного интеллекта
    Диссертация на соискание ученой степени
    кандидата технических наук

    Научный руководитель
    Удовенко Сергей Григорьевич,
    доктор технических наук, профессор

    Цей екземпляр дисертації ідентичний
    за змістом з іншими, поданими в
    спеціалізовану вчену раду Д 64.052.01


    Вчений секретар Литвинова Є.І.
    спеціалізованої вченої ради


    Харьков 2012



    СОДЕРЖАНИЕ

    ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ....4
    ВВЕДЕНИЕ.....5
    РАЗДЕЛ 1 АНАЛИЗ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ...........14
    1.1 Общая характеристика задачи применения машинного обучения в системах интеллектуальной обработки данных.14
    1.1.1 Классификация интеллектуальных систем и общие принципы их обучения.....14
    1.1.2 Задача анализа финансовых рядов и обработки данных в трейдинговых системах....20
    1.1.3 Задача управления мобильным объектом в непрерывной среде...28
    1.2 Методы машинного обучения с подкреплением..31
    1.2.1 Схема обучения с подкреплением31
    1.2.2 Базовый алгоритм Q-обучения..33
    1.2.3 Метод временной разности в задаче обучения с подкреплением.35
    1.2.4 Комбинированные методы обучения с подкреплением.39
    1.3 Применение адаптивных критиков в схемах обучения с подкреплением.42
    1.4 Особенности использования нейронных сетей в задачах обучения с подкреплением...47
    1.5 Выводы по разделу 1 и постановка задач исследования54
    РАЗДЕЛ 2 ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В ТРЕЙДИНГОВЫХ СИСТЕМАХ ОБРАБОТКИ ИНФОРМАЦИИ..56
    2.1 Реализация процедур машинного обучения с подкреплением в системах электронной биржевой торговли.56
    2.2 Определение оптимального набора технических индикаторов трейдинговой системы с помощью генетического алгоритма .66
    2.3 Нейросетевая аппроксимация Q-таблиц и определение стратегий в гибридной трейдинговой системе79
    2.4 Выводы по разделу 2 ..87
    РАЗДЕЛ 3 ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОГО УПРАВЛЕНИЯ СТОХАСТИЧЕСКИМИ ПРОЦЕССАМИ...88
    3.1 Комбинированные методы машинного обучения и динамического программирования в системах управления запасами88
    3.2 Машинное обучение с подкреплением в цифровых системах управления динамическими объектами 102
    3.3 Прогнозирование тренда сигналов подкрепления в цифровых системах управления динамическими объектами ...114
    3.4 Выводы по разделу 3.120
    РАЗДЕЛ 4 МОДЕЛИРОВАНИЕ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ122
    4.1 Программная реализация и тестовое моделирование гибридной трейдинговой системы122
    4.2 Моделирование систем интеллектуального управления с применением комбинированных методов машинного обучения...138
    4.2.1 Управление запасами гидроресурсов электростанций с применением комбинированных методов машинного обучения...138
    4.2.2 Модульная система моделирования цифрового управления динамическими объектами с применением комбинированных методов машинного обучения ..141
    4.3 Выводы по разделу 4.147
    ВЫВОДЫ.150
    СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ..154
    ПРИЛОЖЕНИЕ А Акты внедрения результатов диссертационной работы 166



    И ТЕРМИНОВ

    AR-модель авторегрессионная модель;
    AI Artificial Intelligent (искусственный интеллект);
    BB Bucket brigade (алгоритм пожарной команды);
    BR Backward replay (обратное переигрывание);
    BP Backpropagation (алгоритм обратного распространения ошибки);
    CQ-L Connectionist Q-Learning (коннекшионистский Q-Learning);
    MDP Markov Decision Process (Марковский процесс принятия решений);
    MLP Multi-layer perceptron (многослойный перcептрон);
    Q(λ) модификация алгоритма Q-Learning;
    TD Temporal Difference (метод временной разности);
    MA moving average (скользящее среднее).







    ВВЕДЕНИЕ
    Актуальность темы. Развитие информационных технологий на основе применения методов вычислительного интеллекта способствовало появлению компьютерных систем интеллектуальной обработки информации различного функционального назначения (в частности, систем обработки электронной биржевой информации и систем интеллектуального управления стохастическими процессами в условиях неопределенности). Современные исследования показывают эффективность применения в таких системах методов машинного обучения. В последнее время получили распространение управляемые стохастические системы, в основе функционирования которых лежит метод обучения с подкреплением, также называемый методом подкрепляемого обучения. Метод подкрепляемого обучения является достаточно новым методом в группе методов машинного обучения и занимает промежуточное положение между методами обучения с учителем и без учителя. В основе метода обучения с подкреплением лежат те основополагающие принципы адаптивного поведения, которые позволяют живым организмам приспосабливаться к изменяющимся или неизвестным условиям обитания. Метод обучения с подкреплением (reinforcement learning (RL)) был представлен и подробно изложен в [1], где в обобщенном виде рассматривается взаимодействие агента с внешней средой, в результате которого агент путем проб и ошибок самостоятельно определяет наиболее оптимальное поведение для достижения экстремума некоторого критерия. Отличительной чертой метода обучения с подкреплением является наличие сигнала подкрепления, который получает агент в процессе взаимодействия с внешней средой и который является скалярной величиной, характеризующей эффективность функционирования агента в данный момент времени. Целью функционирования систем, использующих метод обучения с подкреплением, является максимизация суммарного сигнала подкрепления, которое получит агент при взаимодействии с внешней средой. В исходном виде метод обучения с подкреплением предполагает конечное количество состояний внешней среды и возможных воздействий агента на внешнюю среду, а также взаимодействие агента с внешней средой в дискретные моменты времени. Обучение с подкреплением является методом, который позволяет находить оперативное решение, являющееся оптимальным в смысле получения максимального дохода в каждом из состояний. При этом он позволяет в процессе обучения допускать возможность кратковременных потерь, чтобы впоследствии максимизировать суммарный доход на длительном интервале. Вследствие этого, обучение с подкреплением является методом, концептуально приспособленным для эффективной работы в интеллектуальных системах, характеризующихся высоким уровнем изменения внешних и внутренних воздействий (например, в трейдинговых системах, системах управления запасами, системах управления динамическими объектами в условиях неопределенности и т.д.) [2]. При наличии общей методологической основы применение методов машинного подкрепления в таких системах имеет свои особенности, определяемые, прежде всего, характером и целями конкретных типов систем.
    К примеру, для модели финансового рынка суть такого обучения сводится к следующему: агент системы электронной биржевой торговли (например, торговый робот) должен исследовать текущие биржевые ситуации и принимать решения даже при неполном знании об этих ситуациях. Единственная обратная связь, получаемая агентом от биржевого рынка скалярный сигнал подкрепления, который является положительным, если его действия выгодны трейдеру, и отрицательным в противном случае. Задача агента выработать действия, увеличивающие сумму сигналов подкреплений на длительном интервале времени. Кроме сигналов подкрепления агент также получает информацию относительно текущего состояния биржевого рынка (в форме вектора наблюдений). Одним из наиболее известных подходов к повышению эффективности систем биржевой торговли является применение комбинированных модификаций RL-метода, основанных на алгоритме Q-обучения [2-5].
    В соответствии с базовым методом обучения с подкреплением сигналы подкрепления и состояния внешней среды должны обладать свойством марковости. Однако в [6] показано, что метод может быть успешно применен и в том случае, когда сигналы подкрепления и состояния внешней среды не обладают свойством марковости. Представляется целесообразным рассмотреть возможность применения обучения с подкреплением для управления динамическими объектами и предложить эффективный подход к реализации задачи такого управления.
    Следует отметить, что применение машинного обучения как для трейдинговых систем, так и для систем интеллектуального управления предполагает необходимость решения в реальном времени оптимизационных задач при определении стратегий поведения агента с учетом минимизации возможного риска. Для этого могут быть использованы как традиционные методы оптимизации (например, динамическое программирование), так и методы вычислительного интеллекта (эволюционная оптимизация). Реализация процедуры поиска экстремума Q-функции, прямо или косвенно связанной с определением оптимальной стратегии, наиболее успешно может быть проведена с использованием нейросетевых моделей.
    В последнее время появились многочисленные научные публикации, посвященные теоретическим исследованиям и практическому применению методов машинного обучения с подкреплением в интеллектуальных системах [1 - 15]. Существенный вклад в развитие данного направления искусственного интеллекта внесли, в частности, R. Sutton, A. Barto, T. Prescott, О.П. Мосалов, Д.В. Прохоров, В.Г. Редько и др. В то же время все еще отсутствует универсальный подход к решению задач интеллектуальной обработки данных, связанных с комбинированным использованием методов машинного обучения, нейросетевых прогнозирующих моделей и эволюционных процедур оптимизации.
    Таким образом, актуальной и важной научно-технической задачей является разработка гибридных методов, объединяющих возможности RL- методов, ИНС-моделей и методов оптимизации (в частности, генетической оптимизации и динамического программирования) и позволяющих повысить эффективность работы интеллектуальных систем трейдингового прогнозирования и управления стохастическими процессами в условиях неопределенности. Задачи, которые при этом возникают, обусловили направление исследований данной диссертационной работы.
    Связь работы с научными программами, планами, темами. Диссертационная работа выполнена в рамках госбюджетной темы №ДР0110U000458 «Эволюционные гибридные системы вычислительного интеллекта с переменной структурой для интеллектуального анализа данных», которая выполнялась в Харьковском национальном университете радиоэлектроники, и в которой автор принимал участие как исполнитель.
    Цель и задачи исследования. Цель исследования разработка гибридных методов машинного обучения в интеллектуальных системах различного функционального назначения (на примере трейдинговых систем и систем интеллектуального управления), которые позволят повысить эффективность стратегий принятия решений. Для достижения этой цели в работе решаются такие основные задачи:
    1.Исследование задачи применения машинного обучения в системах интеллектуальной обработки данных.
    2.Разработка гибридных методов машинного обучения для трейдинговых систем.
    3.Разработка гибридных методов машинного обучения для систем интеллектуального управления стохастическими процессами.
    4.Имитационное моделирование работы исследуемых гибридных методов и решение практических задач.
    Объект исследования процессы интеллектуальной обработки данных с применением методов машинного обучения.
    Предмет исследования гибридные методы обработки данных в интеллектуальных системах на основе машинного обучения с подкреплением и генетической оптимизации.
    Методы исследования. Для решения сформулированных в работе задач использовались следующие методы: методы обучения с подкреплением для определения оптимальных стратегий принятия решений в интеллектуальных системах рассматриваемого класса; методы генетической оптимизации для поиска оптимальных решений в трейдинговых системах, использующих обучение с подкреплением; методы стохастического динамического программирования для поиска оптимальных решений в системах управления запасами, использующих обучение с подкреплением; методы нейросетевого моделирования для тестирования и практической реализации предлагаемых гибридных алгоритмов.
    Научная новизна полученных результатов. Научная новизна результатов, полученных в процессе выполнения диссертационной работы, заключается в следующем:
    1. Впервые предложен метод адаптации структуры технических индикаторов к текущему состоянию биржевого рынка с последующим формированием стратегий трейдинговой интеллектуальной системы, основанный на применении комбинированного RL-обучения и генетических алгоритмов. Новый метод позволяет агенту трейдинговой системы анализировать и оперативно использовать для формирования сигналов подкрепления наиболее важную информацию о состоянии внешней среды.
    2.Впервые предложен гибридный метод управления запасами с использованием стохастического динамического программирования и техники обучения с подкреплением, совместимой с несепарабельным критерием. В отличие от известных алгоритмов разработанный алгоритм обучения формирует реальное распределение прогнозируемых затрат, соответствующих рассматриваемым состояниям. Используемые при этом стратегии гарантируют сходимость вычислительного алгоритма.
    3. Модифицирован метод нейросетевой аппроксимации Q-функций RL-алгоритма, позволяющий осуществлять коррекцию конфигурации аппроксимирующего многослойного персептрона.
    4. Получил дальнейшее развитие гибридный метод, который является расширением SARSA-алгоритма и -алгоритма и позволяет учитывать оценки как смежных, так и удаленных состояний среды. Нейросетевая реализация такого метода позволяет уменьшить величину среднеквадратического отклонения оценок Q-функции в окрестности анализируемой точки от номинальных значений.
    5.Усовершенствована структура прогнозирующей модели, основанной на применении нейросетевого фильтра-предиктора временных рядов, обеспечивающего высокие быстродействие и качество прогнозирования в условиях нестационарности и неопределенности. Предложенная модель может найти применение в задачах прогнозирования тренда сигналов подкрепления при интеллектуальном управлении динамическими объектами.
    Практическое значение полученных результатов. Практическое значение диссертационной работы определяется тем, что полученные результаты теоретических исследований реализованы с помощью новых процедур машинного обучения, которые обеспечивают высокое качество обработки информации в интеллектуальных системах. В частности, тестирование предложенной гибридной трейдинговой RL-системы на базе модуля «Genetic-Trade-M» подтверждает ее работоспособность и перспективы практического использования для принятия решений по осуществлению финансовых транзакций. Разработанная система по функциональным возможностям и качеству получаемых результатов превышает возможности известных некоммерческих компьютерных систем электронной биржевой торговли, использующих методы машинного обучения (акт ПП «Софтвеа Експерт» от 05.09.2012). Отдельные положения, выводы и рекомендации диссертационной работы использованы в учебном процессе при подготовке и модификации курсов «Методы и средства вычислительного интеллекта» и «Системы цифровой обработки информации» на кафедре ЭВМ Харьковского национального университета радиоэлектроники (акт от 12.09.2012).
    Перспективы практического использования полученных в диссертации результатов состоят в том, что:
    программно-алгоритмическая реализация предложенного подхода предусматривает возможность текущего анализа финансовых показателей с использованием данных международного межбанковского валютного рынка FX при формировании стратегий трейдинга; разработанный программный модуль позволяет принимать действия, имитирующие процесс торговли. Модуль может соединяться с сервером брокера, постоянно загружать данные с сервера, анализировать ситуацию на рынке, а затем обеспечивать формирование рекомендаций по ведению торговли;
    составлен банк Q-обучающих алгоритмов с возможностью его программного пополнения пользователем;
    предложен вычислительный алгоритм, основанный на использовании обучающей модели с RL-блоком и дополнительные средства, позволяющие принимать оперативные решения относительно входа в рынок и выхода из рынка;
    моделирование разработанного гибридного метода, проведенное для тестовой задачи управления запасами гидроресурсов электростанций с ограничениями, показало существенное снижение уровня риска получения неудовлетворительных решений (в среднем на 25 %) при использовании комбинированного метода по сравнению с результатами, полученными с применением стандартной процедуры динамической оптимизации с сепарабельным критерием.
    результаты, полученные при моделировании систем управления роботом, подтверждают работоспособность и перспективность применения методов машинного обучения с подкреплением в технических системах.
    Личный вклад соискателя заключается в том, что научные положения, выводы и рекомендации, лежащие в основе диссертационной работы, были сформулированы, разработаны и исследованы им самостоятельно. По результатам диссертационной работы было опубликовано 20 работ [1635]. В научных статьях, написанных в соавторстве, автору принадлежат: [16] разработка гибридного метода машинного обучения в трейдинговых системах, основанного на обучении с подкреплением и генетической оптимизации; [17] анализ и модификация существующих методов машинного обучения в системах электронной биржевой торговли; [18] разработка модифицированного метода определения стратегий с использованием машинного обучения с подкреплением; [19] синтез интеллектуальной системы формирования стратегий с использованием комбинированных индикаторов; [20]анализ и синтез методов нейросетевой аппроксимации Q -функций; [22] анализ и синтез гибридных методов машинного обучения с подкреплением в системах управления динамическими объектами; [23] разработка структуры прогнозирующего нейросетевого фильтра для интеллектуальных систем принятия решений.
    1. Апробация результатов диссертации. Основные положения и результаты диссертационной работы докладывались и обсуждались на международной конференции AUPEC 2004 (Брисбен, Австралия), международной конференции IDEAL 2005 (Берлин, Германия), 8-й и 9-й международных научно-технических конференциях «Проблемы информатики и моделирования» (Харьков, 2008, 2009), 10-й и 11-й международных научно-практических конференциях «Современные информационные и электронные технологии» (Одесса, 2009, 2010), 14-м международном молодежном форуме «Радиоэлектроника и молодежь в XXI веке» (Харьков, 2010), 5-й международной школе-семинаре «Теория принятия решений» (Ужгород, 2010), 1-й и 2-й международных научно-технических конференциях «Сучасні напрямки розвитку інформаційно-комунікаційних технологій та засобів управління» (Киев, 2010, 2011), 1-й и 2-й международных научно-технических конференциях «Информационные технологии в навигации и управлении: состояние и перспективы развития» (Киев, 2010, 2011), 2-й международной научно-практической конференции «Информатика, математическое моделирование, экономика» (Россия, Смоленск, 2012).

    Публикации. Основные положения и результаты диссертации опубликованы в 20 печатных работах, из них: 7 статей в научных изданиях, входящих в утвержденный перечень научных специализированных изданий Украины, 2 статьи за рубежом и 11 работ в сборниках трудов научных конференций и семинаров.
  • bibliography:
  • В диссертационной работе решена важная научная задача разработки гибридных методов, объединяющих возможности RL- методов, ИНС-моделей и методов оптимизации (в частности, генетической оптимизации и динамического программирования) и позволяющих повысить эффективность работы интеллектуальных систем трейдингового прогнозирования и управления стохастическими процессами в условиях неопределенности. В ходе исследований получены следующие основные научные и практические результаты.
    1. Анализ состояния проблемы применения методов машинного обучения и их модификаций показывает целесообразность и актуальность разработки гибридных методов машинного обучения в интеллектуальных системах различного функционального назначения (на примере трейдинговых систем и систем интеллектуального управления), которые позволят повысить эффективность стратегий принятия решений.
    2. Определены основные задачи реализации процедур машинного обучения с подкреплением в трейдинговых системах, решение которых создает предпосылки для повышения эффективности электронной биржевой торговли.
    3. Предложен метод адаптации структуры технических индикаторов к текущему состоянию биржевого рынка при реализации трейдером комбинированного RL-обучения с применением генетических алгоритмов.
    4. Модифицирован метод нейросетевой аппроксимации Q-функций RL-алгоритма, позволяющий осуществлять коррекцию конфигурации аппроксимирующего многослойного персептрона.
    5. Предложена структура гибридной трейдинговой системы, основанной на использовании модулей анализа текущей ситуации на биржевом рынке, нейросетевой аппроксимации Q-функций для обучении с подкреплением и генетической оптимизации для текущего определения оптимального набора индикаторов.
    6. Предложен метод решения задачи интеллектуального управления запасами с использованием стохастического динамического программирования и техники обучения с подкреплением, совместимой с несепарабельным критерием. В отличие от известных алгоритмов предлагаемый алгоритм обучения формирует реальное распределение прогнозируемых затрат, соответствующих рассматриваемым состояниям.
    7. Доказана гарантированная сходимость вычислительного алгоритма формирования стратегий, реализующего предлагаемый метод управления запасами.
    8. Предложен метод управления динамическим объектом, основанный на замене состояний, использующих прогнозируемые значения сигналов подкрепления предыдущими взвешенными состояниями, использующими текущие значения сигналов подкрепления. Метод является расширением SARSA-алгоритма и -алгоритма и позволяет учитывать оценки состояний, удаленных на большее расстояние друг от друга.
    9. Предложена нейросетевая прогнозирующая модель, обладающая фильтрующими свойствами и позволяющая обеспечить высокое качество прогноза тренда сигнала подкрепления (в общем случае нестационарного) в процессе работы системы управления динамическим объектом.
    10. Результаты тестирования показывают, что разработанная трейдинговая система, основанная на комбинированном применении методов машинного обучения с подкреплением, генетической оптимизации набора индикаторов и нейросетевой реализации Q-функции, может превзойти известные трейдинговые системы, использующие методы машинного обучения. Использование переменных комбинаций технических индикаторов приводит к более высокой доходности, чем при использовании фиксированного набора индикаторов. Кроме того, введение нейтральной позиции в систему приводит к улучшению результатов, особенно в нестабильных финансовых рынках, где возможность занять нейтральную позицию становится особенно важной. Доходность работы RL-системы с нейтральной позицией (в режиме out-sample) превысила доходность системы Демпстера на 3.6%, 11.7% и 10.6% по парам GBP/USD, EUR/USD и AUD/USD соответственно.
    11. Разработанная трейдинговая система имеет модульную структуру. Программно-алгоритмическая реализация системы предусматривает возможность текущего анализа финансовых показателей с использованием данных международного межбанковского валютного рынка FX при формировании стратегий трейдинга. Система автоматически подключается к серверу брокера, загружает данные с сервера и анализирует ситуацию на рынке с использованием комбинаций индикаторов.
    12. Приведены результаты моделирования для тестовой задачи управления запасами гидроресурсов электростанций с комбинированным применением подкрепляемого обучения и стохастического динамического программирования. Анализ результатов показал существенное снижение уровня риска получения неудовлетворительных решений (в среднем на 55 %) при использовании комбинированного метода по сравнению с результатами, полученными с применением стандартной процедуры динамической оптимизации с сепарабельным критерием.
    13. Предложена структура модифицированной модульной системы моделирования процессов управления техническими объектами с применением комбинированных методов машинного обучения. Модифицированная структура, в отличие от базового варианта, содержит оригинальные модули, расширяющие функциональные возможности и повышающие качество работы системы моделирования.
    14. Проведено тестирование предложенной в диссертации нейросетевой прогнозирующей модели, которая может быть использована в блоке прогнозирования тренда сигналов подкрепления предложенной системы моделирования,а также в других приложениях, связанных с предсказанием многомерных стохастических и хаотических последовательностей (например, в системах прогнозирования состояния среды при интеллектуальном управлении мобильными объектами с обучающим подкреплением). Результаты тестирования свидетельствуют о высоком качестве прогнозирования с помощью предложенной модели (максимальные значения RMSE и MAPE для проведенного эксперимента не превышают соответственно уровней 0.04 и 0.08).
    15. Практическое значение диссертационной работы определяется тем, что полученные результаты теоретических исследований реализованы с помощью новых процедур машинного обучения, которые обеспечивают высокое качество обработки информации в интеллектуальных системах. В частности, тестирование предложенной гибридной трейдинговой RL-системы на базе модуля «Genetic-Trade-M» подтверждает ее работоспособность и перспективы практического использования для принятия решений по осуществлению финансовых транзакций. Разработанная система по функциональным возможностям и качеству получаемых результатов превышает возможности известных некоммерческих компьютерных систем электронной биржевой торговли, использующих методы машинного обучения (акт ПП «Софтвеа Експерт» от 05.09.2012). Отдельные положения, выводы и рекомендации диссертационной работы использованы в учебном процессе при подготовке и модификации курсов «Методы и средства вычислительного интеллекта» и «Системы цифровой обработки информации» на кафедре ЭВМ Харьковского национального университета радиоэлектроники (акт от 12.09.2012).







    ЛИТЕРАТУРА
    1. Саттон Р. Обучение с подкреплением [Текст] / Р. Саттон, Э. Барто СПб.: Бином, 2011, 399 с.
    2. Ernst D. TreeBased Batch Mode Reinforcement Learning [Текст] / P. Geurts, L. Wehenkel // Journal of Machine Learning Research. 2005. Vol. 6. P. 503556.
    3. Singh, S. P. Convergence results for single-step on-policy reinforcement-learning algorithms [Текст] / S. P. Singh, T. Jaakkola, M. L. Littman, C. Szepesvari // Machine Learning. 2000. - N3. P. 287308.
    4. Sutton, R. S. Policy gradient methods for reinforcement learning with function approximation [Текст] / R. S. Sutton, D. McAllester, S. Singh, Y. Mansour // Advances in Neural Information Processing Systems, 2000. P. 1057-1063.
    5. РедькоВ.Г. Эволюционная кибернетика [Текст] / В.Г. Редько. М.: Наука, 2001. 156 с.
    6. Whitehead S.D. Reinforcement Learning of Non-Markov Decision Processes / S Whitehead, J. Lin Long // Artificial Intelligence. 1995. Vol. 73 P. 74 86.
    7. Wai-Tat, F. From Recurrent Choice to Skill Learning: A Reinforcement-Learning Model [Текст] / F. Wai-Tat, J.R. Anderson // Journal of Experimental Psychology. 2006. N2. P. 184 206.
    8. Munos R. A study of reinforcement learning in the continuous case by the means of viscosity solutions [Текст] / R. Munos // Machine Learning Journal. 2000.- vol. 40, №3 P. 265 299.
    9. Andre D. State abstraction for programmable reinforcement learning agents [Текст] / D. Andre, S. Russell // In Proceedings of the National Conference in Artificial Intelligence (AAAI). 2002. P. 119125.
    10. Croonenborghs T. Learning relational options for inductive transfer in relational reinforcement learning [Текст] / T. Croonenborghs, K. Driessens, M. Bruynooghe // In Proceedings of the 17th Annual International Conference on Inductive Logic Programming: Oregon, USA. 2008. P 8897.
    11. Sigaud O. Learning Classifier Systems [Текст] / O. Sigaud, S. Wilson // Journal of Soft Computing. 2007. vol 11 P. 10651078.
    12. Рассел С. Искусственный интеллект: современный подход [Текст] / С. Рассел, С. Норвиг - М.: Издательский дом "Вильямс", 2006. 1408 с.
    13. Jaksch T. Near-optimal Regret Bounds for Reinforcement Learning [Текст] / T. Jaksch, R. Ortner, P. Auer // Journal of Machine Learning Research. 2010 vol. 11 P. 15631600.
    14. Degris T. Learning the structure of factored markov decision processes in reinforcement learning problems [Текст] / T. Degris, O. Sigaud, O., P. Wuillemin // In Proceedings of the 23 International Conference on Machine Learning: Pittsburgh, USA. 2006. P. 257264.
    15. G. Konidaris. Efficient skill learning using abstraction selection [Текст] / G. Konidaris, A. Barto // In Proceedings of the 21 International Joint Conference on artificial intelligence: USA. 2009. P. 11071112.
    16. Гришко А.А. Применение гибридных методов машинного обучения в компьютерных трейдинговых системах [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Системні технології. №3 (68). 2010. С. 84 92.
    17. Гришко А.А. Комбинированные методы машинного обучения в системах электронной биржевой торговли [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Вестник Херсонского национального технического университета. №2 (38). 2010. С. 187 191.
    18. Гришко А.А. Определение стратегий в трейдинговых системах на основе методов машинного обучения [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Бионика интеллекта. 2010. № 1 (72). С. 18 23.
    19. Гришко А.А. Интеллектуальная система формирования биржевых стратегий с использованием комбинированных индикаторов [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Біоніка інтелекту. 2011. №1(75) С.88-93.
    20. Гришко А.А. Гибридные методы машинного обучения в системах управления динамическими объектами [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Біоніка інтелекту. 2012. №1(78) С.78-84.
    21. Гришко А.А. Применение методов машинного обучения в стохастических системах управления запасами [Текст] / А.А. Гришко // Автоматизированные системы управления и приборы автоматики. 2011. Вып.157 . С. 117-123.
    22. Гришко А.А. Нейросетевая аппроксимация Q -функций в трейдинговых системах [Текст] / А.А. Гришко, С.Г. Удовенко // Системні технології. №3 (74). 2011. С. 118 125.
    23. Гришко А.А. Адаптивное краткосрочное прогнозирование нестационарных временных рядов в интеллектуальных системах принятия решений [Текст] / А.А. Гришко, С.Г. Удовенко, Л.Э. Чалая // Сборник научных статей «Информатика, математическое моделирование, экономика» Т.3. Смоленск, Смоленский филиал РУК 2012. С.43-49.
    24. Hryshko A. Development of Machine Learning Software for High Frequency Trading in Financial Markets [Текст] / A. Hryshko, T. Downs // In Book «Business Applications and Computational Intellgence» (Chapter XX). 2006. Idea Group Inc. Australia. P. 406-430.
    25. Hryshko A. A System for Electricity Trading using Genetic Algorithm and Reinforcement Learning [Текст] / A. Hryshko, T Downs. // AUPEC 26-29.09. 2004. Brisbane. Australia. pp.139-144.
    26. Hryshko A. A Machine Learning Approach to Intraday Trading on Foreign Exchange Markets [Текст] / A. Hryshko, T Downs. // IDEAL 2005, LNCS 3578, pp. 588-595, 2005. © Springer-Verlag Berlin Heidelberg 2005.
    27. Гришко А.А. Нейронечеткое краткосрочное прогнозирование в трейдинговых системах [Текст] / А.А. Гришко, С.Г. Удовенко// Мат. 11-й международной научно-практической конференции «Современные информационные и электронные технологии » Одесса 2010. С. 70.
    28. Гришко А.А. Многошаговый модифицированный алгоритм Q-обучения [Текст] / А.А. Гришко, С.Г. Удовенко // Праці V-ї міжнародної школи-семінару «Теорія прийняття рішень». Ужгород. 2010. С.7374.
    29. Гришко А.А. Комбинированные технические индикаторы в компьютерных системах трейдингового прогнозирования [Текст] / А.А. Гришко, С.Г. Удовенко // Матеріали научн.-техн.конф. «Сучасні напрямки розвитку інформаційно-комунікаційних технологій та засобів управління» Київ. 2010. С. 72.
    30. Гришко А.А. Модели принятия решений в интеллектуальных системах краткосрочного прогнозирования электропотребления [Текст] / А.А. Гришко, С.Г. Удовенко // Матеріали 2 Міжнародної научн.-техн.конф. «Сучасні напрямки розвитку інформаційно-комунікаційних технологій та засобів управління». Київ. 2011. С.48.
    31. Гришко А.А. Анализ сетевого трафика с использованием средств объектно-ориентированного программирования [Текст] / А.А. Гришко, А.С. Пискун, С.Г. Удовенко // Мат. 10-й международной научно-практической конференции «Современные информационные и электронные технологии » Одесса 2009. С. 136.
    32. Гришко А.А. Адаптивные стратегии принятия решений в системах электронной торговли [Текст] / А.А. Гришко // Мат. 8-й Международной научно-технической конференции «Проблемы информатики и моделирования» -Харьков: НТУ «ХПИ» 2008. С. 51.
    33. Гришко А.А. Система управления параллельным вычислительным процессом [Текст] / А.А. Гришко // Мат. 9-й Международной научно-технической конференции «Проблемы информатики и моделирования» Харьков: НТУ «ХПИ»2009. С. 47.
    34. Гришко А.А. Методы аппроксимации таблицы Q -значений в алгоритмах обучения с подкреплением [Текст] / А.А. Гришко // Материалы первой международной научно-технической конференции «Информационные технологии в навигации и управлении: состояние и перспективы развития». Киев. 2010. С.58.
    35. Гришко А.А. Анализ сходимости алгоритмов интерактивного машинного обучения в системах принятия оптимальных решений [Текст] / А.А. Гришко // Материалы второй международной научно-технической конференции «Информационные технологии в навигации и управлении: состояние и перспективы развития». Киев. 2011. С.39.
    36. Ручкин В.Н. Универсальный искусственный интеллект и экспертные системы [Текст] / В.Н. Ручкин, В.А. Фулин СПб.: БХВ-Петербург, 2009. 240с.
    37. Рыбина Г.В. Теория и практика построения интегрированных экспертных систем [Текст] /.Г.В. Рыбина // - М.: Научтехлитиздат, 2008. 485 с.
    38. Колесников А.В. Методология и технология решения сложных задач методами функциональных гибридных интеллектуальных систем [Текст] / А.В. Колесников, И.А. Кириков// - М.: ИПИ РАН, 2007. 387 с.
    39. Red’ko V.G. Theory of functional systems, adaptive critics and neural networks [Текст] / V.G. Red’ko, D.V. Prokhorov, M.S. Burtsev // International Joint Conference on Neural Networks. Budapest. 2004. P. 1787-1792.
    40. Witten I. Data Mining: Practical Machine Learning Tools and Techniques [Текст] / I. Witten, E. Frank // New York: Morgan Kaufmann, 2005. 525 p.
    41. Allen S. Financial risk management: A practitioner's guide to managing market and credit risk Hoboken [Текст] / S. Allen // N.J.: John Wiley & Sons, 2003. 288 p.
    42. Салабуто Н. Трейдинг. Торговые системы и методы [Текст] / Н. Салабуто // Санкт-Петербург: Питер, 2010. 336 с.
    43. Маркман Й. Свинг-трейдинг. Мощные стратегии уменьшения риска м увеличения прибыли [Текст] / Й. Маркман // М.: Smart Book, 2009. 312 с.
    44. Weissman R. Mechanical Trading Systems [Текст] / R. Weissman. // N.J.: John Wiley & Sons, 2005. 217 p.
    45. Fisher R. Chart Pattern Trading Tools [Текст] / R. Fisher, J. Fisher // New York: Wiley, 2003. 256 p.
    46. Вичугов В.Н. Метод подкрепляемого обучения в задачах автоматического управления [Текст] / В.Н. Вичугов, Г.П. Цапко // Известия Таганрогского государственного радиотехнического университета, 2007. № 3. С. 171-174.
    47. Вичугов В.Н. Нейросетевой метод подкрепляемого обучения в задачах автоматического управления [Текст] / В.Н. Вичугов // Известия Томского политехнического университета, 2006. т.309, № 7. С. 92-96.
    48. Chuan-Kai L. A reinforcement learning adaptive fuzzy controller for robots [Текст] / L. Chuan-Kai // Fuzzy Sets and Systems. 2003. Vol. 137, N3. - P. 339-352.
    49. Duan Y. Application of reinforcement learning in robot soccer [Текст] / Y. Duan, Q. Liu, X. He Xu // Engineering Applications of Artificial Intelligence. 2007. Vol. 20, N7. P. 936-950
    50. Hafner R. Reinforcement Learning on an omnidirectional mobile robot [Текст] / R. Hafner, M. Riedmiller // Proceedings of the 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2003. Vol. 1. P. 418-423.
    51. Kondo T. A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control [Текст] / T. Kondo, K. Ito // Robotics and Autonomous Systems. 2004. Vol. 46, N2. P. 111-124.
    52. Engelbrecht A. Computational Intelligence [Текст] / A. Engelbrecht // N.J.: John Wiley & Sons, 2007. 597 p.
    53. Б. Вильямс. Новые измерения в рыночной торговле [Текст] / Вильямс Б. // М.: ИК «Аналитика», 2000. 288с.
    54. Найман Э. Малая энциклопедия трейдера [Текст] / Э. Найман. // М.: Альпина Бизнес Букс, 2007. 403с.
    55. Dempster M. Computational learning techniques for intraday FX trading using popular technical indicators [Текст] / M. Dempster, T.W. Payne, Y. Romahi, G. Thompson // IEEE transactions on Neural Networks (Special Issue on Computational Finance)/ 2002/ - Vol. 12. P. 744 754
    56. Dempster M. Intraday FX trading: An evolutionary reinforcement learning approach. Intelligent data engineering and automated learning [Текст] / M.Dempster, Y.Romahi// Proceedings of the IDEAL 2002 International Conference. 2002. P. 347-358
    57. Элдер А. Основы биржевой торговли. [Текст] / Элдер А. // М: «CRP», 2002. 127с.
    58. Лиховидов В.Н. Фундаментальный анализ мировых валютных рынков [Текст] / В.Н. Лиховидов. // Владивосток: «Владивосток», 1999. 234с.
    59. Колмыкова Л.И. Фундаментальный анализ финансовых рынков / Л.И. Колмыкова // Санкт-Петербург: Питер, 2005. 288с.
    60. Швагер Д. Технический анализ [Текст] / Д. Швагер. // М.: Альпина Паблишер, 2012. 804с.
    61. Meyers T. The Thechnical Analysis Course [Текст] / T. Meyers. // New York: Mc Graw-Hill Irwin, 2002. 308 p.
    62. Мэрфи Д. Технический анализ фьючерсных рынков [Текст] / Д. Мэрфи. // М.: Альпина Паблишер, 2011. 616с.
    63. Колби Р. Энциклопедия технических индикаторов [Текст] / Р. Колби. // М.: Альпина Паблишер, 2011. 840с.
    64. Ямароне Р. Ключевые экономические индикаторы [Текст] / Р. Ямароне. // М.: Интернет-трейдинг, 2001. 364с.
    65. Шумков Е.А. Статистический анализ технических индикаторов [Текст] / Е.А. Шумков, В.А. Ботин // Политематический научный журнал КубГАУ [Электронный ресурс]. Краснодар : КубГАУ, 2010. № 64 C. 35-43
    66. Кузьмин В. Использование нейронных сетей в алгоритме Q-Learning [Текст] / В.Кузьмин. // Transport and Telecommunication. 2003 Vol. 12. №1. P. 7486
    67. Peters J. Reinforcement learning of motor skills with policy gradients [Текст] / J. Peters, S.Schaal // Neural Networks. 2008. Vol. 21, N4. P. 682-697.
    68. Шумков Е.А. Обучение и самообучение в адаптивных системах управления [Текст] / Е.А.Шумков, В.П. Стасевич, В.Н. Зуева // Известия вузов Северо-Кавказский регион. Технические науки. Новочеркасск, 2006. - №2. с. 84 86.
    69. Kamdem S. Fuzzy Sarsa with Focused Eligibility Traces for Robust and Accurate Control [Текст] / S.Kamdem, H.Ohki, N.Sueda // IEEJ Transactions on Electronics. Information and Systems. - 2010.Vol. 130.- P. 1023-1033
    70. Sutton R. Learning to predict by methods of temporal differences [Текст] / R. Sutton // MachineLearning. 1988. Vol. 3. P.9-44.
    71. Watkins C. Q-Learning [Текст] / C. Watkins, P. Dayan // Machine Learning.- 1992. Vol. 8. P. 279-292.
    72. Peng J. Incremental multi-step Q-learning [Текст] / J. Peng, R. Williams // In Proceedings of the 11 International Conference «Machine Learning-94», New Brunswick, USA, 1994 P. 226-234.
    73. Bradtke S. Linear least-squares algorithms for temporal difference learning [Текст] / S. Bradtke, A. Barto // Machine Learning. 1996- Vol. 22(1). P.9-44.
    74. Prokhorov D. Adaptive critic designs [Текст] / D. Prokhorov, D. Wunsch // IEEE Transactions on Neural Networks. 1997 P.997 1007.
    75. Редько В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков [Текст] / В.Г. Редько, О.П. Мосалов, Д.В. Прохоров // Искусственный интеллект. 2004 Т. 3 С. 550560.
    76. Bhatnagar, S. Actor-critic algorithms for hierarchical Markov decision processes [Текст] / S. Bhatnagar, J. R. Panigrahi // Automatica. 2006. №42. P. 637-644.
    77. Bhatnagar S. Natural actor-critic algorithms [Текст] / S. Bhatnagar, R. Sutton, M. Ghavamzadeh, M. Lee // In Proceedings of the 21 Annual Conference on Neural Information Processing Systems, 2007. P. 105112.
    78. Редько В.Г. Нейросетевые адаптивые критики [Текст] / В.Г. Редько, Д. В. Прохоров // Сборник научных трудов VI Всероссийской научно-технической конференции "Нейроинформатика-2004". Сборник научных трудов. Часть 2. М.: МИФИ, 2004 С.77-84.
    79. Мосалов О.П. Модели принятия решений на основе нейросетевых адаптивных критиков [Текст] / О.П. Мосалов, Д.В. Прохоров, В.Г. Редько // 9 национальная конференция по искусственному интеллекту с международным участием. Труды конференции М.: Физматлит 2004 Т. 3 С. 1156-1163.
    80. Kaelbling L. Reinforcement learning: A survey [Текст] / L. Kaelbling, M. Littman, A. Moore. // Journal of Artificial Intelligence Research. 1996. - N4. P. 237-285.
    81. Pal S. Multilayer Perceptron, Fuzzy Sets and Classification [Текст] / S. Pal, S. Mitra // IEEE Transactions on Neural Networks. 1992. Vol. 3, N 5. P. 683-696.
    82. Igel C. Neuroevolution for reinforcement learning using evolution strategies [Текст] / C. . Igel // Congress on Evolutionary Computation. IEEE Press, 2003. Vol. 4. P. 2588-2595.
    83. Florian R. A reinforcement learning algorithm for spiking neural networks [Текст] / R. Florian // Proc. of the 7th Internat. Symp. on Symbolic and Numeric Algorithms for Scientific Computing. (SYNASC’05). - Timisoara, 2005. P. 299306.
    84. Руденко О.Г. Основы теории искусственных нейронных сетей [Текст] / О.Г. Руденко, Е.В. Бодянский // Харьков: ТЕЛЕТЕХ, 2002. 317с.
    85. Горбань А. Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей [Текст] / А. Н. Горбань // Сибирский журнал вычислительной математики - 1998. Т. 1, № 1. С.12-24.
    86. Hornik K. Approximation capabilities of mulilayer feedforward network [Текст] / K. Hornik // Neural Networks. 1991 - N4. P. 251-257.
    87. Rummery G. On-line Q-Learning using connectionist systems [Текст] / G. Rummery., M. Niranjan // Cambridge: CUED/F. 1994. 20 p.
    88. Tesauro G. TD-gammon, a self-teaching backgammon program, achieves master-level play [Текст] / G. Tesauro // Neural Computation, 1994. Vol.6(2) P.215-219.
    89. Aid R. Application de l apprentissage par renforcement a la gestion du risque [Текст] /R. Aid, V. Grellied, A. Reno. O. Teytaud // Proc. of the Conference on Reinforcement Learning (CAP-2003). Paris, 2003. P.111-134.
    90. Lindsay C. Trident: A Trading Strategy [Текст] / C. Lindsay // UK: Windsor Books. 2009. 234 P.
    91. Whitehead S.D. Reinforcement Learning of Non-Markov Decision Processes [Текст] / S.D. Whitehead // Artificial Intelligence. 1995. Vol. 73. P.109-121.
    92. Еремеев А.П. Поддержка принятия решений в условиях неопределенности на основе немарковской модели [Текст] / А.П. Еремеев, Д.А. Тихонов, П.В. Шутова // Изв. РАН: Теория и системы управления, 2003. № 5. С. 7588.
    93. Подогов И.Ю. Обобщенный метод иерархического подкрепленного обучения для интеллектуальных систем поддержки принятия решений [Текст] / И.Ю. Подогов, А.П. Еремеев // Программные продукты и системы. 2008. №2. С. 2329
    94. Вагин В.Н. Некоторые базовые принципы построения интеллектуальных систем поддержки принятия решений реального времени [Текст] / В.Н. Вагин, А.П. Еремеев // Изв. РАН: Т
  • Стоимость доставки:
  • 200.00 грн


SEARCH READY THESIS OR ARTICLE


Доставка любой диссертации из России и Украины


THE LAST ARTICLES AND ABSTRACTS

ГБУР ЛЮСЯ ВОЛОДИМИРІВНА АДМІНІСТРАТИВНА ВІДПОВІДАЛЬНІСТЬ ЗА ПРАВОПОРУШЕННЯ У СФЕРІ ВИКОРИСТАННЯ ТА ОХОРОНИ ВОДНИХ РЕСУРСІВ УКРАЇНИ
МИШУНЕНКОВА ОЛЬГА ВЛАДИМИРОВНА Взаимосвязь теоретической и практической подготовки бакалавров по направлению «Туризм и рекреация» в Республике Польша»
Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА