ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ



Название:
ГИБРИДНЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ
Тип: Автореферат
Краткое содержание:

 


ОСНОВНИЙ ЗМІСТ РОБОТИ


 


У вступі обґрунтовано актуальність теми, сформульовано мету та задачі дослідження, наведено відомості про зв’язки вибраного напрямку дослідження із планами організації, де виконана робота. Дано стислу анотацію отриманих в дисертації результатів, зазначено їх практичну цінність, обґрунтованість і достовірність. Наведено дані про використання проведених досліджень у практичних додатках.


Перший розділ присвячено аналізу стану застосування методів RL-навчання в системах інтелектуальної обробки даних. Відзначено, що інтелектуальні системи, де найбільш активно застосовуються такі методи, можна поділити на два класи: трейдингові системи (клас А) та системи керування стохастичними процесами за умов невизначеності (клас Б). Показано доцільність та актуальність розробки нових та модифікації існуючих гібридних методів RL-навчання в інтелектуальних системах різного функціонального призначення (на прикладі трейдингових систем та систем інтелектуального керування) з метою підвищення ефективності прийняття рішень. До трейдингових систем належать системи, що здійснюють поточний аналіз стану середовища (фінансового ринку, ринку цінних паперів, вартості енергетичних ресурсів тощо) та виробляють в реальному часі (на основі функцій оцінок, що застосовують сигнали підкріплення) рекомендації щодо здійснення найменш ризикованих транзакцій. До систем інтелектуального керування стохастичними процесами, що можуть бути ефективно реалізовані з використанням методів RL-навчання, належать, наприклад, системи інтелектуального керування технологічними процесами з марковською моделлю поведінки, системи керування мобільними об’єктами тощо. Алгоритм Q-навчання ідентифікує дискретній набір станів довколишнього середовища  та виконує одну з можливих дій з множини . У відповідь на дію  в час  при поточному стані  агент системи отримує сигнал підкріплення  від середовища, після чого воно переходить до нового стану. В алгоритмі використовуються функції переходу . Задача базового алгоритму Q-навчання – визначити та реалізувати стратегію  згідно з поточним станом  (тобто ), що відповідає максимальному значенню суми сигналів підкріплення впродовж значного часу. Для формалізації цієї задачі використовують функцію , що є сумою всіх сигналів, отриманих алгоритмом, який стартує зі стану  з використанням стратегії :












(1)



де  – послідовність сигналів підкріплення;  – коефіцієнт дисконтування, що визначає поточну вагу майбутніх доходів. Оптимальна стратегія, що максимізує повний виграш, починаючи з будь-якого стану, може бути представлена у наступному вигляді:











 .



(2)



 



Агент в змозі реалізувати стратегію (2) на підставі оптимального значення функції , якщо є в наявності сигнал підкріплення та функція переходу. Зазвичай замість функції переходу використовують Q-функцію, значення якої зберігаються у двовимірній таблиці . Через неможливість застосування таблиць значної вимірності при вирішенні практичних задач Q-функцію апроксимують за допомогою нейромереж. Існує чимало методів прискорення машинного навчання (алгоритм TD, використання адаптивних критиків тощо). Втім аналіз показує, що актуальним залишається питання розробки гібридних методів обробки даних в інтелектуальних системах класів А та Б, пов’язаних з комбінованим застосуванням методів машинного навчання, нейромережевих прогнозуючих моделей та еволюційних процедур оптимізації. За результатами такого аналізу сформульовано завдання наукового дослідження, здійснюваного в дисертації.


Другий розділ присвячено розробці гібридних методів машинного навчання з підкріпленням (RL-навчання) в системах електронної біржової торгівлі (трейдингових системах). Сутність RL-навчання, що використовується для систем цього класу, полягає в наступному: агент трейдингової системи має досліджувати поточні біржові ситуації та приймати рішення навіть при неповній інформації щодо цих ситуацій. Єдиний зворотний зв'язок, що отримується агентом від біржового ринку – скалярний сигнал підкріплення (позитивний, коли дії агенту є прибутковими для трейдера та негативними в іншому випадку). Однією з функцій агенту може бути прогнозування фінансових рядів (наприклад, курсів валют) з використанням методів технічного аналізу, що базуються на застосуванні різних торгових моделей та спеціальних індикаторів стану ринку.


В роботі наведено приклад формування оптимальних стратегій з використанням алгоритма RL-навчання за результатами аналізу Q-значень, що дає змогу праналізувати принцип роботи трейдингової системи з двома індикаторами фінансового ринку та двома типами транзакцій агенту (купівля (buy) або продаж (sell). Слід зазначити, що в сучасному технічному аналізі використовують велику сукупність індикаторів, що допомогають визначити тенденції зміни показників біржового ринку. На цей час існує більш, ніж триста технічних індикаторів, що активно використовуються. Проаналізувати поведінку такої кількості індикаторів у реальному часі неможливо навіть із застосуванням комп’ютерної техніки.


 


В дисертаційній роботі вперше запропоновано метод адаптації структури технічних індикаторів до поточного стану біржового ринку з подальшим формуванням стратегій трейдингової інтелектуальної системи, що базується на використанні комбінованого RL-навчання та генетичних алгоритмів (ГА). Показано, що для оцінки ефективності роботи трейдингових систем, побудованих на основі RL-навчання, найбільш доцільним є використання коефіцієнту Стерлінга (Кс), що визначається відношенням прогнозованої прибутковості до максимально можливих втрат, або коефіцієнту позитивних наслідків (Кпн), що визначається відсотковим відношенням прибуткових та збиткових транзакцій трейдингової системи. На практиці часто використовують як сигнали для входу до ринку або виходу з нього перетин двох ковзних середніх з різними періодами. Якщо швидке (з меншим періодом) ковзне середнє перетинає повільне (з більшим періодом) ковзне середнє знизу догори – це сигнал до купівлі, що відповідає входу до довгої позиції або виходу з короткої позиції. Якщо ж швидке ковзне середнє перетинає повільне згори донизу, то це сигнал до продажу. Ця техніка має назву методу подвійних перетинів. Таким чином, трйдингова система має відображувати два типи торгових стратегій – відкриття (вхідна стратегія) та закриття (вихідна стратегія).

 


Обновить код

Заказать выполнение авторской работы:

Поля, отмеченные * обязательны для заполнения:


Заказчик:


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины