Каталог / ТЕХНИЧЕСКИЕ НАУКИ / Теоретические основы информатики
скачать файл:
- Название:
- Сорокин Артём Юрьевич Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением
- Альтернативное название:
- Сорокін Артем Юрійович Дослідження робочої пам'яті та механізмів швидкої адаптації у навчанні з підкріпленням
- ВУЗ:
- Московский физико-технический институт (национальный исследовательский университет)
- Краткое описание:
- Сорокин Артём Юрьевич Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением
ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ
кандидат наук Сорокин Артём Юрьевич
Введение
Глава 1. Агентный подход и обучение с подкреплением
1.1 Обучение с подкреплением
1.1.1 Обобщенная итерация по стратегиям
1.1.2 Табличное обучение с подкреплением
1.1.3 Глубокое обучение с подкреплением
1.2 Обучение агентов решению нескольких задач
1.2.1 Параллельное обучение на нескольких задачах
1.2.2 Иерархическое обучение с подкреплением
1.2.3 Мета-обучение
1.3 Состояние исследований
Глава 2. Стохастические графы и быстрая адаптация
2.1 Сеть функциональных систем
2.1.1 Теоретические предпосылки
2.1.2 Архитектура сети функциональных систем
2.1.3 Обучение сети функциональных систем
2.2 Обучение с подкреплением для сети функциональных систем
2.3 Стохастические графы
2.4 Топологии сред
2.5 Эксперимент
2.6 Результаты
2.7 Q-leaгning с памятью
2.8 Выводы
Глава 3. Общая рабочая память для многозадачного и
непрерывного обучения
3.1 Обзор литературы
3.1.1 Многозадачное обучение с подкреплением
3.1.2 Иерархическое обучение с подкреплением
Стр.
3.1.3 Память в обучении с подкреплением
3.2 Общая рабочая память для многозадачного обучения с подкреплением
3.2.1 Процедура, объединяющая мета-обучение и многозадачное обучение с подкреплением
3.2.2 Архитектура общей рабочей памяти агента
3.2.3 Факторизованный ЬБТМ слой
3.2.4 Детали 8ЕМ-Л2О Архитектуры
3.3 Эксперименты
3.3.1 Многозадачное обучение
3.3.2 Непрерывное обучение
3.4 Выводы
Глава 4. Обучение долговременной памяти через предсказание
событий высокой неопределенности
4.1 Обучение памяти через предсказание событий высокой неопределенности
4.1.1 Память как механизм минимизации неопределенности
4.1.2 Оптимизация нейросетевой памяти
4.2 МешИР для рекуррентных сетей
4.2.1 Пространственная сложность алгоритма МешИР
4.3 Реализация рекуррентной архитектуры МетиР
4.3.1 Детектор неопределенности
4.3.2 Модуль памяти
4.3.3 Предиктор
4.3.4 Агент
4.4 Обзор работ, рассматривающих обучение долговременной памяти
4.5 Эксперименты: обучение с учителем
4.6 Эксперименты: обучение с подкреплением
4.6.1 Зашумленный Т-лабиринт
4.6.2 Трёхмерная среда ViZDoom
4.6.3 Результаты и обсуждение
4.7 Исследование роли отдельных модификаций, составляющих алгоритм МешИР
Стр.
4.8 Чувствительность метода к проблеме Шумного Телевизора
4.9 Выводы
Заключение
Список сокращений и условных обозначений
Словарь терминов
Список литературы
Список рисунков
Список таблиц
- Стоимость доставки:
- 230.00 руб