Сорокин Артём Юрьевич Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением




  • скачать файл:
  • Название:
  • Сорокин Артём Юрьевич Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением
  • Альтернативное название:
  • Сорокін Артем Юрійович Дослідження робочої пам'яті та механізмів швидкої адаптації у навчанні з підкріпленням
  • Кол-во страниц:
  • 122
  • ВУЗ:
  • Московский физико-технический институт (национальный исследовательский университет)
  • Год защиты:
  • 2022
  • Краткое описание:
  • Сорокин Артём Юрьевич Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением
    ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ
    кандидат наук Сорокин Артём Юрьевич
    Введение

    Глава 1. Агентный подход и обучение с подкреплением

    1.1 Обучение с подкреплением

    1.1.1 Обобщенная итерация по стратегиям

    1.1.2 Табличное обучение с подкреплением

    1.1.3 Глубокое обучение с подкреплением

    1.2 Обучение агентов решению нескольких задач

    1.2.1 Параллельное обучение на нескольких задачах

    1.2.2 Иерархическое обучение с подкреплением

    1.2.3 Мета-обучение

    1.3 Состояние исследований

    Глава 2. Стохастические графы и быстрая адаптация

    2.1 Сеть функциональных систем

    2.1.1 Теоретические предпосылки

    2.1.2 Архитектура сети функциональных систем

    2.1.3 Обучение сети функциональных систем

    2.2 Обучение с подкреплением для сети функциональных систем

    2.3 Стохастические графы

    2.4 Топологии сред

    2.5 Эксперимент

    2.6 Результаты

    2.7 Q-leaгning с памятью

    2.8 Выводы

    Глава 3. Общая рабочая память для многозадачного и

    непрерывного обучения

    3.1 Обзор литературы

    3.1.1 Многозадачное обучение с подкреплением

    3.1.2 Иерархическое обучение с подкреплением

    Стр.

    3.1.3 Память в обучении с подкреплением

    3.2 Общая рабочая память для многозадачного обучения с подкреплением

    3.2.1 Процедура, объединяющая мета-обучение и многозадачное обучение с подкреплением

    3.2.2 Архитектура общей рабочей памяти агента

    3.2.3 Факторизованный ЬБТМ слой

    3.2.4 Детали 8ЕМ-Л2О Архитектуры

    3.3 Эксперименты

    3.3.1 Многозадачное обучение

    3.3.2 Непрерывное обучение

    3.4 Выводы

    Глава 4. Обучение долговременной памяти через предсказание

    событий высокой неопределенности

    4.1 Обучение памяти через предсказание событий высокой неопределенности

    4.1.1 Память как механизм минимизации неопределенности

    4.1.2 Оптимизация нейросетевой памяти

    4.2 МешИР для рекуррентных сетей

    4.2.1 Пространственная сложность алгоритма МешИР

    4.3 Реализация рекуррентной архитектуры МетиР

    4.3.1 Детектор неопределенности

    4.3.2 Модуль памяти

    4.3.3 Предиктор

    4.3.4 Агент

    4.4 Обзор работ, рассматривающих обучение долговременной памяти

    4.5 Эксперименты: обучение с учителем

    4.6 Эксперименты: обучение с подкреплением

    4.6.1 Зашумленный Т-лабиринт

    4.6.2 Трёхмерная среда ViZDoom

    4.6.3 Результаты и обсуждение

    4.7 Исследование роли отдельных модификаций, составляющих алгоритм МешИР

    Стр.

    4.8 Чувствительность метода к проблеме Шумного Телевизора

    4.9 Выводы

    Заключение

    Список сокращений и условных обозначений

    Словарь терминов

    Список литературы

    Список рисунков

    Список таблиц
  • Список литературы:
  • -
  • Стоимость доставки:
  • 230.00 руб


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины


ПОСЛЕДНИЕ СТАТЬИ И АВТОРЕФЕРАТЫ

ГБУР ЛЮСЯ ВОЛОДИМИРІВНА АДМІНІСТРАТИВНА ВІДПОВІДАЛЬНІСТЬ ЗА ПРАВОПОРУШЕННЯ У СФЕРІ ВИКОРИСТАННЯ ТА ОХОРОНИ ВОДНИХ РЕСУРСІВ УКРАЇНИ
МИШУНЕНКОВА ОЛЬГА ВЛАДИМИРОВНА Взаимосвязь теоретической и практической подготовки бакалавров по направлению «Туризм и рекреация» в Республике Польша»
Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА