Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами



  • Название:
  • Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами
  • Альтернативное название:
  • Сорокін Дмитро Ігорович Розробка методів машинного навчання з підкріпленням для керування робототехнічними пристроями та віртуальними агентами
  • Кол-во страниц:
  • 115
  • ВУЗ:
  • Международный центр квантовой оптики и квантовых технологий «РКЦ»
  • Год защиты:
  • 2023
  • Краткое описание:
  • Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами

    ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ

    кандидат наук Сорокин Дмитрий Игоревич

    Введение



    Глава 1. Обзор методов обучения с подкреплением и их



    применения в роботике



    1.1 Обзор методов глубокого обучения с подкреплением



    1.1.1 Нейронные сети



    1.1.2 Обучение с подкреплением



    1.1.3 Уравнение Беллмана



    1.1.4 Метод value iteration



    1.1.5 Off-policy алгоритмы



    1.1.6 On-policy алгоритмы



    1.1.7 Использование внутренней мотивации в средах с редкой наградой



    1.1.8 Мета-обучение



    1.1.9 Иерархические методы обучения с подкреплением



    1.2 Обзор применения методов обучения с подкреплением в роботике



    Глава 2. Разработка метода, способного оперировать



    действиями различного масштаба, устойчивого к оптическим шумам, и его применение для настройки



    оптического интерферометра



    2.1 Физические принципы работы и модель оптического интерферометра



    2.1.1 Математическая модель интерференции света



    2.1.2 Математическая модель интерферометра Маха-Цендера



    2.1.3 Видность интерференционной картины



    2.1.4 Математическая модель интерферометра Маха-Цендера



    с линзами



    2.1.5 Видность интерференционной картины в интерферометре Маха-Цендера с линзами



    2.1.6 Численная модель интерферометра Маха-Цендера



    2.2 Настройка оптического интерферометра как задача машинного обучения с подкреплением



    2.2.1 Пространство состояний и действий и длительность



    эпизода



    2.3 Метод настройки с использованием дискретного пространства



    действий



    2.3.1 Дискретизация пространства действий



    2.3.2 Функция награды



    2.3.3 Архитектура нейронной сети агента



    2.3.4 Параметры агента и обучение в симуляции



    2.4 Метод настройки с использованием непрерывного пространства



    действий



    2.4.1 Пространство действий



    2.4.2 Функция награды



    2.4.3 Архитектура нейронной сети агента



    2.4.4 Параметры агента и обучения в симуляции



    2.5 Программно-аппаратный комплекс Интерферобот



    2.6 Перенос из симуляции в реальность



    2.7 Настройка интерферометра Маха-Цендера без линз



    2.7.1 Оценка результатов работы агента на экспериментальной установке



    2.7.2 Анализ стратегии используемой агентом при настройке интерферометра



    2.7.3 Анализ эффективности шумов использованных при обучении



    2.8 Настройка интерферометра Маха-Цендера с системой линз



    2.8.1 Оценка результатов работы агента на экспериментальной установке



    2.8.2 Анализ стратегии используемой агентом при настройке интерферометра



    2.8.3 Анализ эффективности шумов использованных при обучении



    2.9 Выводы



    Глава 3. Метод обучения стратегии для управления



    движением шагающего робота с заданной линейной и



    угловой скоростью



    3.1 Постановка задачи управления шагающим роботом



    3.2 Метод управления линейной и угловой скоростью шагающего робота основанный на обучении с подкреплением



    3.3 Оценка результатов работы в симуляции



    3.4 Выводы



    Глава 4. Иерархический алгоритм, комбинирующий



    алгоритмический и нейросетевой подходы и его



    применение для управления агентом в среде NetHack



    4.1 NetHack - одна из самых сложных игр для ЯЬ



    4.1.1 NLE - среда основанная на игре ^Шаск



    4.2 Декомпозиция игры ^Шаск на подзадачи



    4.3 Обучение иерархического агента совмещающего обучение с подкреплением и алгоритмический подход



    4.4 Выводы



    Заключение



    Список литературы



    Список рисунков



    Список таблиц



    Приложение А. Листинги программного кода



    А.1 Функция трассировки луча через систему зеркал



    А.2 Функция рассчитывающая параметры луча при прохождении



    системы зеркал



    А.3 Листинг функции вычисления интерференционной картины



    А.4 Листинг задания нейронной сети DQN агента



    А.5 Листинг задания нейронной сети TD3 агента



    Приложение Б. Вывод основных формул



    Б.1 Вывод формулы видности для интерферометра Маха-Цендера



    (2.9)



    Б.2 Вывод формулы видности для интерферометра Маха-Цендера с



    линзами (2.16)



    Приложение В. Изображения интерференционных картин
  • Список литературы:
  • -
  • Стоимость доставки:
  • 230.00 руб


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины