Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами Диссертация

ВАКАНСИИ И СОТРУДНИЧЕСТВО

ПОСЛЕДНИЕ ОТЗЫВЫ

Получил заказанную диссертацию очень быстро, качество на высоте. Рекомендую пользоваться их услугами. Отправлял деньги предоплатой.

Порядочные люди. Приятно работать. Хороший сайт.

Спасибо Сергей! Файлы получил. Отличная работа!!! Все быстро как всегда. Мне нравиться с Вами работать!!! Скоро снова буду обращаться.

Отличный сервис mydisser.com. Тут работают честные люди, быстро отвечают, и в случае ошибки, как это случилось со мной, возвращают деньги. В общем все четко и предельно просто. Если еще буду заказывать работы, то только на mydisser.com.

Каталог / ТЕХНИЧЕСКИЕ НАУКИ / Математическое моделирование, численные методы и комплексы программ

Название:
Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами

Альтернативное название:
Сорокін Дмитро Ігорович Розробка методів машинного навчання з підкріпленням для керування робототехнічними пристроями та віртуальними агентами

Кол-во страниц:
115

ВУЗ:
Международный центр квантовой оптики и квантовых технологий «РКЦ»

Год защиты:
2023

Краткое описание:
Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами

ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ

кандидат наук Сорокин Дмитрий Игоревич

Введение

Глава 1. Обзор методов обучения с подкреплением и их

применения в роботике

1.1 Обзор методов глубокого обучения с подкреплением

1.1.1 Нейронные сети

1.1.2 Обучение с подкреплением

1.1.3 Уравнение Беллмана

1.1.4 Метод value iteration

1.1.5 Off-policy алгоритмы

1.1.6 On-policy алгоритмы

1.1.7 Использование внутренней мотивации в средах с редкой наградой

1.1.8 Мета-обучение

1.1.9 Иерархические методы обучения с подкреплением

1.2 Обзор применения методов обучения с подкреплением в роботике

Глава 2. Разработка метода, способного оперировать

действиями различного масштаба, устойчивого к оптическим шумам, и его применение для настройки

оптического интерферометра

2.1 Физические принципы работы и модель оптического интерферометра

2.1.1 Математическая модель интерференции света

2.1.2 Математическая модель интерферометра Маха-Цендера

2.1.3 Видность интерференционной картины

2.1.4 Математическая модель интерферометра Маха-Цендера

с линзами

2.1.5 Видность интерференционной картины в интерферометре Маха-Цендера с линзами

2.1.6 Численная модель интерферометра Маха-Цендера

2.2 Настройка оптического интерферометра как задача машинного обучения с подкреплением

2.2.1 Пространство состояний и действий и длительность

эпизода

2.3 Метод настройки с использованием дискретного пространства

действий

2.3.1 Дискретизация пространства действий

2.3.2 Функция награды

2.3.3 Архитектура нейронной сети агента

2.3.4 Параметры агента и обучение в симуляции

2.4 Метод настройки с использованием непрерывного пространства

действий

2.4.1 Пространство действий

2.4.2 Функция награды

2.4.3 Архитектура нейронной сети агента

2.4.4 Параметры агента и обучения в симуляции

2.5 Программно-аппаратный комплекс Интерферобот

2.6 Перенос из симуляции в реальность

2.7 Настройка интерферометра Маха-Цендера без линз

2.7.1 Оценка результатов работы агента на экспериментальной установке

2.7.2 Анализ стратегии используемой агентом при настройке интерферометра

2.7.3 Анализ эффективности шумов использованных при обучении

2.8 Настройка интерферометра Маха-Цендера с системой линз

2.8.1 Оценка результатов работы агента на экспериментальной установке

2.8.2 Анализ стратегии используемой агентом при настройке интерферометра

2.8.3 Анализ эффективности шумов использованных при обучении

2.9 Выводы

Глава 3. Метод обучения стратегии для управления

движением шагающего робота с заданной линейной и

угловой скоростью

3.1 Постановка задачи управления шагающим роботом

3.2 Метод управления линейной и угловой скоростью шагающего робота основанный на обучении с подкреплением

3.3 Оценка результатов работы в симуляции

3.4 Выводы

Глава 4. Иерархический алгоритм, комбинирующий

алгоритмический и нейросетевой подходы и его

применение для управления агентом в среде NetHack

4.1 NetHack - одна из самых сложных игр для ЯЬ

4.1.1 NLE - среда основанная на игре ^Шаск

4.2 Декомпозиция игры ^Шаск на подзадачи

4.3 Обучение иерархического агента совмещающего обучение с подкреплением и алгоритмический подход

4.4 Выводы

Заключение

Список литературы

Список рисунков

Список таблиц

Приложение А. Листинги программного кода

А.1 Функция трассировки луча через систему зеркал

А.2 Функция рассчитывающая параметры луча при прохождении

системы зеркал

А.3 Листинг функции вычисления интерференционной картины

А.4 Листинг задания нейронной сети DQN агента

А.5 Листинг задания нейронной сети TD3 агента

Приложение Б. Вывод основных формул

Б.1 Вывод формулы видности для интерферометра Маха-Цендера

(2.9)

Б.2 Вывод формулы видности для интерферометра Маха-Цендера с

линзами (2.16)

Приложение В. Изображения интерференционных картин