Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами




  • скачать файл:
  • title:
  • Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами
  • Альтернативное название:
  • Сорокін Дмитро Ігорович Розробка методів машинного навчання з підкріпленням для керування робототехнічними пристроями та віртуальними агентами
  • The number of pages:
  • 115
  • university:
  • Международный центр квантовой оптики и квантовых технологий «РКЦ»
  • The year of defence:
  • 2023
  • brief description:
  • Сорокин Дмитрий Игоревич Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентами

    ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ

    кандидат наук Сорокин Дмитрий Игоревич

    Введение



    Глава 1. Обзор методов обучения с подкреплением и их



    применения в роботике



    1.1 Обзор методов глубокого обучения с подкреплением



    1.1.1 Нейронные сети



    1.1.2 Обучение с подкреплением



    1.1.3 Уравнение Беллмана



    1.1.4 Метод value iteration



    1.1.5 Off-policy алгоритмы



    1.1.6 On-policy алгоритмы



    1.1.7 Использование внутренней мотивации в средах с редкой наградой



    1.1.8 Мета-обучение



    1.1.9 Иерархические методы обучения с подкреплением



    1.2 Обзор применения методов обучения с подкреплением в роботике



    Глава 2. Разработка метода, способного оперировать



    действиями различного масштаба, устойчивого к оптическим шумам, и его применение для настройки



    оптического интерферометра



    2.1 Физические принципы работы и модель оптического интерферометра



    2.1.1 Математическая модель интерференции света



    2.1.2 Математическая модель интерферометра Маха-Цендера



    2.1.3 Видность интерференционной картины



    2.1.4 Математическая модель интерферометра Маха-Цендера



    с линзами



    2.1.5 Видность интерференционной картины в интерферометре Маха-Цендера с линзами



    2.1.6 Численная модель интерферометра Маха-Цендера



    2.2 Настройка оптического интерферометра как задача машинного обучения с подкреплением



    2.2.1 Пространство состояний и действий и длительность



    эпизода



    2.3 Метод настройки с использованием дискретного пространства



    действий



    2.3.1 Дискретизация пространства действий



    2.3.2 Функция награды



    2.3.3 Архитектура нейронной сети агента



    2.3.4 Параметры агента и обучение в симуляции



    2.4 Метод настройки с использованием непрерывного пространства



    действий



    2.4.1 Пространство действий



    2.4.2 Функция награды



    2.4.3 Архитектура нейронной сети агента



    2.4.4 Параметры агента и обучения в симуляции



    2.5 Программно-аппаратный комплекс Интерферобот



    2.6 Перенос из симуляции в реальность



    2.7 Настройка интерферометра Маха-Цендера без линз



    2.7.1 Оценка результатов работы агента на экспериментальной установке



    2.7.2 Анализ стратегии используемой агентом при настройке интерферометра



    2.7.3 Анализ эффективности шумов использованных при обучении



    2.8 Настройка интерферометра Маха-Цендера с системой линз



    2.8.1 Оценка результатов работы агента на экспериментальной установке



    2.8.2 Анализ стратегии используемой агентом при настройке интерферометра



    2.8.3 Анализ эффективности шумов использованных при обучении



    2.9 Выводы



    Глава 3. Метод обучения стратегии для управления



    движением шагающего робота с заданной линейной и



    угловой скоростью



    3.1 Постановка задачи управления шагающим роботом



    3.2 Метод управления линейной и угловой скоростью шагающего робота основанный на обучении с подкреплением



    3.3 Оценка результатов работы в симуляции



    3.4 Выводы



    Глава 4. Иерархический алгоритм, комбинирующий



    алгоритмический и нейросетевой подходы и его



    применение для управления агентом в среде NetHack



    4.1 NetHack - одна из самых сложных игр для ЯЬ



    4.1.1 NLE - среда основанная на игре ^Шаск



    4.2 Декомпозиция игры ^Шаск на подзадачи



    4.3 Обучение иерархического агента совмещающего обучение с подкреплением и алгоритмический подход



    4.4 Выводы



    Заключение



    Список литературы



    Список рисунков



    Список таблиц



    Приложение А. Листинги программного кода



    А.1 Функция трассировки луча через систему зеркал



    А.2 Функция рассчитывающая параметры луча при прохождении



    системы зеркал



    А.3 Листинг функции вычисления интерференционной картины



    А.4 Листинг задания нейронной сети DQN агента



    А.5 Листинг задания нейронной сети TD3 агента



    Приложение Б. Вывод основных формул



    Б.1 Вывод формулы видности для интерферометра Маха-Цендера



    (2.9)



    Б.2 Вывод формулы видности для интерферометра Маха-Цендера с



    линзами (2.16)



    Приложение В. Изображения интерференционных картин
  • bibliography:
  • -
  • Стоимость доставки:
  • 230.00 руб


SEARCH READY THESIS OR ARTICLE


Доставка любой диссертации из России и Украины


THE LAST THESIS

Динамика лабораторных показателей, отражающих функциональную активность макрофагальной системы, у пациентов с болезнью Гоше I типа на фоне патогенетической терапии Пономарев Родион Викторович
Особенности мобилизации и забора гемопоэтических стволовых клеток при аутологичной трансплантации у больных с лимфопролиферативными заболеваниями Федык Оксана Владимировна
Оценка стабильности молекулярной ремиссии и качества жизни больных хроническим миелолейкозом при отмене терапии ингибиторами тирозинкиназ Петрова Анна Николаевна
Реконституция субпопуляций Т-клеток памяти у больных острыми лейкозами после трансплантации аллогенных гемопоэтических стволовых клеток Попова Наталья Николаевна
Антитромботическая терапия и профилактика тромбозов глубоких вен у детей с гемобластозами и синдромами костномозговой недостаточности Жарков Павел Александрович

THE LAST ARTICLES AND ABSTRACTS

Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА
Антонова Александра Сергеевна СОРБЦИОННЫЕ И КООРДИНАЦИОННЫЕ ПРОЦЕССЫ ОБРАЗОВАНИЯ КОМПЛЕКСОНАТОВ ДВУХЗАРЯДНЫХ ИОНОВ МЕТАЛЛОВ В РАСТВОРЕ И НА ПОВЕРХНОСТИ ГИДРОКСИДОВ ЖЕЛЕЗА(Ш), АЛЮМИНИЯ(Ш) И МАРГАНЦА(ІУ)
БАЗИЛЕНКО АНАСТАСІЯ КОСТЯНТИНІВНА ПСИХОЛОГІЧНІ ЧИННИКИ ФОРМУВАННЯ СОЦІАЛЬНОЇ АКТИВНОСТІ СТУДЕНТСЬКОЇ МОЛОДІ (на прикладі студентського самоврядування)