Куратов Юрий Михайлович Специализация языковых моделей для применения к задачам обработки естественного языка




  • скачать файл:
  • title:
  • Куратов Юрий Михайлович Специализация языковых моделей для применения к задачам обработки естественного языка
  • Альтернативное название:
  • Куратов Юрій Михайлович Спеціалізація мовних моделей для застосування до завдань обробки природної мови
  • The number of pages:
  • 121
  • university:
  • Московский физико-технический институт (национальный исследовательский университет)
  • The year of defence:
  • 2020
  • brief description:
  • Куратов Юрий Михайлович Специализация языковых моделей для применения к задачам обработки естественного языка
    ОГЛАВЛЕНИЕ ДИССЕРТАЦИИ
    кандидат наук Куратов Юрий Михайлович
    Введение

    Глава 1. Языковые модели в задачах обработки естественного

    языка

    1.1 Языковые модели

    1.1.1 Sequence-to-sequence модели

    1.1.2 Sequence-to-sequence модели и механизм внимания

    1.1.3 Словари и токенизация

    1.2 Предобучение языковых моделей

    1.3 Применение предобученных векторных представлений слов

    1.3.1 Контекстно-независимые векторные представления слов

    1.3.2 Контекстно-зависимые векторные представления слов

    Глава 2. Обучение языковых моделей на базе архитектуры

    Трансформер

    2.1 Архитектура Трансформер

    2.1.1 Self-attention

    2.1.2 Трансформер

    2.2 Предобучение языковых моделей BERT

    2.2.1 Сравнение BERT с ELMo, GPT

    2.2.2 Задачи предобучения

    2.2.3 Формат входных данных

    2.2.4 Особенность BERT как языковой модели

    2.2.5 Предобученные модели BERT

    2.3 Перенос знаний с обученных языковых моделей BERT

    2.3.1 Инициализация векторных представлений для новых сабтокенов

    2.3.2 Перенос знаний с многоязычных на языко-специфичные языковые модели

    2.3.3 Перенос знаний языковых моделей с одного домена на другой

    Стр.

    2.3.4 Данные для обучения языковых моделей на базе архитектуры Трансформер

    2.3.5 Обучение языковых моделей с архитектурой Трансформер

    Глава 3. Применение языковых моделей на базе архитектуры

    трансформер к задачам обработки естественного языка

    3.1 Классификация текстов

    3.1.1 Описание подхода к классификации с использованием языковых моделей на базе архитектуры Трансформер

    3.1.2 Описание данных

    3.2 Разметка последовательности

    3.2.1 Описание подхода к разметке последовательностей с использованием языковых моделей на базе архитектуры Трансформер

    3.2.2 Описание данных

    3.2.3 Метрики качества

    3.3 Результаты на задачах классификации и разметки последовательностей

    Глава 4. Разрешение кореференции и языковые модели

    4.1 Обзор данных и методов для разрешения кореференции

    4.2 Описание экспериментов

    4.2.1 Базовая модель

    4.2.2 Базовая модель с ЕЬМо

    4.2.3 Базовая модель с КиБЕКТ

    4.3 Результаты экспериментов

    4.4 Новые модели, которые появились после экспериментов, проведенных в данной работе

    Глава 5. Вопросно-ответные системы и языковые модели

    5.1 Поиск ответа на вопрос в тексте

    5.1.1 Описание подхода к поиску ответа на вопрос в тексте с использованием языковых моделей на базе архитектуры

    Трансформер

    Стр.

    5.1.2 Базовая модель на основе

    5.1.3 Описание данных

    5.1.4 Метрики

    5.1.5 Результаты

    Заключение

    Список сокращений и условных обозначений

    Словарь терминов

    Список литературы

    Список рисунков

    Список таблиц
  • bibliography:
  • Заключение
    Основные результаты данной диссертации заключаются в следующем.
    1. Предложен метод переноса знаний с обученных языковых моделей BERT и показано, что предложенный метод переноса знаний позволяет уско¬рить процесс предобучения языковых моделей.
    2. Частью предложенного метода переноса знаний является пересборка словаря под новый язык или домен. Пересобранные словари позволяют уменьшить длины входных последовательностей (примерно в 1,6 раз для русского языка), а значит ускорить работу моделей и уменьшить требования к доступной оперативной или видеопамяти.
    3. Предложенный метод переноса знаний применен для предобучения языко-специфичных RuBERT для русского языка и Славянский BERT для болгарского, чешского, польского и русского языков. Также, пред-ложенный метод переноса знаний применен для предобучения моделей разговорного домена для английского и русского языков.
    4. На задачах классификации текста, разметки последовательности и поиска ответа на вопрос в тексте показано, что языко-специфичные модели демонстрируют лучшие результаты, чем многоязычные моде¬ли для заданного языка (улучшение от 1,2 F-1 до 6,5 F-1 на разных задачах).
    5. На задачах классификации текста показано, что предобученные язы-ковые модели на данных схожего домена демонстрируют лучшие значения метрик, чем модели общего домена (улучшение от 0,8 F-1 до 3,67 F-1 на разных задачах).
    6. Обученные в рамках работы над диссертацией языко- и доменно- специ¬фичные модели позволили улучшить ранее опубликованные результаты для разных задач обработки естественного языка (классификации, распознавания именованных сущностей, разрешения кореференции и анафоры, поиска ответа на вопрос в тексте) и для разных наборов данных (RuSentiment, ParaPhraser, Collection-3, BSNLP-2019, RuCor, AnCor, SDSJ Task B (SberQuAD)).
    7. Все предобученные языковые модели выложены в публичный доступ в библиотеке DeepPavlov, как и большинство моделей обученных на целевых задачах.
    В качестве рекомендаций по применению полученных результатов
    хотелось бы отметить, что предложенный метод переноса знаний позволяет сократить время необходимое для предобучения модели (инициализированной случайными параметрами) примерно на 5 дней (на DGX-1 с 8 P-100 16 Гб). Таким образом, перенос знаний помогает дообучить модели в условии ограни-ченных временных ресурсов. Предложенный метод переноса знаний может быть применен к любым доменам и к любым языкам из тех, на которых была пре- добучена модель многоязычный BERT. Предложенный метод переноса знаний может быть применен для предобучения других языковых моделей (например GPT [7], ALBERT [64], XLNet [61]).
    Рекомендации касательно обученных в данной работе языковых моделей: следует использовать модель RuBERT для решения задач на русском языке вместо модели многоязычный BERT. Также рекомендуется использовать модель Славянский BERT для решения задач на болгарском, чешском, польском языках вместо модели многоязычный BERT. В случае, если данные решаемой задачи имеют разговорную структуру или содержат неформальный язык, то стоит использовать модели разговорный RuBERT для русского и разговорный BERT для английского языка. Домен используемой предобученной языковой модели важен, поэтому при наличии достаточно больших объемов текстовых данных нужного домена стоит дообучать языковую модель на этих данных методом, предложенным в этой работе. В открытый доступ выложен целый ряд моде¬лей, решающих различные задачи обработки естественного языка. Эти модели могут быть использованы как есть, либо быть обучены на нужных данных с помощью библиотеки DeepPavlov.
    Далее обозначены возможные перспективы разработки темы диссер¬тации.
    Предложенный в данной работе метод переноса знаний использует пе- ресборку словарей и инициализацию векторных представлений для новых сабтокенов, при этом все остальные параметры языковой модели не изме¬няются. Разработка новых методов для более эффективной инициализации остальных параметров модели, может позволить ускорить процесс дообучения языковой модели.
    Большинство языковых моделей на базе архитектуры Трансформер ра-ботает с представлением слов в виде сабтокенов. Сабтокены получаются с помощью алгоритма BPE, который может быть не лучшим решением. Напри-мер, одно и тоже слово с разной капитализацией или числа близкие по значению могут быть разбиты алгоритмом на сильно отличающиеся части. Алгоритм BPE универсален и может работать с любыми типами последовательностей — это означает, что особенности естественного языка в нем не учтены. Есть рабо¬ты, которые решают некоторые из проблем связанных с BPE токенизацией [133; 134], но больше исследований может быть проведено в этом направлении.
    Также перспективным направлением является применение предложенно¬го метода переноса знаний для обучения новых языковых моделей для русского языка на основе других обученных моделей. Могут быть обучены языковые мо-дели больших размеров для улучшения качества на целевых задачах и также модели малых размеров (дистилляция знаний [135], квантизация, разреженные сети), для снижения требований к вычислительным ресурсам и более эффек-тивного применения в практических приложениях
  • Стоимость доставки:
  • 200.00 руб


SEARCH READY THESIS OR ARTICLE


Доставка любой диссертации из России и Украины


THE LAST ARTICLES AND ABSTRACTS

ГБУР ЛЮСЯ ВОЛОДИМИРІВНА АДМІНІСТРАТИВНА ВІДПОВІДАЛЬНІСТЬ ЗА ПРАВОПОРУШЕННЯ У СФЕРІ ВИКОРИСТАННЯ ТА ОХОРОНИ ВОДНИХ РЕСУРСІВ УКРАЇНИ
МИШУНЕНКОВА ОЛЬГА ВЛАДИМИРОВНА Взаимосвязь теоретической и практической подготовки бакалавров по направлению «Туризм и рекреация» в Республике Польша»
Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА