ДАРЧУК Наталія Петрівна «ЛІНГВІСТИЧНЕ ЗАБЕЗПЕЧЕННЯ АВТОМАТИЧНИХ СИСТЕМ АНАЛІЗУ УКРАЇНСЬКОМОВНОГО ТЕКСТУ (на прикладі системи автоматичного граматичного аналізу тексту АГАТ)» : Дарчука Наталья Петровна «Лингвистическое обеспечение автоматизированных систем АНАЛИЗА украиноязычных ТЕКСТА (на примере системы автоматического грамматического анализа текста АГАТ)» DARCHUK Natalia Petrovna \"LINGUISTIC PROVISION OF AUTOMATIC SYSTEMS OF



Название:
ДАРЧУК Наталія Петрівна «ЛІНГВІСТИЧНЕ ЗАБЕЗПЕЧЕННЯ АВТОМАТИЧНИХ СИСТЕМ АНАЛІЗУ УКРАЇНСЬКОМОВНОГО ТЕКСТУ (на прикладі системи автоматичного граматичного аналізу тексту АГАТ)»
Альтернативное Название: Дарчука Наталья Петровна «Лингвистическое обеспечение автоматизированных систем АНАЛИЗА украиноязычных ТЕКСТА (на примере системы автоматического грамматического анализа текста АГАТ)» DARCHUK Natalia Petrovna \"LINGUISTIC PROVISION OF AUTOMATIC SYSTEMS OF
Тип: Автореферат
Краткое содержание: У вступі обґрунтовано актуальність, наукову новизну, теоретичне й практичне значення роботи, окреслено її місце серед праць у галузі комп’ютерного опрацювання тексту, сформульовано мету й низку конкретних дослідницьких завдань, визначено поняттєвий і процедурний апарат, застосований у процесі аналізу й теоретичного осмислення фактичного матеріалу дослідження.
У першому розділі «Традиційна лінгвістика – структурно-математична лінгвістика – комп’ютерна лінгвістика – триєдина сутність» показано, що комп’ютерні системи автоматичного опрацювання інформації – це теоретично вмотивовані лінгвістичні моделі представлення знань, кожна з яких базується на фундаментальних положеннях мовознавства і реалізується за допомогою методів структурно-математичної лінгвістики та інформаційних технологій. Діалектична взаємодія «традиційна лінгвістика – структурно-математична лінгвістика – комп’ютерна лінгвістика» є необхідною умовою лінгвістичного забезпечення діючих автоматичних інтелектуальних систем.
Перед нами стояло завдання розробити комп’ютерну граматику для автоматичного аналізу українських текстів (АГАТ). АГАТ-граматика належить до комп’ютерних граматик за правилами і методами. Засадничими принципами комп’ютерної граматики є класичні аксіоми рівневості та відкритості опису, за якими можна за потреби розширювати і поглиблювати лінгвістичний базис АОТ, ускладнювати словникове й модифікувати програмне забезпечення без перебудови всієї системи.
У другому розділі «Морфологічне анотування українського тексту» розглянуто лінгвістичні засади створення автоматичного морфологічного аналізу (АМА) взагалі і комп’ютерного морфологічного аналізу АГАТ зокрема; історію створення АМА української та російської мов; загальний алгоритм автоматичного морфологічного аналізу АГАТ-граматики.
Автоматичне визначення частиномовних і словозмінних характеристик словоформ, автоматична ідентифікація словоформ однієї лексеми як основні завдання в морфологічній частині АГАТ-граматики можуть вирішуватися формалізованими методиками, розробленими на основі традиційної і комп’ютерної граматик. Автоматичне визначення морфологічної інформації текстових одиниць, на основі якого в АМА здійснюється ідентифікація




словоформ тієї самої лексеми, є обов’язковим складником лінгвістичного забезпечення систем АОТ флективних мов, що створює умови для конструювання й ефективної роботи таких модулів: синтаксичного, морфемного, а також семантичного. Для роботи АМА потрібне адекватне лінгвістичне забезпечення, яке базується на теоретичних засадах сучасної фундаментальної морфології. Це підвищує ефективність комп’ютерного аналізу, який зорієнтовано на максимальну формалізацію найважливіших понять морфології – частин мови і граматичних морфологічних категорій. Для АГАТ-морфології необхідно було вибрати частиномовну класифікацію з пропонованих традиційними граматиками, зважаючи на ступінь формальної обґрунтованості класифікаційних ознак.
Між комп’ютерною і теоретичною морфологією існує глибинний зв’язок, експлікація якого є одним із важливих завдань створення АМА. Поясненням
цього є різні «адресати» теорій – машина і людина. Сприймання інформації та оперування нею в комп’ютера і людини різні: у комп’ютері воно здійснюється тільки формальним або формалізованим способом; для людини це насамперед інтуїтивне сприйняття, посилене набутими нею спеціальними знаннями, певною мірою формалізованими.
При розробленні АГАТ-морфології необхідно було вирішити лінгвістичні завдання, спрямовані на якомога глибшу формалізацію частиномовної семантики слів, а саме:
1. Аналіз і кодування частин мови з їх класифікаційними ознаками для використання в комп’ютерній морфології. В АМА визначається десять частин мови з відповідними кодами: іменники (для загальних назв – коди Й, К, Л, И; для власних – й, к, л, и); дієслова (Г); ад’єктивний клас (власне прикметники, дієприкметники, порядкові прикметники – А); займенники (прикметникові – О; іменникові – М); числівники (Ч); прислівники (Н, предикативні прислівники – @); прийменники (П); сполучники (С); частки (Ь), вигуки (В).
2. Обґрунтування і кодування морфологічних значень як компонентів словозмінних і несловозмінних категорій:
– несловозмінна родова диференціація іменників оформляється спеціальними кодами: іменники чол. р. – Й; жіночого роду – К, середнього роду – Л; числово-відмінкова парадигма представлена 13-ма формами; іменники pluralia tantum (И) – шістьома формами, singularia tantum – також шістьома формами (без спеціального коду);
– парадигма дієслова представлена часово-особово-числовими формами (для неминулих часів) та часово-особово-родово-числовими формами (для минулого часу) від 19 форм (для доконаного виду) до 38 (для недоконаного виду). Членами парадигми є також форми синтетичного наказового способу; аналітичні наказовий та умовний способи встановлюються тільки на наступному, синтаксичному етапі аналізу; категорія виду є класифікаційною, тому кожний член дієслівної видової пари має свою словозмінну парадигму,


як і кожний із членів станової пари; з урахуванням морфолого-синтаксичної міжрівневості категорії перехідності/неперехідності кожному дієслову присвоюється відповідна мітка, за якою на синтаксичному рівні відбуватиметься звертання до неї при встановленні синтаксичного зв’язку;
– для ад’єктивного класу словозмінна родово-відмінково-числова парадигма представлена 24-ма формами;
– числівник має словозмінну відмінкову шестиформну парадигму.
3. Опис формальних засобів, характерних для відповідних частин мови з їх морфологічними значеннями (списки квазіоснов і квазіфлексій).
За ступенем формалізації граматичних категорій при морфологічному аналізі АГАТ-морфологію можна вважати автоматичною формально-морфологічною системою з елементами морфолого-синтаксичного аналізу. За участю в АМА лінгвіста обрано автоматичний режим індексування.
АГАТ-морфологія зорієнтована на «комп’ютерний мозок», тому теоретична морфологія була скоригована стосовно можливостей автомата. По суті, це процес побудови комп’ютерної морфології української мови на алгоритмічних засадах, здійснюваний у три етапи: 1) доморфологічний (у версії 2012 р. використовується частково, є технічним, спрямованим на підготовку тексту до граматичного аналізу); 2) формально-морфологічний, або флективний; 3) контекстний. Ці етапи базуються винятково на аналітичних процесах, характерних для морфології української мови, і уможливлюють мінімізування ролі інтуїції, властивої традиційному морфологічному аналізу.
Формально-морфологічний, або флективний, етап базується на поєднанні двох типів мовної інформації, систематизованої в таблицях: таблиці квазіоснов (незмінної частини словоформи або її змінної частини без флексії) і допоміжної таблиці квазіфлексій (змінної частини словоформи із флексіями). Квазіосновам приписана частиномовна і категорійна характеристика (рід, число, відмінок, особа, час), які разом становлять двочленний граматичний код. Кожній лексемі, що має словозміну, приписувався номер парадигматичного класу, який у відповідній таблиці пов’язаний із формами словозміни.
Словник квазіоснов містить 210 тис. одиниць, і, відповідно, словник словоформ, породжених поєднанням інформації, взятої з таблиці основ і допоміжної таблиці, становить близько 3,2 млн. слововживань, що забезпечує морфологічну ідентифікацію словоформ аналізованого тексту практично на 97% (3% – це оказіоналізми чи форми, не унормовані граматикою української мови, або неукраїнські слова). Флективний аналіз базується на граматично унормованих формах, представлених в орфографічних словниках та лексичному фонді української мови, репрезентованому тлумачним 11-томним словником, словником іншомовних слів, частотними словниками сучасної художньої прози, поетичної мови, наукового стилю. Усі нестандартні морфологічні форми та оказіоналізми, неологізми тощо автоматично відсортовуються й у разі доцільності вводяться лінгвістом у

додатковий список, що містить форми, виведені зі складу парадигми слова як неунормовані (напр., він чита; читать – інф. тощо). Цей список підключено до АМА, тому що будь-якій словоформі тексту в подальшому повинна бути приписана граматична інформація. По суті, цей етап є прикладом взаємодії традиційної граматики і комп’ютерної граматики, чому
сприяє загальна сфера морфології, предметом опису якої є форми слів.
На етапі контекстного аналізу визначаються мовленнєві умови, в яких реалізуються граматичні значення одиниці-омоніма. І хоча в традиційній лінгвістиці, зважаючи на адресата – людину, не ставилося питання виокремлення контекстного аналізу як обов’язкового етапу морфологічного аналізу, в сучасній морфології значно більше уваги приділяється омонімії словоформ, а також факту міжрівневості багатьох морфологічних категорій, на яких базується словозміна української мови, в практичних завданнях рекомендується аналізувати словоформи тільки у властивих їм частиномовних граматичних контекстах. Виходячи з цього, в АГАТ-морфології не тільки української мови, а й ширше – флективних мов – закладається контекстний аналіз омонімічних форм, який базується на чітких правилах функціонування словоформ різних частин мови. Високий ступінь омонімічності словоформ, особливо в писемних текстах, позбавлених наголосу, без ідентифікації їх лексико-граматичного змісту унеможливлюють здійснення подальшого аналізу тексту. Тому блок зняття омонімії є обов’язковою частиною різнотипних лінгвістичних процесорів, зокрема таких, як морфологічний аналіз тексту, синтаксичний аналіз, лематизація, морфемний сегментатор тощо.
Дослідження словниковозорієнтованих умов виникнення граматичних і лексико-граматичних омонімів в українській мові дало можливість укласти Граматичний словник омоформ, який складається із приблизно 700 диз’юнктивних ланцюжків, зафіксованих у 581 305 словоформах, одержаних на матеріалі 3 млн. словоформ та одноформних одиниць. Він є обов’язковим етапом АМА. Словник засвідчив високий ступінь внутрішньо- та міжчастиномовної омонімії в лексико-граматичній системі української мови.
Було виявлено і систематизовано омоніми двох типів: внутрішньочастиномовні й міжчастиномовні. Міжчастиномовні омоніми мають довші ланцюжки, серед яких переважають омоформи з чотирма різними значеннями (типу: авторів, била, базіки, благоустрою й под.), і саме вони демонструють найвищий ступінь омонімічності. 12 різних значень має ланцюжок ЙДЙПЙРМДМПН0ОДОПОФОШйДйП типу тому (займ.-ім., займ.-прикм. ч. або с. р. дав. в. одн.; ім. ч. р. заг., ім. ч.р. вл. род., дав. або місц. в. одн.; прислівник), 7 – ланцюжок МОМТН0ОООТОЦСП (словоформа тим: з-ім. і з.-прикм. ч. або с.р. одн.; ор. відм.; дав. відм. мн., сполучник підрядний, прислівник); 5 – ланцюжки Г5ЙАЙУН0СП (словоформа коли: дієсл. нак. сп.; ім. ч.р. наз. і зн. відм. мн.; прислівник, сполучник підрядний) і ГФЙАЙУКВКИ (словоформа мати: інф. дієсл.; ім.
ч. р. одн. наз. і зн. відм.; ім. жін. р. наз. і зн. відм). По 5 різних значень

виражають словоформи типу лінії (171 словоформа); вбивці (168). Міжчастиномовні омоніми представлені 82 диз’юнктивними ланцюжками, що вдвічі більше кількості ланцюжків внутрішньочастиномовних омонімів, яких за Корпусом української мови налічується 42. Це свідчить про переважання в українській мові омонімів міжчастиномовного структурного типу. Серед омонімів внутрішньочастиномовних переважають двозначні типу абажурній (84138); овес (31534); вухо (5016); грі (20018); восьмеро (128); вісь (11596) та інші. Максимальний ступінь омозначності – п’ять; його виражають словоформи типу абичиїм (1648); знання (48827); осі (31937). Внутрішньочастиномовна (тобто парадигматична) омонімія характерна для всіх типів змінюваних слів, крім дієслова. Омонімія закладається на фонемному рівні системи й рухається по вертикалі, набуваючи на кожному структурному рівні своїх особливостей. Омонімія словоформ зумовлена насамперед обмеженою кількістю голосних фонем, якими виражаються флексії змінюваних класів слів та морфонеми. Звідси виникають омоформи відмінкові, відмінково-числові, родово-відмінкові, родово-відмінково-числові в парадигмах іменних частин мови, а також міжчастиномовні омоніми, створені субстанціально однаковими флексіями або суфіксами. Крім того, значна кількість міжчастиномовних омоформ виникає як результат субстантивації та адвербіалізації, що, у свою чергу, зумовлює внутрішньочастиномовну омонімію в парадигмах загальних і власних імен.
В основному омонімія властива змінюваним класам слів, окрім дієслова, і значно рідше на орбіті омонімії спостерігаються незмінювані слова (прислівники, частки, сполучники). Щодо нехарактерності омонімічних словоформ у парадигмах дієслова можна висунути таку робочу гіпотезу: дієслово є конструктивним центром речення, тому для виконання такої важливої ролі воно повинно бути максимально симетричним знаком.
Експериментальна перевірка засвідчила високий ступінь достовірності контекстного аналізу (КА). На 13-мільйонній генеральній сукупності Корпусу виявлено 5 126 020 омонімічних ланцюжків, що означає: майже кожна друга-третя словоформа є омонімічною. Важливим висновком експерименту було те, що майже половина потенційних омонімічних ланцюжків (за Граматичним словником омоформ 320 із 710) взагалі не трапилася в текстах, а це є свідченням того, що словниковозорієнтований підхід до омонімії є інваріантним у мовній системі, а текстозорієнтований – варіантним, на який і треба налаштовувати програмне забезпечення зняття омонімії.
Визначення мовленнєвих умов, у яких актуалізується значення досліджуваної словоформи, відбувається за допомогою лінгвістичного методу контекстного аналізу. В основу КА покладено твердження про те, що багатозначні елементи мови в контексті актуалізуються у своїх конкретних значеннях. У мовленні зв’язність одиниць реалізується через механізми контекстної передбачуваності: якщо взяти в межах речення довільну точку



(за умови, що точка перебуває на межі між мовними одиницями), то характеристики її правого «сусіда» будуть далеко не випадковими.
Як лінгвістичний метод КА враховує безпосередньо текстові умови вживання мовної одиниці, на противагу позамовним факторам виявлення значень мовних елементів. Структурне оформлення мовленнєвої одиниці є невід’ємною рисою контексту. Вихідною операцією КА є визначення обсягу розпізнавального контексту, необхідного і достатнього для ідентифікації значень одиниці. Розпізнавальними вважаються контексти, які постійно повторюються для того самого значення одиниці й ніколи – для інших її значень.
В основу КА покладено ідею лексико-граматичної зв’язаності словоформ з іншими словоформами в реченні, а також її позиційні характеристики (напр., наявність пунктуаційних знаків або позиція першої словоформи в реченні тощо). Реалізація цієї ідеї знайшла відображення при створенні автоматичного конкордансу. Програмно для кожного ланцюжка було виокремлено з текстів різних функціональних стилів дистинктивні контексти, у яких не тільки закладено, а й реалізовано лексико-граматичні умови, що є для лінгвіста предметом дослідження. Теоретичною основою конкордансу є: 1) наявність таких визначників, за якими кожне значення словоформи (граматичне, лексичне) детермінується в контексті іншими словоформами, їх сполученнями або іншими текстовими ознаками; 2) текстоцентричний підхід до створення конкордансу: він укладається на певному масиві текстів для певної словоформи лексеми. Такий словник-конкорданс вичерпно ілюструє використання реєстрових лексем та їх ЛСВ.
На матеріалі мільйонної вибірки з публіцистичних, наукових, художніх та поетичних текстів для кожного омонімічного ланцюжка, зафіксованого в Частотному словнику омонімів, укладеному на 13-мільйонному Корпусі текстів української мови, визначалися умови зняття омонімії ланцюжків кодів тільки за контактними ліво- та правосторонніми (тобто Х -1 та Х+1) оточеннями. Виявилося, що детермінантами можуть бути певні частиномовні класи слів (напр., предикативний прислівник – з кодом @0); або з граматичним кодом ПВ (напр., прийменник, який керує тільки іменником у знахідному відмінку); або пунктуаційний знак (тире, кома); або конкретне слово (напр., частка не або дієслово бути) тощо. Лінгвіст, опрацьовуючи кожний омонімічний ланцюжок, формує алгоритмічну ситуацію, програмно представлену, і, натиснувши кнопку «обробити», пересвідчується в тому, чи спрацьовує це правило в певному конкретному та інших подібних контекстах.
У результаті накопичення достатньої кількості правил зняття омонімії в контактних позиціях (близько 11000) було встановлено, що після флективного аналізу виявилися однозначно розміченими 50% словоформ, а



після контекстного їх кількість збільшилася до 90%. Тому на другому етапі експерименту на вибірці в 13 млн. слововживань (без урахування пунктуаційних знаків як машинних слів) для кожного омонімічного коду укладався словник-конкорданс зі спеціальними правилами. Майже всі правила базувалися на принципі граматичної узгодженості у грамемах (напр., роду, числа, відмінка тощо) шляхом логічного множення кодів підкласів слів. Перетин граматичних кодів підкласів, який не дорівнює нулю, свідчить про граматичне узгодження і про належність аналізованої словоформи до практично однозначного певного класу / підкласу словоформ. Перетин, що дорівнює нулю, свідчить про неузгодженість, яка не дає права заміни коду на однозначний, що є проявом нерозпізнаної омонімії. Конкорданс до кожного з 11607 правил загалом нараховував 5126020 прикладів омонімічних ланцюжків.
Програма КА працює за рекурсивним принципом: кожне речення обробляється кілька разів, доки не вичерпаються всі правила. Програмно контекст збільшується за рахунок так званих «порожніх» слів, до яких належать прислівник, частка, а також узгоджуваний із постпозиційним іменником ад’єктив.
Загальний алгоритм КА є комплексом правил зняття омонімії словоформ усіх класів слів, наявних у тексті, його робота починається з аналізу диз’юнктивного коду словоформи. Ефективність роботи КА велика – майже 93–95 % (залежно від типу тексту: найкращі результати на науково-технічних текстах, гірші – на поетичних) аналізованих словоформ одержали правильну морфологічну інформацію, що є запорукою хороших результатів на наступних етапах здійснення АОТ.
Третій розділ дисертації «Синтаксичне анотування українського тексту» присвячений осмисленню взаємозв’язку теоретичного синтаксису й автоматичного синтаксичного аналізу (АСА); ролі структурних методів дистрибутивного аналізу і методу безпосередніх складників (БС) у створенні АСА; принципам виокремлення словосполучень із тексту в системі АСА та побудові граматики залежностей як способу представлення синтаксичної структури речення. У розділі подано загальний алгоритм синтаксичного аналізу АГАТ.
АГАТ-синтаксис у системі АОТ пов’язаний із загальнотеоретичною необхідністю ґрунтовного вивчення сполучуваності лексичних одиниць як з метою підвищення ефективності АСА, так і для забезпечення дослідницьких запитів сучасної україністики у форматі «активної граматики». Стимулом розроблення АГАТ-синтаксису були також і власне прикладні аспекти: автоматизація лінгвістичних досліджень, автоматичне визначення меж словосполучень, установлення критеріїв членування фрази на синтагми,






автоматичний синтаксичний аналіз речення, автоматичне реферування й анотування тексту на основі сполучувальнісних критеріїв, машинний переклад тощо.
Основним завданням автоматичного синтаксичного аналізу є моделювання синтаксичної структури вхідного речення на рівні словосполучень (1-й етап) і в термінах дерева залежностей (2-й етап). Об’єктом аналізу є речення, представлене у вигляді послідовності словоформ з їх морфологічною інформацією, приписаною їм у морфологічному модулі. АГАТ-синтаксис розроблявся у формально-синтаксичному аспекті, а саме на гіпотаксисі як синтаксичній залежності мовленнєвих одиниць у реченні. АГАТ-синтаксис належить до типу систем з окремим етапом синтаксичного аналізу, унаслідок роботи якого лінійна морфологічна структура речення трансформується у двомірну деревовидну синтаксичну структуру. У цілому цей модуль становить сукупність операцій, які виконуються над інформацією морфологічного характеру, представленою у вхідному тексті, необхідною для встановлення синтаксичних зв’язків між текстовими одиницями. У процесі створення процедур автоматичного синтаксичного аналізу використовуються технології опрацювання тексту людиною, оскільки користувачем цієї системи буде лінгвіст, який має справу з традиційними лінгвістичними одиницями, граматичними категоріями, зв’язками і відношеннями. Методика комп’ютерного синтаксису базується на двох відомих структурних методах: методі безпосередніх складників (БС) – для аналізу синтаксичної структури словосполучення – і дерева залежностей (ДЗ) – для речення. Перехід від опису за БС до аналізу в термінах ДЗ здійснюється алгоритмічно. Коренем дерева є дієслово-присудок, у вузлах речення розташовані всі інші словоформи, кожна дуга дерева, яка зв’язує пару вузлів, інтерпретується як підрядний зв’язок між актантами. У синтаксичних моделях БС і ДЗ враховуються обмеження на поєднання мовленнєвих одиниць, для чого використовується поняття валентності – здатності слова приєднувати інші одиниці в синтагмі певним синтаксичним способом; відповідно актант – це слово або інша синтаксична одиниця, яка заповнює певну валентність слова.
Створене лінгвістичне і програмне забезпечення дозволяє в автоматичному режимі виконувати такі завдання: 1) виокремлення словосполучень із будь-якого речення Корпусу, 2) укладання електронного алфавітно-частотного словника сполучуваностей української мови, 3) представлення структури речення у вигляді ДЗ.
Морфолого-синтаксична інформація, необхідна для АСА-граматики, міститься передусім у сфері валентності. Актантна структура речення формується на основі керування, властивого лексичним одиницям.
Синтаксичний опис лексичної одиниці розглядається нами як розгорнутий опис її актантної структури, зведений до єдиного синтаксичного зв’язку




керування. У процесі розроблення синтаксичного аналізатора була створена граматика валентностей основних частин мови з максимальною деталізацією синтаксичних правил. Основою цієї граматики є моделі керування дієслів, іменників й ад’єктивів, що уможливлює представлення будь-яких мовних конструкцій з їх варіантами взаємозв’язку словоформ у вигляді відповідних правил – моделей керування. Унаслідок цього було одержано таку ієрархію моделей керування: 1) атомарні моделі, за якими зв’язується конкретна лексема з конкретною словоформою (напр., малювати (ЛВ – ім. с.р.одн.зн.в.) дерево); 2) комплексні моделі керування, за якими зв’язується лексема із залежною групою словоформ (малювати – (ЙВКВЛВЙУКУЛУИУйВкВлВиУ) – будь-який іменник у зн.в., напр., малювати пейзаж, картину, дерево, Київ, Суми тощо). Решту синтаксичних моделей представлено у програмі-диспетчері, за якою здійснюється поєднання зв'язком підпорядкування підмета з присудком; компонентів складених форм тощо. Така гіпотаксична систематика сприяє до певної міри універсальності аналізу, оскільки всі конструкції з варіантами взаємозв'язку словоформ у реченні описуються стандартно, у вигляді моделей. Реалізація кожної моделі на Корпусі в подальшому допоможе визначити ступінь граматичності моделі.
Важливим завданням АГАТ-синтаксису було встановлення сполучуваності – предикативної, підрядної й сурядної – для кожної словоформи. Підґрунтям вирішення цього завдання, як і класифікації словосполучень на іменникові, прикметникові, займенникові, числівникові, дієслівні та прислівникові, був теоретичний синтаксис. За концепцією АСА виокремленню словосполучень передував етап створення граматики валентностей з її підграматиками для дієслова (31 206 правил), іменника (40 023), ад’єктива (6 205), а також словника фразеологізмів (близько 27200 одиниць). Підграматики валентностей побудовані за єдиним форматом: вказується лексема, прийменник керування та відмінок залежної іменникової словоформи у вигляді двійкового коду. Створення такої інформаційної бази, як підграматики валентностей, поглиблює знання з теоретичного синтаксису української мови, зокрема у сфері сполучуваності, характерної для кожної частини мови з представленням її моделей.
Для кожного слова встановлювалися такі його зв’язки: підрядні, предикативні і сурядні, що відповідає відтворенню загальної системи відношень між компонентами описуваної ситуації в реченні. Розгляд словосполучень тільки з підрядним прислівним зв’язком є неповним з точки
зору складників речення – у цьому ми дотримуємося граматичної синтаксичної традиції. Однак у комп’ютерному синтаксисі ми відмовилися від диференціації підрядного зв’язку – узгодження, керування та прилягання,





ґрунтуючись на загальному розумінні синтаксичного зв’язку: це всі випадки приєднання до головного слова словосполучення відмінкової форми іменника. Перспективу АГАТ-синтаксису вбачаємо в поєднанні його із семантикою, точніше – у поєднанні лексики і граматики, оскільки вплив семантики на сполучуваність загальновизнаний і види синтаксичного зв’язку між сполучуваними словами спричинені їхньою семантикою.
Підрядні зв’язки диференціюються на ядрові і неядрові для визначення в конкретному словосполученні, а відтак і в узагальненій моделі функцій лексеми – керувальної або залежної. При ядровому зв’язку аналізоване слово є керувальним, головним. При неядровому – аналізоване слово є залежним, керованим. Предикативний зв’язок характерний для головних членів речення – підмета і присудка – і ґрунтується на двобічній їх взаємозалежності. При сурядному зв’язку слова не є ні домінувальними, ні домінованими стосовно одне одного. Вважається, що два слова перебувають у сурядному зв’язку, якщо кожне з них підпорядковане тому самому третьому слову або якщо вони пов’язані між собою сурядним сполучником чи відокремлені одне від одного комою. Формальною підставою для визначення сурядного ряду є перевірка кодів аналізованої пари словоформ за таблицею сурядності. Способом представлення синтаксичної структури речення обрано граматику залежностей із побудовою ДЗ, яке використовується для зображення структури підпорядкування в реченнях природної мови.
Концепція і контент АСА при побудові ДЗ розроблені з урахуванням їх формалізації та програмування. Спочатку встановлювалися зв’язки між словоформами і виокремлювалися словосполучення. У реченні визначалися його предикативні частини і встановлювалися зв’язки між ними. Аналіз речення здійснювався циклічно (речення переглядалося стільки разів, скільки вимагається правилами алгоритму) і починався з кінця речення.
АГАТ-синтаксис являє собою комплекс взаємопов’язаних алгоритмів, серед яких є кілька алгоритмів дешифрувального (універсального) типу: алгоритм класифікації, за яким множина одиниць членується на множини, що не перетинаються; алгоритм склеювання, за допомогою якого утворюються більші одиниці з менших; алгоритм визначення близькості, за яким встановлюються синтаксичні зв’язки у словосполученні. Кожний із цих алгоритмів здатний формальним способом вирішувати такі завдання: а) встановлення зв’язків або залежностей між словоформами в межах частин складного речення; б) членування речення на гіпотетичні частини – сегменти; в) одержання необхідної інформації до частин складного речення і до речення в цілому і, як наслідок, у випадку помилкового членування об’єднання гіпотетичних сегментів у правильні





прості речення. Алгоритмічно встановлюються також зв’язки в термінах відношень безпосередньої домінації: для предикативної частини складного речення або один «хазяїн» – друге речення, або два «хазяїни» різних рівнів – друге речення і словоформа в ньому. Серед зазначених часткових завдань головним є перше – встановлення прислівних зв’язків словоформ у реченні, а два останні – допоміжними, але без їх граматичного вирішення неможлива побудова єдиного правильного ДЗ. Розв’язання другого завдання (і відповідно робота другого алгоритму) відбувається евристично: спочатку приймається гіпотетичне рішення, яке потім переглядається на третьому етапі за допомогою правил обробки з уточненою інформацією, одержаною в ході аналізу. Третє завдання – встановлення правильних меж простого речення в рамках складного – вирішується за допомогою двох досить громіздких алгоритмів (що взагалі відповідає складності модельованого об’єкта – синтаксису української мови). Врешті два завдання розв’язуються на підставі трьох алгоритмів. Кожний «проходить» по реченню один раз і виявляє за допомогою набору пошукових операцій певне коло граматичних ознак, істотних для визначення граматичної структури речення.
Робота всіх етапів АСА в системі АГАТ переважно ґрунтується на використанні формальної інформації для визначення синтаксичного зв’язку між словами. Це: а) морфологічна інформація; б) інформація про сполучуваність граматичних класів у межах певних синтаксичних конструкцій; в) дані про пунктуаційні засоби, використані для структурування речення; г) дані про позиційні умови реалізації певних синтаксичних зв’язків; д) лексична інформація (списки слів, які можуть бути допоміжними словами у складі присудка або підмета). Перші чотири види інформації належать до граматичного рівня і є основними, п'ятий – додатковий, звертання до нього в системі АГАТ обмежене.
Четвертий розділ дисертації «Автоматичне морфне анотування тексту» присвячений лінгвістичним засадам автоматичного морфного сегментування та методиці створення морфного сегментатора українського тексту – автоматичної системи, на вході якої перебувають словоформи писемного тексту, на виході – ті ж самі словоформи, індексовані кодами граматичної належності до певної частини мови і розчленовані на морфи – кореневі й афіксальні.
Інформаційною основою морфного сегментатора АГАТ є дві бази даних – 170 тис. слів і 3,5 млн. словоформ, у яких кожне слово або словоформа представлені у вигляді лінгвістичної морфної моделі з інформацією про тип морфа, його структурні відношення з іншими морфами. У базовому словнику
омонімічним кореням (близько 3100 одиниць) та кореневим аломорфам приписуються індекси за списком омонімічних коренів, а кореневому аломорфу (близько 2900) – інваріантна форма. Формалізація морфних




структур слів шляхом їх опису в термінах програмних процедур дозволяє створити на основі цієї бази даних автоматичну систему аналізу, здатну: 1) групувати лексику в спільноафіксальні класи; 2) класифікувати лексику за морфними моделями; 3) створювати кореневі та афіксальні словники з урахуванням омонімії й аломорфії.
П’ятий розділ дисертації «Семантичне анотування тексту» присвячений проблемам автоматичного семантичного аналізу тексту, тобто «розумінню» тексту комп’ютером, що є найскладнішим з усіх завдань, пов’язаних зі штучним інтелектом, – машинний переклад; автоматичне реферування й анотування; інформаційний аналіз масивів офіційних документів і текстів ЗМІ; інформаційно-пошукові системи; системи штучного інтелекту, тобто спілкування природною мовою з базами даних і базами знань (текст  база знань); системи генерації тексту (база знань  текст) тощо. Незважаючи на прикладний аспект названих завдань, саме в галузі семантики простежується глибинний зв’язок між теоретичною і прикладною, комп’ютерною лінгвістикою, яка, на жаль, не забезпечена сумою теоретичних знань, достатньою для вирішення комплексу текстових завдань, який призведе до «розуміння» його змісту. Це, власне, проблематика лінгвістики тексту, яка перебуває на стадії свого становлення й окреслення предметної сфери: що таке текст; які його основні одиниці і правила породження більш складних текстових одиниць; якими одиницями передається основний зміст тексту і як він структурується на смислові елементи; яким способом визначається універсум значень лексичних одиниць; як укладаються словники відповідностей між лінгвістичними та позалінгвістичними поняттями тощо.
У дисертації описано різні підходи до створення саме лінгвістичних ресурсів (а не інженерних механізмів) АСЕА на прикладі конкретних проектів, у яких вироблено принципи і методи побудови систем аналізу семантики, для яких треба задати вихідні дані принаймні у вигляді: лінгвістичних знань, знань предметної галузі, до якої належить текст. Тобто саме лінгвістові треба підготувати і сформулювати вихідні дані (словники, граматики, алгоритми) так, щоб їх можна було оформити мовою програм, зрозумілою комп’ютеру, дотримуючись принципів гнучкості й багатоетапності аналізу.
Головним ресурсом опрацювання змісту тексту є словники. Вони визначають потужність системи, за словниками ієрархізується рівневий опис
мовної системи, зрештою, словникова інформація визначає ефективність семантичного аналізу. Незаперечним є й той факт, що при вивченні смислу тексту треба виходити за межі мови і звертатися до зовнішнього світу, до класифікації предметів, уявлень, які перебувають поза компетенцією мови. У зв’язку з цим особливої ваги набувають ідеографічні словники тезаурусного типу, що є новітнім інструментом прикладної лінгвістики, за допомогою якого моделюється семантична структура мови в парадигматичному аспекті.


Логіко-поняттєве моделювання терміносистем окремих наук і галузей знань – одне з актуальних завдань нашого часу, оскільки моделі терміносистем необхідні при укладанні термінологічних словників, інформаційних тезаурусів, класифікаторів, рубрикаторів, а також при створенні автоматизованих інформаційних систем, баз даних, систем штучного інтелекту. Тому перед нами стояла мета здійснити дослідження з автоматизованого конструювання тезаурусів: по-перше, створити лінгвістичні методики для укладання тезаурусів загальновживаної і термінологічної лексики; по-друге, розробити технології інформаційно-пошукової системи-тезауруса.
Наш досвід і результати у сфері розроблення тезаурусів ідеографічного типу можуть бути сформульовані таким чином.
1. Запропоновано концептуальну модель предметної галузі на базі юридичних текстів. Створено автоматизовану інформаційно-пошукову систему юридичних термінів тезаурусного типу з проблем усиновлення (2140 одиниць) за принципом текст – тезаурус. Розроблено методику поетапного моделювання, яка передбачає: а) автоматичне укладання ЧС за текстами предметної галузі та виокремлення іменників (443 одиниці); б) автоматичний аналіз дефініцій термінів із використанням АСА – побудова ДЗ дефінітивного речення, що дає можливість установити всі його семантичні множники (СМ) – словесно виражені найменші одиниці плану змісту – та безпосередні й опосередковані зв’язки між ними, а також віддаленість СМ від аналізованого терміна як кореня ДЗ; в) автоматичне формування списку дескрипторів – основних понять предметної галузі; г) автоматизоване створення синоптичної (поняттєвої) схеми ТЗ на базі дескрипторів.
2. Укладено електронний словник лінгвістичних термінів із використанням формалізованої методики конструювання тезауруса, здійснено верифікацію теоретичної тезаурусної моделі шляхом застосування її для аналізу корпусу текстів з різних розділів лінгвістики. На першому етапі створювалася інформаційно-пошукова система (ІПС) у вигляді лексикографічної й енциклопедичної електронної бази українських лінгвістичних термінів, що складається з чотирьох словників: алфавітного (3400 термінів), перекладного, тлумачного і тезаурусного, у якому представлено моделі зв’язків між термінами у вигляді семантичної мережі (9265 семантичних відношень). На другому етапі статична модель логіко-поняттєвих відношень між термінами лінгвістичної метамови застосовувалася до корпусу лінгвістичних текстів із метою побудови ієрархічного класифікаційного графа аналізованого тексту з абсолютною частотою вживання термінів у ньому.
3. Розроблено принципи і методику автоматизованого укладання ідеографічного словника іменників. За цією методикою на матеріалі Частотного словника української публіцистики в автоматизованому режимі був створений ідеографічний словник іменників (13 тис. лексем).
Принципи автоматизованого укладання ідеографічного словника полягають у тому, що: виокремлюється семантична ознака; застосовується до класу об’єктів; онтології інтерпретуються на основі лексики української мови за тричленною відповідністю: ПОНЯТТЯ – КОНЦЕПТ – СЛОВО. Алгоритмічно ідеографічний словник будувався в такій послідовності: на першому етапі – укладався список онтологій (для іменників) і лексико-семантичних груп (для дієслів); на другому – на базі корпусу газетних текстів (за 2004 р.) автоматично створювався Частотний словник сучасної української публіцистики; на третьому етапі автоматизовано укладався ідеографічний словник іменників і дієслів, у якому поняття репрезентовані лексемами ЧС з абсолютною частотою їх вживання.
4. Укладено Тезаурус синонімічних рядів слів української мови (14 тис. синонімічних рядів, які охоплюють понад 87 тис. слів).
Методика укладання тезауруса складається з декількох етапів.
Перший етап: за тлумаченнями членів кожного синонімічного ряду обирається смислова домінанта, що становить семантичну основу синонімічного ряду і є ядром, навколо якого у вигляді ієрархічного дерева групуються всі члени ряду за такими критеріями: ядрова одиниця позбавлена емоційно-експресивного забарвлення; не може бути терміном; повинна співвідноситися з денотатом; мати асоціативну прозорість, що дає змогу «бачити» склад лексико-семантичної групи, членом якої може бути даний синонімічний ряд; бути найчастотнішою серед слів із тим самим значенням. Другий етап: визначаються типи семантичного зв’язку між домінантою та синонімічною групою: родо-видові, частина-ціле, асоціативні. За вихідну точку береться значення, точніше його предметно-логічне ядро, представлене смисловою домінантою, і на його основі вибудовується узагальнювальне поняття, яке об’єднує організовані за парадигматичними кореляціями лексико-семантичні групи (поля).
Третій етап: створення інтерфейсу ТЗ, за яким можна одержати відповіді на запити користувача щодо внутрішнього структурування поняттєвої групи.
У процесі ідеографічного опису лексики та класифікування мовних даних ми застосовували два основні підходи: індуктивний і дедуктивний. Дедуктивний підхід базувався на апріорній класифікації понять, яку необхідно було адаптувати до мовного матеріалу. Індуктивний метод побудови ТЗ полягав у моделюванні семантичних відношень у лексиці у вигляді ієрархії (від більш загального до часткового) й у вигляді семантичної мережі, у якій відсутнє мотивоване розташування лексем. У наших дослідженнях застосовувалися обидва принципи: індуктивний – для побудови ІПС термінів (підрозділи 5.8, 5.9) і дедуктивний – для побудови ідеографічного словника української публіцистики і словника на синсетах (5.10, 5.11, 5.12). Якщо інформаційно-пошукові тезауруси є описами певних предметних галузей, то ідеографічний словник, навпаки, містить інформацію
про загальномовну лексику, тому ми вважали доцільним здійснити спробу укладання ідеографічного словника дедуктивним способом. Одиницею опису ідеографічного словника є не множина слів, а поняття, які відображають класи суспільно значущих сутностей, розрізнюваних людьми, лексеми ж у словнику відіграють роль вербалізаторів понять.
Обраний нами шлях у побудові системи категорій пізнання і сфер буття від значень слів до системи категорій пізнання й у зворотному напрямі – від системи категорій пізнання до значень слів (в обсязі тлумачного словника), об’єктивізований компонентним аналізом.
Методика і технології різних версій ТЗ української мови були застосовані нами при створенні ідеографічних словників української мови, які стали комп’ютерними інструментами в різних проектах аналізу тексту – як автоматичного, так і автоматизованого, допомагали вирішувати конкретні завдання на основі тезаурусних знань.
Шостий розділ дисертації «Упровадження комп’ютерних ресурсів у сферу лінгвістичної проблематики української мови» присвячений аплікації створеного лінгвістичного й програмного забезпечення АГАТ-граматики, АГАТ-семантики і комп’ютерних словників до Корпусу української мови. У дисертації Корпус текстів української мови використаний не лише як джерельна база створення лінгвістичних процесорів, а й як платформа верифікації АГАТ-граматики. Створена нами діюча система АОТ української мови була аплікована в різноманітних проектах.
1. Проект «Поетичний словник в аспекті мовної картини світу». Розроблено методику, яка поєднує кількісний і якісний принципи аналізу поетичного тексту, що відображено у трьох створених словниках: частотному, ідеографічному та словнику образів. Частотний словник надає інформацію про закономірно повторювані лексеми, які є ключовими для індивідуального авторського словника та Інтегрованого частотного словника в цілому; ідеографічний – про поняттєву класифікацію лексики від концепту до лексичних засобів його вираження; словник образів – про етнічні стереотипи. Така методика забезпечує комплексність аналізу, що сприяє накопичуванню матеріалу різних видів дискурсів (поетичного різних хронологічних зрізів, прозового тощо), створення бази концептів для ілюстрації мовної картини світу творчої особистості. Лексикографуючи поетичний ідіолект, ми маємо можливість висвітлити притаманні йому системні зв’язки та їхню кореляцію з аналогічними зв’язками та ієрархічними відношеннями, характерними для мовної системи в цілому.
2. Проект «Лінгвістичні інформаційні ресурси та газетний політичний дискурс». Було створено формалізовану методику аналізу газетного матеріалу, розміщеного на мовному порталі www.mova.info. з програмним забезпеченням як для формування власного підкорпусу, так і для надання можливості користування накопиченими й систематизованими результатами;
здійснено комплексне дослідження лексичних елементів політичного мовлення й цілого тексту в рамках статті (статей); застосовано дескриптивний підхід до аналізованого матеріалу з фіксацією і вивченням нових явищ і загальних ознак українського політичного мовлення.
Здійснено аналіз тропів у політичному дискурсі. Наявність списку всіх лексем, ужитих у досліджуваному матеріалі, а також конкордансу дає змогу дослідити питання про частку просторічної, жаргонної, фразеологічної, запозиченої лексики в аналізованих текстах.
Вивчення української політичної мови із застосуванням сучасних інформаційних технологій дозволило дослідити ідіостилі окремих політичних лідерів, політичних напрямків і партій, а також у перспективі здійснити зіставне дослідження, виявити спільні й особливі ознаки політичних дискурсів різних країн та епох, адже в кожній країні є національні особливості у способах сприйняття політичної дійсності, що пояснюється національною ментальністю та історичними умовами формування політичної культури.
У Висновках подано всебічне осмислення результатів створеної нами системи АОТ і розроблених на її основі комп’ютерних ресурсів АГАТ-граматики та АГАТ-семантики української мови. Спрогнозовано нові напрямки моделювання української мови в аспекті штучного інтелекту, лінгвістичним забезпеченням цього може бути метамова і технологічні процедури комп’ютерної лінгвістики, фрагментами якої є напрацьовані нами граматичні і семантичні ресурси.
1. Оскільки інформація організована засобами природної мови, її реальне засвоєння можливе лише за умови автоматичного смислового опрацювання текстів. Потреба в лінгвістичному забезпеченні обумовлена необхідністю створення систем «людина-машина-людина»: оперативна, зручна кооперація людини і машини повинна спиратися на природну мову. В соціальному плані значущість лінгвістичних проблем комп’ютеризації пов’язана з такими основними напрямками індустрії опрацювання знань, як збирання, зберігання, систематизація, поширення, інтерпретація інформації, для чого створюється спеціальне лінгвістичне забезпечення.
2. Лінгвістичне забезпечення автоматизованих систем – сукупність засобів для здійснення комп’ютеризації мовної діяльності – необхідне практично для будь-якої інтелектуальної діяльності людини. З технологічної точки зору йдеться про створення того чи іншого типу автоматичної системи опрацювання інформації, на вході і виході якої наявна текстова інформація природною мовою. Типи систем різноманітні й можуть бути спрямовані на моделювання різних мовних завдань, зокрема таких, як діалогова взаємодія, стиснення інформації, реферування тексту, логічне опрацювання змісту, переклад іншою мовою тощо. Прикладні системи, які створює лінгвіст у цій галузі, – це лінгвістично осмислені метамови – моделі представлення знань, кожна з яких базується на фундаментальних положеннях мовознавства і реалізується за допомогою методів структурно-математичної лінгвістики.
Втілювана у прикладні завдання діалектична тріада «традиційна лінгвістика – структурно-математична лінгвістика – комп’ютерна лінгвістика» сприяє високому рівню лінгвістичного забезпечення автоматичних систем.
3. Комп’ютерна граматика – це системний, строго впорядкований, формалізований, лінгвостатистичний, інтегральний опис знакових одиниць певної мови у вигляді структурних моделей із необхідною і достатньою аналітикою для виконання завдань штучного інтелекту, які відтворюють та імітують дослідницьку діяльність лінгвіста. Комп’ютерна граматика АГАТ має такі особливості. Перш за все, у ній дотримано рівневий підхід – рівні взаємодіють між собою від нижнього до верхнього, кожний наступний рівень використовує результати аналізу попереднього. Друга особливість – відкритість стратифікаційної структури граматики, що є принциповим моментом, оскільки дозволяє досить вільно розширювати обсяг лінгвістичного забезпечення, ускладнювати словникове та модифікувати програмне забезпечення без перебудови всієї системи.
3.1.1. Обов’язковою частиною комп’ютерної граматики є автоматичний морфологічний аналіз (АМА) словоформ, тому що ані морфемний, ані синтаксичний, ані семантичний аналізи не можуть обійтися без визначення для словоформи її частини мови та словозмінних форм. До завдань АГАТ-морфології входять: автоматичне визначення для одиниць тексту граматичної інформації про місце їх у морфологічній системі мови; автоматична ідентифікація словоформ однієї лексеми.
3.1.2. Для створення АГАТ-морфології української мови в теоретичному плані виконувалися дослідження, пов’язані: 1) з принципами частиномовної класифікації в українській мові; 2) з формальним обґрунтуванням морфологічних граматичних значень; 3) з принципами опису формальних засобів, характерних для відповідних частин мови з їх морфологічними значеннями. Морфологічна аксіоматика була налаштована на можливість алгоритмічного оперування граматичними даними.
У прикладному аспекті створено словник квазіоснов, який налічує 210 тис. одиниць, і, відповідно, словник словоформ, які породжуються поєднанням інформації, взятої з таблиці основ і допоміжної таблиці, – близько 3,2 млн. слововживань, що забезпечує автоматичне приписування морфологічної інформації словоформам практично на 97%. Отже, АГАТ-морфологія української мови є автоматичним формально-морфологічним процесором з елементами морфолого-синтаксичного аналізу.
3.1.3. Особливу увагу при створенні АГАТ-морфології приділено визначенню мовленнєвих умов, у яких реалізуються актуалізовані граматичні значення одиниці-омоніма. У теоретичному плані здійснено дослідження словниковозорієнтованих умов виникнення граматичних і лексико-граматичних омонімів в українській мові, що дало можливість укласти Граматичний словник омоформ. У прикладному аспекті визначено мовленнєві умови для реалізації значень досліджуваної словоформи, сформульовані за допомогою лінгвістичного методу – контекстного аналізу. В основу КА покладено твердження про те, що багатозначні елементи мови функціонують у своїх конкретних значеннях у певному лексико-граматичному контексті. Реалізація цієї ідеї знайшла відображення у створенні автоматичного конкордансу, теоретичною основою якого є: 1) наявність таких визначників, за якими кожне значення словоформи (граматичне, лексичне) детермінується в контексті іншими словоформами, їх сполученнями або іншими текстовими ознаками; 2) текстоцентричний підхід до його створення: він укладається на певному масиві текстів для певної словоформи або лексеми. Такий словник-конкорданс вичерпно ілюструє використання певної лексеми і всіх її ЛСВ з лексико-граматичними значеннями.
3.2. АГАТ-синтаксис комп’ютерної граматики української мови створювався як лінгвістичний процесор, налаштований на моделювання синтаксичної структури вхідного речення на рівні словосполучень (1-й етап) і дерева залежностей (2-й етап). Результат аналізу – синтаксична структура речення, яка є сукупністю даних про синтаксичні зв’язки слів / словоформ у словосполученні – мінімальній одиниці речення.
3.2.1. АГАТ-синтаксис базується на формально-синтаксичній теорії представлення речення. Це комплекс алгоритмічних операцій, що виконуються над ланцюжками інформації морфологічного характеру, представленими у вихідному тексті, для встановлення синтаксичних зв’язків між текстовими одиницями. Практична реалізація теоретичних положень здійснюється шляхом взаємодії двох структурних методів: для представлення синтаксичної структури речення в термінах словосполучень застосовано метод безпосередніх складників, а структури цілого речення – дерево залежностей. Алгоритмічно і програмно в синтаксичному модулі можна здійснювати перехід від опису за безпосередніми складниками до структур дерева залежностей: коренем дерева є дієслово-присудок, у вузлах речення розташовані словоформи, кожна дуга дерева, яка зв’язує пару вузлів, інтерпретується як підрядний зв’язок.
3.2.2. Теоретичне і прикладне значення АГАТ-синтаксису полягає також у тому, що, спираючись на теоретичний синтаксис у поділі словосполучень на іменникові, прикметникові, займенникові, числівникові, дієслівні та прислівникові, можна автоматично виявляти і тип сполучуваності – предикативний, підрядний та сурядний – кожного повнозначного слова у тексті. За концепцією АСА виокремлення словосполучень передбачало попередній етап створення граматики валентностей з підграматиками дієслова, іменника, ад’єктива, а також словника фразеологізмів. Створенням такої інформаційної бази у вигляді підграматик валентностей були розширені можливості українського теоретичного синтаксису в одержанні з текстів різного стильового і жанрового спрямування інформації про частиномовну сполучуваність словоформи та її типові моделі.
3.2.3. Встановлення за правилами АГАТ-синтаксису для кожного слова підрядних, предикативних і сурядних типів зв’язків є відтворенням загальної системи відношень між компонентами описуваної ситуації в реченні. Перспективу АГАТ-синтаксису вбачаємо в поєднанні його з семантикою, точніше – у поєднанні лексики і граматики, оскільки вплив семантики на сполучуваність загальновизнаний і види синтаксичного зв’язку між сполучуваними словами є похідними від їхньої семантики.
3.2.4. Розроблення АГАТ-синтаксису в межах АОТ пов’язане із загальнотеоретичною необхідністю вивчення сполучуваності лексичних одиниць, що відкриває можливість у сучасній україністиці досліджувати граматичну і лексичну валентність слів, моделювати типову сполучуваність класів слів, синонімію словосполучень різних структурних типів, спиратися на лексичну і граматичну валентність як критерій синонімічності, вивчати закони комбінаторики словосполучень різних типів або розмежування вільних та фразеологічних словосполучень, зокрема, їх стійкість або ідіоматичність тощо. Незважаючи на те, що перераховані проблеми так чи інакше розглядалися в теоретичному мовознавстві, комп’ютерна лінгвістика відкриває нові перспективи в дослідженні живої лінгвістичної реальності, якою є тексти. Застосування АСА до Корпусу української мови дає можливість дослідникам української мови у кінцевому рахунку встановити синтаксичну і семантичну ємність такої одиниці, як словосполучення, а у прикладному плані – розроблюваний автоматичний синтаксичний модуль аналізу українського тексту – це механізм, за допомогою якого стає реальністю укладання принаймні двох словників: частотного словника словосполучень і частотного словника сполучень простих речень у складному.
3.2.5. За допомогою АГАТ-синтаксису комп’ютер «піднімається» ще на одну сходинку у процесі «розуміння» змісту тексту, наближаючись до вирішення кінцевого завдання АОТ – побудови його семантичного представлення. Якщо АГАТ-морфологія у термінах лексико-граматичних класів слів забезпечує «розуміння» комп’ютером денотативної інформації, що міститься у тексті, то АГАТ-синтаксис відкриває шлях до релятивної інформації, тобто до розуміння семантико-синтаксичної структури речення. Синтаксичні зв’язки не існують без семантичних. І якщо не зрозуміла синтаксична структура речення, не є зрозумілим і його смисл.
3.3. Теоретико-прикладне значення АГАТ-морфеміки полягає в можливості здійснювати лінгвістичні дослідження морфемної та словотвірної структури, а саме: 1) укладати алфавітно-частотні словники всіх типів морфів на базі текстів різних стилів і жанрів; 2) виявляти й об’єднувати аломорфи в морфему; 3) встановлювати системні і функціональні характеристики морфем; 4) автоматично конструювати морфемно-словотвірні гнізда.
3.3.1. Інформаційною основою морфного сегментатора АГАТ-морфеміки є дві бази даних – 170 тис. слів і 3,5 млн. словоформ, у яких кожне слово (словоформа) представлені у вигляді морфної моделі з інформацією про типи
морфів, їх структурні відношення з іншими морфами. У базовому словнику омонімічним кореням (близько 3100 одиниць) та кореневим аломорфам приписуються індекси зі списку омонімічних коренів, а кореневому аломорфу (близько 2900) – інваріантна форма. Формалізація морфних структур слів через опис їх у термінах програмних процедур морфної бази даних дозволяє створити на основі цієї бази даних автоматизовану систему аналізу, здатну виконувати низку таких прикладних завдань: 1) групувати лексику за спільноафіксальними класами; 2) класифікувати лексику за морфними моделями; 3) створювати кореневі та афіксальні словники з урахуванням омонімії та аломорфії.
У теоретичному плані такий формалізований опис морфної структури передбачає моделювання структурних відношень морфів у двох площинах організації слова як мовного знака: у плані вираження та плані змісту.
3.3.2. Робота морфемного модуля АГАТ-морфеміки здійснюється самостійно й у зв’язку зі словотвірним модулем з метою автоматичної побудови словника морфемно-словотвірних гнізд. Для цього: 1) групується лексика у спільнокореневі вибірки за процедурою ідентифікації кореневих морфів, визначених у словах морфемної бази; 2) на базі вибірки всіх спільнокореневих слів будуються словотвірні гнізда як статті електронного словотвірного словника на основі теоретичних принципів словотвірної похідності.
3.3.3. Формалізований опис морфних структур, запропонований при укладанні електронного морфемного словника, дозволяє використати морф як інструмент у проведенні автоматичного морфемного аналізу інших лексикографічних систем.
3.3.4. АГАТ-морфеміка разом з морфемно-словотвірною базою даних мають важливе теоретичне значення для вивчення правил взаємодії морфеміки і фонології, інвентарю словотвірних засобів української мови, семантики афіксів, афіксоїдів у широкій взаємодії з Корпусом української мови, який надає великий ілюстративний матеріал для вирішення цих питань.
4. У процесі розроблення АГАТ-семантики української мови основна увага приділялася створенню ідеографічних словників тезаурусного типу – вони є інструментом прикладної лінгвістики, за допомогою якого моделюється семантична структура мови в парадигматичному аспекті.
4.1. До ідеографічного опису лексики та класифікації мовних даних застосовувалися два основні підходи: індуктивний і дедуктивний. Індуктивний метод побудови ТЗ полягав у моделюванні семантичних відношень у лексиці у вигляді ієрархії (від загального до часткового) й у вигляді семантичної мережі, у якій відсутнє мотивоване розташування лексем. Індуктивний метод застосовувався для побудови ІПС лінгвістичних термінів, а дедуктивний – для побудови ідеографічного словника української публіцистики і словника на синсетах.
4.2. Запропоновано концептуальну модель, на основі якої створено автоматизовану інформаційно-пошукову систему тезаурусного типу юридичних термінів із проблем усиновлення (2140 одиниць), що реалізована на тісному зв’язку текст – тезаурус.
4.3. На основі формалізованої методики конструювання тезауруса (3400 термінів) укладено електронний словник лінгвістичних термінів із системою логічних відношень між ними у вигляді семантичної мережі (9265 семантичних відношень). Мережеве представлення даних має теоретичне значення, а саме: дозволяє глибше проникнути в логічні відношення лінгвістичної метамови, точніше змоделювати аналізовану терміносистему. Розроблений текстозорієнтований інформаційно-пошуковий тезаурус із лінгвістичним апаратом і програмним забезпеченням має прикладне значення: він може бути використаний при створенні термінологічних банків даних і термінологічних банків знань, оскільки має значний обсяг термінологічної інформації. Засоби автоматизації відбору, збереження і пошуку інформації дають можливість збагачувати й розвивати словник лінгвістичних термінів.
4.4. Розроблено й описано принципи та методику укладання ідеографічного словника. На матеріалі Частотного словника української публіцистики створено ідеографічний словник іменників (13 тис. лексем) і дієслів (близько 6 тис. лексем).
Методика укладання списку онтологій полягає у створенні логічної моделі організації знань у вигляді фреймів, оскільки через терми і слоти точніше структурується представлення знань і переконливішою стає позиція дослідника у членуванні позамовної дійсності. У прикладному аспекті ці словники в подальшому моніторингу газетних текстів виконуватимуть роль матриці, яка накладатиметься на ЧС публіцистичного стилю Корпусу текстів української мови, що створить, наприклад, базу даних для аналізу «мовної картини» суспільно-політичного життя України.
4.5. Укладено тезаурус синонімічних рядів слів української мови (14 тис. синонімічних рядів, які охоплюють понад 87 тис. слів), у якому кожне слово (разом із синонімічним рядом) описується як системно зумовлена одиниця і характеризується синонімічними, асоціативними та родо-видовими відношеннями. Базовою одиницею є не конкретне значення слова, а значення синонімічного ряду. Теоретичне значення ТЗ на синсетах полягає в розробленні принципів систематизації лексики української мови з урахуванням семантичних кореляцій (семантичних парадигматичних відношень). Прикладне значення: електронний словник синонімів української мови вбудовано в програмний лінгвістичний продукт Майкрософт-офіс.
4.6. З теоретичного погляду розроблені методики АГАТ-семантики є містком між семантичною структурою тексту і семантичною структурою словникового складу, оскільки слово з його лексичними значеннями (ЛСВ) є найпростішим мовним засобом номінації фрагментів дійсності (предметів, якостей, явищ, подій).
У прикладному аспекті запропоновані концептуальні моделі спрямовані на вдосконалення методики побудови ТЗ, які дозволяють в автоматизованому режимі відносно легко будувати словники різного призначення, що значною мірою полегшує створення різних словникових ресурсів і внутрішніх словників автоматичного опрацювання інформації, а також відкриває можливості узагальнення, кластеризації різних значень, зокрема встановлення семантичних відношень між частинами мови. В системі АОТ АГАТ розроблені принципи створення лінгвістичного ресурсу української мови у форматі тезаурусів. Описуючи методики побудови ТЗ української мови, ми приділили увагу експериментам із застосування цих тезаурусів у різних завданнях опрацювання текстів для того, щоб показати, наскільки якісно можна вирішувати конкретні завдання на базі тезаурусних знань.
5. Комп’ютерна граматика взагалі й АГАТ-граматика зокрема – це динамічний механізм, який є системою правил оперування граматичними значеннями з акцентом на форми їх вираження, за допомогою яких комп’ютеру відкривається доступ до денотативної і релятивної інформації, до елементарних смислових блоків у тезаурусах. Комп’ютерні словник і граматика – два тісно пов’язані й узгоджені компоненти структури мови. Їх узгодженість визначається спільністю основних функцій і збереженням у комп’ютерній пам’яті як мовних одиниць, готових до вживання, так і граматичних правил, за якими відповідно до завдання автоматично здійснюється аналіз тексту.
6. При побудові АГАТ-граматики перевага надавалася індуктивним методам з огляду на те, що взагалі процес пізнавальної діяльності лінгвіста по суті повинен бути індуктивним – від форми до значення, а потім може сполучатися з дедуктивним, який забезпечує процес переходу від значення до форми.
7. Досвід створення АГАТ-граматики і АГАТ-семантики показав, що розроблення архітектури повного циклу автоматичного аналізу тексту варто починати з верхніх мовних рівнів до нижніх, а вибудову лінгвістичного забезпечення – з нижніх до верхніх рівнів знакових одиниць. Послідовність рівнів аналізу спирається на нижній морфологічний рівень. При цьому кожній одиниці слід приписати інформацію, достатню для вирішення завдань свого рівня з перспективою використання її на вищих рівнях аналізу. Кожному рівневі відповідає алгоритм аналізу та комплекс даних, які будуть передбачені у словниковому забезпеченні. Модульне лінгвістичне забезпечення з відкритим характером має на меті сумісність окремих модулів, їх поповнення і коригування за умови взаємоузгодженості словникового і граматичного описів мовної інформації.
8. Запропоновані методи і принципи аналізу не є умоглядними – вони апробовані при створенні конкретних систем АОТ. Комп’ютерна граматика
української мови, словникове та програмне забезпечення можуть бути ядром будь-якого комплексу АОТ, налаштованого на опрацювання текстової інформації. Результати дослідження, представлені в дисертації, можна розглядати, по-перше, з точки зору їхньої практичної цінності для систем АОТ української мови; по-друге, з точки зору оцінки лінгвістичних аналізів, принципи і методи яких базуються на традиційній і структурно-математичній лінгвістиці з прицілом на комп’ютерне моделювання і, ширше, на штучний інтелект. Ці завдання визначили і загальну спрямованість усього дослідницького апарату на пошук формальних ознак, за допомогою яких розроблені алгоритмічні граматики і семантика текстових одиниць.
9. При оцінці результатів досліджень таких складних систем, як природна мова, штучний інтелект і под., особливий інтерес становлять дані про ступінь досягнутої на різних рівнях аналізу формалізації і дані про ступінь складності застосовуваних для цього процедур. У теоретичному плані цей аспект пов’язаний із методологічним питанням про межі формалізації явищ мови і мовлення та з питанням необхідності поєднання формальних і змістових методів дослідження.
10. При створенні комп’ютерної граматики довелося проаналізувати величезну кількість конкретних лінгвістичних фактів, і розгляд кожного з них вимагав заглиблення у багатовимірний простір лінгвістичної теорії. Якщо основою методології є єдність теоретичного і прикладного мовознавства і, відповідно, лінгвістичних процедур аналізу, можна сподіватися на хороші результати.
11. Комп’ютерна АГАТ-граматика і комп’ютерні словники були застосовані до Корпусу української мови, який є полігоном удосконалення і верифікації лінгвістичних моделей. Лінгвісти в усьому світі починають усвідомлювати важливість розробки граматик національної мови для лінгвіста – не для пересічного користувача шкільних або академічних граматик, а таких, які були б зорієнтовані на дослідника і базувалися б на матеріалі «активного» мовлення, представленого Корпусом української мови. Тому створення граматичних описів на корпусних даних набуває особливого значення. Проанотовані АГАТ-граматикою корпусні тексти призначені, в першу чергу, для виконання подібних завдань. Актуальною проблемою є створення тлумачного словника для лінгвіста, для чого треба розробити метамову опису лексичного значення слів, яка б передбачала розроблення 1) інвентарю семантичних дескрипторів (предметних, предикатних); 2) правил поєднання дескрипторів. І граматика, і тлумачний словник для лінгвіста неможливо створити без здобутків традиційної лінгвістики, у чому ми вбачаємо перспективу взаємодії традиційної, структурно-математичної і комп’ютерної лінгвістики.
 


Обновить код

Заказать выполнение авторской работы:

Поля, отмеченные * обязательны для заполнения:


Заказчик:


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины