ТЕЗАУРУС ДІЄСЛІВ УКРАЇНСЬКОЇ МОВИ: ЛІНГВІСТИЧНІ ПРОБЛЕМИ ТА МЕТОДИКА КОНСТРУЮВАННЯ : ТЕЗАУРУС глаголов УКРАИНСКОГО ЯЗЫКА: Лингвистические проблемы И методика конструирования



Название:
ТЕЗАУРУС ДІЄСЛІВ УКРАЇНСЬКОЇ МОВИ: ЛІНГВІСТИЧНІ ПРОБЛЕМИ ТА МЕТОДИКА КОНСТРУЮВАННЯ
Альтернативное Название: ТЕЗАУРУС глаголов УКРАИНСКОГО ЯЗЫКА: Лингвистические проблемы И методика конструирования
Тип: Автореферат
Краткое содержание:

У вступі обґрунтовано вибір і актуальність теми дисертації, визначено мету, завдання роботи, названо об’єкт і предмет вивчення, охарактеризовано теоретичне і практичне значення результатів дослідження та наукову новизну роботи.


Перший розділ «Теорія і практика укладання тезаурусів у вітчизняній і зарубіжній лінгвістиці: аналіз і перспективи» присвячений огляду літератури з лінгвістичної семантики та лексикографії, зокрема з’ясуванню проблем обсягу понять і вживання термінів “тезаурус” та “ідеографічний словник”. Окрім того, розглядаються особливості загальномовних тезаурусів і їхніх електронних версій як такого типу словників, до яких відноситься створений нами тезаурус, а також звертається увага на роль комп’ютера в процесі укладання та представлення лексикографічних продуктів. Результати роботи над світовим тезаурусним матеріалом свідчать про значний та багатогранний досвід тезаурусотворення за кордоном і початки цієї справи на теренах слов’янської лексикографії та української зокрема. Аналіз та систематизація наявних у бібліотеках та в мережі Інтернет 15 паперових і більш ніж 50 комп’ютерних словників дає нам можливість узагальнити результати моніторингу у:


1)       класифікації комп’ютерних тезаурусів (за такими трьома загальними характеристиками, як тематична спрямованість, мова виконання та повнота викладу);


2)       систематизації термінології з комп’ютерної лексикографії та ідеографії у вигляді спеціалізованого тезауруса (додаток А дисертації);


3)       напрацюванні теоретичних і технологічних засад для створення власної формалізованої методики укладання комп’ютерного тезауруса дієслів української мови.


Розроблення методики укладання тезауруса для української мови на сьогодні є надзвичайно актуальним. Причому саме комп’ютерного тезауруса як електронного загальномовного словника неалфавітного типу, в якому експліцитно відображені системні семантичні відношення між одиницями. Саме він знаходиться в центрі уваги такого підрозділу комп’ютерної лексикографії, як комп’ютерна ідеографія. Зрозуміло, що формалізація та комп’ютеризація лексикографічних і лексико-семантичних продуктів є одним із важливих завдань сучасної лексикографії. Усі переваги користування електронними словниками закладаються у процесі створення для них лінгвістичних баз даних, у високому ступені формалізації лексичної семантики одиниць, а також у формалізації (алгоритмізації) самого процесу укладання словника.


У другому розділі дисертації «Блок-схема побудови комп’ютерного тезауруса. Специфіка ідеографічного представлення дієслівної лексики» подано загальний огляд проекту укладання комп’ютерного тезауруса української мови з акцентом на лінгвістичні проблеми опису дієслівної лексики. Увагу зосереджено на проблемах представлення дієслів у комп’ютерному тезаурусі, зокрема тих, що належать до лексико-семантичного поля мовленнєвої діяльності. Розглядаються особливості семантики дієслова як підґрунтя для побудови ЛСП дієслів мовленнєвої діяльності, дієслівних словникових статей та їхньої організації у комп’ютерному тезаурусі. Результати дослідження свідчать, що методика аналізу дієслівної лексики суттєво відрізняється від аналізу інших частин мови, зокрема іменників як основних представників предметної лексики. Оскільки у значенні дієслова переважає сигніфікативна семантика і дієслова є представниками предикатної лексики, дієслівне значення не співвідноситься безпосередньо з предметною сферою, а висвітлює процесуально-станові ознаки предметів. Ця особливість впливає на методику опрацювання дієслівного матеріалу, зумовлює її специфіку порівняно з аналогічною роботою над іменниками. Для дієслів більш прийнятна внутрішня, сигніфікативна, заснована на аналізі понять зумовленість вибору концептів; більш адекватним є індуктивний підхід до впорядкування лексем; суттєвого значення набувають відношення, які базуються на словотвірних типах (дериваційна гіпонімія) і валентному потенціалі (основа для міжчастиномовних зв’язків); несуттєвими є відношення типу «частина-ціле». Усі ці риси відображаються у теоретичних засадах побудови словника, у структурі словникових статей і структурі комп’ютерного тезауруса в цілому як самостійної системи з її внутрішніми зв’язками і багаторівневою організацією. Хоча загальна структура словникової статті для іменників і дієслів є однотипною і складається з трьох частин (заголовного слова та лексем, пов’язаних із ним відношеннями внутрі- та міжчастиномовними), на глибшому рівні відбувається досить суттєва диференціація. Поряд з наявністю дієслів, поєднаних синонімічними, антонімічними та родо-видовими відношеннями (що характерно також і для іменників), для дієслів характерні, зокрема, частотність фонетичних варіантів, розгалужена сітка деривативних відношень, які базуються на семантиці родів дії; мережа відношень на базі дієслівного валентного потенціалу та залежність структури словникової статті від словотвірної будови дієслова.


Теоретичні постулати дослідження були трансформовані у низку завдань, послідовне виконання яких привело до поставленої мети. У підсумку створена чітка послідовність укладання КТ дієслів, яку можна описати у вигляді блоків. У підготовчому блоці формуються теоретична база, корпус матеріалу (у нашому випадку – суцільна вибірка з тлумачного «Словника української мови» дієслів з семою мовлення кількістю близько двох тисяч одиниць) та концепти для ЛСП дієслів мовлення. Основне лінгвістичне опрацювання матеріалу здійснюється у блоці аналізу. Укладається база даних (БД) комп’ютерного тезауруса дієслів за допомогою комплексної процедури, яка включає елементи морфемно-словотвірного аналізу лексем ЛСП, синтаксичного аналізу ілюстративного речення до ЛСВ, синтаксичного аналізу тлумачення ЛСВ, компонентного аналізу тлумачення ЛСВ та ступеневої ідентифікації лексики. Результатом такого комплексного аналізу є встановлення відношень між одиницями (гіпонімія, синонімія, антонімія, деривативні та інші типи відношень), на базі яких здійснюється розподіл ЛСВ дієслів за лексико-семантичними групами і лексико-семантичними полями. Ця система ґрунтується на алгоритмічному принципі. Завершальним етапом укладання КТ дієслів є блок синтезу, у межах якого проектуються мікро- і макрорівні комп’ютерного ідеографічного словника. У цьому блоці виконуються такі завдання, як формування макроструктури КТ дієслів (вибудовується синоптична схема тезауруса, проектуються входи у словник); визначення мікроструктури тезауруса (розробляються словникові статті, висвітлюється структура міждієслівних відношень) та розробляються принципи інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови (на базі міжчастиномовних зв’язків дієслова).


Дослідження специфіки дієслівної лексики та розробка блок-схеми опрацювання ЛСВ дієслів є необхідним етапом для вирішення лінгвістичних завдань побудови бази даних та синоптичної схеми КТ.


Третій розділ «Укладання бази даних комп’ютерного тезауруса дієслів української мови» присвячено розгляду лінгвістичних проблем створення бази даних для комп’ютерного тезауруса дієслів, аналізу його одиниць та відношень між ними. Для концептуального впорядкування дієслів ЛСП мовленнєвої діяльності була розроблена спеціальна методика. Було випробувано декілька підходів, перш ніж зупинитися на представленій у роботі аналітичній послідовності. У результаті слова було вирішено розподіляти по групах тезауруса з урахуванням їхнього семного складу, який визначався внаслідок застосування методів компонентного аналізу та ступеневої ідентифікації лексико-семантичних значень дієслів мовленнєвої діяльності. У процесі дослідження лексико-семантичного поля дієслів мовлення і його структури нами було опрацьовано близько 2 000 пов’язаних між собою різного типу відношеннями лексико-семантичних дієслівних варіантів. Послідовність роботи було алгоритмічно представлено як блок-схему аналізу ЛСВ дієслів мовленнєвої діяльності і узагальнено у вигляді блок-схеми розподілу дієслів за лексико-семантичними групами комп’ютерного тезауруса дієслів української мови (додаток Б дисертації). Послідовність роботи така: з алфавітного списку ЛСВ береться перше значення (у нашому випадку це було базікати 1) і за допомогою компонентного аналізу в його тлумаченні «говорити багато, беззмістовно, про неістотне» шляхом ступеневої ідентифікації виділяються концептуальна сема «говорити» й диференційна сема «багато, беззмістовно, про неістотне». Оскільки концептуальна сема безпосередньо належить до семантичного поля мовлення, дієслово зараховується до його ядра і стає умовним репрезентантом лексико-семантичної групи, значення якої виражене диференційною семою. Семна структура вказаного ЛСВ «говорити + багато, беззмістовно, про неістотне» стає узагальненою схемою відповідної ЛСГ «говорити + певним чином».


Структуру усіх подальших дієслівних значень порівнюємо з попередньо визначеними: якщо відбувається накладання структури (наприклад, просторікувати 1 з тлумаченням «багато, часто беззмістовно говорити», відповідною семною структурою «говорити + багато, часто беззмістовно» і тотожною до базікати 1 схемою «говорити + певним чином»), то лексико-семантичний варіант зараховуємо до вже визначеної ЛСГ. Якщо ж відповідної семної структури ще немає, створюємо нову ЛСГ на чолі з тим значенням, яке стало першим репрезентантом цієї схеми (наприклад, карбувати 1 з тлумаченням «чітко вимовляти», семною структурою «вимовляти + чітко» і тотожною до базікати 1 схемою «говорити + певним чином»).


Якщо концептуальна сема не належить до ЛСП мовлення, то ЛСВ зараховуємо до периферії вказаного ЛСП (наприклад, домовлятися 1 «ведучи попередні розмови, переговори, досягати певної умови, вирішувати щось», ображати 1 – «зневажливим висловлюванням, негарним вчинком завдавати кому-небудь образи, душевного болю, моральної травми») і після об’єднання програмою ЛСГ в мікрополя за схожістю диференційних сем йдемо на вихід, якщо це було останнє значення, яке потребує аналізу. Якщо ж ні, то повертаємося на початок алгоритму. Цей етап циклу не є остаточним, оскільки під концептами об’єднується лексика, яка ще потребує подальшої семантичної диференціації. Тому після проходження списку до кінця ту ж процедуру повторюємо стосовно кожної з утворених лексико-семантичних груп, доки кожне з представлених значень не знайде свою нішу в межах ядра ЛСП мовленнєвої діяльності або на його периферії.


Подальші рівні ієрархізації будуються аналогічно: об’єктом розгляду стає виділена на попередньому рівні аналізу диференційна сема. Шляхом порівняння її структури і змісту з іншими семами концепту визначаємо, чи піддається сема подальшому розчленуванню на дрібніші компоненти. Якщо знаходимо подібні, то формуємо новий рівень відповідно до алгоритму. Наприклад, маємо на вході п’ять ЛСВ, які є представниками концепту «особливості мовлення», з тлумаченнями: бубніти 1 (говорити нерозбірливо), гугнявити 1 (говорити нерозбірливо у ніс), лопотіти 3 (говорити нерозбірливо, безладно, плутано), мекати 2 (говорити нерозбірливо, розтягуючи слова і вставляючи між ними звуки «мм», «ме»), шамкати 1 (говорити нерозбірливо, невиразно, злегка шепелявлячи). На семному рівні структура ЛСВ виглядає так: бубніти 1 (говорити + нерозбірливо), гугнявити 1 (говорити + нерозбірливо + у ніс), лопотіти 3 (говорити + нерозбірливо + безладно, плутано), мекати 2 (говорити + нерозбірливо + розтягуючи слова і вставляючи між ними звуки «мм», «ме»), шамкати 1 (говорити + нерозбірливо + невиразно, злегка шепелявлячи). Результат впорядкування дієслівного матеріалу за 4 концептами «Висловлення думки / почуття», «Обмін думками», «Особливості вимови» та «Повідомлення інформації» представлено в додатку В дисертації. Фрагмент структури концепту «Особливості мовлення» ЛСП мовленнєвої діяльності другого рівня ієрархізації (відношення гіпонімії) виглядає так:


*      особливості мовлення (концепт, 2 рівень ієрархізації; типова структура - «говорити певним чином», «вимовляти щось»)


*      бубніти 1 (3-й рівень ієрархізації; диференційна сема – нерозбірливо)


*      гугнявити 1 (4-й рівень ієрархізації; диференційна сема –у ніс)


*      лопотіти 3 (4-й рівень ієрархізації; диференційна сема – безладно, плутано)


*      мекати 2 (4-й рівень ієрархізації; диференційна сема – розтягуючи слова і вставляючи між ними звуки «мм», «ме»)


*      шамкати 1 (4-й рівень ієрархізації; диференційна сема – невиразно, злегка шепелявлячи)


Для ЛСВ багатозначних дієслів саме розбіжність у концептах є визначальною у знаходженні свого місця у ЛСП мовлення. Можна порівняти дві тотожні за репрезентативним дієсловом ЛСГ –  шепотіти 1 зі схемою “говорити + тихо / пошепки” і шепотіти 2 зі схемою “розмовляти + тихо / пошепки”. Розташування вказаних груп у гіперо-гіпонімічній сітці поля визначається за концептуальними семами, що мають різні характеристики спрямованості мовлення. Однаковий для обох ЛСГ компонент “тихо/пошепки” є диференційною семою, тому не є вирішальним для позиціонування групи.


Аналіз дієслів, які після проходження через алгоритм опинилися на периферії ЛСП мовлення, був проведений за такою ж послідовністю, як і для поля мовлення, тільки зі зміною концептуальної семи. Це свідчить про стандартність розробленої процедури аналізу і доводить можливість використання його на всьому дієслівному масиві, з уточненнями, за потреби, для імовірних ускладнених випадків.


Результати аналізу дієслівних ЛСВ дають підстави стверджувати, що лексема у певному значенні може належати до декількох ЛСП за своєю природою, маючи при цьому різний статус, перебуваючи на різних рівнях віддаленості від ядра ЛСП. Наприклад, і до ЛСП мовленнєвої діяльності (ядра), і до ЛСП емоційної характеристики мовлення (периферії) відносяться дієслова типу огризатися “відповідати у різкій, грубій формі”.


У процесі укладання тезауруса конкретизовано поняття родо-видових, синонімічних й антонімічних відношень, які стали основними структурувальними чинниками семантичного поля мовлення. З’ясувалося, що більшість семантичних зв'язків між дієсловами є міжрівневими (гіпонімія). Однорівневі зв’язки (синонімія, антонімія) трапляються рідше, ніж прийнято вважати. Частині слів, яка у синонімічних та фразеологічних словниках визначається як синоніми, у процесі аналізу були приписані інші типи зв’язків. Зокрема стилістичні та семантико-стилістичні синоніми були визначені як родо-видові пари з семами стилістичного чи емоційного забарвлення (говорити 2 – верзти 1, говорити 2 – ректи 1). У результаті роботи було виявлено також низку лексико-семантичних закономірностей. Зокрема, типові для дієслів гіперо-гіпонімічні зв’язки можна формалізовано представити як поєднання між собою дієслівних значень різного рівня, різниця між якими зумовлюється наявністю у видового поняття семи, яка є конкретизатором родового поняття (вивідувати 1 ‘розпитувати про щось’ → допитувати 1 ‘наполегливо розпитувати про щось’ → допитати 2 ‘наполегливо розпитати про щось’). У синонімічні групи об’єдналися не емпірично встановлені значення лексем, а тільки ті, у яких на одному з глибших рівнів підпорядкування простежується ідентичний набір сем (наголошувати 1 ‘силою голосу чи підвищенням тону вирізняти склад у слові або слово в реченні’ – акцентувати 1, бурчати 2 ‘говорити невиразно, нерозбірливо’ – буркотати 2 – буркотіти 2). Когіпонімічними зв’язками поєднуються ті значення, у яких на одному рівні підпорядкування наявна різниця у дві семи: гугнявити 1 ‘говорити нерозбірливо, у ніс’ – шамкати 1 ‘нерозбірливо, невиразно, злегка шепелявлячи’. Антонімічні відношення виникають між одиницями одного рівня, у семній структурі яких наявна розбіжність в одну сему, яка стосується наявності-відсутності певної характеристики (говорити 2мовчати 1 нічого не говорити’).


Аналіз морфемної структури ЛСВ дієслів мовлення та мережі деривативних зв’язків у КТ дав можливість виділити 12 родів дії: початку дії (защебетати), кінця дії (добалакати), тривалої обмежувальної дії (поговорити), делімітативної інтенсивної дії (попокричати), тривалої закінченої дії (пророкотати), накопичувальної дії (наговорити), однократної дії (гаркнути), оберненої дії (здоровкатися), тривалої періодичної дії (поговорювати), наростаючої дії (розжартуватися), насичувальної дії (наговоритися), надмірної завершеної дії (добалакатися). А також зробити ряд висновків щодо впливу морфемної структури дієслівного ЛСВ на розгалуженість його зв’язків з іншими ЛСВ та рівень його ієрархізації. Похідні дієслова, на відміну від непохідних, знаходяться на різних словотвірних тактах, далі від кореня словотвірного гнізда, і мають нижчу словотвірну продуктивність. Вони часто самі належать до категорії ДРД через їхню ускладнену семантику (зазвичай це значення твірного дієслова, яке також може бути похідним, з додаванням семантики форманта, що виражає нове значення за мутаційним чи модифікаційним типом). Це відбивається й на структурі ідеографічного словника: похідні дієслова знаходяться на глибших семантичних рівнях ієрархізації ЛСП мовлення. Міжчастиномовні деривативні зв’язки виконують ще одну важливу роль у тезаурусотворчій роботі. За їхньою допомогою відбувається інтеграція дієслівної частини словника у загальний тезаурус шляхом фіксації 7 типів міжчастиномовних рольових відношень, що характерні для дієслова за його валентними характеристиками: “дія – суб’єкт” (щебетати – щебетуха), “дія – інструмент” (мовити – мова), “дія – продукт” (видумувати – видумка), “дія – процес” (фантазувати – фантазування), “дія – місце” (говорити – говорильня), “дія – атрибут” (балакати – балакучий), “дія – спосіб” (мовчати – мовчки). Можливість формалізації багатьох процесів обробки лінгвістичного матеріалу, за допомогою яких синтезується семантична структура ЛСП мовлення, також є надзвичайно важливою для конструювання КТ.


Четвертий розділ «Побудова дієслівної статті та синоптичної схеми комп’ютерного ідеографічного словника» окреслює завершальний етап укладання комп’ютерного тезауруса дієслів української мови. Блок синтезу базується на результатах блоку аналізу і передбачає визначення мікроструктури тезауруса (розроблення словникової статті, висвітлення структури міждієслівних відношень), формування макроструктури КТ дієслів (побудову синоптичної схеми ЛСП мовленнєвої діяльності у рамках комп’ютерного тезауруса), проектування входів у комп’ютерний словник та інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови (на базі міжчастиномовних зв’язків дієслова). У цьому блоці розроблено систему пошуку лінгвістичної інформації в комп’ютерному ідеографічному словнику.


Словникова стаття КТ з огляду на специфіку опису матеріалу (концепти і ЛСВ дієслів) має два основні різновиди, які можна визначити як макростаттю і мікростаттю. Макростаття комп’ютерного тезауруса – словникова стаття ідеографічного словника, у якій роль заголовного слова виконує концепт, виражений словосполученням (сполученням слів). Макростаття має рівневу структуру: це класи та підкласи лексем, що виражаються власними (рівневими) концептами синоптичної схеми, які репрезентуються конкретними лексико-семантичними варіантами дієслів мовлення: «особливості вимови» – вимовляти 1, говорити 2; «висловлення думки/почуття» – висловлювати; «обмін думками» розмовляти 1, говорити 3; «повідомлення інформації» – повідомляти 1, розповідати 1. Зміст рівневих концептів розкривається через ЛСВ дієслів, що зібрані у відповідних мікростаттях тезауруса. Мікростаття комп’ютерного тезауруса – словникова стаття ідеографічного словника, заголовним словом якої є ЛСВ. Стаття містить інформацію про відношення між її заголовним словом та іншими ЛСВ тезауруса. Саме у мікростатті КТ відбувається семантизація заголовної одиниці (безпосередньо ЛСВ або концепту за посередництва дієслова-репрезентанта). У макростатті комп’ютерного тезауруса семантизація відбувається як за допомогою синоптичної схеми, так і шляхом тлумачень, уміщених у мікростатті. Наприклад, значення ЛСВ засуджувати 1 знаходиться у межах концептів «висловлення думки /почуття» та «осуд», а також семантизується за допомогою тлумачення «висловлювати осуд». Така подвійна семантизація, яка відбувається фактично за рахунок поєднання ідеографічного та тлумачного підходів до лексикографування, робить більш зрозумілою структуру словника і полегшує пошук лінгвістичної інформації без додавання складної для пересічного користувача системи нумерації, прийнятої в укладачів традиційних ідеографічних словників. Окрім того, поєднання тлумачного й ідеографічного підходів дає можливість вести мову про суміщення принципів лексикографування, про паралельне укладання цих словників з метою забезпечення об’єктивності поданої у них лінгвістичної інформації та чіткого виконання завдань, передбачуваних для словників-тезаурусів.


Відношення між ЛСВ комп’ютерного тезауруса описуються в окремих зонах. У мікростатті комп’ютерного тезауруса дієслів наявні 5 зон, чотири з яких представлені такими основними видами лексико-семантичних відношень, як гіпонімія, синонімія, антонімія та відношення роду дії, а п’ята репрезентує ЛСВ або групи, у яких сема, що стосується мовлення, не є концептуальною, тобто знаходиться на периферії значення. Наприклад, у словниковій статті до ЛСВ вимовляти 1 ‘передавати голосом звуки, слова чужої мови, говорити певним чином’ подаються ЛСВ-гіпернім, 35 гіпонімів (базікати 1, басити 1, бевкати 1, бубніти 1, випалювати 2, витискувати 1, вишкірятися 2, відрубувати 2, вставляти 2, гаркавити 1, грубіянити 1, джеркотати 2, диктувати 2, жартувати 1, жартувати 2, забалакуватися 2, заговорюватися 1, закидати 5, карбувати 1, кричати 2, мугикати 2, мурмотіти 1, натякати 1, повторювати 1, рокотати 3, рубати 5, сичати 1, скрипіти 1, співати 7, стогнати 2, тягнути 1, хрипіти 3, шепелявити 1, шепотіти 1, шипіти 1); 1 синонім (проговорювати 1); 1 дієслово кінця дії (промовити 2); 1 дієслово тривалої закінченої дії (проговорити 1); 1 дієслово однократної дії (вимовити 1) та ЛСВ оберненої дії (вимовлятися 1). Кожна зона позначається на екрані своїм фоновим кольором. За такого підходу можна говорити про конвергенцію синонімічного, антонімічного, тлумачного та ідеографічного словників, завдяки чому КТ дозволяє систематизувати різнобічну лінгвістичну інформацію.


Мікростаття дієслів у КТ може бути або тільки дієслівною (проста), або внаслідок інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови розширюватися відношеннями дієслова з похідною іменниковою, прикметниковою (дієприкметниковою) та прислівниковою (дієприслівниковою) лексикою (розширена). Базою виникнення таких відношень є наявність додаткових сем у структурі ЛСВ інших частин мови: "діяч", "інструмент дії", "продукт дії", "процес", "місце, де відбувається дія", "субстантивована дія, абстракція", "той, що характеризується дією", "відповідно до якостей дії". Ці відношення формують додаткові 3 зони у мікростатті КТ: зону субстантивів (будується на основі відношень дієслова й іменника), зону атрибутивів (ґрунтується на зв’язках дієслова й прикметника або дієприкметника) та зону адвербативів (базується на відношеннях між дієсловом і прислівником або дієприслівником). Таким чином, вигляд зонної структури варіюється залежно від мети: розширена дієслівна мікростаття КТ української мови містить усю дієслівну інформацію простої мікростатті КТ дієслів, а також дані про міжчастиномовні відношення дієслова.


Особливістю проектованої версії тезауруса є те, що у ній передбачене представлення дієслівної підсистеми у вигляді ієрархічно впорядкованого дерева відношень між ЛСВ (додаток В дисертації). З дослідницькою метою може бути сформований як алфавітний перелік ЛСВ дієслів бази даних, так і алфавітний перелік концептів. У спеціально укладеному алфавітному покажчику ЛСВ та концептів загалом немає потреби, оскільки за допомогою наявної у комп’ютерній програмі тезауруса пошукової системи користувач може знайти введене слово у базі даних за лічені секунди. У цілому можна окреслити чотири способи віднайдення потрібної лінгвістичної інформації у КТ: від загальної схеми понять до інших понять та ЛСВ (відповідає синоптичній схемі); від певної понятійної зони, концепту до конкретного ЛСВ дієслова; від синонімів, родових чи видових понять, родів дії тощо до ЛСВ (за синоптичною сіткою відношень між ЛСВ) та від слова до поняття (алфавітний вхід).


Побудова синоптичної схеми КТ досягається шляхом використання дедуктивного та індуктивного методів, які на певному етапі перетинаються, уточнюючи та доповнюючи один одного й утворюючи загальну структуру об’єктивної дійсності, яка відображається синоптичною схемою комп’ютерного тезауруса української мови. На засадах дедуктивного підходу відбувався як вибір матеріалу дослідження (дієслів ЛСП, об’єднаних категоріальною ознакою мовленнєвої діяльності), так і низки диференційних ознак, за якими гіпотетично повинні були розподілятися дієслівні значення. Уявлення про зміст і структуру концепту мовленнєвої діяльності було поглиблене застосуванням індуктивного підходу, за допомогою якого концепт "говорити" був деталізований шляхом виділення чотирьох концептів другого рівня, які уточнюють умови та способи перебігу процесу мовлення: «вимовляти певним чином», «висловлювати думку чи почуття», «повідомляти інформацію», «розмовляти між собою». Ці чотири основні способи мовленнєвої передачі інформації стали базовими для синоптичної схеми ЛСП мовлення, а дієслова вимовляти, висловлювати, повідомляти і розмовляти з тотожними до концептів значеннями стали їхніми репрезентантами. Детальна інвентаризація лексико-семантичних ознак, які у значеннях дієслів мовлення уточнюють категоріально-лексичну ознаку "говорити", дозволила виділити низку диференційних ознак, з яких 42 стосуються способу вимови, 21 – висловлення певної думки чи почуття, 24 — способу повідомлення інформації, 4 — обміну інформацією. Поєднавши отримані диференційні ознаки з категоріальною ознакою "говорити", ми отримали зміст концептів третього рівня, на яких базуються словникові статті. Під час наступного етапу аналізу відбувається подальша конкретизація синоптичної схеми як через співвіднесення узагальнюючих схем лексико-семантичних груп, так і шляхом порівняння схем лексико-семантичних варіантів у межах підгруп і виділення диференційних сем глибших рівнів.


Як результат інтеграції КТ дієслів у КТ української мови спроектовано загальну структуру комп’ютерного тезауруса, що складається з трьох базових компонентів: синоптичної схеми, власне ідеографічної частини (мікро-і макростатті) та пошукової системи, яка виконує функції алфавітного та пермутаційного покажчиків.


П’ятий розділ «Аналіз художнього тексту за допомогою комп’ютерного тезауруса дієслів» присвячено експериментальному застосуванню створеного КТ. Це порівняльний аналіз авторських художніх текстів за допомогою тезаурусного поля дієслів мовленнєвої діяльності на основі кількісних і якісних характеристик дієслівних складових ЛСП мовлення. Основним об’єктом дослідження стали ЛСВ дієслів мовленнєвої діяльності з комп’ютерної бази даних поетичних текстів письменників другої половини ХХ століття Василя Стуса та Ліни Костенко. Двох авторів однієї історичної епохи було обрано для того, щоб перевірити гіпотезу про те, що найбільш часто повторювані одиниці текстів одного автора є характерними тільки для нього, а не, приміром, для певної епохи або низки авторів одного літературного напрямку. Обидві вибірки містять по 20 тисяч слововживань.


Дієслова мовленнєвої діяльності були виокремлені з поетичних текстів за допомогою аналогічного концепту комп’ютерного тезауруса дієслів української мови. Спосіб побудови КТ передбачає можливість його інтеграції з різними програмами, зокрема автоматичне накладання ієрархічної структури бази даних описуваного словника на текстові масиви. В результаті стало можливим автоматичне структурування інформації з частотних словників поетів з допомогою комп’ютерного тезауруса.


Використання КТ у поєднанні зі статистичними даними частотних словників дало змогу помітити деякі лексичні особливості двох вищезгаданих поетів, які не могли бути виявлені простим зіставленням частотних характеристик лексем обох вибірок. Так, якщо використовувати лише кількісні характеристики слів з частотного словника, можна побачити, що, наприклад, дієслово “кричати” майже втричі частіше вживається у поетичних текстах Л.Костенко (порівняно з текстами В.Стуса). Якщо зіставити цей результат з частотними характеристиками дієслова “говорити” (15 проти 1 у В.Стуса), можна зробити висновок, що поетеса віддає перевагу вживанню лексем саме цієї групи на противагу антонімічному “мовчати”, яке у Л.Костенко трапилося лише 6 разів проти 26 – у В.Стуса. Й інтерпретувати це як стильову “відкритість”, “відвертість” Л.Костенко і “закритість”, “мовчазність”, “суворість” В.Стуса. У результаті застосування тезауруса до аналізу текстових масивів та розмежування полісемантичних і омонімічних значень ми отримуємо інші, чи не протилежні дані, які можуть бути підставою для спростування попередніх гіпотез: В.Стус вражає нас своїм “мовчазним криком”, а Л.Костенко – насправді “закритою відвертістю”. Результати експерименту свідчать про широке застосування В. Стусом формально різних дієслівних лексем на позначення споріднених понять, поєднаних між собою синонімічними і родо-видовими зв’язками. Тоді як Л.Костенко віддає перевагу частому вживанню порівняно невеликої кількості синонімів.


Таким чином, суттєвою перевагою поєднання тлумачного й ідеографічного опису під час лексикографування поетичного ідіолекту є можливість висвітлити притаманні йому системні зв’язки та їхню кореляцію з аналогічними зв’язками й ієрархічними відношеннями, характерними для мовної системи в цілому. А додання статистичних даних дозволяє ще повніше схарактеризувати авторську мову (зокрема спростувати чи підтвердити попередні результати її аналізу) за якісними і кількісними параметрами. Якщо частотний словник дає базову лексико-статистичну інформацію про лексеми, то тезаурус поета дає можливість сягнути глибшого семантичного рівня, оскільки є найтоншим інструментом аналізу значення.


У Висновках узагальнюються лінгвометодичні та технологічні засади створення ідеографічних словників з акцентом на укладанні КТ дієслів.


1. Методологічні постулати дослідження зумовили формування відповідної методики формалізованого (алгоритмізованого) конструювання загальномовного тезауруса. Розроблено чітку послідовність укладання КТ дієслів, описану у вигляді блоків, кожен з яких містить низку завдань (підготовчий блок, блок аналізу, блок синтезу). Комплексні принципи лексикографування, що ґрунтуються на базі дедуктивно-індуктивного, ідеографічно-тлумачного, дериватологічного підходів, стали основою для укладання тезауруса як комплексного лексикографічного продукту. Формалізовані методи й методики опису лексичної семантики уможливили конструювання комп’ютерних тезаурусів.


2. Створена формалізована методика конструювання КТ передбачає послідовне вирішення завдань відповідно до кожного блоку.


2.1. Після здійснення добору джерельних матеріалів та відповідних концептів основне опрацювання підготованого мовного матеріалу відбувається у блоці аналізу. Укладання бази даних (БД) комп’ютерного тезауруса дієслів здійснюється за допомогою комплексної процедури, яка включає компонентний аналіз тлумачення та його ступеневу ідентифікацію, і також елементи морфемно-словотвірного аналізу лексем ЛСП, синтаксичного аналізу ілюстративного речення, синтаксичного аналізу тлумачення. Результатом такого комплексного аналізу є встановлення відношень між одиницями (гіпонімія, синонімія, антонімія, деривативні та інші типи відношень). Послідовність розподілу ЛСВ дієслів за лексико-семантичними групами і лексико-семантичними полями було здійснено алгоритмічно та представлено у вигляді блок-схем.


2.2. Завершальним етапом укладання КТ дієслів є блок синтезу, у межах якого створюються мікро- і макрорівні комп’ютерного ідеографічного словника. У цьому блоці виконуються такі завдання, як формування макроструктури КТ дієслів (побудова синоптичної схеми тезауруса, проектування входів у словник); визначення мікроструктури тезауруса (розроблення словникових статей, зонне висвітлення структури міждієслівних відношень) та розроблення принципів інтеграції дієслівної частини КТ у єдиний проект комп’ютерного тезауруса української мови (на базі міжчастиномовних зв’язків дієслова). Як результат інтеграції КТ дієслів у КТ української мови розроблено загальну структуру комп’ютерного тезауруса, що складається з трьох базових компонентів: синоптичної схеми, власне ідеографічної частини (мікро-і макростатті) та пошукової системи з функціями алфавітного та пермутаційного покажчиків.


2.3. Комп’ютерний тезаурус дієслів української мови виступає у трьох основних іпостасях: як теоретична логіко-семантична модель лексики; як багатофункціональна довідкова система та як інструмент для проведення лексико-семантичних досліджень. Експериментальний блок присвячений застосуванню КТ дієслів для порівняльного аналізу текстів Л. Костенко і В. Стуса. Використання тезауруса у поєднанні зі статистичними даними дало змогу помітити деякі лексичні особливості двох вищезгаданих поетів, які не могли бути виявлені простим зіставленням частотних характеристик лексем обох вибірок. Подібні дослідження важливі для вивчення авторського стилю письменників.


3. Розроблення методики укладання КТ дієслів сприяло вирішенню ряду дотичних лінгвістичних проблем.


3.1. Для конструювання бази даних мовна інформація повинна бути формалізовано представлена. Перш за все це стосується поданих тлумачним словником визначень. Стандартування визначень тлумачного словника й укладання ідеографічного словника необхідно проводити паралельно, що дає можливість оптимізувати процес роботи.


3.2. Результати дослідження свідчать, що методика аналізу дієслівної лексики суттєво відрізняється від аналізу інших частин мови, що пов’язано з референтним характером семантики дієслів. Саме тому аналіз дієслівних значень необхідно проводити перш за все на основі індуктивного методу, через уточнення окреслених дедуктивним способом концептів. Встановлено, що особливості дієслівної семантики зумовлюють також кількісні та якісні параметри словникової статті КТ дієслів.


3.3. Результати аналізу дієслівних ЛСВ дають підстави стверджувати, що лексема у певному значенні може належати до декількох полів за своєю природою, займаючи при цьому різний статус, перебуваючи на різних рівнях віддаленості від центру ЛСП.


3.4. Одним з важливих етапів розроблення ідеографічного словника є вибір відповідних форм назв для його концептів. Оскільки визначальним при доборі назви концепту є намагання досягнути її максимальної однозначності і прозорості, чіткого розкриття змісту, найбільш коректною формою називання концептів КТ дієслів мовленнєвої діяльності є словосполучення, у складі яких кожна семантична ознака передається окремою лексичною одиницею.


4. Запропонована методика має низку переваг. Перш за все вона дозволяє порівняно точно визначити місце дієслова у лексико-семантичній системі мови завдяки застосуванню основних засад методики компонентного та ступеневого аналізів ЛСВ. Окрім цього, синоптична схема тезауруса розробляється не накладанням масиву лексики на аналізовані значення, а формується на основі аналізу лексико-семантичних значень, що дозволяє уникати суб’єктивних впливів розробника на результати дослідження. І, що особливо важливо для нашого дослідження, чітко визначена послідовність кроків дає можливість формалізувати роботу з укладання комп’ютерного тезауруса, допомагає знайти оптимальну форму представлення результатів та застосування їх у комплексі інших лінгвістичних продуктів (зокрема частотних словників).


5. Аналіз дієслів, які після проходження через алгоритм опинилися на периферії ЛСП мовлення, був проведений за такою ж послідовністю, як і для поля мовлення, тільки зі зміною концептуальної семи. Це свідчить про стандартність розробленої процедури аналізу і доводить можливість використання її на всьому дієслівному масиві, із деякими модифікаціями для імовірних ускладнених випадків. Ця методика може бути використана для укладання як загальномовного, так і спеціалізованого тезауруса, про що свідчить розроблений за тією ж процедурою «Спеціалізований тезаурус з комп’ютерної ідеографії» (словник містить 75 термінів та терміносполучень; паперовий проект представлений у додатку А, онлайн-версія розміщена на сторінках Лінгвістичного порталу MOVA.info у розділі «Словники» http://www.mova.info/toc.asp?PP=16&tocPath=1).


6. Процес роботи над проектом показав переваги комп’ютерного упорядкування і представлення лінгвістичних даних. Спеціальне програмне забезпечення, система Tesaurus, дозволило розширити обсяг лінгвістичної інформації у тезаурусі дієслів шляхом інтегрованого укладання ідеографічного, тлумачного, синонімічного, антонімічного словників. Система пошуку дала можливість спростити структуру КТ дієслів, фактично сумістити функції алфавітного та пермутаційного покажчиків та прискорити роботу з пошуку необхідних даних. Таким чином, концепт «діяльність мовленнєва» у КТ дієслів представлений у вигляді розгалуженої довідкової системи. Окрім цього, зазначена система є основою для її інтеграції в мережу лінгвістичного програмного забезпечення, що характерно тільки для комп’ютерних словників.


Створення ідеографічних словників і їхнє використання є на сьогодні надзвичайно актуальним. Розроблення основних теоретико-методологічних засад укладання комп’ютерного тезауруса дієслів сприяє дослідженню таких аспектів мовознавства, як парадигматика й синтагматика, теорія поля, синонімія, антонімія і полісемія у лексичній семантиці, взаємозв’язок синтаксичних і семантичних характеристик дієслова, формалізація мовних досліджень. Формалізація лексикографічних розробок й комп’ютеризація лексикографічних продуктів є важливими завданнями сучасної комп’ютерної лексикографії, оскільки допомагають оптимізувати отримання якісних результатів в електронному форматі.


 


 


 

 


Обновить код

Заказать выполнение авторской работы:

Поля, отмеченные * обязательны для заполнения:


Заказчик:


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины