Каталог / ФИЛОЛОГИЧЕСКИЕ НАУКИ / Языкознание
скачать файл:
- Название:
- Волошиновська, Ірина Анатоліївна. Стильова, тематична й авторська атрибуція наукових і художніх текстів (на матеріалі англійської, німецької та української мов).
- Альтернативное название:
- Волошиновская, Ирина Анатольевна. Стилевая, тематическая и авторская атрибуция научных и художественных текстов (на материале английского, немецкого и украинского языков).
- ВУЗ:
- Національний педагогічний університет імені М. П. Драгоманова
- Краткое описание:
- Волошиновська, Ірина Анатоліївна. Стильова, тематична й авторська атрибуція наукових і художніх текстів (на матеріалі англійської, німецької та української мов) : автореферат дис. ... канд. філол. наук: 10.02.15 / І. А. Волошиновська ; наук. керівник Т. С. Толчеєва ; М-во освіти і науки України, Нац пед. ун-т ім. М. П. Драгоманова. - Київ, 2013. - 244 с.
Міністерство освіти і науки України
Національний педагогічний університет імені М. П. Драгоманова
На правах рукопису
ВОЛОШИНОВСЬКА ІРИНА АНАТОЛІЇВНА
УДК 81'322.2:519.765:38:811.11
СТИЛЬОВА, ТЕМАТИЧНА Й АВТОРСЬКА АТРИБУЦІЯ
НАУКОВИХ І ХУДОЖНІХ ТЕКСТІВ
(на матеріалі англійської, німецької та української мов)
10.02.15 загальне мовознавство
Дисертація на здобуття наукового ступеня кандидата філологічних наук
Науковий керівник:
Толчеєва Тетяна Станіславівна,
доктор філологічних наук, доцент
Київ 2013
ЗМІСТ
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
ВСТУП . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
РОЗДІЛ 1. ТЕОРЕТИЧНІ ЗАСАДИ ВИВЧЕННЯ АТРИБУЦІЇ ТЕКСТІВ РІЗНИХ ФУНКЦІОНАЛЬНИХ СТИЛІВ . . . . . . . . . . . . . . .
14
1.1 Атрибуція та суміжні терміни в сучасному мовознавстві . . . . . 14
1.2 Лінгвістичні параметри атрибуції наукових текстів . . . . . . . . . . 18
1.3 Лінгвістичні параметри атрибуції художніх текстів . . . . . . . . . . 22
1.4 Лінгвістичні параметри атрибуції текстів інших стилів . . . . . . . 26
1.5 Застосування лінгвістичного параметра послідовності вживання літер або слів для атрибуції текстів . . . . . . . . . . . . . . .
29
1.5.1 Апробація застосування лінвістичного параметра послідовності вживання літер або слів для атрибуції текстів у різних мовах . .
33
Висновки до розділу 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
РОЗДІЛ 2. МЕТОДОЛОГІЧНА БАЗА АНАЛІЗУ АТРИБУЦІЇ ТЕКСТІВ РІЗНИХ ФУНКЦІОНАЛЬНИХ СТИЛІВ . . . . . . . . . . . . . . .
38
2.1 Сучасні методи атрибуції текстів різних функціональних стилів 38
2.2 Метод моніторингу класифікації та кластеризації текстів (їх слів, словосполучень) для здійснення атрибуції . . . . . . . . . . . . . .
49
2.3 Аналіз стильової та авторської атрибуції художніх текстів різних мов за допомогою програмних систем . . . . . . . . . . . . . . . .
58
2.4 Комплексна методика аналізу стильової, тематичної й авторської атрибуції текстів . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Висновки до розділу 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
РОЗДІЛ 3. СТИЛЬОВА АТРИБУЦІЯ НАУКОВИХ І ХУДОЖНІХ АНГЛО-, НІМЕЦЬКО- ТА УКРАЇНОМОВНИХ ТЕКСТІВ . . . . . . . . .
73
3.1 Закономірності частотного розподілу слів у наукових та художніх текстах . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.2
Рангово-частотний розподіл слів в англо-, німецько та україномовних наукових і художніх текстах . . . . . . . . . . . . . . . .
83
3.2.1 Зіставлення рангово-частотного розподілу слів в англомовних наукових та художніх текстах . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
3.2.2 Зіставлення рангово-частотного розподілу слів у німецькомовних наукових та художніх текстах . . . . . . . . . . . . . .
98
3.2.3 Зіставлення рангово-частотного розподілу слів в україномовних наукових та художніх текстах . . . . . . . . . . . . . . .
101
3.2.4 Зіставлення апроксимаційного математичного параметра s для стильової атрибуції англо-, німецько- та україномовних наукових і художніх текстів . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104
Висновки до розділу 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
РОЗДІЛ 4. ТЕМАТИЧНА ТА АВТОРСЬКА АТРИБУЦІЯ АНГЛОМОВНИХ НАУКОВИХ ТЕКСТІВ. . . . . . . . . . . . . . . . . . . . . . . .
115
4.1 Тематична атрибуція наукових текстів . . . . . . . . . . . . . . . . . . . . . 115
4.2 Виділення тематичних напрямків за заголовками, анотаціями та тезами наукових доповідей . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
120
4.3 Інтегрована методика аналізу авторської атрибуції наукових текстів методом одночасного моніторингу групування текстів та відповідних їм слів із залученням послідовності вживання слів . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
126
4.4 Ентропія як метод авторської атрибуції наукових текстів . . . . . . 132
Висновки до розділу 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
РОЗДІЛ 5. АВТОРСЬКА АТРИБУЦІЯ АНГЛО-, НІМЕЦЬКО- ТА УКРАЇНОМОВНИХ ХУДОЖНІХ ТЕКСТІВ
159
5.1 Авторська атрибуція англомовних художніх текстів . . . . . . . . . . 159
5.2 Авторська атрибуція німецькомовних художніх текстів . . . . . . . 165
5.3 Авторська атрибуція україномовних художніх текстів . . . . . . . . 169
Висновки до розділу 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
ВИСНОВКИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ . . . . . . . . . . . . . . . . . . . . . . 183
СПИСОК ДОВІДНИКОВИХ ДЖЕРЕЛ . . . . . . . . . . . . . . . . . . . . . . . . . . 210
ДОДАТКИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ
КЛД – дивергенція Кульбака-Лайблера (Kullback-Leibler Divergence)
n-грам – послідовність n елементів
РС – головна компонента (Principal Component)
РСА – аналіз головних компонент (Principal Component Analysis)
ВСТУП
Дисертаційне дослідження присвячене вивченню стильової, тематичної і авторської атрибуції англо-, німецько- та україномовних текстів. У роботі розроблено нову методику здійснення стильової атрибуції текстів на основі аналізу частоти вживання слів в англійській, німецькій та українській мовах; установлено розбіжності між рангово-частотними закономірностями вживання слів у науковому та художньому текстах, що дає змогу диференціювати їх функціонально-стильовий різновид; доведено, що послідовність частоти вживання одного слова / двох слів ідентифікує тексти різних функціональних стилів за їх тематикою, тимчасом послідовність частоти вживання трьох і чотирьох слів свідчить про імовірну приналежність тексту певному авторові.
Сучасне теоретичне і прикладне мовознавство демонструє тенденцію до міждисциплінарної дескрипції тих об’єктів наукового спостереження, які становлять інтерес не лише для представників гуманітарного знання, а й перебувають у фокусі уваги дослідників точних наук, зокрема математики (А. Рогов, А. Романов, Т. Суровцова, О. Шевелев, S. Argamon, J. Binongo, M. Koppel), фізики (Ю. Головач, А. Ровенчак, I. Popescu, J. Rudman) тощо. З-поміж таких об’єктів аналізу варто назвати атрибуцію текстів (П. Вашак, Г. Мартиненко) – інтегрований філолого-математико-статистичний феномен групування текстів за ознаками стилю, часу, тематики, жанру, автора, статі, мови, літературної школи, ідейної течії.
Традиційно атрибуцію текстів здійснюють за допомогою статистичних методів: хі-квадрат (указує на статистичну однорідність текстів щодо певного мовного явища), критерій Стьюдента (показує на істотні/неістотні розбіжності середньої частоти появи певних одиниць мови у двох довільних зіставлюваних текстах) (В. Левицький, М. Марусенко, В. Перебийніс, Р. Піотровський, Ю. Тулдава, Г. Хетсо); математичних методів, які враховують багатовимірність простору спостережуваних об’єктів (Д. Хмельов, D. Hoover, P. Juola, E. Stamatatos), зокрема методу аналізу головних компонент, що одночасно дає змогу проводити моніторинг розташування текстів та слів відповідно до їх подібності за тематикою або автором (H. Baayen, J. Binongo, J. Burrows, D. Holmes), та власне лінгвістичних: структурного з його методиками аналізу – трансформаційною (Н. Хомський, Л. Теньєр) і дистрибутивною (Л. Блумфільд, 3. Харріс).
Особливий інтерес у завданнях пошуку інформації становлять наукові тексти з огляду їх важливості для ідентифікації наукової школи, приналежності до наукового напряму (J. Swales). Натомість і донині у функціональній стилістиці не вирішеною залишається проблема визначення автора наукової статті, особливо написаної у співавторстві (І. Колегаєва, Т. Радзієвська, Н. Разінкіна). Для текстів художніх творів вирізняються індивідуальні стильові й авторські ознаки, проте чітко ідентифікувати автора художнього твору можна лише шляхом застосування інтегрованого підходу із залученням методів математики, статистики і лінгвістики. З огляду на це постає необхідність стандартизації методів атрибуції текстів (M. Jockers, J. Rudman) та надання математичним параметрам аналізу тексту лінгвістичного змісту (І. Popescu). Така постановка проблеми актуалізує вивчення феномена атрибуції текстів з мовознавчих позицій.
Актуальність дисертаційного дослідження зумовлена його спрямуванням на пошуки тих процедур вивчення мовних явищ, які на тлі сучасних різноманітних комплексних методів і прийомів аналізу здатні забезпечити максимальну об’єктивність здобутих результатів. Комплексне поєднання формалізованих методів точних наук із класичними і новітніми лінгвістичними методиками є необхідним передусім для обчислення й обробки якісних характеристик і показників мовного матеріалу, з-поміж якого тексти різних функціональних стилів і різних мов найбільше потребують вдосконалення наявних процедур їх опису, особливо в зіставно-типологічному аспекті.
Зв’язок роботи з науковими програмами, планами, темами. Дисертацію виконано відповідно до тематичного плану науково-дослідних робіт Національного університету “Львівська політехніка” в межах держбюджетної теми “Пріоритети сучасної прикладної лінгвістики” (державна реєстрація № 0107U006226), а також Національного педагогічного університету імені М. П. Драгоманова за напрямом “Дослідження проблем гуманітарних наук”. Дисертаційна робота є складовою наукової теми кафедри загального мовознавства та германістики Інституту іноземної філології Національного педагогічного університету імені М. П. Драгоманова “Зіставно-типологічне вивчення мов у синхронії і діахронії” (тему дисертації затверджено на засіданні Вченої ради Інституту комп’ютерних наук та інформаційних технологій Національного університету “Львівська політехніка”, протокол № 6-2005/06 від 15 лютого 2006 року; перезатверджено на засіданні Вченої ради Національного педагогічного університету імені М. П. Драгоманова, протокол № 3 від 23 жовтня 2012 року).
Метою дисертації є виявлення закономірностей і відмінностей у здійсненні стильової, тематичної та авторської атрибуції англо-, німецько- та україномовних наукових і художніх текстів.
Поставлена мета передбачає вирішення таких завдань:
– визначити теоретичні засади вивчення атрибуції текстів у сучасному мовознавстві;
– розробити методику аналізу стильової, тематичної та авторської атрибуції англо-, німецько- та україномовних наукових і художніх текстів;
– виявити критерії розмежування англо-, німецько- та україномовних текстів наукового і художнього стилів на основі методу рангово-частотного розподілу слів;
– здійснити тематичну атрибуцію англомовних наукових текстів із залученням методу одночасного моніторингу групування текстів і відповідних їм слів та частоти вживання одного й більше слів;
– охарактеризувати процедуру виконання авторської атрибуції англомовних наукових текстів шляхом поєднання методу одночасного моніторингу групування текстів і відповідних їм слів із параметром послідовності вживання чотирьох слів у цих текстах;
– установити оптимальний розмір послідовності вживання одного та більше слів для авторської атрибуції англо-, німецько- та україномовних художніх текстів.
Об’єкт дослідження становлять англо-, німецько-, та україномовні наукові та художні тексти.
Предметом аналізу є стильова, тематична та авторська атрибуція англо-, німецько-, та україномовних наукових і художніх текстів, здійснена шляхом застосування методу частотного розподілу слів та методу одночасного моніторингу групування текстів і відповідних їм слів із залученням параметра послідовності вживання одного та більше слів.
Фактичним матеріалом дисертації є: а) наукові англомовні праці (“Crystal Design: Structure and Function” by Gautam R. Desiraju, “Lecture notes in Statistics: Bayesian spectrum analysis and parameter estimation” by Bretthorst, “Mathematical models for speech technology” by Stephen E. Levinson, “PLS Toolbox 3.5 for use with MATLAB” by Barry M. Wise), дисертаційні праці (Ch. Bostedt, Y. Kuzminykh, L. Pieterson, D. Talapin, M. True, R. Wegh), журнали (Physical Review B), а також вибірка наукових статей чотирьох авторів: проф. д р. Pieter Dorenbos та проф. д р. Andries Meijerink (голландська фізична школа), д р. Gregory Stryganyuk (українська фізична школа) та проф. д р. Georg Zimmerer (німецька фізична школа); німецькомовні праці (Wolfgang W. Osterhage Studium Generale Physik. Ein Rundflug von der klassischen bis zur modernen Physik, Michael Komma Moderne Physik mit Maple: von Newton zu Feynman, Rainer Scharf Ausgezeichnete Physik); дисертаційні праці (С. Granzow, A. Guesmann, Т. Latz, С. Rotsch), україномовні праці (Електрика і магнетизм Т. Г. Січкар, А. В. Касперський, Конспект лекцій з фізики, Оптика М. О. Романюк), журнали (“Український фізичний журнал”, “Вісник ЛНУ, серія Фізична”, “Фізика конденсованих високомолекулярних систем”), дисертаційні праці (В. Вістовський, А. Пушак, П. Савчин, Г. Стриганюк); б) художні тексти ХІХ-ХХІ століть: англомовні (M. Albom, J. Austen, Ch. Bronte, L. Carroll, A. Conan Doyle, Ch. Dickens, H. Fielding, J. Harries, S. King, J. Rowling, L. Tolstoy); німецькомовні (T. Fontane, A. Friedrich, K. Gier, T. Mann, J. Rudiger, W. Raabe, F. Shätzing, Т. Storm, P. Süskind); україномовні (Ю. Андрухович, В. Винниченко, Л. Дереш, О. Забужко, О. Кобилянська, Л. Костенко, Б. Лепкий, П. Мирний, І. Нечуй-Левицький, Ю. Покальчук, І. Франко, В. Шкляр).
Методи дослідження. Метод частотного розподілу слів (закон Ципфа) використано для опису розподілу слів у тексті та розмежування наукового і художнього стилю; метод одночасного моніторингу групування текстів і відповідних їм слів (аналіз головних компонент) апробовано для тематичної та авторської атрибуції текстів; поєднано метод ентропії з параметром послідовності сполучуваності одного та більше слів для авторської атрибуції наукових текстів. Елементи зіставно-типологічного методу використано для зіставлення наукового і художнього функціональних стилів англійської, німецької та української мов та здійснення стильової атрибуції наукових і художніх текстів трьох мов; за допомогою описового методу узагальнено та систематизовано основні лінгвістичні параметри, придатні для проведення атрибуції текстів.
Наукова новизна визначається тим, що у роботі вперше: 1) розроблено комплексну методику здійснення стильової, тематичної та авторської атрибуції англо-, німецько- та україномовних наукових і художніх текстів; 2) виявлено відмінність рангово-частотних розподілів слів для наукових і художніх текстів (у науковому тексті стрімкість спаду ймовірності появи слова є меншою, ніж у художньому), доведено, що ця відмінність є статистично значимою (межі визначених інтеркванильних інтервалів для наукових і художніх текстів не перетинаються) та запропоновано її використання для стильової атрибуції текстів; визначено найчастіше вживані слова у наукових і художніх текстах досліджуваних мов і проаналізовано загальні тенденції їх вживання (серед найчастіше вживаних слів у наукових текстах є загальнонаукові терміни, службові частини мови; у художніх текстах – слова на позначення частин тіла та періодів дня, займенники, службові частини мови); 3) оптимізовано процедуру проведення тематичної атрибуції текстів за допомогою методу одночасного моніторингу групування текстів і відповідних їм слів, а також показано її ефективність у разі одночасного аналізу текстів статей і відповідних їм тез доповідей, заголовків та анотацій. Набула подальшого розвитку методологія авторської атрибуції наукових текстів в аспекті поєднання таких методів і методик: методу ентропії разом із методом одночасного моніторингу групування текстів і відповідних їм слів із залученням параметра послідовності вживання чотирьох слів у текстах одного автора. Укладено словник найчастіше вживаних послідовностей чотирьох слів (науковий текст) та трьох слів (художній текст), а також установлено закономірності послідовності найчастіше вживаних слів у наукових і художніх текстах.
Практичне значення одержаних результатів полягає в можливості їхнього застосування у викладанні навчальних дисциплін: “Загальне мовознавство” (розділ “Методи дослідження мови”), “Прикладна лінгвістика” (розділи “Методи прикладної лінгвістики”, “Прикладні аспекти квантитативної лінгвістики”), “Стилістика” (розділи “Практична стилістика англійської мови”, “Стилістика німецької мови”, “Стилістика української мови”, “Функціональні стилі”, “Жанри наукового стилю”), “Теорія та практика перекладу” (розділ “Переклад науково-технічних текстів”), “Лінгвістичний аналіз художнього тексту” (розділ “Образ автора – категорія комплексного дослідження мови художнього тексту”). Положення та результати роботи, розроблене програмне забезпечення можуть бути використані для укладання тематичних, термінологічних та частотних словників, словників мови окремих авторів.
Апробація результатів дослідження. Основні положення дисертації висвітлено у доповідях на дев'яти міжнародних наукових конференціях: “Комп’ютерні науки та інформаційні технології” (Львів, 2008), “Граматичні читання” (Донецьк, 2009, 2011), “Горизонти прикладної лінгвістики і лінгвістичних технологій” (Київ, 2009), “Іноземна філологія у ХХІ столітті” (Запоріжжя, 2010), “Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту” (Крим, 2010), “Актуальні проблеми сучасної філології” (Київ, 2012), “Научная дискуссия: вопросы филологии, искуствоведения и культурологии” (Москва 2013), “Шевченківська весна: 2013” (Київ 2013); на одній всеукраїнській науковій конференції “Пріоритети сучасного германського та романського мовознавства” (Луцьк, 2008). Дисертаційна робота обговорювалася на засіданнях кафедри прикладної лінгвістики Інституту комп'ютерних наук та інформаційних технологій Національного університету “Львівська політехніка” і кафедри загального мовознавства та германістики Інституту іноземної філології Національного педагогічного університету імені М. П. Драгоманова.
Публікації. Проблематику, теоретичні і практичні результати дисертаційного дослідження викладено в одинадцятьох публікаціях: у шести статтях, опублікованих у фахових наукових виданнях України, в одній статті – у міжнародному журналі та тезах доповідей чотирьох наукових конференцій.
Обсяг і структура роботи. Дисертація складається з переліку умовних скорочень, вступу, п’ятьох розділів, висновків, списку використаної літератури (262 найменування, із яких 134 іноземними мовами), списку довідникових джерел (3 найменування), додатків (8). Повний обсяг дисертації – 244 сторінки, основний зміст викладено на 182 сторінках, у тому числі 15 рисунків та 31 таблиця, додатки займають 34 сторінки.
У першому розділі “Теоретичні засади вивчення атрибуції текстів різних функціональних стилів” охарактеризовано особливості стильової, тематичної та авторської атрибуції текстів як складових сучасного загального мовознавства. Проаналізовано співвідношення термінів “стилеметрія”, “атрибуція”, “авторизація”, “класифікація”, “кластеризація”. Розглянуто особливості атрибуції наукових текстів. Розроблено класифікацію основних лінгвістичних параметрів для атрибуції текстів, обгрунтовано доцільність використання параметра послідовності вживання одного та більше слів.
У другому розділі “Методологічна база аналізу атрибуції текстів різних функціональних стилів” здійснено аналіз сучасних методів та підходів до атрибуції текстів, серед яких виділено: частотний розподіл слів у текстах (закон Ципфа), метод одночасного моніторингу групування текстів і відповідних їм слів (аналіз головних компонент) та метод ентропії (дивергенція Кульбака-Лайблера). Запропоновано комплексну методику аналізу стильової, тематичної та авторської атрибуції наукових і художніх текстів. Описано особливості реалізації програм, розроблених для розв’язання поставлених завдань у цій дисертаційній праці.
У третьому розділі “Стильова атрибуція наукових і художніх англо-, німецько- та україномовних текстів” проведено стильову атрибуцію наукових і художніх текстів за допомогою модифікованого закону розподілу частоти вживання слів у текстах. Розбіжності між параметрами атрибуції проаналізовано з позицій їх статистичної значимості в межах 2σ довірчого інтервалу.
У четвертому розділі “Тематична та авторська атрибуція англомовних наукових текстів” показано функціональні можливості методу одночасного моніторингу групування текстів і відповідних їм слів, та методу ентропії у поєднанні з параметром послідовності вживання слів для тематичної та авторської атрибуції англомовних наукових текстів.
У п’ятому розділі “Авторська атрибуція англо-, німецько- та україномовних художніх текстів” із залученням методу одночасного моніторингу групування текстів і відповідних їм слів англо-, німецько- та україномовні художні тексти згруповано відповідно до їх авторів. Укладено і проаналізовано словник послідовностей трьох слів для англо-, німецько- та україномовних авторів художніх текстів.
- Список литературы:
- ВИСНОВКИ
Теоретико-методологічні засади дисертаційного дослідження ґрунтуються на: 1) розкритті дефініції поняття атрибуції у сучасному мовознавстві, зіставленні термінів стилеметрія, атрибуція, класифікація, кластеризація; 2) особливостях атрибуції наукових текстів, які є результатом роботи колективу авторів, що ставить високі вимоги до вибору оптимальних параметрів та ефективності методів атрибуції тексту; 3) класифікації вихідних параметрів атрибуції текстів на мовні (синтаксичні, лексичні, морфологічні, помилки) та позамовні (структурні дані) параметри; 4) виборі оптимальних методів для опрацювання масивів багатовимірних даних; 5) застосуванні лінгвостатистичних методів, які забезпечують об’єктивність результатів атрибуції текстів. Практична основа виконання завдань дисертації – розробка методів та програм для: а) апроксимації рангового розподілу слів у текстах; б) підрахунку абсолютних та відносних частот появи слів та словосполучень у тексті в) формування частотної матриці появи слів та словосполучень у тексті; г) обчислення міри хі-квадрат текстів та ентропії (дивергенція Кульбака-Лайблера), порівняно зі словником опорного тексту, або словником “функціональних” слів.
Розроблена комплексна методика аналізу стильової, тематичної та авторської атрибуції англо-, німецько- та україномовних наукових і художніх текстів виявилась ефективною для стильової, тематичної та авторської атрибуції досліджуваних текстів. Методика передбачає формування репрезентативної вибірки текстів, вибір оптимальних параметрів тексту, визначення їх абсолютних частот, обробку статистичних даних різними лінгвостатистичними методами.
Основним критерієм розмежування англо-, німецько- та україномовних текстів наукового і художнього стилів є залежність рангово-частотного розподілу слів у тексті. Нові можливості у проведенні стильової атрибуції текстів надають модифіковані формули, що забезпечують апроксимацію рангово-частотного розподілу слів у тексті. Жодна із наявних модифікацій рангово-частотного закона Ципфа не забезпечує точного відтворення розподілу слів у тексті одночасно для високочастотних та низькочастотних слів. Дослідження широкого вибору модифікацій закону Ципфа дозволило виділити: а) закон Мандельброта, який описує розподіл високочастотних слів у тексті та б) закон Юла-Саймона, який описує розподіл низькочастотних слів у тексті. Запропоновано модифікацію показникової функції Ципфа у записі Лавалетті f(k;q;s;n), що передбачає два параметри (q та s) для апроксимації рангово-ймовірнісного розподілу слів. Перевага запропонованої формули над іншими в тому, що вона точно і з малою кількістю параметрів описує розподіл слів у тексті. Вперше для математичного параметра s запропоновано лінгвістичне тлумачення – відповідає за функціональний стиль. Параметр s набуває характерних значень залежно від стилю тексту – наукового або художнього. Стрімкість спаду ймовірності появи слова виявилась меншою у наукової літературі, а отже, і значення параметра s для наукових текстів є меншим, порівняно з художньою літературою. Детальне дослідження зміни величини параметра s залежно від приналежності тексту до наукового або художнього стилів дозволило встановити діапазон коливань кількісних показників параметра s для англо-, німецько- та україномовних наукових і художніх текстів. Інтерквантильні інтервали параметра s для вибірок англомовних текстів наукової літератури [0.85 – 1.01] та художньої літератури [1.04 – 1.12] не перекриваються. Розбіжності між текстами наукового та художнього стилів англійської мови за параметром s є статистично значимими, а самі параметри апроксимаційної кривої для наукових s=0.93±0.08 і художніх текстів s=1.08±0.04 можуть бути використані для визначення приналежності тексту до художнього або наукового стилю англійської мови. Для німецькомовних текстів наукового та художнього стилю розбіжності між значеннями параметра s є також статистично значимими. Параметр s для наукових текстів в межах 2σ інтерквантильного інтервалу становить [0.86 – 0.94], а художніх – [0.97 – 1.13]. Діапазон коливань параметра s в україномовних наукових текстах є [0.82 – 0.86] і не перекривається з межами 2σ інтеркванитильного інтервалу художніх текстів [0.89 – 0.97]. Якщо кількісний показник параметра s певного тексту входить у вище встановлені межі інтерквантильного інтервалу, то цей текст є науковий або художній.
Зіставлено рангово-частотні розподіли слів англо-, німецько- та україномовних наукових і художніх текстів. Спільною у науковому тексті для трьох мов є наявність у першій тридцятці найчастіше вживаних слів лише службових частин мови та дієслова бути, відсутність займенників, іменників. Спільним у художніх текстах є висока частота вживання займенників (займенник “I”, “Ich”, “Я” має подібну частоту вживання у зіставлюваних мовах), найчастотнішим сполучником є “and”, “und”,“і”. Для англо-, німецько- та україномовних текстів спільними найчастіше вживаними є слова: 1) in – in – в, also – auch – також, and – und – i (та), from – von – від, with – mit – з, as – als – як, is – ist – є, on – an (auf) – на, not – nicht – не, be – werden – бути, by (at) –bei – при (науковий текст); 2) and – und – і (та), I – Ich – я, he – er – він, was – war – було, in – in – в (у), it – das – це, you – du – ти, on – auf – на, she – sie – вона, said – sagte – казав, with – mit – з, but – aber – але, as – als – як (художній текст). Серед визначених перших 300 найчастіше вживаних слів для наукових текстів характерним є вживання загальнонаукових термінів, а для художніх текстів – слів на позначення частин тіла та періодів дня.
Тематична атрибуція вузькоспеціалізованих наукових робіт з фізики була успішно здійснена за використання методу одночасного моніторингу групування текстів і відповідних їм слів (метод аналізу головних компонент). Застосування цього методу дозволяє виділити основні характеристики аналізованих текстів та здійснити розподіл текстів на групи відповідно до прояву в них виділених основних характеристик. Метод не вимагає попереднього опрацювання тексту, тобто вибору характерних параметрів атрибуції текстів, таких, як довжина слова, речення, частота вживання різних частин мови тощо. У роботі апробовано його ефективність для тематичної атрибуції наукових праць VI-ої Міжнародної конференції LUMDETR – 2006 у галузі люмінесцентного матеріалознавства і виділено п’ять тематичних секцій конференції замість дев’яти, заявлених у програмі конференції. На результат розподілу вплинули наявність тематики зі спільними, усталеними та поширеними множинами словоформ, поява нових напрямів досліджень, присутність робіт зі спільними об’єктами досліджень. У дисертації показано, що одночасний аналіз статей та відповідних їм тез, анотацій і заголовків як окремих елементів вибірки сприяє кращому розподілу основних характеристик текстового масиву та може бути використаний для оцінки відмінності текстів опублікованої статті від початково заявлених тез.
Запропоноване у дисертації поєднання методу одночасного моніторингу групування текстів і відповідних їм слів із аналізом послідовності вживання чотирьох слів є ефективним для авторської атрибуції наукових текстів. У роботі показано, що стиль автора виявляється у вживанні характерних послідовностей чотирьох слів для: 1) опису спостережуваних об’єктів; 2) вираження припущень; 3) представлення та порівняння результатів. Зіставлення словників послідовностей чотирьох слів різних авторів у наукових текстах показало, що у авторів наукових текстів, порівняно з авторами художніх текстів, дуже мала кількість спільних послідовностей чотирьох слів. Так, серед перших 70 найчастіше вживаних послідовностей виявлено лише одну спільну послідовність чотирьох слів “the excitation spectrum of” у текстах P. Dorenbos, A. Meijerink, G. Strganyuk та G. Zimmerer. Послідовність “in the case of” є спільною тільки для статей P. Dorenbos, G. Stryhanyuka i G. Zimmerer. У кожного автора наявна лише одна послідовність чотирьох слів, яка вживалася б у всіх його текстах (“the energy of the” – P. Dorenbos, “the intensity of the” – A. Meijerink, “in the range of” – G. Strganyuk, “at the superlumi station” – G. Zimmerer). У словнику довільного автора можна зустріти і такі послідовності, які відтворють навіть частину речення. Це відбувається, коли автор копіює речення з однієї статті та вставляє його в іншу. Найчастіше вживані послідовності чотирьох слів у наукових текстах можна згрупувати на такі, що: 1) виражають припущення; 2) візуально представляють результати дослідження; 3) згадують місце проведення експерименту, назви приладів. Спільними найчастіше вживаними моделлями послідовностей чотирьох слів у наукових текстах є: article + noun + preposition + article (наприклад, the size of the, the transition of the) та preposition + article + noun + preposition (наприклад, on the basis of, for the formation of).
Для авторської атрибуції англо-, німецько- та україномовних художніх текстів, визначення автора методом одночасного моніторингу групування текстів і відповідних їм слів сягає максимальної ефективності при аналізі послідовності трьох слів. Зменшення оптимального розміру послідовності слів для авторської атрибуції художніх текстів пояснюється відсутністю назв об’єктів дослідження у художній літературі. Аналіз найчастіше вживаних послідовностей трьох слів у проаналізованих художніх текстах дав змогу встановити послідовності, що зустрічаються у всіх текстах: для англо- та німецькомовних художніх текстів (there was a, out of the, one of the, the back of та Ich weiß nicht, es war ein, an der Wand, schüttelte den Kopf), однак для україномовних художніх текстів кількість таких послідовностей є меншою (так і не, що в нього). There was a, Ich weiß nicht, так і не – найчастіше вживані послідовності трьох слів у художніх текстах зіставлюваних мов. Для художніх текстів характерними є послідовності, побудовані за моделями: 1) article+noun+preposition (the end of), preposition + article + noun (for a moment), conjunction + pronoun + verb (and I was) – англомовні тексти; 2) pronoun + verb + particle (Ich weiß nicht), preposition + article + noun (іn der Hand) – німецькомовні тексти; 3) сполучник + займенник + частка (і я не), займенник + частка + частка (я вже не), сполучник + прийменник + займенник (а в нас) – україномовні тексти. Кожен із досліджуваних авторів має різну найчастіше вживану послідовність трьох слів: there was a (N. Gaimann), for a moment (J. Harris), the end of (M. Albom), out of the (J. Rowling), in der Nähe (А. Friedrich), in der Zeit (K. Gier), schüttelte den Kopf (F. Schätzing), und wenn er (Р. Süskind), до того ж (Ю. Андрухович), так і не (О. Забужко), це ж не (Л. Костенко), і я не (Ю. Покальчук). З-поміж досліджуваних авторів можна виділити Ю. Покальчука. Для текстів Ю. Покальчука притаманні послідовності трьох слів, які можна розглядати як ціле речення (все буде добре, що з ним, що з тобою). Таке використання найчастіше вживаних послідовностей трьох слів не простежується в інших досліджуваних авторів.
Перспективами подальших досліджень є 1) здійснення тематичної (авторської) атрибуції текстів різних функціональних стилів методом одночасного моніторингу групування текстів та відповідних їм слів та методом ентропії для різних груп мов; 2) створення нових тематичних словників на базі семантично зв’язаних слів, що формують основні характеристики тексту; 3) визначення автора перекладу статей у наукових журналах, які перекладаються з української на англійську мову; 4) зіставлення закономірностей зміни рангово-частотного розподілу слів для одного наукового (художнього) тексту, перекладеного різними мовами.
- Стоимость доставки:
- 200.00 грн