Компьютерное моделирование графемно-фонемного преобразования в английском языке : Комп'ютерне моделювання графемно-фонемного перетворення в англійській мові



  • Название:
  • Компьютерное моделирование графемно-фонемного преобразования в английском языке
  • Альтернативное название:
  • Комп'ютерне моделювання графемно-фонемного перетворення в англійській мові
  • Кол-во страниц:
  • 1
  • ВУЗ:
  • МГИУ
  • Год защиты:
  • 2010
  • Краткое описание:
  • Введение...7

    Глава 1. Классификация и сравнение подходов к построению графемно-фонемного преобразования...16

    1.1. Классификация...16

    1.2. Словесные подходы...19

    1.3. Морфемные подходы...29

    1.4. Графемные подходы ...33

    1.5. Комбинированные подходы...36

    1.6. Сравнение подходов ...40

    Выводы по первой главе...:...42

    Глава 2. Графемные подходы...44

    2.1. Изученность вопроса (состояние дел)...44

    2.2. Последовательность моделирования...48

    2.2.1. Источники правил...48

    2.2.2. Исходные наборы (своды) правил...50

    2.2.3. Дополнительная обработка...50

    2.2.4. Алгоритмизация и реализация...52

    2.2.5. Результаты моделирования...53

    2.3. Формальная система...55

    '4 2.3.1. Операции и типы правил...55

    2.3.2. Упорядоченность правил...58

    2.3.3. Выбор правила для преобразования...59

    2.3.4. Представление объектов...60

    2.3.5. Конечный преобразователь...61

    Выводы по второй главе...61

    Глава 3. Моделирование процесса слогоделения...64

    3.1. Исходная задача...64

    3.2. Исходные правила...65

    ^ 3.3. Предварительная часть формализации...66

    ($ 3.4. Графемная сегментация и категоризация...67

    3.5. Слоговое маркирование...69

    3.6. Обработка буквы X...71

    3.7. Обработка начального слога...72

    3.8. Обработка конечного слога...74

    3.9. Набор правил маркирования...75

    3.10. Примеры анализа...78

    3.11. Проблема зияний и диграфов...79

    3.12. Вспомогательные правила...82

    3.13. Компонент слогоделения...83

    Выводы по третьей главе...84

    Га.. Глава 4. Моделирование процесса акцентуации...86

    4.1. Исходная задача...86

    4.2. Исходные правила...87

    4.2.1. Исходный набор правил ...87

    4.2.2. Мотивировка и примеры ...91

    4.3. Предварительная часть формализации...96

    4.3.1. Дополнительные свойства объектов...97

    4.3.2. Дополнительные операции ...98

    4.4. Выделение частей слова...99

    4.5. Специальный морфологический анализ...104

    Ч1

    4.6. Правила акцентуации...109

    4.7. Предварительная инициализация...110

    4.8. Первичное ударение...111

    4.9. Вторичное ударение и терминация...116

    4.10. Компонент акцентуации...120

    4.11. Примеры анализа...121

    Выводы по четвертой главе...124

    Глава 5. Моделирование процесса определения типа слога...126

    5.1. Характеристики слога...126

    ^ 5.2. Определение модифицированности слога...127

    5.3. Первичная открытость/закрытость слога...129

    5.4. Вторичная закрытость слога...131

    5.4.1. Исходный набор правил...131

    5.4.2. Мотивировка и примеры ...132

    5.4.3. Формализация...135

    5.5. Определение степени редукции...138

    5.5.1. Исходный набор правил ...138

    5.5.2. Мотивировка и примеры ...139

    5.5.3. Формализация...141

    5.6. Компонент определения типа слога...145

    5.7. Примеры анализа...146

    Выводы по пятой главе...149

    Глава 6. Моделирование процесса посимвольных преобразований согласных...150 6.1. Введение...150

    6.2. Формулировка задачи...151

    6.3. Преобразование буквы В...152

    6.4. Преобразование буквы С...153

    6.5. Преобразование буквы D...156

    6.6. Преобразование буквы F...158

    6.7. Преобразование буквы G...159

    6.8. Преобразование буквы Н...161

    6.9. Преобразование буквы J...162

    6.10. Преобразование буквы К...163

    6.11. Преобразование буквы L...164

    6.12. Преобразование буквы М...166

    6.13. Преобразование буквы N...166

    6.14. Преобразование буквы Р...170

    6.15. Преобразование буквы Q...171

    6.16. Преобразование буквы R...172

    _, N 6.17. Преобразование буквы S...175

    ДО 6.18. Преобразование буквы Т...182

    6.19. Преобразование буквы V...187

    6.20. Преобразование буквы W...187

    6.21. Преобразование буквы X...189

    6.22. Преобразование буквы Z...192

    6.23. Удвоенные согласные звуки...193

    6.24. Последовательность обработки...196

    Выводы по шестой главе...197

    Глава 7. Моделирование процесса посимвольных преобразований гласных...199

    7.1. Исходная задача...199

    (jL 7.2. Преобразование буквы А...200

    7.3. Преобразование буквы Е...209

    7.4. Преобразование буквы 1...222

    7.5. Преобразование буквы 0...230

    7.6. Преобразование буквы U...242

    7.7. Преобразование буквы Y...251

    7.8. Выбор текущего элемента...253

    7.9. Примеры анализа...254

    Выводы по седьмой главе...258

    ^ Глава 8. Компьютерное моделирование...260

    8.1. Реализация системы...260

    8.1.1. Язык программирования ...260

    8.1.2. Характеристики системы ...262

    8.2. Эталонные машиночитаемые словари...263

    8.2.1. Словарь Хорнби ...263

    8.2.2. Словарь Мюллера...264

    8.2.3. Словарь проекта CMU...265

    8.3. Оценочные процедуры...265

    8.4. Апробация системы на словарях...276

    и\ 8.4.1. Быстродействие и степень адекватности...276

    8.4.2. Влияние дополнительной разметки ...277

    8.4.3. Выводы по результатам эксперимента ...279

    Выводы по восьмой главе...281

    Заключение...283

    Библиографический список...296

    Приложение I. Внутрисистемные символы транскрипции...310

    Приложение II. Источник на базе словаря А.С. Хорнби...311

    Приложение III. Результаты работы системы

    для словаря А.С. Хорнби...356
    Введение



    ВВЕДЕНИЕ

    Актуальность темы исследования. Рассмотрение языка как деятельности, т.е. системы или процедуры преобразований языковой информации одного типа в другой, хотя и имеет некоторую традицию (см., например, В. фон Гумбольт [6]), приобрело особую актуальность с момента появления такого универсального средства реализации различных дея-тельностных моделей как компьютер, что, в частности, проявилось в создании такой отрасли знаний о языке, которую принято называть "Обработка естественного языка (ОЕЯ)" (Natural Language Processing - NLP). Одним из типов преобразователей языковой информации является проце-дура, задающая переход от графемного представления слова к фонемному. Этот тип преобразования или перевода составляет основное содержание лингвистической части перехода от письменного представления информации к звуковому. .

    В области ОЕЯ подобного рода преобразование осуществляется в системах порождения речи "Текст —» Речь", которые либо реализуются как отдельные самостоятельные системы преобразования, либо включаются в качестве компонента объемлющей системы ОЕЯ. Большая часть существующих систем подобного рода в лингвистическом аспекте теоретически основывается на работах Р.Л. Венезки (R.L. Venezky [139]) (теория буквенно-звуковых (фонемных) соответствий), Н. Хомского (N. Chomsky) и М. Халле (М. Halle) [49] (генеративная фонология — абстрактные базовые формы и правила постановки словесных ударений).

    В то же время параллельно с задачами построения автоматических систем порождения речи существует достаточно традиционная область обучения иностранному языку, в интересующем нас случае - английскому языку, и одним из неотъемлемых компонентов данного процесса явля- ется обучение умению читать, т.е. озвучивать письменный текст. Как пра-

    (

    чтения, которые теоретически не только не основываются на идеях генеративной фонологии, но и не являются даже в достаточной степени формализованными.

    Если для правил первого типа существуют некоторые количественные оценки их адекватности (например, [ 39, 54]), то для правил второго типа, которые широко используются в обучении, существует либо лишь достаточно приблизительная качественная оценка их адекватности, либо количественная оценка некоторой части правил без учета их взаимовлияния, зависящего от порядка их применения [7, 31]. Это не позволяет научно-обоснованно решать вопросы их применимости при обучении



    английскому языку. Потребность в использовании научно-обоснованных критериев для решения указанной проблемы придает научную актуальность исследованиям, способным получить необходимые количественные данные.

    Необходимая количественная оценка может быть получена только после компьютерного моделирования правил второго типа, что определяет научную актуальность исследования и последующего компьютерного моделирования графемно-фонемного перехода (ГФП), базирующегося на ty существующих правилах чтения.

    Объектом исследования является этап перехода между графем-ным и фонемным представлениями информации в языке, предметом -(компьютерное) моделирование перехода от графемного представления к фонемному в английском языке на основе традиционных правил чтения для этого языка.

    Степень научной разработанности проблемы. Проблематика графемно-фонемного преобразования достаточно интенсивно исследуется, особенно за рубежом, что связано с задачами построения эффективных Ш систем синтеза речи. Данная проблематика рассматривается в работах

    u4 M.J. Adamson и R.I. Damper (1996) [34], Albano, E. Cavalcante,

    A.A.Moreira (1996) [35], J. Allen, M.S. Hunnicutt, D. Klatt (1987) [37], O. Andersen, P. Dalsgaard (1994) [38], P. С Bagshaw (1998) [40], J.R. Belle-garda (2002) [41], E. Berendsen, J. Don (1987) [42], J. Bernstein, D. B. Pisoni (1980) [43], M. Bisani, H. Ney (2002) [44, 45], A. W. Black, K. Lenzo, V. Pagel (1998) [46], A. van den Bosch, W. Daelemans (1993) [47], G. Bouma (2000) [48], K. Church (1985) [50], Bert Van Coile (1990, 1991) [52, 53], C.Coker, K. Church, M. Liberman (1990) [54], J. Coleman (1993) [55], N. Cremelie, Jean-Pierre Martens (1996) [56], W. Daelemans (1985, 1988) [57, 58], W. Daelemans, A. van den Bosch, S. Gillis, G. Durieux (1993) [59], W. Daelemans, S. Gillis, G. Durieux (1994) [60], W. M. P. Daelemans, van den Bosch (1997) [61], R. I. Damper (1995) [62], M. Dedina, H. Nusbaum (1991) [63], N. Deshmukh, M. Weber, J. Picone (1996) [64], M. Divay, A. J. Vitale (1997) [65], B. E. Dresher, J. D. Kaye (1990) [66], T. Dutoit (1997) [67], H.S. Elovitz, R. Johnson, A. McHugh, J.E. Shore. (1976) [68], S. Fitt (1995, 1997) [69, 70], E. Fosler, M. Weintraub, S. Wegmann, Yu-Hung Kao, Sanjeev Khudanpur, С Galles, M. Saraclar (1996) [71], D. Gildea, D. Jurafsky (1996) [73], S. Gillis, G. Durieux, W. Daelemans, A. van den Bosch (1992) [63], P. Gupta, D. S. Touretzky (1994) [75], M. Hammond (1995) [77], J. Hochberg,

    CV S. Mniszewski, T. Calleja, A. Papcun (1991) [81], S. Hunnicutt (1976, 1980)

    [82, 83], S. Hunnicutt, H. Meng, S. Seneff, V. Zue (1993) [84], S. Jannedy, B. Mobius (1997) [85], Jiang, Li, Hsiao-Wuen Hon, Xuedong Huang. (1997) [86], O. Karaali, G. Corrigan, I. Gerson (1996,1997) [88, 89], A.K. Kienappel, R. Kneser (2001) [91], Byeongchang Kim, Wonil Lee, Geunbae Lee, Jong-Hyeok Lee (1998) [92], Byeongchang Kim, Geunbae Lee, Jong-Hyeok Lee (1999, 2002) [93, 94], D.H. Klatt (1987) [95], J.M.G. Lammens (1987) [99], M. Liberman, K. Church (1992) [101], S. M. Lucas, R. I. Damper (1992) [106], R. W. P. Luk, R. I. Damper (1991, 1992, 1993) [100-111], H. M. Meng, S. Seneff, V. Zue (1996) [113], B. Mobius, R. Sproat, J. Santen, J. Olive (1997)

    10

    [114], A. Monaghan (1990) [115], A. Nunn, V. J. van Heuven (1993) [116], G. Ottesen, B. Horvei, S. Stensby (1994) [117], S. H. Parfitt, R. A. Sharman (1991) [118], D. Plaut (1999) [119], P. A. Rentzepopoulous, G. K. Kokkinakis (1996) [123], M. Riley, A. Ljolje (1996) [124], J. Rodd (1997) [125], T. Se-jnowski, С Rosenberg (1987) [127], R. Sproat (1994) [128], С W. Stanfill (1987) [129], I. P. Stoianov (2000) [130], I. P. Stoianov, J. Nerbonne (2000) [131, 132], I. P. Stoianov, J. Nerbonne, H. Bouma (1998) [133], K. Torkkola (1993) [135], N. Torstensson (2002) [136], S. С Urbanczyk, S. J. Eady (1989) [138], T. Vitale (1991) [141], K. Wothke (1991) [144], D. Yarowsky (1997) [145], F.Yvon (1996) [146].

    Однако полностью отсутствует описание этапа ГФП на основе мо-делирования традиционных правил чтения. Отсутствует также количественная оценка степени адекватности традиционных правил чтения, применяемых при обучении английскому языку.

    Отсутствие полного описания ГФП, основанного на существующих правилах чтения и пригодного для последующей компьютерной реализации, определяет основную цель данного исследования.

    Основная цель диссертации — моделирование этапа перехода от графемного представления к фонемному в английском языке такими средствами, которые позволили бы произвести последующую апробацию этого описания средствами компьютерного моделирования, т.е. реализацию описания на каком-либо языке программирования. Другими словами это означает создание формального описания данного перехода на уровне, достаточном для последующей реализации на соответствующих языках программирования.

    Выдвижение данной цели обусловило постановку следующих задач:

    и

    , v, - создание логической классификации возможных способов органи-

    зации ГФП в языке для последующего отграничения/выделения объекта исследования и определения состояния дел в его описании;

    - введение критериев для сравнения подходов с целью определения наиболее эффективного подхода для использования в последующем компьютерном моделировании перехода;

    - выявление на основе введенной классификации структуры перехода, т.е. разбиение всего перехода на отдельные подэтапы;

    - определение последовательности моделирования;

    - описание формальных средств, которые могут быть достаточными для получения промежуточного формального описания, предназначенно-го для последующей реализации на одном из языков программирования;

    - описание при помощи этого формального средства каждого из выявленных подэтапов и его частичная (первичная) апробация путем анализа соответствующих примеров;

    - компьютерное моделирование полученного описания, т.е. его реализация на одном из языков программирования;

    - выбор или создание/модификация источников для апробации полученной компьютерной модели (машиночитаемых словарей соответст-

    (V вующей структуры, содержащих в словарных статьях результат эталонно-

    го транскрибирования);

    - построение оценочной процедуры;

    - апробация компьютерной модели при помощи этой процедуры и используемых источников, в частности, получение количественной оценки степени адекватности применяемых правил чтения для английского языка.

    Структура диссертации отражает ход исследования и соответствует последовательности решения сформулированных выше задач. Пер-(h вая глава посвящена рассмотрению возможных подходов, вторая - анали-

    12

    ,/Л зу состояния дел в описании моделируемого объекта исследования и вве-

    дению формальных средств, используемых для его описания. Главы с третьей по седьмую посвящены построению формальных моделей слогоделения, акцентуации, определения типа слога и посимвольного преобразования. Восьмая глава посвящена описанию создания компьютерной модели формализованного в предшествующих главах преобразования и ее апробации на материале машиночитаемых словарей (в частности, получению количественной оценки степени адекватности применяемых правил чтения для английского языка и влиянии на адекватность преобразования информации о частеречной и/или морфемной разметке).

    О*

    Разработка теоретических положений и создание на их основе

    компьютерной модели графемно-фонемного преобразования для английского языка стало возможным благодаря комплексному использованию теоретических и экспериментальных методов исследования.

    Методология работы опирается на:

    - системный подход, позволяющий определить место предмета исследования диссертации в области обработки естественного языка;

    - монографический метод, предполагающий всестороннее, полное и детализированное описание исследуемого объекта, в данном случае этапа графемного-фонемного перехода;

    - проектный метод, определяющий целостность исследования, стадии и порядок его разработки;

    - абстрактно-логический метод, используемый при классификации подходов и описании исходных наборов правил;

    -моделирование как метод исследования структуры и основных свойств объекта моделирования;

    13

    - эмпирический метод, связанный с постановкой экспериментальных проверок теории (правил);

    - эмпирической основой работы послужили уже существующие и дополнительно созданные правила чтения.

    Научная новизна исследования определяется, во-первых, как постановкой самой проблемы полного формального описания этапа графемно-фонемного перехода для английского языка на основе существующих правил чтения, так и сущностью избранного подхода к ее решению. Названные выше цели и задачи исследования применительно к данному ма- териалу ранее другими авторами не ставились. Во-вторых, впервые полу-чена полная работающая компьютерная модель графемно-фонемного перехода (части этапа чтения графемного текста) для английского языка, основанного на традиционных правилах чтения. В-третьих, впервые получена количественная оценка степени адекватности применяемых правил чтения для английского языка, степени влияния на адекватность преобразования информации о частеречной и/или морфемной разметке и исчерпывающий список слов-исключений для этих правил, начинающихся с буквы А английского алфавита, и созданы предпосылки для получения полного исчерпывающего списка слов-исключений для этих же правил.

    К результатам, выносимым на защиту, можно отнести следующие:

    1. Логическая классификация возможных способов организации этапа графемно-фонемного перехода.

    2. Результаты сравнения возможных способов организации перехода и критерии, используемые для их получения.

    3. Описание структуры перехода для используемого подхода.

    14

    4. Определение последовательности применения существующих правил чтения для реализации структуры перехода (алгоритмизация исходных правил чтения).

    5. Модифицированный вариант существующих исходных правил чтения и авторские правила.

    6. Формальное описание выявленных подэтапов перехода для английского языка.

    6.1. Формальное описание слогоделения.

    6.2. Формальное описание акцентуации.

    6.3. Формальное описание определения типа слога.

    6.4. Формальное описание посимвольных преобразований.

    7. Количественные оценки степени адекватности применяемых правил чтения для английского языка и степени влияния на адекватность преобразования информации о частеречной и/или морфемной разметке

    Теоретическая значимость работы. Теоретическая значимость полученных результатов состоит в том, что они могут быть использованы при построении как частных теорий графемно-фонемных переходов для других языков, так и общей теории графемно-фонемных переходов. Кро- ме того, полученные результаты могут послужить основой для построения типологии языков, базирующейся на степени сложности графемно-фонемного перехода в языках и используемых при этом типах преобразований (правил).

    Практическая значимость исследования заключается в создании предпосылок для получения эффективного и компактного (для применения, например, в мобильных устройствах связи) программного и/или аппаратного лингвистического обеспечения синтеза речи, способного работать на неограниченном входном материале, что характерно для любых систем, построенных на правилах.

    15

    'L Результаты данного исследования могут быть также использованы

    в общих и специальных курсах языкознания и в практике обучения студентов английскому языку.

    Апробация работы. Основные идеи и результаты настоящего исследования обсуждались на Огаревских чтениях Мордовского государственного университета (Саранск, 2002), на международной конференции "Когнитивное моделирование в лингвистике" (Варна, 2003) и на международной конференции SPECOM' 2003 ("Речь и компьютер") (Москва, 2003).

    16

    1. КЛАССИФИКАЦИЯ И СРАВНЕНИЕ ПОДХОДОВ

    К ПОСТРОЕНИЮ ГРАФЕМНО-ФОНЕМНОГО

    ПРЕОБРАЗОВАНИЯ

    Данная глава описывает возможные способы организации графем-но-фонемного преобразования (ГФП), выделяет объект исследования, содержит описание структуры перехода для выбранного подхода, путем сравнения с другими подходами определяет место используемого подхода в созданной классификации.

    В последующем тексте, если результат ГФП будет включать такой элемент просодического анализа, как выявление акцентуации - постанов- ки ударения в изолированном слове, то исследуемый переход будет назы-ваться расширенным графемно-фонемным преобразованием - РГФП.

    1.1. Классификация подходов к построению РГФП

    Объектом данного исследования является вполне определенный способ организации перехода от графемного представления к фонемному (процедура), в основе которого лежат посимвольные преобразования. Этот способ не является единственно возможным. Поэтому для того, чтобы от- граничить объект исследования, необходимо обратиться и к другим возможным способам организации этого перехода, т.е. построить классификацию подходов. Помимо решения задачи отграничения объекта исследования полученная классификация может быть использована для получения некоторой информации о структуре перехода, которая может быть использована и для сравнения выбранного подхода с другими возможными подходами из классификации и определения его пригодности для компьютерного моделирования, т.е. определения места избранного (исходя из главной задачи исследования) подхода в ряду других.

    17

    jh, Первое основание классификации можно построить на выделении

    двух основных направлений моделирования, привязанных к способу получения лингвистических знаний, используемых в системах преобразования. По этому основанию можно выделить подходы, построенные либо на автоматическом, либо на ручном способе получения этих знаний. Исходя из целей данного исследования (моделирование на основе существующих правил чтения) дальнейшее изложение концентрируется на втором типе подходов. По вопросам же построения систем на основе первого типа подходов имеется достаточно обширная литература: M.J. Adamson и R.I. Damper (1996) [34], О. Andersen, P. Dalsgaard (1994) [38], J.R. Bellegarda (2002) [41], A. van den Bosch, W. Daelemans (1993) [47], G. Bouma (2000) [48], Bert Van Coile (1990, 1991) [52, 53], N. Cremelie, Jean-Pierre Martens

    (1996) [56], R. I. Damper (1995) [62], В. Е. Dresher, J. D. Kaye (1990) [66], E. Fosler, M. Weintraub, S. Wegmann, Yu-Hung Kao, Sanjeev Khudanpur, С Galles, M. Saraclar (1996) [71], D. Gildea, D. Jurafsky (1996) [73], S. Gillis, G. Durieux, W. Daelemans, A. van den Bosch (1992) [74], Jiang, Li, Hsiao-Wuen Hon, Xuedong Huang (1997) [86], O. Karaali, G. Corrigan, I. Gerson (1996,1997) [88, 89], S. M. Lucas, R. I. Damper (1992) [106], R. W. P. Luk, R. I. Damper (1991, 1992, 1993) [107-111], G. Ottesen, B. Horvei, S. Stensby

    (1* (1994) [117], P. A. Rentzepopoulous, G. K. Kokkinakis (1996) [123], J. Rodd

    (1997) [125], T. Sejnowski, С Rosenberg (1987) [127], C. W. Stanfill (1987) [129], I. P. Stoianov (2000) [130], I. P. Stoianov, J. Nerbonne (2000) [131, 132], I. P. Stoianov, J. Nerbonne, H. Bouma (1998) [133], K. Torkkola (1993) [135], С W. Wightman, D. T. Talkin (1993) [143].

    Вторая группа подходов далее может классифицироваться на основе

    типа объекта, который преобразуется. Исходя из типа лингвистического

    объекта, подлежащего преобразованию при РГФП, - слова, морфемы или

    графемы — можно выделить три основные группы подходов, которые

    IV можно условно назвать соответственно словесными, морфемными и гра-

    Список литературы
  • Список литературы:
  • *
  • Стоимость доставки:
  • 230.00 руб


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины