Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем : Лінгвістичне забезпечення і соціолінгвістичних специфіка проблеми автоіндексаціонной актуалізації інформаційних систем



  • title:
  • Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем
  • Альтернативное название:
  • Лінгвістичне забезпечення і соціолінгвістичних специфіка проблеми автоіндексаціонной актуалізації інформаційних систем
  • The number of pages:
  • 1
  • university:
  • МГИУ
  • The year of defence:
  • 2010
  • brief description:
  • ОГЛАВЛЕНИЕ

    СТР.

    Введение (Современные подходы к проблеме лингвистического обеспечения)

    ...4

    Глава 1. Взаимодействие лингвистического обеспечения и информационных

    технологий...28

    1.1. Общие характеристики средств лингвистического обеспечения...28

    1.2. Состав, структура и функции лингвистического обеспечения...39

    1.3. Проблемы совместимости лингвистического обеспечения ...49

    1.4. Лингвистическое обеспечение входного потока единиц информации в автоматизированную информационную систему...64

    1.5. Лингвистическое обеспечение обработки данных в автоматизированной информационной системе ...73

    1.6. Лингвистическое обеспечение производства информационных продуктов

    и услуг...82

    1.7. Лингвистическое обеспечение структурирования и описания информационных массивов...87

    1.8. Использование средств лингвистического обеспечения для поиска

    информации в базах данных и формирования результатов выдачи...93

    Глава 2. Лингвистическое обеспечение сервисных средств обработки и поддержки информационных ресурсов автоматизированной информационной системы «Молодежь»...100

    2.1. Номенклатура лингвистического обеспечения сервиса автоматизированной информационной системы «Молодежь»...100

    2.2. Автоматизированная разработка лингвистического обеспечения

    автоматизированной информационной системы «Молодежь»...115

    Заключение...121

    Библиография...122

    Глоссарий...'...159

    Приложение 1. Синаптический каркас информационно-поискового тезауруса функциональной подсистемы «Работа» автоматизированной информационной

    системы «Молодежь»...161

    Приложение 2. Метаструктура дескрипторных групп...162

    Приложение 3. Синаптический каркас информационно-поискового тезауруса функциональной подсистемы «Культурный досуг» автоматизированной

    информационной системы «Молодежь»...233

    Приложение 4. Прикладная реализация постановки задачи по генерации информационно-поискового (автоиндексирующего) тезауруса во фрагментах

    исходных текстов программного обеспечения WWW-сервера...235

    Приложение 5. Таблица индексации Вводимых Единиц Информации...250
    Введение



    Введение (Современные подходы к проблеме лингвистического обеспечения)

    Генеральная совокупность языковых средств, когда-либо использованная или использующаяся при разработке или эксплуатации различных автоматических, автоматизированных и даже механических информационных (в т.ч. информационно-поисковых) систем, обычно поименована в сообществе специалистов в этой области как лингвистическое обеспечение (ЛО). По общепринятому в профессиональной среде определению, лингвистическое обеспечение информационно-поисковых систем (ИПС) в целом - это набор логических и лингвистических средств и методов по обеспечению основной задачи информационного поиска.

    С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ), что наиболее полно обосновано таким авторитетнейшим теоретиком в данной области, как А.И. Черный [385]. Повышенное внимание к проблемам разработки ИПЯ, как в теории, так на практике, особенно характерно для начального периода 1960 — 1970-х годов. По данным Н.И. Гендиной [57]:

    Пик публикаций по теме ИПЯ пришелся на 1974-1978 гг. В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественные языком [221], [229]. Большое внимание уделялось разработке конкретных языков [329], разработке и использованию методик индексирования [336], [384].

    Наряду с термином ИПЯ широко стал использоваться термин «лингвистическое обеспечение». Наиболее общеупотребимы следующие два определения:

    «Лингвистическое обеспечение - это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем» [7].

    «Лингвистическое обеспечение - комплекс мероприятий, направленных на разработку языковых средств автоматизированной системы, а также сами средства». Данный термин стал применяться для обозначения всего комплекса языковых средств, используемых в ИПС собственно ИПЯ, методики индексирования, методики составления тезаурусов, различных правил, вспомогательных средств создания и ведения ИПЯ и т.п. [216].

    К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей [9], [25], [27], [261].

    Развитие языковых средств систем управления базами данных языков описания данных, языков манипулирования данными, а также различных языков программирования еще более расширили сферу применения понятия лингвистического обеспечения [13], [152], [272].

    Кроме термина «лингвистическое обеспечение ИПС» также широко используется термин «языковые средства ИПС». Чаще всего они используются как синонимы. Рассмотрим составляющие значений этих двух терминов, обратившись к словарям русского языки [2], [250]: Лингвистический - а) языковедческий - относящийся к лингвистике;

    б) языковой - относящийся к языку.

    Обеспечение - то, что обеспечивает исполнение, реализацию. Средство — а) прием, способ действия для достижения чего-либо; б) орудие для осуществления какой-либо деятельности.

    Таким образом, с точки зрения внутренней формы мы не видим принципиальной разницы в значении этих терминов. Также, как правило, не делают различий и специальные терминологические словари [354].

    Нередко в понятие «лингвистическое обеспечение (языковые средства) ИПС» включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина «средства общения человека с машиной». «Под языковыми средствами информационной системы мы будем понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании автоматизированных информационных систем (АИС), составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС» [153]. В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. «С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования»

    [93].

    С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов [152]. Лингвистические средства информационного

    поиска определяют «стратегию», а программные, к которым относят языки программирования, языки описания структур данных и т.п., реализуют эту «стратегию» в той или иной вычислительной среде.

    Построение классификационной схемы языковых средств представляется нам важным как с теоретической, так и с практической точки зрения.

    Классификация — это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, — это взгляд на систему в некотором специальном ракурсе, позволяющем отчетливо увидеть то, что ранее оставалось незаметным.

    Вопросы типологии языковых средств на современном уровне рассматриваются во многих работах, например, [8], [27]. Однако объем и содержание понятия ЛО в его современном понимании наиболее адекватно представляет нижеследующая трактовка, отраженная впервые также в работе [57]:

    (1). Информационно-поисковый язык, служащий для описания содержания

    документов в виде, пригодном для поиска.

    (1.1). Алфавит и микросинтаксис ИПЯ.

    (1.2). Средства представления плана содержания:

    • словари, тезаурусы;

    • вспомогательные словари (единиц измерений, сокращений и т.п.);

    • рубрикаторы, классификаторы;

    • грамматические средства;

    • форматы.

    (1.3). Уровень представления естественноязыковой информации (правила представления текстов на ЕЯ).

    (2). Процедурные средства информационного поиска: (2.1).Средства поиска:

    • язык запросов;

    • средства автоматической адресации запросов к базам данных;

    • единые командные языки;

    • критерий смыслового соответствия;

    (2.2). Средства обеспечения совместимости различных языков:

    • таблицы соответствия;

    • таблицы конвертирования;

    • протоколы.

    (2.3). Средства семантической обработки данных:

    • процедуры автоматической индексации документов и запросов;

    • процедуры автоматической классификации документов;

    • процедуры автоматизированного построения поисковых предписаний;

    • процедуры автоматизированного обнаружения ошибок. (2.4). Средства обработки текстов на ЕЯ и поддержки ЛО:

    • программно-алгоритмические средства морфологического и синтаксического анализа;

    • машинные словари лексических (слов, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов);

    • процедуры автоматизированного составления и ведения машинных словарей;

    • грамматические таблицы ЕЯ;

    • документация по ЛО.

    (3). Классификация, типология информационно-поисковых языков.

    В рассматриваемой схеме очевидна репрезентация ядерного компонента проблемной области ЛО, которым является концептуальная структура инструментария ИПЯ. По этой причине типологическая классификация основных системообразующих факторов представляется наиболее значимой отправной точкой рассмотрения настоящего методологического аспекта.

    Общепризнаны соответствующие виды и типы ИПЯ. В качестве примеров информационных языков, применяемых в информационном поиске и информационно-библиотечной деятельности приводят иерархические классификации, дескрипторные языки, фасетные классификации, язык библиографического описания, язык предметных рубрик и многое другое.

    Искусственные языки зачастую описываются по аналогии с естественными. С одной стороны, часто эта аналогия чисто внешняя, с другой стороны, общепринятый и понятный метаязык лингвистики создает общую языковую среду для разных авторов и читателей. Постепенно в теории информационного поиска сформировалась и своя терминология.

    Информационные языки делятся на разные типы в зависимости от их целевого назначения и устройства. Вопросы типологии информационных язьпсов подробно рассмотрены во многих работах, в числе которых — одна из первых отечественных монографий на эту тему [238]. Для этой работы, как и для всех работ периода становления теории информационного поиска в целом, характерно соотнесение искусственных информационных языков с естественными языками.

    Любой письменный язык, в том числе и искусственный, состоит, по крайней мере, из трех компонентов: алфавит, словарь, грамматика. Исходя из такого понимания ИЯ и базируясь на инструментарии традиционного лингвистического

    описания, В.Л. Москович выделяет внешние и внутренние по отношению к языку признаки, на основании которых строится классификация. «Внешние признаки ИЯ характеризуют ИЯ с точки зрения условий ее применения. При этом нас может интересовать тип документов, обрабатываемых ИПС, характер тематики обрабатываемого фонда документов и т.п.» [238].

    «Внутренние по отношению к ИЯ признаки характеризуют способы организации понятий и формы их выражения» [238]. Классификация ИЯ по внутренним признакам позволяет обнаружить основные структурные типы ИЯ, сходства и различия всех типов.

    В работе рассматриваются способы организации понятий и способы их выражения, степень выраженности синтагматических и парадигматических отношений. По способам выражения понятий автор делит языки на классификационные, дескрипторные, пиктографические, фонетические.

    Увеличение количества ИПЯ, расширение сферы их использования вызвали к жизни и многие другие классификации [70], [77], [336]. Характерная особенность большинства из них — многоаспектность, что является следствием желания в рамках одной классификации отразить разные стороны структуры и функционирования ИПЯ. Появилось много работ, посвященных языкам фактографических ИПС в сопоставлении с документальными [13], [25], [163], [71].

    Наиболее известной и распространенной классификацией, вошедшей в учебные пособия [235] является классификация А.И.Черного, впервые предложенная в работе [230] и в переработанном виде изложенная в работе [385]. Эта классификация основывается на понятии координации, которое представляет собой операцию пересечения (логического умножения) понятий. Авторы исходят из того, что основное содержание документов можно задавать в виде набора лексических единиц (ЛЕ) ИПЯ — «индексов», на множестве которых во время

    10

    поиска выполняются различные логические операции. В качестве ЛЕ ИПЯ выступают имена понятий или классов понятий. Операция построения новых сложных (более узких) классов из имеющихся может строиться по-разному: путем дробления понятий или путем пересечения более простых классов; в разных «местах» системы: при построении ИПЯ или при его использовании.

    Если ИПЯ имеет такую структуру и правила индексирования, при которых индексирование документов производится приписыванием им предварительно построенных сложных классов, а имена этих классов становятся поисковыми образами, то такой ИПЯ называется предкоординированным. Если же поисковый образ документа состоит из простых классов, а операция координации (построение сложных классов путем пересечения простых) реально происходит только при поиске (после индексирования), то такой ИПЯ называется посткоординируемым. С учетом высказанных положений общая классификация ИПЯ, предложенная А.И.Черным [385], имеет следующий вид:

    A. Предкоординированные ИПЯ. АЛ. Иерархические классификации.

    А.2. Алфавитно-предметные классификации.

    А.З. Фасетные классификации.

    Б. Посткоординируемые ИПЯ.

    Б. 1. Дескрипторные языки.

    Б.2. Семантические языки.

    Б.З. Синтагматические языки.

    B. Язык библиографических ссылок.

    В ряде работ справедливо отмечались недостатки данной классификации [304], [337]. И это естественно по упомянутой выше причине: желание отразить все многообразие языков и их особенности не укладывается в простую древовидную

    11

    схему. Нам здесь важна не схема сама по себе, а задача показать место дескрипторных ИПЯ в противопоставлении их иерархическим классификациям. Рассмотрим указанные типы языков.

    (А). Предкоординированные ИПЯ.

    Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит деление понятий, а сами классификации имеют структуру «дерева знаний» с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) — обозначение понятия. Наиболее известны и распространены иерархические классификации, в числе которых в качестве примера можно привести Универсальную десятичную классификацию (УДК), Рубрикатор ГАСНТИ, Международную классификацию изобретений (МКИ), Общесоюзный классификатор продукции (ОЮТ) и др. В иерархических классификациях обычно каждый класс обозначается цифровым или буквенно-цифровым кодом, который сопровождается названием понятия на естественном языке и имеет постоянное определенное место относительно других классов.

    Пример предкоординированного языка — Универсальная десятичная классификация (УДК).

    Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области. В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке.

    Алфавитно-предметные классификации предназначены для узкопредметного поиска документов, главная тема которых обозначается

    12

    соответствующим предметным заголовком, и применяются в основном для составления указателей к систематическим каталогам.

    Учитывая неизбежную многоаспектность в типологии ИПЯ, нам представляется, что более существенным основанием для противопоставления предкоординированных и посткоординируемых языков является фактическое наличие (во втором случае) и отсутствие (в первом) операции координации. И с этой точки зрения правильнее относить язык предметных рубрик (ПР), ЛЕ которого способны участвовать в операции координации, к ограниченным дескрипторным языкам, основа которых — «предкоординированный» словарь индексирования. Это подтверждается опытом использования в некоторых библиотеках языков ПР для тематического поиска.

    Расшифровка связей: ее. от — непринятого термина к принятому, 'ссылка от' отс. — 'отсылка' (от В основу фасетных классификаций положен принцип классификации одного и того же множества предметов и явлений по разным основаниям, а именно: для одного и того же множества объектов строится несколько иерархических деревьев). Фасетные классификации уже позволяют производить многоаспектное индексирование. Основные категории — основания для классификации — называются фасетами (от англ. facet — аспект). Так множество терминов, обозначающих различные материалы, образуют фасет «Материалы», Множество терминов, обозначающих процессы, фасет «Процессы» и т.д. Каждый термин фасета называют фокусом и для удобства обозначают каким-либо кодом (шифром). Множество фасетов называют схемой классификации. Расположение фасетов в схеме классификации и соответственно, и ПОД фиксированно. Эта фиксированная последовательность называется фасетной формулой.

    Например, для классификации кинофильмов можно выделить четыре фасета: жанр, метраж, цвет и формат. В каждом из фасетов перечисляются

    13

    термины, характеризующие фильмы с точки зрения данного аспекта. Тогда поисковый образ любого фильма будет состоять из набора четырех терминов-признаков, выбранных из четырех фасетов.

    Выскажем здесь одно замечание, а именно: фасетные классификации фактически являются языками объектно-признакового типа, используемыми в фактографических системах. В связи с большой трудоемкостью разработки фасетных классификаций для документального поиска они могут быть созданы только для узких предметных областей. Методика индексирования с применением фасетных классификаций также сложна. Поэтому на практике в автоматизированных документальных ИПС эти классификации широкого применения не нашли.

    Основные недостатки всех классификаций как информационно-поисковых языков заключаются в следующем:

    1) невозможность обеспечить многоаспектное индексирование;

    2) недостаточная глубина деления;

    3) постоянное отставание от развития науки и техники.

    (Б).Посткоординируемые ИПЯ.

    В отличие от предкоординированных ИПЯ, предназначенных в основном для систематизации литературы, эти языки несравненно лучше позволяют описать содержание отдельных документов. Развитие автоматизированньк ИПС в основном оказалось связано с ИПЯ дескрипторного типа. Поэтому все основные положения теории ИПЯ и проблемы их применения в дальнейшем будут обсуждаться применительно к этим языкам.

    В основу построения дескрипторных языков положен принцип координатного индексирования, заключающийся в том, что главная тема документа описывается перечнем дескрипторов (от англ. describe .-. описывать)

    14

    — слов, являющихся именами простых понятий. Такие слова выступают в качестве как бы координат документов в некотором умозрительном п-мерном предметно-тематическом пространстве.

    Принцип координатного индексирования был разработан в 1950-х годах в процессе создания механизированных ИПС. Однако сам принцип описания содержания документов через перечисление «ключевых слов» существует издавна. Одной из первых дескрипторных ИПС была система УНИТЕРМ, разработанная в США М. Таубе. В ней в качестве индексов, описывающих содержание документов и запросов, использовались ключевые слова, выбранные из текста. Все такие слова (унитермы) имели одинаковый иерархический ранг. Словарный состав унитермных языков не разрабатывался предварительно, а формировался непосредственно в процессе индексирования. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществлялась как бы дважды: потенциально — при индексировании документа и реально - в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК. Логическое умножение понятий хорошо иллюстрируется на кругах Эйлера.

    Отдельная проблема — действительно ли образованное таким образом сочетание терминов является именем понятия и всегда ли. Известно явление ложной координации понятий. И именно исходя из этого принципа описания документов, когда содержание представляется как набор «ключевых» понятий, мы предлагаем относить алфавитно-предметные классификации к языкам дескрипторного типа. В библиотечном деле этот принцип называется

    15

    V [¦

    .-¦ « г:

    •V

    предметным индексированием. Понятие предмета при этом фактически не имеет точного определения, хотя и является интуитивно понятным. В англоязычной литературе по информационному поиску для принципа предметного индексирования иногда используется термин «aboutness»..

    Заметим, что именно такое определение предмета является основным в руководствах по предметизации. Во многих современных источниках, в частности в работах В.П. Леонова [185], показано, что понятие «предмет документа» связано с процессом свертывания и развертывания информации. В зарубежных работах по библиотековедению и информатике для определения сущности понятия «предмет документа» используется теория Т. ван Дейка. По ван Дейку восприятие текста — это акт когнитивной редукции (компрессии). Этот акт состоит в опускании информации, менее значимой для читающего, которое продолжается до тех пор, пока важная информация не будет приведена в такое состояние, что ее можно сохранить в памяти. Результатом этого процесса и будет тема, предмет, содержание документа.

    В документальных ИПС содержание документа складывается из смыслового содержания и формальных характеристик. Среди формальных характеристик для нас наибольший интерес представляет библиографическое описание документа. Библиографический поиск по существу являясь документальным, в то же время по форме смыкается с фактографическим. Дело в том, что существуют два основных способа идентификации сущностей в информационных языках — прямой и атрибутный. При прямом, когда сущностям соответствуют их имена, являющиеся элементами языка, в основе лежит семантика естественного языка. Фактически имена заменяют сами сущности. При атрибутном способе идентификации каждая сущность представляется в объектно-актантной форме, в виде имени функции (имени

    16

    сущности) и значений, т.е. атрибутов. Дескрипторные языки характеризуются прямым способом идентификации, библиографические — атрибутным.

    Для библиографического описания и поиска существуют специальные языки. Это язык библиографического описания (ЯБО) для традиционных систем, который А.И. Черный выделил и отдельный класс, и машинный библиографический формат для автоматизированных систем. Эти языки будут рассмотрены нами ниже.

    Представление смысла документов является главным назначением искусственных информационных языков. В дескрипторных ИПЯ семантическая задача решается, по сути дела, приблизительным формальным способом. Гораздо ближе к этой проблеме подошли создатели семантических и синтагматических языков, среди которых наиболее известны семантический код Перри — Копта, язык RX-кодов [329] и язык СИНТОЛ. Их разработчики основную задачу видели в обеспечении однозначного перевода с естественного языка на ИПЯ с учетом семантических и синтаксических факторов. Долгое время существовала идея о наличии некоторых «информационных» универсалий, которые необходимо заложить в информационно-поисковый язык в качестве его семантической основы. По общепризнанному мнению, эта идея в значительной степени зародилась на «дрожжах» теории грамматик Н. Хомского, оказавшей мощное влияние на все сферы языковой деятельности, в том числе и на информационный поиск. Характерная особенность этих языков — наличие средств, явно описывающих семантическую и семантико-синтаксическую структуру понятий и выражений (семантические множители, термы, реляторы, предикаты, сущности и т.п.).

    Развитие семантических языков в целом прошло за эти годы сложный путь «самоопределения», и в настоящее время языки этого типа используются в основном в системах искусственного интеллекта. Практика показала, что

    17

    Список литературы
  • bibliography:
  • *
  • Стоимость доставки:
  • 230.00 руб


SEARCH READY THESIS OR ARTICLE


Доставка любой диссертации из России и Украины