Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Тригуб, Наталья Александровна

  • Тригуб, Наталья Александровна
  • кандидат технических науккандидат технических наук
  • 2004, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 189
Тригуб, Наталья Александровна. Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2004. 189 с.

Оглавление диссертации кандидат технических наук Тригуб, Наталья Александровна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1 АЛЬТЕРНАТИВЫ ДЛЯ РАЗРАБОТКИ ЕЯ-СИСТЕМ.

1.1 Функционирующие ЕЯ-системы.

1.1.1 Галактика-200М.

1.1.2 Экспресс - Досье.

1.1.3 Этап.

1.1.4 Выводы.

1.2 Объект исследования.

1.2.1 Теория синтаксиса.

1.2.2 Порядок слов в предложении.

1.2.3 Теория текста.

1.2.4 Не-факторы, характерные для русского языка.

1.2.5 Выводы.

1.3 Постановка задачи по разработке ЕЯ-системы.зо

1.3.1 Знания.

1.3.2 Понимание ЕЯ как прикладная область ИИ.

1.3.3 Цели, критерии и ограничения.

1.3.4 Выводы.

1.4 Теоретический базис для разработки ЕЯ-систем.

1.4.1 Принципы и подходы к разработке ЯП.

1.4.1.1 Формально-грамматический подход.

1.4.1.2 Вероятностно-статистический подход.

1.4.1.3 Объектно-ориентированный подход.

1.4.2 Модели представления знаний.

1.4.2.1 Логическая модель ПЗ.

1.4.2.2 Сетевая модель ПЗ.

1.4.2.3 Фреймовая модель ПЗ.

1.4.2.4 Продукционная модель ПЗ.

1.4.3 Декларативный и процедурный подходы к ПЗ в модулях ЯП.

1.4.4 Выводы.

2 ПРИНЯТИЕ РЕЩЕНИЯ. РАЗРАБОТКА МЕТОДА.

2.1 Оценка исходного множества альтернатив.

2.2 Концептуальная постановка задачи построения АТЕЯ.

2.3 Принципы объектного подхода.

2.4 Функциональная организация АТЕЯ.

2.5 Математическая постановка задачи построения АТЕЯ.

3 АТЕЯ. АЛГОРИТМИЗАЦИЯ ОТДЕЛЬНЫХ МОДУЛЕЙ.

3.1 Ограничения входного информационного потока.

3.2 Модуль морфологического анализа.

3.2.1 Дерево - поиска.

3.2.2 Алгоритм морфологического анализа.

3.3 Модуль объектного анализа.

3.3.1 Сравнение синтаксического анализа с О А.

3.3.2 Алгоритм объектного анализа для каждого предложения.

3.3.2.1 Задача классификации.

3.3.2.2 Формирование связей внутри предложений.

3.3.3 Алгоритм объектного анализа для формирования связей и отношений между объектными структурами предложений.

4 АТЕЯ. КОМПЬЮТЕРНАЯ РЕАЛИЗАЦИЯ. у 4.1 Функция АТЕЯ предоставляемая DLL для вызова.

4.2 Описание программных структур модуля MA в АТЕЯ.

4.3 Описание структур объектного модуля АТЕЯ.

4.4 Примеры.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска»

Во все времена человек стремился оставить свои знания потомкам. До настоящего времени, самым надежным и распространенным способом хранения знаний являлись бумажные носители, а знания представлялись в текстовой форме на естественном языке (ЕЯ). В связи с бурным развитием компьютерной техники и информационных технологий, в течение короткого периода времени произошло накопление большого объема информации на металлургических предприятиях и в других отраслях народного хозяйства.

По причине большого объема информационного потока естественная обработка текстов человеком, на каждом рабочем месте в металлургической отрасли, становится все более трудоемкой и требует больших затрат времени, интеллектуальных ресурсов и памяти. Как следствие, стало принципиальным решение задачи автоматизированного извлечения знаний из текстовой информации на ЕЯ, чтобы облегчить человеку процесс принятия решения (ПР) по интересующей проблеме /114/. Возможности систем извлечения знаний, в настоящее время, не позволяют дать однозначного ответа на вопрос пользователя, но могут «разумно» сузить множество текстовых документов требующих анализа при ПР. Полное обоснование компьютерного анализа текстовых массивов на концептуальном уровне приведено в работе /104/.

Фактически, проблема извлечения знаний из текстов приобрела актуальность еще в XX веке /89/, однако, до настоящего времени, очень мало систем способных к анализу текста, включающему уровень семантического представления /79/. В первую очередь, это связано с трудоемкостью любого из предлагаемых подходов анализа текстов на русском языке (РЯ) и конечно с неформальностью самого РЯ. До сих пор не существует адекватной, полной и общепризнанной формальной модели РЯ.

Однако, на практике все же есть реально функционирующие системы, производящие обработку РЯ. Все известные в настоящее время системы, чтобы иметь возможность применить существующие формальные модели используют, как правило два подхода, обеспечивающих своего рода сужение исходной задачи:

1) накладывают существенные ограничения на ЕЯ, который обрабатывается системой, в таком случае язык уже считается ограниченным а не естественным;

2) сужают круг возможных конструкций ЕЯ путем ориентации системы на конкретную предметную область (ПО), такой подход в отличие от первого позволяет системе по-прежнему использовать ЕЯ.

Оба вышеперечисленных подхода, в равной степени часто, используются в современных реализациях как экспертных систем (ЭС) /38/, так и систем специализирующихся на анализе текстов на ЕЯ. Как правила ЭС объединяют в себе оба вышеперечисленных подхода что упрощает задачу реализации системы, но является недостатком, делающим ЭС не универсальным и неполным инструментом. В качестве еще одного существенного недостатка ЭС хочется отметить трудоемкость процесса создания и пополнения базы знаний (БЗ) экспертом, хорошо знающим предметную область предполагаемого использования ЭС /44/.

Однако ЭС не являются естественно-языковыми системами (ЕЯ-системами) в принятой классификации систем искусственного интеллекта (ИИ), и не предназначены для решения задачи анализа текста на ЕЯ в отличии от ЕЯ-систем. В связи с тем, что понятие ЕЯ-система является очень общим предлагается воспользоваться классификацией приведенной в работе /1/, согласно которой все ЕЯ-системы подразделяются на четыре класса:

1) интеллектуальные вопросно-ответные системы;

2) системы общения с базами данных (БД) /58,67,84/;

3) диалоговые системы решения задач;

4) системы обработки связных тестов /76/ (в том числе машинные переводчики /112 Г).

Разработанная в данной работе система - анализатор текстов на ЕЯ (АТЕЯ) является ЕЯ-системой ИИ, обеспечивающей процесс извлечения знаний из текстов на ЕЯ, и относящейся в приведенной выше классификации к четвертой группе. В связи с лингвистической направленностью системы обработки связных текстов на ЕЯ часто называют лингвистическими процессорами (ЛП) /56/. Представляемый АТЕЯ не является полноценной ЕЯ-системой, так как работает со знаниями только на уровне извлечения их из текстов на РЯ и не решает задачу хранения знаний и поиска по ним. Извлеченные АТЕЯ знания хранятся в системе хранилище знаний /90,91,92/, в которой АТЕЯ используется как внешний модуль.

Безусловно, большинство современных систем ИИ имеют в своем активе ЛП для обработки информации на ЕЯ. Глубина обработки ЕЯ в различных ЛП очень отличается. Так информационно-поисковые системы /110,111,113/, как правило, применяют морфологический анализ (МА), а самым высоким уровнем обработки текста на ЕЯ считается семантическое представление. Разработанный АТЕЯ заканчивает серию лингвистических анализов текста на уровне между МА и семантическим анализами.

Если по глубине и качеству обработки ЛП очень отличаются, то во внутренней организации больших отличий не наблюдается, так же как в задачах, решаемых ЛП. По большей части, современные ЛП организованы как последовательные анализаторы с похожими основными чертами. Все ЛП имеющие исторически сложившийся вид в дальнейшем будут называться с эпитетом традиционные или классические.

При решении интеллектуальных задач компьютерная программа призвана максимально облегчить труд человека: во-первых, обеспечить его ограниченной выборкой документов, отсеяв по предустановленным фильтрам лишнее, во - вторых, предоставить удобное автоматизированное место для проведения оценок.»/3/. Фактически АТЕЯ выполняет основную работу по анализу ЕЯ чтобы предоставить возможности эффективного поиска для максимального сужения подборки документов по запросу пользователя. Однако задача ПР на качественном уровне перед АТЕЯ не ставиться по той простой причине, что человеческий интеллект хотя несомненно медленнее, чем компьютерный, но безусловно гораздо качественней справиться с задачей ПР где необходимо учитывать эмоции, интуицию и т.д., то есть факты, которые не подвержены моделированию и формализации.

При сравнении разработанного АТЕЯ с традиционными ЛП выделяются ряд особенностей, во главе с объектным подходом (ОП), принципы которого разработаны в рамках данной работы и будут изложены в п. 2.3. Другие отличительные черты АТЕЯ:

1) увеличение скорости МА;

2) отказа от сложной и неполной системы правил, используемой при формально-грамматическом подходе (ФГП) к синтаксическому анализу (СА), путем замены СА на объектный анализ (ОА), который позволяет выполнять задачу построения объектной структуры с контекстными связями;

3) увеличение скорости построения формальной структуры для предложения на РЯ;

4) решение проблемы анафорических местоимений в рамках предложения и абзаца;

5) объединение объектных структур отдельных предложений в объектную модель текста в целом.

Теоретические исследование задачи машинного понимания текста на ЕЯ начались на рубеже 70-х годов XX века /41/. И привели к тому, что в настоящее время, созданы функционирующие ЕЯ-системы способных решать определенный круг задач направленных на интеллектуальную обработку текста на ЕЯ.

Однако, широкого распространения системы обработки ЕЯ на сегодняшний момент не получили. Причин этому несколько, главные из которых напрямую связаны с несовершенством формальных моделей ЕЯ, что в свою очередь приводит к невысокому качеству обработки ЕЯ, к не универсальности и большим затратам времени и ресурсов как человеческих, так и машинных. По крайней мере в двух последних проблемах удалось добиться положительных сдвигов в АТЕЯ.

Разработанный в рамках данной работы ОП позволил построить АТЕЯ, не использующий объектную модель ПО и заменить очень трудоемкий, плохо формализованный, с большим количеством неоднозначностей СА на ОА, который способен построить формальную объектную структуру по исходному тексту на РЯ и тем самым провести процесс извлечения знаний из текста. Полученные АТЕЯ знания представляются в виде специально разработанной древовидной структуры - объектной модели текста, которая отличается от семантической сети и от синтаксического дерева подчинении, формируемого в процессе СА классическим ЛП.

Кроме того, анализ производимый АТЕЯ после основной части ОА способен объединить по многокритериальной оценки объектные структуры отдельных предложений в объектные структуры абзацев, пунктов и других структур исходного текста. Таким образом происходит процесс агрегирования отдельных объектных структур предложений в объектную модель текста в целом.

Именно объектные структуры в АТЕЯ являются знаниями, извлечение которых есть главная задача разработанного анализатора. Соответственно целью АТЕЯ является не поиск «смысла» текста, как в некоторых классических ЛП, а извлечение знаний из текста. Разница в этих целях очень существенна и фактически сужает круг задач, в которых возможно применение АТЕЯ. Так, например АТЕЯ не может обеспечить исследования конструкций РЯ, но зато с успехом заменить традиционный ЛП в информационно-поисковой системе, а благодаря модульной архитектуре есть возможность использования любого из модулей АТЕЯ в рамках других задач.

Для обеспечения независимости модулей в рамках АТЕЯ каждый из модулей организован в виде системы черного ящика. Другими словами, каждый модуль АТЕЯ является отдельной системой со строгим форматом входного и выходного потоков. А для обеспечения связи отдельных модулей, каждый из которых производит свой анализ, в единое целое в рамках АТЕЯ выходной поток из предыдущего модуля приводится в формат входного потока следующего модуля. Кроме преимущества связанного с возможностью использовать некоторый модуль АТЕЯ в рамках другой системы модульная организация дает еще возможность в самом АТЕЯ без серьезных переработок подключать модули других систем как внешние.

Последовательность модулей, отвечающих за определенный лингвистический анализ, в АТЕЯ линейна и не имеет ни циклов не разветвлений. Основная идея МА и его особенности, реализованные в АТЕЯ изложены в работе /4/. ОА, реализованный в АТЕЯ, позволяет в упрощенном виде, не определяя синтаксических категорий получить формальную структуру, соответствующую принципам, описанным в статье 151.

Наиболее близким к ОА, по выполняемым функциям, из классических лингвистических анализов является СА. Под классическим или традиционным СА в дальнейшем будет пониматься СА реализованный по ФГП, использующий максимальное количество лингвистических знаний. Однако, точной аналогии между любой синтаксической категорией, определяемой в результате СА и структурой, выделяемой ОА, провести нельзя.

Хотя ОА имеет явные преимущества над традиционным СА говорить о нем как о решении всех проблем связанных с компьютерной реализацией СА нельзя. В первую очередь это связано с тем, что ОА не использует лингвистических знаний в таком объеме, в котором это может делать традиционный СА. И хотя ОА позволяет решить задачу извлечения знаний на том уровне, который требуется для информационно-поисковых систем, он имеет недостатки, который изложены в работе /6/. Но для получения успешно разработанного и апробированного АТЕЯ сначала был проведен процесс ПР по выбору оптимальной альтернативы и разработаны принципы ОП.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Тригуб, Наталья Александровна

1.4.4 Выводы

Такая дисциплина, как системный анализ позволяет на основе научных методов принять решение в условиях, когда выбор альтернативы требует анализа сложной информации различной природы.» /25/. Для успешной разработки ЛП проведены комплексные исследования на стыке двух научных дисциплин: лингвистики и теории ИИ. Междисциплинарный характер исследований - важная черта системного анализа. Именно на стыке нескольких дисциплин рождаются сложные многокритериальные задачи с множеством неизвестных.

Системный анализ считается наиболее распространенным направлением системных исследований, под которыми понимают методологию решения сложных задач и проблем, основанную на концепциях, разработанных в рамках теории систем. Согласно принципам и методам системного анализа все существующие подходы к созданию ЛП, работающих с РЯ, были подвергнуты исследованию и сравнению.

Руководствуясь методологией системного анализа, после изучения различных ЕЯ-систем, проводилась их декомпозиция, для исследования функциональных возможностей каждой компоненты в отдельности и их взаимосвязи как внутри системы, так и между собой. В результате анализа выяснилось, что компонента МА во всех системах ее использующих имеет устойчиво работающую модель, но не оптимальную реализацию и неудовлетворительное время обработки.

Компонента СА при ее применении в ЕЯ-системе совершенно не сопоставима с целями из-за невероятно большого времени, затрачиваемого на обработку одного предложения, и не возможности объединять структуры предложений в единую структуру по тексту в целом. Если с последней задачей можно справиться написав собственный модуль который бы на основе структур предложений после традиционного СА строил структуру текста, то бороться с временем работы СА можно только либо используя ВСП, что, как уже говорилось, не приемлемо для построения контекстных связей, либо сужать рамки, в которых вообще возможна работа СА, что не удовлетворяет выдвинутым удовлетворяет ограничениям.

Однако, рассмотренные теоретические подходы теории лингвистики и ИИ позволили сформировать теоретический базис для разработки ЕЯ-системы. На основе этого теоретического базиса образовано исходное множество альтернатив (ИМА) с использованием морфологического метода генерации альтернатив.

Согласно морфологическому методу для генерации ИМА формируются независимые переменные и рассматриваются все значения, которые они могут принимать. Таким образом ИМА генерируется как все возможные комбинации значений независимых переменных.

Итак, ИМА образовано из трех типов независимых переменных: X, = {*„,*12,*13} - подходы к разработки ЕЯ-систем, где *„- ФГП, х12- ВСП, х13 - ООП;

Х2 = {х2\,х22,х2Ъ,х24} -МПЗ, где х21 - логическая МПЗ, х22 - продукционная

МПЗ, х23- сетевая МПЗ, х24 - фреймовая МПЗ; Х3 = {х31,х32} - подходы к ПЗ, где х31 - декларативный подход к ПЗ; х32 - процедурные подход к ПЗ.

Таким образом, ИМА А = {а,}, где п = 1.24 формально состоит из 24 альтернативных варианта, применение которых возможно как основа для разработки ЕЯ-систем. Для формирования оценок каждой альтернативы по сформулированным критериям проведен анализ по каждому значению независимой переменной.

Так ФГП является потенциально наиболее полным, с точки зрения покрытия всех возможных конструкций РЯ. Но он настолько неформален, что фактически единственный вариант его реализации основан на большом массиве знаний, выраженных декларативно в виде продукционных моделей. А это приводит к продолжительному времени работы алгоритмов и как следствие к медленному отклику ЕЯ-системы на запрос пользователя. Кроме того, при реализации СА по данному подходу строится дерево-подчинений для фраз, но не для текста в целом.

ВСП, наоборот, имеет строгость формализации близкую к математической, что отрицательно сказывается на полноте покрытия неформального РЯ. До недавнего времени, как среди лингвистов, так и специалистов в прикладных областях ИИ, большую популярность имели различные порождающие грамматики, использующиеся при ВСП. В связи с невозможностью разрешить некоторые языковые проблемы в рамках классической теории порождающей грамматики были разработаны ее модификации, которые тоже полностью не решили проблему формализации ЕЯ. Что касается ООП, то все ЕЯ-системы такого типа используют при анализе объектную моделт ПО предварительно построенную эекспером.

Результатом рассмотрения значение переменной Х2 стали выводы относительно достоинств и недостатков МПЗ с точки зрения оценки их эффективного применения в ЕЯ-системе. Итак, ничего более привлекательного для формализации правил вывода в виде продукционной МПЗ не выявлено, и самым удобным механизмом для отражения зависимостей и отношений является сетевая МПЗ.

Как показывают исследования независимой переменной Х3 выбор декларативного или процедурного подхода к ПЗ состоит в выделении частей БЗ, в которых оптимален тот или иной подход. Декларативный подход в представлении знаний дает принципиальное разделение уровней знаний и алгоритмов работы с ними, в то время как при организации БЗ процедурно никакой границы раздела нет. Декларативное представление знаний более привлекательно, с точки зрения возможности дальнейшей модификации. При этом коррекция БЗ не повлечет модификацию алгоритмов. Системы, основанные на представлении знаний в процедурном виде, как правило, работают быстрее именно за счет отсутствия границы раздела между областями: БЗ и обрабатывающих ее алгоритмов.

Анализ теоретического базиса для разработки ЕЯ-систем позволил качественно определить значения предложенных в данной работе критериев для оценки каждой альтернативы.

2 ПРИНЯТИЕ РЕЩЕНИЯ. РАЗРАБОТКА МЕТОДА 2.1 Оценка исходного множества альтернатив

Каждый элемент множества альтернативных вариантов получает оценки с использованием нечетких значение лингвистической переменной: неудовлетворительно, удовлетворительно и хорошо /107,108,115/. Значения этих оценок приведены в табл. 1.

ЗАКЛЮЧЕНИЕ

К настоящему времени на металлургических предприятиях сформировалась потребность использования накопленной документации электронного формата в качестве источника для извлечения знаний в процессе ПР при решении задач с применением ЕЯ-систем. Целью ЕЯ-систем является автоматический или автоматизированный анализ для извлечения знаний или смысла из текстов на ЕЯ. Несмотря на большое количество разработок в этой области, до сих пор не создано ЕЯ-системы, способной адекватно работать в любой ПО, это связано с не-факторами русского языка и, как следствие, большим объемом и неоднозначностью лингвистических знаний требующих формализации.

В данной работе проведен анализ по программным реализациям трех лингвистических подходов, являющихся наиболее известными в области ЕЯ-систем, работающих с русским языком: ВСП - Галактика-700М, ФГП -ЭТАП, ООП - Экспресс-Досье. В результате этого исследования сделан вывод о том, что в настоящее время выделяется характерный для современных поисковых систем недостаток, связанный с поиском контекстного содержания запроса пользователя в информационном массиве, причем он устранен только на некоторых ПО при использовании объектной модели ПО. Определив недостатки существующих ЕЯ-систем, для ПР по разработке АТЕЯ, были осуществлены шаги, схематично показанные на рис. 16.

Основной целью диссертационной работы является проведение анализа, разработка и реализация метода обработки неструктурированной текстовой информации для решения задачи повышения эффективности использования текстов на РЯ с помощью построения формальной объектной структуры. Для достижения поставленной цели произведена реализация следующих подцелей:

1) определение и рассмотрение на качественном уровне теоретического базиса, использующегося для построения ЕЯ-систем и включающего в себя три подхода к организации ЕЯ-систем: ФГП, ВСП, ООП; четыре МПЗ: логическая, продукционная, сетевая, фреймовая; два подхода к ПЗ: декларативный, процедурный;

2) ПР по выбору альтернативного варианта построения ЕЯ-системы из сгенерированного на основе морфологического метода ИМА; как оказалось, лучшая по значению локальных критериев альтернатива требует модификации по причине не удовлетворения выдвинутому ограничению - не использованию модели ПО, что было принято осуществить с помощью разработки принципов ОП;

Схема проведенного процесса принятия решения

Рис. 16

3) разработка принципов эмпирического подхода, не использующих модели ПО на минимально необходимом объеме лингвистических знаний;

4) разработка алгоритмов, обеспечивающих процесс автоматического построения формальной объектной структуры из текстов на РЯ;

5) разработка программного обеспечения для АТЕЯ.

Ниже перечислены методы, используемые для реализации подцелей:

• теории искусственного интеллекта - подцель 1;

• теории лингвистики - подцель 1, подцель 3;

• теория принятия решений - подцель 2;

• теоретико-множественный подход - подцель 4;

• оптимизации - подцель 4;

• объектно-ориентированного программирования - подцель 5;

Теоретические и практические результаты диссертационной работы предназначены для использования в информационно-поисковых системах поддержки ПР, которые организует работу с хранилищем технической документации и подборку соответствующих документов по запросу пользователя. Использование разработанного АТЕЯ осуществляется на этапе помещения технического документа на русском языке в хранилище для построения формальной структуры знаний и в момент отправки запроса пользователя для поиска подборки документов.

Сравнение характеристик разработанного АТЕЯ с классическими ЕЯ-системами приведены в табл. 3, где приведены общие характеристики анализаторов ЕЯ-систем /1/ и АТЕЯ.

АТЕЯ можно условно классифицировать как «синтаксический» анализатор, но как это ни странно будет звучать, без СА. Вместо традиционного модуля СА, используемого в модели Смысл-Текст при анализе, в разработанном АТЕЯ после МА производится ОА. С точки зрения функциональных возможностей ОА похож на классический СА, но имеет принципиальные отличительные черты.

Так разработанной ОА строит объектную модель на сонове контекстных связей по предложению и не использует синтаксических категорий. Кроме того в отличии от СА результатом работы модуля ОА будет являться формальная объектная структура целого текста, который поступил на вход АТЕЯ (формальные структуры предложений объединяются в формальные структуры абзацев и т.д.). В условиях употребления синонимов одного и того же объекта, модуль ОА. В отличие от СА модуль ОА при замени некоторого объекта на анафорическое местоимение произведет поиск замененного объекта как в рамках предложения, так и в рамках абзаца. Однако, ОА не может быть применен в качестве испытательного полигона для лингвистических гипотез так полноценно как СА, потому что изначально строился на основе минимального набора лингвистических знаний, которые необходимы только для определения контекстных связей.

Список литературы диссертационного исследования кандидат технических наук Тригуб, Наталья Александровна, 2004 год

1. Искусственный интеллект: Системы общения и экспертные системы: Справочник / Под ред. Э. В. Попова. В 3-х кн. М.: Радио и связь, 1990. -Кн. 1.-464 с.

2. Стефанюк В. Л. Представление знаний и рассуждений (сжатый обзор по материалам IJCAI-2001 США), пленарный доклад // Восьмая национальная конференция по искусственному интеллекту. КИИ'2002: Сб. тр. -М.: Физматлит, 2002. Т. 1. С. 33-41.

3. Опарин А. Системы мониторинга и анализа СМИ // PC Week № 47(413), 2003. 16-22 декабря. С. 36.

4. Крапухина Н. В., Тригуб Н. А. Особенности модуля морфологического разбора в системе анализа текстов на ЕЯ в задаче извлечения знаний // Научная сессия МИФИ-2004: Сб. тр. М.: МИФИ, 2004.-Т.З. С. 116-117.

5. Krapuhina N, V., Trigub N. A. Object Analysis Of The Text As Alternative Of Syntactic Analysis // Interactive Systems : The Problems of Human -Computer Interaction. Proceedings of the International Conference. - Ulyanovsk: U1STU, 2003. P. 207 - 210.

6. Лорьер Ж.-Л. Системы искусственного интеллекта. / Пер. франц. — М.: Мир, 1991.-568 с.

7. Люгер Джордж Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание / Пер. с англ. М.: Издательский дом Вильяме, 2003. - 864 с.

8. Мельчук И. А. Опыт теории лингвистических моделей "Смысл Текст". Семантика, синтаксис. - М.: Шк. Яз. рус. культуры, 1999. - 345 с.

9. Лингвистический процессор для сложных информационных систем. / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, А. В. Лазурский, Л. Г. Митюшин, В. 3. Санников, Л. Л. Цинман М.: Наука, 1992. - 256 с.

10. П.Гаврилова Т. А., Хорошевский В. Ф., Базы знаний интеллектуальных систем. Спб.: Питер, 2001. - 384 с.

11. Файн В. С. Машинное понимание ЕЯ в рамках концепции реагирования // Интеллектуальные процессы и их моделирование: Сб. ст. / Под ред. Е.П. Велихова. -М.: Наука, 1987. С. 375-392.

12. Лурия А. Р. Язык и сознание. М.: Изд-во МГУ, 1998. - 336 с.

13. Кэрролл Л. Приключения Алисы в стране чудес. Алиса в зазеркалье. / Пер. англ. Н. Демурова, стихи в пер. С. Маршака, Д. Орловской, Л. Се-дакова. Пертазоводск.: Корелия, 1979. - 210 с.

14. Искусственный интеллект: Модели и методы: Справочник / Под ред. Д. А. Поспелова. В 3-х кн. М.: Радио и связь, 1990. - Кн. 2. - 304 с.

15. Тестелец Я. Г. Введение в общий синтаксис. М.: РГГУ, 2001. - 800 с.

16. Мельчук И. А. Курс общей морфологии: Учеб. пособие / Пер. с фр. В. А. Плунгяна / Под ред. Н. В. Перцова, Е. Н. Саввиной. М.: Языки русской культуры, 1998. - Т. 2. Ч. 2 - 544 с.

17. Валгина Н. С. Теория текста: Учебное пособие. М.: Логос, 2003.-280 с.

18. Бабайцева В. В., Чеснокова Л. Д. Русский язык. Теория 5-9 класс. -Спб.: Дрофа, 2002. 331 с.

19. Розенталь Д. Э., Джанджакова Е. В., Кабанова Н. П. Справочник по правописанию, произношению, литературному редактированию. М.: ЧеРо, 2001. - 400 с.

20. Антонов А. В., Курзинер Е. С. Новые возможности поисково-аналитической системы Галактика-ZOOM (ранжирование документов по значимости) // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2003: Сб. тр. М.: Наука, 2003. С. 25 - 32.

21. Хорошевский В. Ф. Обработка естественно-языковых текстов: от моделей понимания языка к технологиям извлечения знаний // Новости ИИ. N6(54), 2002г. С. 19-26

22. Тулупьев A. JI. Алгебраические байесовские сети. Логико-вероятностный подход к моделированию баз знаний с неопределенностью. СПб.: СПИИРАН, 2000. - 292 с.

23. Моисеев Н. Н. Математические задачи системного анализа. М.: Наука, 1981.-488 с.

24. Тарасов В. Б. Современные направления ИИ // Кибернетика ожидания и результаты. Политехнические чтения. - М.: Знание, 2002. - Вып. 2. С. 105-111.

25. Архипов Г. И., Садовничий В. А., Чубариков В. Н. Лекции по математическому анализу: Учебник для университетов и пед. вузов / Под ред. В. А. Садовничего М.: Высш. шк. 1999. - 695 с.

26. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ.-М.: МЦНИО, 2000. 960 с.

27. Шевченко М. И., Егорушкин А. А. Технология распознавания сложных текстовых конструкций // Научная сессия МИФИ-2004: Сб. тр. М.: МИФИ, 2004. - Т.З. С. 110 - 112.

28. Бронников Г. К. Семантика без синтаксиса // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. -М.: Наука, 2002. Т.1. С. 27 - 34.

29. Перцов Н. В., Перцова Н. Н. О проекте лингвистического процессора для обработки информации из сети Интернет // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. -М.: Наука, 2002. Т.1. С. 339 - 342.

30. Поликарпов А. А. Лексическая полисемия в эволюционном аспекте // Lingüistica.: Учен. зап. Тарту: Тартусск. гос. ун-т, 1990. - Вып. 911. С. 76-86.

31. Энциклопедический словарь юного филолога (языкознание) / Сост. Панов М.В. М.: Педагогика, 1984. - 352 с.

32. Толковый словарь по искусственному интеллекту / Авторы-составители А. Н.Аверкин, М. Г. Гаазе-Раппопорт, JL А. Поспелов М.: Радио и связь, 1992.-256 с.

33. Кузнецов И. П. Семантические представления. М.: Наука, 1986.- 242 с.

34. Минский М. Фреймы для представления знаний.-М:Энергия, 1979.-151с.

35. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985.-373 с.

36. Попов Э. В. Экспертные системы. М.: Наука, 1987. - 284 с.

37. Поспелов Д. А. Представление знаний о пространстве и времени в системах искусственного интеллекта. М.: Радио и связь, 1988. - 196 с.

38. Поспелов Д. А. Моделирование рассуждений: опыт анализа мыслительных актов. М.: Радио и связь, 1989. - 184 с.

39. Виноград Т. Программа понимающая естественный язык. М.: Мир, 1976.-294 с.

40. Представление знаний в человеко-машинных и робототехнических системах. / Под ред. Д. А. Поспелова. М.: ВИНИТИ, 1984. - Т. А. - 261 с.

41. Представление и использование знаний / Под ред. Х.Уэно, М. Исидзука М.: Мир, 1989.-220 с.

42. Приобретение знаний/Под ред.С.Осуги, Ю.Саэки.-М.: Мир, 1990.-330 с.

43. Филмор Ч. Фреймы и семантика понимания // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1988. - Вып. 23. С. 52-90.

44. Кобозева И. М. Как мы описываем пространство, которое видим: форма объектов // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2000: Сб. тр. М.: Наука, 2000. - Т.1. С. 152-167.

45. Кобозева И. М. Как мы описываем пространство, которое видим: проблема выбора ориентира Н Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1995: Сб. тр. Казань: Хэтер, 1995. С. 146-153.

46. Кобозева И. М. Как мы описываем пространство, которое видим: композиционные стратегии // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1997: Сб. тр. М.: РосНИИ ИИ, 1997. С. 132-136.

47. Кобозева И. М. Представление знаний о физических объектах для систем типа «Рисунок Текст» // Категоризация мира: пространство и время: Сб. тр. - М.: МГУ, 1997. С. 117-123.

48. Кобозева И. М. Грамматика описания пространства//Языки пространств. Логический анализ языка: Сб. ст. М.: Яз. рус. культуры, 2000. С. 152-163.

49. Топоров В. Н. Пространство и текст//Текст: семантика и структура: Сб. ст. М.: Наука, 1983. С. 227-283.

50. Лингвистическое обеспечение системы ЭТАП-2 / Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, А. В. Лазурский, Н. В. Перцов, В. 3. Санников, Л. Л. Цинман. М.: Наука, 1989. - 295 с.

51. Apresjan Ju.D., Boguslavskij I.M., Iomdin L.L., Lazurskij A.V., Sannikov V.Z. and Tsinman L.L. (1992). The linguistics of a Machine Translation System. Meta, 37(1). P. 97-112.

52. Волкова И. А., Проскурня M. О. Программный комплекс для лингвистической обработки текстов на русском языке // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 96-99.

53. Зализняк А. А. Грамматический словарь русского языка. М.: Русский язык, 1980. - 880 с.

54. Волкова И.А. Адаптация и обучение системы общения с ЭВМ на естественном языке: Автореф. дис. к.ф.-м. наук: 01.01.10 / И. А. Волкова. -М.: Изд-во МГУ, 1982. 21 с.

55. Волкова И.А., Головин И.Г., Кривнова О.Ф. Компьютерный словарь моделей управления русских глаголов. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1998: Сб. тр. М.: РосНИИ ИИ, 1998. - Т.1. С. 448-452.

56. Шаров С. А. Инструментальная система для разработки лингвистических процессоров: Автореф. к дисс. к. ф.-м. наук : 05.13.11 / С. А. Шаров.- М.: 1997.-27 с.

57. Шаров С. А., Использование объектно-ориентированного программирования для лингвистического моделирования. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'1995: Сб. тр. -Казань: Хэтер, 1995. С. 332-339.

58. Боярский К. К., Каневский Е. А., Клименко Е. Н. Морфологический анализ текста в системе MAZE-32 // Информационные технологии в гуманитарных и общественных науках. СПб: СПбЭМИ РАН, 2001. -Вып. 11. С. 1-8.

59. Ермаков А. Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. -Т.2.С. 180-185.

60. Жигалов В.А., Соколова Е.Г. InBASE: технология построения ЕЯ интерфейсов к базам данных // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2001: Сб. тр. М.: Наука, 2001. -Т.2. С. 123-135.

61. Kuznetsov I. P., Matskevich A. G. System for extracting semantic information from natural language text // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 577-581.

62. Коваль С. А. К унификации представления русской морфологии в системах обработки текстовой информации // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. М.: Наука, 2002. - Т.2. С. 269-275.

63. Антонов А.В., Курзинер Е.С. Вычисление значимой части текста (в поисково-аналитической системе «Галактика-ZOOM») // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2004: Сб. тр. М.: Наука, 2004. С. 8 -15.

64. Каневский Е. А., Саганенко Г.И., Гайдукова Л.М., Клименко Е.Н. Система анализа текстов // Социология: методология, методы, математические модели. 1997. - № 6. С. 198-216.

65. Антонов А. Информационно-поисковая система «Galaktika-ZOOM» с элементами анализа на гипермассивах информации // Научнотехническая информация. Серия. 1: Сб. ст. М.: ВИНИТИ, 2001. - №8. С. 12-21.

66. Антонов А. Большие Информационные Объекты // Научно-техническая информация. Серия. 1: Сб. ст. М.: ВИНИТИ, 2001. - №4. С. 11-13.

67. Максимов А. Аналитика на службе конкурентной разведки и защиты бизнеса. // PCWeek № 39(453), 2004. С. 12.

68. Смирнов Ю. М., Андреев А. М., Березкин Д. В., Брик А. В. Об одном способе построения синтаксического анализатора текстов на естественном языке // Изв. вузов. Приборостроение. СПб.: Приборостроение. -1997,-№5. С. 34-42.

69. Фостер Д. Автоматический синтаксический анализ.-М.: Мир, 1975.-70 с.

70. Попов Э. В.Общение с ЭВМ на ЕЯ. М.: УРСС, 2004. - 360 с.

71. Макаров И.М. и др. Теория выбора и принятия решений М.: Наука, 1987.-328 с.

72. Ларичев О.И. Теория и методы принятия решений.-М:Логос,2000.-296с.

73. Мушик Э., Мюллер П. Методы принятия технических решений. М.: Мир, 1990.-208 с.

74. Каневский Е.А., Колпакова Н.В. Опыт построения морфологического анализатора // Информационные технологии в гуманитарных и общественных науках. СПб.: СПбЭМИ РАН, 1998.- Вып. 7. С. 42-51.

75. Лезин Г. В., Боярский К.К., Каневский Е.А., Попова А.И. Программирование концептуальной обработки текстов // Информационные технологии в гуманитарных и общественных науках. СПб.: СПбЭМИ РАН, 1996.-Вып. 3.-С. 19-27.

76. Ulyanovsk: U1STU, 2003. P. 211-214.

77. Алексеева И.Ю. Человеческое знание и его компьютерный образ. М.: Наука, 1992. - 126 с.

78. Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике: Сб. ст. -М: Прогресс, 1981. Вып. 10. С. 400-444.

79. Шэнк Р. Обработка концептуальной информации.-М.: Мир, 1980.-360 с.

80. Хомский Н. Аспекты теории синтаксиса. / Пер. с англ. В.А. Звегинцева. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 257 с.

81. Баранов А. Н., Кобозева И. М. Семантические метаязыки для описания смысла предложения // Лингвистическое обеспечение информационных систем: Сб. ст. М.: Институт научной информации по общественным наукам АН СССР- 1989. С. 102-142.

82. Богуславский И. М. Исследования по синтаксической семантике. М.: Наука, 1985.- 176 с.

83. Мельчук И. А. Опыт разработки фрагмента системы понятий и терминов для морфологии (к формализации языка лингвистики) // Семиотика и информатика: Сб. ст. М.: ВИНИТИ, 1975. - Вып. 6. С. 16-58.

84. Хомский Н. Синтаксические структуры // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1962. - Вып. 2. С. 23-138.

85. Филлмор Ч. Дело о падеже открывается вновь // Новое в зарубежной лингвистике: Сб. ст. М.: Прогресс, 1981. - Вып. 10. С. 496-530.

86. Мельчук И. А. Русский язык в модели «Смысл-Текст». М.: Языки русской культуры, 1995. - 682 с.

87. Квитко Е. С. Термин в научном документе. Львов: Высшая школа ЛГУ, 1976.- 125 с.

88. Саганенко Г.И., Каневский Е. А. Концептуальное обоснование компьютерного анализа массивов с текстами // Социология: 4М. 1997.- № 6. С. 65-81

89. Никитевич В. М. Грамматические категории в современном русском языке. М.: Государственное учебно-педагогическое издательство министерства просвещения РСФСР, 1963. - 246 с.

90. Галактика-ZOOM Автоматизированная система поиска и аналитической обработки информации Электронный ресурс. : описание системы на сайте компании-производителя, корпорации Галактика [2004].- Режим доступа: http://zoom.galaktika.ru/content.htm, свободный.

91. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. М.: Физматлит, 1996. - 208 с.

92. Введение в системный анализ: Учеб. пособие /Под ред.В.А. Губанов, В.В. Захаров, А.Н. Коваленко. Ленинград: Изд-во ЛГУ,1988. -232 с.

93. Подиновский В.В, Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982. - 254 с.

94. Леонтьев В. П. Поиск в Интернет. М.: ОЛМА-Пресс Образование, 2004. - 47 с.

95. Информационный поиск в Интернете: Учеб. пособие / Под ред. В.И. Аверченков, С.М. Рощин, Ю.Т. Трифанков. Брянск: Изд-во Брян. гос. техн. ун-та, 2002. - 303 с.

96. Поминов А. В. Информационная система для переводчиков. // Компьютерная лингвистика и интеллектуальные технологии меж. конф. Диалог'2002: Сб. тр. M.: Наука, 2002. - Т.2. С. 450-453.

97. Поисковые механизмы Google Электронный ресурс. публикация на сайте компании Master-IT, [2004]. - Режим доступа: http:// hosting.master-it.ru/articles/article.php?aid=10&acid=28, свободный.

98. Трахтенгерц Э.А. Компьютерная поддержка принятия решений. -М.: Синтег 1998.-376 с.

99. Эддоус М., Стэнсфилд Р. Методы принятия решений.- М.: ЮНИ-ТИ, 1997.-590 с.

100. Комплекс аналитической обработки текста Электронный ресурс. : общая информация о продукте [2004]. - Режим доступа: http://www.rco.ru/product.asp?obno=406, свободный.

101. Демонстрация технологий анализа и поиска текстовой информации RCO Электронный ресурс. : страница демонстрационных версий программных продуктов RCO [2004]. - Режим доступа: http://demo.rco.ru/, свободный.

102. Асанов М.О., Баранский В.А., Расин В.В. Дискретная математика: графы, матроиды, алгоритмы. Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001. - 288 с.

103. Майника Э. Алгоритмы оптимизации на сетях и графах. М.: Мир, 1981.-323 с.

104. Тузов В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. Семантический анализ текстов. СПб: СПбЭМИ РАН, 2002. - Вып. 12. С. 1-19.

105. Яблонский C.B. Введение в дискретную математику М.: Наука, 1986.-384 с.

106. Схема алгоритма МА. Автоматическая часть1. Есть еще флексии

107. Схема алгоритма МА. Автоматизированная часть

108. Схема первого этапа алгоритма ОА

109. Схема второго этапа алгоритма ОА

110. Формирование первого приближения множеств свойство описание и свойство принадлежности относительно объектов и Функций

111. Формирование групп и эквивалентных сущностей ОП

112. Схем третьего этапа алгоритма ОА 0

113. RObj: TObjectRazbor; MI: TMorfologylnfo; SONML: TStringList; Phrases: TPhrasesList; begin ErrMessage := "; Result := "; try

114. DoLog( 'TextToSONML (I)'); RObj := nil; MI := nil; Phrases := nil;try

115. RObj := TObjectRazbor.Create; MI := TMorfologylnfo.Create;

116. Phrases := TPhrasesListCreate;

117. DoLog( 'TextToSONML (2)'); ContextToWords( Text, Phrases, Startlndex, MI.mText);

118. MI.PhrasesList := Phrases;

119. DoLog( 'TextToSONML (3)');if not RMorf.MorfologyAnalis( MI, RObj ) thenraise Exception.Create( 'Морфологический анализ завершился ошибкой');

120. DoLog( 'TextToSONML (4)'); SONML := TStringList-Create; try

121. RObj.ObjectAnalis( MI, SONML, ContextPrefix, CommandText);1. Result := SONML.Text;

122. SONML. SaveToFile( 'C:\temp\SONMLDLL.txt'); finally1. SONML.Free;1. SONML := nil; end;1. DoLog( TextToSONML (5)');

123. MI.PhrasesList := nil; finallyif assigned(MI) then try FreeAndNil( MI ); except end;if assigned(RObj) then try FreeAndNil( RObj ); except end;if assigned(Phrases) then try FreeAndNil( Phrases ); except end; end;except on E:Exception do

124. DoLog( 'Start INIT ); Morf.ClearObject;

125. Morf.ChRech.LoadFromFile( StrPas( Path ) + •chrech.txf);

126. Morf.LN.LoadFromFile( StrPas( Path ) + 'ln.txt');

127. Morf.Rod.LoadFromFile( StrPas( Path ) + 'rod.txt');

128. Morf.Padeg.LoadFromFile( StrPas( Path ) + ■padeg.txt');работаем с файлом основ

129. RunBat('sort '+Trim(StrPas( Path))+ ' /о '+StrPas( Path)+' /1 "C'",True);

130. Morf.SlovarOs.LoadFromFile(Trim(StrPas( Path )+'slovar.txt'));

131. Morf.TreeOsn.BuildTreeOsn( Morf);

132. Morf.DeleteNullStrings(Morf.SlovarOs);работаем с файлом окончаний RunBatCsort '+Trim(StrPas( Path ))+' /о'+ StrPas( Path)+' /1 "C"',True); Morf.SlovarOk.LoadFromFile(Trim(StrPas(Path )+'fleksii.txt'));

133. Morf.TreeOsn.BuildStructOk( Morf); Moif.DeleteNullStrings(Morf.SlovarOk);

134. Result := constSTATEInited;

135. DoLog( 'Finish INIT); end;type1. TMorfologiRazbor=class;

136. RootNodes : PNode;//nepBbifl узел дерева-структурыprocedure ClearObject; procedure ClearTree(var TS:PNode); //работа с узлами дереваprocedure CreateData(Morf:TMorfologiRazbor;

137. TMorfologylnfo = class privatefunction GetContext(Index: Integer): TPhraseParams; publicmText: TStringList;//HcxoflHbitt текст для разбора

138. PhrasesList: TPhrasesList; property WordContext Index: Integer .: TPhraseParams read Get Context; constructor Create; destructor Destroy; override; end;

139. MorfDopOk: TStringList; // NotTrue:Boolean; // ZnakPrep : Integer; procedure ClearStruct; //работаем со строками из текстового файла function

140. DeleteZnakStrings(SS: String): String;//yflaneT точку после основы(окращения основы в словаре)procedure SearchOsn(str: String) ^/выделяет основуprocedure

141. SearchStandartForm(buf:String);//cTpoHT стандартную формуfunction

142. WIndex : Cardinal; ZnakPrep: Integer): Boolean; public

143. Rod,Padeg,ChRech: TStringList;

144. GramXar, Osn, Stand Forma: TStringList;1. TreeOsn : TTreeStruct;1. StructOk: TTreeStruct;

145. SlovarOs, SlovarOk: TStringList;procedure ClearObject;procedure

146. Morf.TreeOsn.AddNode(nil,nil,tnAlf,nil,Copy(Morf. Osn1.,l,l));if tnAlf о nil then

147. Morf.TreeOsn.UpdateNode(tnAlf,tnAlf.Child,tnAlf.P arent, tnAlf. Left, tnTemp) else

148. Morf.TreeOsn.RootNodes := tnTemp; tnAlf := tnTemp;tnNode :=

149. Morf.TreeOsn.AddNode(nil,tnTemp,nil,nil,Morf.Osn 1.);

150. CreateData(Morf,tnNode,0,i);

151. Morf.TreeOsn.UpdateNode(tnAlf,tnNode,tnAlf.Paren t,tnAlf.Left,tnAlf.Right); end else begin ch :=

152. Pos(Osn,Morf.DeleteZnakStrings(Morf.Osn1.)); if ch = 1 then begin tnTemp :=

153. Morf.TreeOsn.AddNode(nil, tnNode, tnNode.Child, nil ,Morf.Osn1.);

154. CreateData(Morf,tnTemp,0,i); if tnNode o nil then

155. Morf.TreeOsn.UpdateNode(tnNode,tnTemp,tnNode. Parent,tnNode.Left,tnNode.Right); tnNode := tnTemp; tnTemp := tnTemp.Left; if tnTemp o nil then

156. Morf.TreeOsn.UpdateNode(tnTemp,tnTemp.Child,tn Temp.Parent,tnTemp.Left,tnNode); end else beginwhile tnNode o nil do begin ch :=

157. Pos(Morf.DeleteZnakStrings(tnNode.Text),

158. Morf.DeleteZnakStrings(Morf.Osn1.)); if ch = 1 then begin tnTemp :=

159. Morf.TreeOsn.AddNode(nil,tnNode,tnNode.Child,nil ,Morf.Osn1.);

160. CreateData(Morf,tnTemp,0,i); if tnNode o nil then

161. Morf.TreeOsn.UpdateNode(tnNode,tnTemp,tnNode. Parent,tnNode.Left,tnNode.Right); tnNode := tnTemp; tnTemp := tnTemp.Left; if tnTemp o nil then

162. Morf.TreeOsn.UpdateNode(tnTemp,tnTemp.Child,tn Temp.Parent,tntemp.Left,tnNode); break; end;tnNode := tnNode.Parent; end;if tnNode = nil then begin tnTemp :=

163. Morf.TreeOsn.AddNode(nil,nil,tnAlf,nil,Copy(Morf. Osn1.,l,l));if tnAlf o nil then

164. Morf.TreeOsn.UpdateNode(tnAlf,tnAlf.Child,tnAlf.P arent,tnAlf.Left,tnTemp) else

165. Morf.TreeOsn.RootNodes := tnTemp; tnAlf := tnTemp; tnNode :=

166. Morf.TreeOsn.AddNode(nil,tnTemp,nil,nil,Morf.Osn '.);

167. CreateData(Morf, tnNode, 0,i);

168. Morf.TreeOsn.UpdateNode(tnAlf,tnNode,tnAlf.Paren t,tnAlf.Left,tnAlf.Right); end; end;if tnNode o nil then Osn := Morf.DeleteZnakStrings(Morf.Osn1.); end; end; end;procedure

169. Copy(str,ch,Length(str)-ch));end else

170. Morf.GramXar.Insert(i,str); prednum := num; tnTemp :=

171. Morf.StructOk.AddNode(nil,nil,tnFirst)nil,num); if tnFirst o nil then

172. Morf.StructOk.UpdateNode(tnFirst,tnFirst.Child,tnFi rst.Parent,tnFirst.Left,tnTemp)else begin

173. Morf.StructOk.RootNodes := tnTemp; end;tnFirst := tnTemp; if chl > 0 then tnChild :=

174. Morf.StructOk.AddNode(nil,tnFirst,nil,nil, Copy(str,chl + 3,ch-chl-3))elsetnChild :=

175. Morf.StructOk.AddNode(nil,tnFirst,nil,nil,"); Morf. StructOk.CreateData(Morf,tnChild, 1 ,i);

176. Morf.StmctOk.UpdateNode(tnFirst,tnChild,tnFirst.Pa rent,tnFirst.Left,tnFirst.Right);end else begin1. Morf.GramXar.Insert(i,

177. Copy(Morf.SlovarOk1.,ch 1 ,Length(Morf.SlovarO ki.)-ch)); tnTemp :=

178. Morf.StructOk.AddNode(nil,tnFirst,tnChild,nil,

179. Morf.SearchGramXar(Morf.GramXar1.,TNi6=',';'));

180. Morf.StructOk.UpdateNode(tnChild,nil,tnFirst,tnChil d.Left,tnTemp);tnChild := tnTemp; CreateData(Morf,tnChild, 1 ,i);

181. Morf.StructOk.UpdateNode(tnFirst, tnChild, tnFirst.Pa rent,tnFirst.Left,tnFirst.Right);end; end; end;function TMorfologiRazbor.LeksikalAnaIis(SIovo : String; OBAN: TObject;

182. WIndex : Cardinal; ZnakPrep: Integer) : Boolean; var

183. TObjectRazbor( OBAN ).ObjXar.Add(tN); result := True; end; end; end; end; end;function

184. SearchNodes.Add(tnTemp); tnTemp := taTemp.Child; result := True; end elsetnTemp := tnTemp.Left; end; end;function TTreeStruct.CompareNodeSlovo(Morf: TMorfologiRazbor; Node:PNode;Str:String):Boolean; varch: Integer; begin if Node o nil then begin ch :=

185. Pos(Morf.DeleteZnakStrings(Node.Text),Str); if ch = 1 then result := True elseresult := False; end elseresult := False; end;function

186. TObjectRazbor( OBAN ).ObjXar.Add(tNode); for i := 0 to TreeOsn.SearchNodes.Count -1 do begin

187. Node := TreeOsn.SearchNodes1.; pD := Node.Data; //если есть ссылка на окончания if pD.Okonchanie о nil then beginссылок на окончания может быть несколько for j := 1 to pD.OkonchaniefO. do begin

188. Temp := StructOk.RootNodes; //ищем эту ссылку в структуре окончаний while Temp о nil do if Temp.Text о IntToStr(pD.Okonchaniej.)then

189. MorfEkvOsn.Add(Node); MorfEkvOk.Add(Temp); end;if Temp.Child о nil then Temp := Temp.Child else

190. TTextNode = record Slovo : String;//cjiOBO в русском написании Osnova : Ро1шег;//ссылкак на соответствующий данной основе узел дерева-основ

191. Okonchanie : Pointer;//ccbuiica на соответствующее данному слову окончание из структуры

192. Znak : Integer;//oTMeTKa о знаке препинания после слова (см. файл znaki.txt)

193. Obj : Integer;//BHfl сущности 10,11 объект, 20,21 - функция, 30 - свойство описания, 40 - со-вйство принадлежности

194. Next : РТех1>^е;//следующий узел, состоящей из вышеперечисленного набора параметров, т.е. сссылка самого на себя

195. Pred : PTextNode;//предыдущий узел, состоящей и вышеперечисленного набора параметров, т.е. сссылка самого на себя

196. Child : PTextNode;//слово к-ое является зависимым от данного слова

197. Parent : PTextN0de;//an0B0 от к-ого является зависимым данное слово1.nk : PTextNode ¡//функция к-ая может иметь отношение к данному слову

198. Objet : PTextNode;//o6beKT к-ый может иметь отношение к данному слову

199. Prim : 1Ше§ег;//кодированные обозначения несущие вспомогательный характер: -20 причастие или деепричастие

200. Poradok : Integer;//nopHflKoebift номер слова внутри текста

201. None : Integer;//cneu. инф. по анализам: 100 -нет слова в морф, словаре; 110 цифра записанная цифрой;120 процент; 130 - не русское слово;140 имя собственное ObjEkv : PTextNode ¡//разрешенная анафоря ObjRav : TList;//paBHbie объекты (равенство по основе)

202. Context : TList;//^OBa, которое оказалось с чем то равным и объединяющее группу

203. Wordlndex : Cardinal;//HOMep слова внутри пре-ложений1. Phraselndex : Cardinal;end;type

204. ContextPrefix: String = "; CommandText: String = '^¡//формирование выходного текстового файла в специальном формате public ObjXar: TList; tvObjModel: TTreeNonView; Error : TStringList;procedure ObjectAnalis(MI: TMorfologylnfo; SONML: TStringList;

205. ContextPrefix: String = "; CommandText: String = "); end;procedure TObjectRazbor.Klassification; var i: Integer; tNode: PTextNode;

206. Node : PNode; pD: PDataNode; beginищем только им. падежи for i := 0 to ObjXar.Count -1 do begin tNode := ObjXar1.; if tNode о nil then begintNode.Poradok := i+1; tNode.Obj := -1; if tNode.Osnova о nil then begin

207. Node := tNode.Osnova; pD := Node.Data; case pD.CR of l,5:beginсклоняемое сущ., сущ./местоимениеif((pD.Okonchanie о nil)and(pD.Okonchanie0. > 0))then begin

208. Child(ParentNode,ChildNode:PTExtNode);procedure Try-DOSV(NodeDo,Trynext,TryPred,TryChild,TryP arent:PTextNode); beginif(((TryPred = nil)or((NodeDo.Next o TryPred)and

209. NodeDo.Parent o TryPred)and (NodeDo.Child o TryPred)))and ((TryNext = nil)or((NodeDo.Pred o TryNext)and

210. NodeDo.Parent o TryNext)and (NodeDo.Child o TryNext)))and ((TryParent = nil)or((NodeDo.Pred o TryParent)and

211. NodeDo.Next o TryParent)and (NodeDo.Child o TryParent)))and ((TryChild=nil)or((NodeDo.Pred o TryChild)and

212. TryDOSV(ParentNode,nil,nil,ChildNode,nil);

213. TryDOSV(ChildNode,nil,nil,nil,ParentNode); end else begintTempChild^:= ParentNode.Child;1. Try

214. DOSV(ChildNode,tTempChild,nil,nil,ParentNode) >

215. TryDOSV(ParentNode,nil,nil,ChildNode,nil);

216. TryDOSV(tTempChild,nil,ChildNode,nil,nil); end; end;varij,souz,flag: Integer; NotFound,Zamena,Oborot: Boolean; tNode, tTemp, tT, tObj, tParent, tLink, tTempObj PTextNode;

217. NodeListD := nil; NodeListL := nil; NodeListP := nil;try

218. NodeListD := TList.Create; NodeListL := TList.Create; NodeListP := TList.Create;

219. TryDoChild(tLink,tTemp); end; end; end;if NodeListD. Count > 0 then beginfor j := 0 to NodeListD.count 1 dobegintTemp :=NodeListDj.; if tObj o nil then begin

220. TryDoChild(tParent,tTemp); end; end else beginif tObj o nil then tTemp.Objct := tObj; if assigned(tObj) then begin

221. TryDoChild(tObj,tTemp); end; end; end;

222. TryDoChild(tParent,tLink); end; end; end;

223. NodeListL.Add(tNode); end; souz := 0; flag := 20; end;30,-1 :begin

224. NodeListD.Add(tNode); if NodeListL.Count > 0 then beginfor j := 0 to NodeListL.Count 1 do begintTemp := NodeListLj.; if((assigned(tLink))and(tTerap otLink))thenbegin

225. TryDoChild(tLink,tTemp); end;end;if(assigned(tLink))then begin

226. TryDoChild(tLink,tTemp); end; end;if assigned(tLink)then begin

227. TryDoChild(tParent,tTemp); end end else begin

228. TryDoChild(tNode,tTemp); end; end;1. NodeListD.Clear; end;if tParent = nil then beginif(tTempObj о nil)then begin

229. TryDoChild(tTempObj,tNode); tParent := tNode; end else begintParent := tNode; NodeListP.Add(tNode); end; end else beginif((tTempObj = tLink)and(tTempObj оnil))thenbegini£((tLink о nil)and(tLink.Child о tParent))thenbegin

230. TiyDoChild(tTempObj,tNode); tParent := tNode; end else beginif((tLink о nil)and(tLink.Child = tParent))thenbegintNode.Parent := tLink.Child; end; end; end else beginесли вперели не было союза if souz = 0 then begin

231. TryDoChild(tParent,tTemp); end end else begin

232. TryDoChild(tNode,tTemp); end; end;1. NodeListD.Clear; end;if NodeListP.Count > 0 then begintTemp := NodeListPNodeListP.Count-l.; TryDoChild(tTemp,tNode); end;

233. NodeListP.Add(tNode); tParent := tNode; end; end else beginесли это сочинительный союзif tNode.Osnova о nil then begin

234. Node := tNode.Osnova; pD := Node.Data; if(pD.CR = 21)thensouz := 1; end;

235. NodeListD.Add(tNode); end; end; end;

236. NodeListP.Clear; end; finally

237. N := tT.Okonchanie; p := N.Data;if tSysh.Okonchanie о nil then N := tSysh.Okonchanie else

238. N := tSysh.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); end else begin

239. N := tT.Osnova; p := N.Data;if tSysh.Okonchanie о nil then N := tSysh.Okonchanie else

240. N := tSysh.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); end; end; end;if(tSlovo о nil)then beginif(tT.Obj in 20,21.)then tSearch.Add(tT) else beginif tT.Okonchanie о nil then begin

241. N := tT.Okonchanie; p := N.Data;if tSlovo.Okonchanie о nil then N := tSlovo.Okonchanieelse

242. N := tSlovo.Osnova; pi := N.Data; //если падеж соответствуетif ComparePadeg(p,pl) then tSearch.Add(tT); endelse if tT.Osnova о nil then begin N := tT.Osnova; p := N.Data;if tSlovo.Okonchanie о nil then N := tSlovo.Okonchanie else

243. Node := tTemp.Okonchanie; pD := Node.Data; //деепричастиеif pD.CR = 15 then tNode.Obj := 11; end elseif tTemp.Osnova о nil then begin

244. Node := tTemp.Osnova; pD := Node.Data; //деепричастиеif pD.CR = 15 then tNode.Obj := 11; end; end; end; end; end; end; end;

245. Объектная иерархическая структура первого предложения:

246. Объектная иерархическая структура второго предложения:

247. Все приведенные объектные структуры предложений являются графическим изо бражением формальной записи, которая приведена ниже в экранных формах.

248. Экранные формы формальной записи первого и второго предложений соответственно:1. Тестирование АТЕЯ-1П1*1

249. Выпрямленное напряжение через емкостной фильтр, собранный на конденсаторах подается на однофазный транзисторный инвертор.1. АЖ ,|1. Rooi>1. Entities)

250. Entity I D=' '2" Value-"напряжение' '>

251. Object 1D="2" Context) D="1" N='*2">

252. Property? ID="5" Уа!ие="фильтр" N="5" h

253. Property D f0="3" Value=' 'через" Parent="5" N="3" h

254. Property D ID ="4" Value="емкостный" Parent="5" N="4" /> <Ргорег^РШ="8"УЫие="кошемсаггор"Р^еп1="5" N="9"/>

255. PropertyD ID="7"Value='WParent="8"N="8" /> </Object)1. Entity >i Entity ID ="13" Value=' инвертор")0bjectlD="13" ContextlD="1" N="14"> <PropertyD Ю="10"Уа1ие="на" N="11"/>

256. PropertyD ID -"1111 Value-"однофазный' 'N="12" />

257. PropertyD ID ="12" Value="транзисторный" N="13" /> </Qb|ect>

258. Entity> </Entities) <Links>1.nk ID="1" Context!D="1"Уа1ив-"выпрямить" 0bjectFrom="2" 0bjectTo="2" N="t7>1.nk ID="6" Context! D=*"1" Уа1ие="собрать" N="7" /> <Link ID="3" ContextlD="1" Value="подавать" 0bieotFrojri="2" N-"10" />1.nks>1. Context»

259. Context ID="1" Start! ndex="1 "> Выпрямленное напряжение через емкостной фильтр, собранный на конденсат ерах подается на однофазный транзисторный инвертора/Context;1. Contexts) </Root>1. Тестирование атеяjojxj

260. Он собран по однофазной мостовой схеме на транзисторах.1. АТЕЯ1. Root> <Entities>1. EntitylD='T'Vdue="0H">

261. Context ID="1" Start!ndex="V> Инвертор собран по однофазной мостовой схеме на транзисторах-:/Context) </Contexts) </Root>

262. Объектная иерархическая структура третьего предложения:

263. Так как объединение иерархических объектных структур предложений происходит последовательно, то сначала представлен результат объединения иерархических объектных структур первого и второго предложения:

264. Gbtecl !D-"1" ConlextlD-'T' N-"1">

265. Piopei tjiPID»"2"VaJ(je-1 инвертор'' N -"2" Лn(ity>

266. EriWy ID="6" Vakre^Vpancfpophtarop'^

267. Obtecl ID-"6" ContextlD-'T' N-"B"> (PropeityD D="4"Vatu e="cuno(ow" N="4" /> iPiopeityP ID ="8" Valrje-''вымм" N="9" /> iPropatyD ID-'T" Value-'на" Parent-"B" N-"8" /> ;PtopertyD ID="9" Value ^"который" Parent» "8" N-"10" h ;/0bject>1. Emily;

268. EnHly ID="13"VaKje="sCTpOHCTBO">cGbject Ю-'13" СйГг1ек№-"1" N="14">iPropertyD 10»' '11" Vakje="narpeBatejibHt>0'' N-"12"/>

269. Proper (yO I0»"1 ернический'' N-"13" Л0bject>rrir*y>

270. ЕгУйу ID="15" Уа!иб-"инодсгор">

271. Obiect ID-15" ConlentlD-"1" N-"18"v cPropMlyD ID -" 14" Value-''например'' N-"16" /> </0bject>1. EnUy>

272. Григорьев Евгений Владимирович начальник отдела развития и автоматизации внешнеэкономических операций ОАО «В\0 «Авиаэкспорт», председатель комиссии

273. Андреева Ирина Геннадьевна главный эксперт - экономист отдела планирования и валютного контроля ОАО «В\0 «Авиаэкспорт», член комиссии

274. Феоктистов Владислав Валентинович главный эксперт - системный администратор отдела развития и автоматизации внешнеэкономических операций ОАО «В\0 «Авиаэкспорт», член комиссии

275. Комиссия рассмотрела программное обеспечение диссертационной работы Тригуб Н. А.,производящее интеллектуальную обработку текстовых электронных документов нарусском языке с целью выделения знаний из теста, и определила следующее.

276. Подход к объектной трактовки текстовой информации в состоянии обеспечить обработку документов на качественном уровне достаточном для эффективного контекстного поиска по образованным формальным структурам.

277. Е. В. Григорьев И. Г. Андреева В. В. Феоктистов

278. Начальник службы технической поддержки Гмбх САС Институт А. Е. Гришель 11 ноября 2004 г.1. АКТапробации результатов диссертации на соискание ученой степени кандидата технических наук Тригуб Натальи Александровны1. Состав комиссии:

279. Гришель Андрей Евгеньевич начальник службы технической поддержки Гмбх САС Институт, председатель комиссии

280. Бутаев Кирилл Эдуардович руководитель проектной группы Гмбх САС Институт, член комиссии

281. Кацан Николай Владимирович технический консультант департамента консалтинга и сервиса Гмбх САС Институт, член комиссии

282. А. Е. Гришель К. Э. Бутаев Н. В. Кацан

283. Генеральный директор ООО "Интеллектуальные ресурсы" В. В. Ковшевный 9 ноября 2004 г.1. АКТапробации результатов диссертации на соискание ученой степени кандидата технических наук Тригуб Натальи Александровны1. Состав комиссии:

284. Ковшевный Виктор Викторович генеральный директор ООО "Интеллектуальные ресурсы", председатель комиссии

285. Дубков Алексей Михайлович директор аналитического отдела ООО "Интеллектуальные ресурсы", член комиссии

286. Косинов Андрей Анатольевич технический директор ООО "Интеллектуальные ресурсы", член комиссии

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.