Использование семантических связей в системах анализа текстов на естественном языке тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Назаров, Михаил Александрович
- Специальность ВАК РФ05.13.11
- Количество страниц 132
Оглавление диссертации кандидат технических наук Назаров, Михаил Александрович
Введение.
1. Обзор литературы.
2. Постановка задачи.
3. Краткое содержание диссертации.
Глава 1. Исследование существующих систем анализа текстов.
1. Обзор существующих в настоящее время систем анализа текстов на естественном языке.
2. Рассмотрение принципов действия классических систем анализа, основанных на ключевых словах, их достоинства и недостатки.
3. Анализ причин широкого распространения существующих алгоритмов и построенных на их основе систем понимания текста.
4. Выводы.
Глава 2. Исследование семантических связей и их применимости для анализа текстов.*.
1. Описание общих принципов формализации естественного языка и приведения его к виду, пригодному для точной обработки, без потери смысла исходного текста.
2. Исследование возможностей использования в системах анализа текстов классов слов, получаемых при помощи морфологического анализатора.
3. Описание принципов построения семантических связей для слов, составляющих произвольный текст на естественном языке.
4. Исследование возможностей использования полученных семантических связей для построения системы анализа текстов.
5. Выводы.
Глава 3. Разработка и реализация методики практического использования семантических связей для анализа текстов.
1. Исследование возможностей практического применения теоретических выкладок для систем анализа текстов.
2. Описание разработанного универсального ядра обработки семантической информации и предоставления её для внешних программных систем.
3. Описание тестовых программ, использующих разработанное ядро для практической демонстрации использования теоретических методов в реальных условиях.
4. Рассмотрение системы электронного архива документов, использующейся для хранения сверхбольших объёмов информации.
5. Результаты тестовых испытаний системы хранения, основанной на практическом применении теоретических результатов данной работы.
6. Основные отличия разработанной системы от систем-конкурентов и преимущества, предоставляемые новыми методами анализа текстов.
7. Выводы.
Выводы по диссертации в целом.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Машинный семантический анализ русского языка и его применения2006 год, кандидат физико-математических наук Мозговой, Максим Владимирович
Построение вопросно-ответной системы с использованием метода математической формализации естественных языков2001 год, кандидат физико-математических наук Корхов, Александр Вадимович
Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова2006 год, кандидат технических наук Григорьев, Александр Сергеевич
Построение систем поиска информации, основанных на семантике языка2002 год, кандидат технических наук Теряев, Антон Александрович
Введение диссертации (часть автореферата) на тему «Использование семантических связей в системах анализа текстов на естественном языке»
1. Обзор литературы
Вопросы, связанные с автоматическим анализом текстов на естественном языке, известны достаточно давно и, как следствие, хорошо освещены в научной литературе. Исследования и практические эксперименты в этой области начались ещё до появления электронно-вычислительных машин, достаточно вспомнить так называемые молитвенные машины, появившиеся задолго до нашей эры и служившие для автоматического составления молитв или мантр, в зависимости от религии той части света, где они использовались [21]. Конечно, эти первые машины, представлявшие собой не более чем набор дисков, связанных между собой и несших на своих боковых поверхностях некоторый набор слов, очень мало напоминают современные компьютеры, и никак не связаны с теми алгоритмами лингвистического анализа, которыми пользуются исследователи наших дней [1-4,6,8-12,15,19,20,22,28-36,3944,46,48,51 -53,60-64,66,67,72,74,80,86,91]. Но сам факт их появления отчётливо свидетельствует о том, что проблема связи живого языка и некоторого механизма имеет очень давнюю историю и волнует исследователей уже много тысяч лет.
Почти экспоненциальный всплеск интереса к рассматриваемой проблеме произошёл примерно в середине второй половины прошлого века. В первую очередь такой резкий рост исследований этой темы был связан, разумеется, с бурным развитием электронно-вычислительной техники и компьютерных сетей [16,67-69]. Развитие этих отраслей привело к появлению огромного количества документов, которые требовали автоматической обработки, так как ручная обработка не представляется возможной именно из-за общего объема информации, содержащейся в этих документах. На сегодняшний день ёмкость, например, глобальной компьютерной сети Интернет, а именно она является одним из основных потребителей вычислительной мощности, направленной на обработку электронных документов, оценивается в несколько триллиардов документов [16]. Сложно представить себе процесс ручной обработки такого массива информации, особенно если учесть, что развитие информационных технологий не стоит на месте, и объём информации, доступной в сети Интернет, так же растёт. Но даже если рассматривать не глобальные информационные ресурсы, а всего лишь документацию достаточно большой организации масштаба отдельно взятой страны, то и тогда объём информации превышает пределы, в которых можно говорить о разумности ручной обработки. Так, например, объём документации МЧС России по предприятиям, находящимся на территории нашей страны, необходимой для успешного проведения спасательных операций при катастрофах техногенного характера, оценивается примерно в один миллиард документов. Таким образом, необходимость автоматической обработки документов совершенно очевидна.
Как уже было указано, тема распознавания и анализа естественных языков имеет достаточно широкую историю. Пик её пришёлся на пятидесятые года прошлого века, когда появление первых компьютеров вызвало к жизни целое новое направление, связанное с задачами искусственного интеллекта. Основным отличием этих задач от всех, ранее известных, является отсутствие заранее известных алгоритмов получения необходимого результата. Решения таких задач сводятся к попыткам смоделировать механизмы мышления человека [7], что удаётся далеко не всегда и результаты далеки от идеала. Распознавание текстов на естественном языке как раз и является одной из тех проблем, которые не решаются традиционными методами.
Первопроходцами в области автоматического анализа текстов считаются специалисты из Кембриджской школы семантики [2], например, М. Мастерман. Ими было создано некоторое количество семантических языков, из которых самая поздняя версия представляется достаточно интересной. Естественно, эти работы проводились для английского языка. В нём было выделено несколько сотен шаблонов, состоящих из трёх классификаторов и определяющих наиболее распространённые ситуации, описываемые языком. Общее число использовавшихся классификаторов было чуть меньше шести десятков. В качестве примера типичного шаблона можно указать конструкцию человек-место-делатъ. Алгоритм анализа текста состоял из нескольких этапов. На первом этапе текст разбивается на отдельные фрагменты, которые, в случае соответствия введённым шаблонам, заменяются на них. На втором этапе проверялась семантическая связанность отдельных шаблонов, исходя из достаточно простых принципов: шаблоны считались связанными в том случае, если в них встречались совпадающие классификаторы или же классификатор и его отрицание. Детально этот механизм описан в [34].
Результаты этих исследований и послужили основой для развития такой области науки как компьютерная семантика. Тот факт, что работы не были доведены до логического конца, лишний раз доказывает ошибочность попыток развития такой темы как семантика в отрыве от практических экспериментов. Тем не менее, результаты кембриджских исследований весьма важны, что наглядно демонстрируется их отзвуками в работах современных учёных, работающий в этой области. Достаточно взглянуть на [2-4,35,36,61].
Какие же решения предлагаются исследователями на сегодняшний день и как они реализуются на практике? В рассматриваемом вопросе можно констатировать достаточно печальный факт: несмотря на довольно большой объём исследований, проводимых как специалистами лингвистами, так и специалистами в области информационных технологий, практически все теоретические наработки так и остаются чистой теорией [4,10,20,34,60,66,74]. Чаще всего это происходит по нескольким причинам. Первая из них заключается в том, что, как правило, исследования ведутся обособленно учёными, представляющими разные области науки, что приводит, в частности, к появлению теоретически верных алгоритмов и методик, которые, однако, никоим образом не могут быть воплощены на практике, так как не учитывают никаких тонкостей, связанных с практическим программированием.
Если же взглянуть на практическую сторону вопроса, то там ситуация полностью аналогична. Специалисты по прикладному программному обеспечению отлично представляют себе тонкости реализации алгоритмов применительно к различным условиям работы и используемым аппаратным ресурсам, но в большинстве своём не представляют даже малой доли той объёмной и сложной теории языка, на которой бы следовало основывать свои разработки. Это привело к тому, что, на сегодняшний день, подавляющее большинство систем, связанных с обработкой текстов на естественном языке, используют методики и алгоритмы, которые созданы не на основе разработок по структуре языка и по возможностям его трансформации и преобразования в математически точный вид, удобный для машинной обработки, но одновременно позволяющий не терять смысла текста, а на основе разработок самих же специалистов по программному обеспечению, которые не подкреплены подробными теоретическими изысканиями [62,86,87,91].
Более того, даже специалисты в области математической лингвистики, которые, по идее, должны вести свои исследования именно на стыке чистой теории языка и практического его применения, к сожалению, не могут обеспечить достаточно хорошо и полно реализуемых алгоритмов. Большинство методик анализа текстов, созданных в последние годы, значительно облегчают математические выкладки и дальнейшие исследования в этом направлении, но традиционно, да, это уже можно назвать традицией, не имеют тех черт, которые позволили бы практическое применение их на практике [4,10,20,34,60,66,74].
Основой практических систем анализа уже много лет является анализ текста с использованием частотных характеристик слов, его составляющих [67,75,76]. Эти алгоритмы учитывают количество вхождений слова в текст. В самой простой форме при анализе текста происходит построение таблицы, в каждой строке которой указывается само слово и число его появлений в тексте, после чего таблица сортируется по второму параметру. Чем выше при этом оказывается слово в таблице, там большим считается его значение в тексте [67,75,76,87]. Дальнейшее совершенствование этого алгоритма происходит за счёт использования форм слова. Для этого применяются два близких варианта. В одном из них, для каждого слова производится попытка построить все словоформы, и при дальнейшем поиске, наряду с самим словом используются и они. Полученная таблица при этом не изменяется. Второй же вариант предполагает, что при построении форм слова, если полученная форма совпадает со словом, находящимся в другой строке таблицы, то текущая строка и совпадающая объединяются, а числовые значения вхождений складываются [75].
2. Постановка задачи
Большой объём проработанной литературы, даёт все основания говорить о том, что указанные труды позволяют полно и всесторонне определить положение дел в области анализа текстов на естественном языке вообще и разработанность методик использования для этого семантических связей в частности. Исследование как русскоязычной, так и зарубежной литературы, позволяет сделать вывод, что текущее состояние и результаты исследований по рассматриваемому вопросу находятся примерно на одном уровне. Кстати, этот факт говорит о том, что в исследованиях в отношении русского языка имеются большие успехи, так как он более сложен для разбора чем, например, английский, и для достижения одинаковых результатов для русского языка требуются большие усилия.
Итак, в соответствии с состоянием исследований и рассмотренной литературой следует полагать, что вопрос об использовании в системах анализа текстов на естественном языке семантических связей не разработан в достаточной степени. Следовательно, целевой установкой исследования выбираем использование семантических связей в системах анализа текстов на естественном языке. Для решения этой проблемы необходимо решить следующие вопросы:
1. Рассмотреть и проанализировать существующие алгоритмы разбора текстов на естественном языке и системы, основанные на них. Исследовать возможные недостатки классических систем анализа текстов, основанных на использовании ключевых слов, получающих ранг, определяющий их значение в данном тексте, в большей степени на подсчёте количества вхождений данного слова в исследуемый текст. Оценить результаты, получаемые при работе систем с использованием рассмотренных алгоритмов. Оценить возможности изменения таких алгоритмов, для улучшения результатов их работы, которые позволили бы построить систему, основанную на старых методах, но пригодную для работы в новых условиях. Такая возможность была бы полезна для начальной модернизации существующих систем.
2. Исследовать пути возможного улучшения существующих алгоритмов, без кардинального их изменения, но основываясь на более новых принципах. Например, путём использования морфологического анализатора, основанного на определении для каждого слова соответствующего ему класса и показывающего, к какой из областей знаний относится данное слово. Изучить возможности применения таких алгоритмов для улучшения качества и производительности существующих систем, в частности, за счёт более корректной обработки омонимов и синонимов слов, фигурирующих в тексте. Такая возможность была бы полезна для более глубокой модернизации существующих систем, хотя также не потребует их глобальной переделки и изменения.
3. Рассмотреть возможности анализа текстов, основанных на методике морфологического и семантического анализа текстов, позволяющей оценить значение отдельных слов с учётом контекста, в котором они представлены. Кроме того, оценить возможности анализа текста не в качестве отдельных слов, а как их совокупности, в которой слова связаны строго определёнными зависимостями, отражающими взаимодействие каждого слова с остальными. Разработать методику использования данного подхода в реальных системах. Такое исследование необходимо для понимания путей развития систем анализа текстов с перспективой на будущее, так как качественное изменение принципов, лежащих в основе новых систем, может привести к необходимости заново создавать системы анализа текста, хотя и с попытками основываться на существующих.
4. Оценить возможность практического использования теоретических выкладок с целью применения их в реальных системах. Проанализировать степень возможного улучшения качества результатов, получаемых с помощью таких систем, по сравнению с существующими, а также оценить возможность увеличения производительности систем, основанных на новых алгоритмах, по сравнению с существующими. Практическое исследование необходимо, в первую очередь, для более точного понимания процессов, лежащих в основе обработки и анализа текстов, и для проверки возможностей полной практической реализации всех деталей новых методик, разработанных в ходе теоретических изысканий.
5. Разработать программное обеспечение, использующее теоретические выкладки и результаты практических исследований. Оценить соответствие теоретических результатов и предположений, а также результатов практических исследований, результатам, полученным при использовании написанного программного обеспечения в реальных условиях. Наличие реально работающего и использующегося программного обеспечения, основанного на новых принципах обработки текстов, с использованием семантических связей, окончательно подтвердит правильность как теоретических наработок, так и результатов практических экспериментов и даст основание безо всяких оговорок говорить про востребованность и актуальность результатов исследования.
3. Краткое содержание диссертации
Целью данной диссертации является исследование вопроса о применении семантических связей в системах анализа текстов на естественном языке.
Рассматривается имеющаяся литература, посвященная исследуемому вопросу и смежным областям. Как показало изучение литературы, посвященной рассматриваемому вопросу, данная тема не является достаточно разработанной, несмотря на то, что исследования на тему анализа текстов на естественном языке ведутся достаточно давно (см. 1.1). Подобные исследования основаны, как правило, на попытках построить модель языка, основываясь на некой базе всевозможных значений каждого из слов, существующих в языке, и последующего анализа текста на основе подсчёта вхождений каждого слова в текст. При этом зачастую отсутствуют минимальные теоретические выкладки, которые позволили бы, например, систематизировать отношения между словом, его формами и возможными значениями. Такой подход является наиболее очевидным и простым, что и привело к его широкому распространению, однако, при своей простоте, он обладает целым рядом недостатков. Как то, необходимость создания огромной базы, необходимой для анализа текста. Такая база может быть создана только вручную, так как для автоматического её построения необходим анализатор, который, собственно, и создаётся. Кроме того, подобный подход не обеспечивает корректной обработки синонимов и омонимов, которые широко распространены в естественных языках.
Анализируются причины, приведшие к резкому увеличению требований к системам анализа текстов. Подобная неразработанность явным образом тормозит развитие многих отраслей человеческой деятельности. Например, бурное развитие глобальной компьютерной сети Интернет, и наличие в ней миллиардов документов, которые необходимо каким-то образом индексировать и каталогизировать, предъявляет очень серьёзные требования к системам, претендующим на предоставление такого сервиса. До сих пор, основной возможностью для улучшения производительности работы таких систем являлось только постоянное увеличение вычислительной мощности аппаратного обеспечения, на котором строятся системы сбора, индексации и рубрикации электронных документов, выдаваемых, затем, по запросу пользователя. Такой подход к развитию привёл к появлению достаточно производительных поисковых систем, которые, однако, способны очень быстро выдать пользователю огромное количество документов, совершенно его не интересующих, одновременно скрыв от него документы, действительно соответствующие заданной теме. Именно нерелевантность запроса и результата является основной претензией к современным поисковым системам, а ведь такое положение дел, обусловлено именно отсутствием алгоритмов, позволяющих кардинально изменить принципы анализа текстов и отказаться, наконец, от устаревших методик. А теоретическая непроработанность вопроса является коренной причиной отсутствия алгоритмов. Помимо широко известной проблемы поисковых систем существует и множество других. Например, в настоящее время достаточно хорошо разработан вопрос о распознании компьютером человеческой речи, в том смысле, что компьютер может "на слух" определить, что за слово или словосочетание или даже целое предложение было произнесено человеком, но область практического применения таких исследований значительно меньше их потенциала. Основной причиной является та же самая проблема: компьютер не может понять смысл текста, который он распознал и отлично проработанная система распознавания сталкивается со всё той же хилой системой понимания. Максимум, который можно получить от компьютера на сегодняшний день, это то самое понимание ключевых слов распознанного текста. Большего практического применения сегодняшние теоретические разработки не позволяют.
Рассматриваются существующие на сегодняшний день алгоритмы и методики анализа текстов и предлагаются возможные пути развития существующих систем. Таким образом, необходимо кардинально менять систему, лежащую в основе сегодняшних алгоритмов анализа текстов. Одним из путей развития, которые возможны на сегодняшний день, является использование ключевых слов, которые получают ранг, основанный не на количестве вхождений в текст слова, а на количестве вхождений всех слов, относящихся к тому же классу, что и данное. Такой подход стал возможен благодаря исследованиям структуры языка, проведённым доктором наук Тузовым В. А., при непосредственном участии автора этой работы. На основе этих исследований был создан анализатор, позволяющий обработать произвольный текст на естественном языке и получить для каждого его слова, соответствующий ему класс. Результаты такой обработки текста позволяют отказаться от привязки к конкретному слову при дальнейшей работе с данным текстом. Все дальнейшие манипуляции, связанные с рубрикацией или с соотнесением данного текста к словам запроса пользователя, осуществляются на основе полученных классов слов текста, а не самих слов. В качестве примера можно рассмотреть ситуацию, в которой человек ищет текст, связанный с космосом. Классические поисковые системы не смогут определить, что текст, полный слов звезда, луна, планета и т. д., имеет отношение к запросу только потому, что ни одно из этих слов не является словоформой и не похоже по написанию на требуемое слово космос. Использование же классов слов, совершенно чётко позволит определить, что данный текст релевантен запросу, так как и слово из запроса и большое количество слов из текста относятся к одному классу. (На самом деле классы таких слов как планета, относятся к подклассу класса слова космос.) Более подробно о подобных ситуациях можно прочитать в [37]. Это позволяет говорить о том, что использование классов слов позволяет кардинально улучшить ситуацию с поисковыми системами, без коренного изменения самого алгоритма работы. В самом простом случае достаточно лишь добавить функцию определения классов и в дальнейшем ссылаться не на исходный текст, а на псевдо-текст, который будет создан этой функцией и состоит из номеров классов.
Исследуются возможности применения в системах анализа текстов принципиально новых подходов. Для дальнейшего развития алгоритмов обработки текстов, возможно рассматривать уже не сами слова или их классы, а целые предложения. Конечно, для точного определения номера класса, слово также не может рассматриваться в отрыве от других, но в целом, рассмотренный ранее принцип не так чувствителен к совокупности слов и контексту, как предлагаемый далее. Рассмотрение целых предложений обусловлено необходимостью анализа как самого слова, так и его связей с другими словами в тексте. Язык представляет собой строгую математическую систему, что позволяет говорить о том, что поведение слова в предложении обусловлено некоторой функцией, связанной с этим словом. В качестве аргументов этой функции выступают слова, логически и понятийно связанные с рассматриваемым. Таким образом, предложение в целом можно считать суперпозицией всех функций от слов его составляющих. Этот подход позволяет учитывать контекст, в котором слово присутствует в предложении, и способы, которыми оно воздействует на остальные слова, возможно даже, меняя этим воздействием их смысл. Это действует и в обратном направлении, и слово, функционально связанное с другим, само может поменять смысл от этой связи. Для полного разбора предложения и построения функций слов и суперпозиций всего предложения в исследованиях, которым и посвящена эта работа, использовался морфологический и семантический анализатор, являющийся дальнейшим развитием системы, основанной на исследованиях структуры языка, проведённых доктором наук Тузовым В. А. и автором этой работы.
Теоретическое исследование вопроса об использовании внутренней структуры языка для определения функциональных и понятийных связей слов в тексте, привели к необходимости практического эксперимента, целью которого являлось подтверждение или опровержение теоретических выкладок и проверка пригодности разработанного алгоритма для практического использования в реальных системах анализа текстов, таких как системы индексации и поиска документов, системы рубрикации и т. д. Для проведения этого эксперимента, автором было разработано универсальное ядро, позволяющее на основе результатов работы ранее созданного анализатора, строить специальную структуру данных, отражающую найденные анализатором связи в более удобном для дальнейшего использования виде. Кроме того, указанное ядро берёт на себя и все функции по предоставлению информации, связанной с проанализированным текстом. Сюда входит и количественная информация, такая как количество вхождений слов, так и качественная, такая как использование классов слов или типы используемых связей, для более тонкого определения уровня значения слова в тексте, с учётом того, слабые или сильные связи с другими словами текста являются для него превалирующими. Такая универсальность позволяет использовать указанное ядро как для исследований классических систем, основанных на ключевых словах, так и для оценки систем нового поколения, основанных на семантических связях.
Результаты использования разработанного ядра полностью подтвердили теоретические выкладки и предположения о том, что использование семантических связей может качественно улучшить результаты систем анализа текстов. Первоначально, на основе указанного ядра были разработаны несколько тестовых программ, которые использовались в основном, для анализа реальных газетных статей. Качество результатов, получаемых при поиске документа по запросу или при рубрикации превосходит показатели аналогичных систем в среднем на несколько десятков процентов, а в некоторых случаях в разы. Такие результаты дали возможность использовать упомянутые наработки в системе хранения больших объёмов информации, разрабатываемой компанией "Эврика". Одним из вариантов применения данной системы является хранение большого числа электронных документов, для которых предусмотрена возможность автоматического построения каталога непосредственно в процессе работы системы в зависимости от пожеланий пользователя, что кардинально отличает эту систему от её аналогов, где
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Математическое моделирование и программная реализация семантического преобразования поисковых запросов2012 год, кандидат технических наук Кириллов, Антон Владимирович
Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах2007 год, кандидат филологических наук Николаева, Ирина Викторовна
Разработка и исследование методов и системы семантического анализа естественно-языковых текстов2010 год, кандидат технических наук Мокроусов, Максим Николаевич
Построение алгоритмов реализации человеко-машинных речевых интерфейсов2007 год, кандидат физико-математических наук Коршаков, Алексей Вячеславович
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Назаров, Михаил Александрович
Выводы по диссертации в целом
1. Проведён подробный обзор литературы, имеющей отношение к разрабатываемому вопросу (1.1). Как показали предварительные изыскания, вопрос, исследование которого было выбрано целью данной работы, а именно использование семантических связей в системах анализа текстов на естественном языке, на сегодняшний день не является достаточно проработанным. Не существует чёткой методики использования знаний, накопленных в ходе лингвистических исследований, для практического применения их в таких важных отраслях как поисковые и рубрикационные системы для работы в глобальной компьютерной сети Интернет или системы обработки и хранения сверхбольших объёмов документации на предприятиях и организациях масштаба страны (1.1). Такое положение, как следует из рассмотренной литературы, связано не с отсутствием исследований в области семантики естественного языка, такие работы ведутся достаточно широко, а с тем, что традиционно исследователи, имеющие отношение к разным областям науки, могут не учитывать в своих работах тонкостей, связанных с практической реализацией в одной отрасли теоретических разработок из другой отрасли. Также следует отметить, что широко распространённые алгоритмы обработки текста, основанные на принципах анализа частотных характеристик, пока ещё справляются со своими задачами, хотя в большей степени за счёт возможности постоянно увеличивать вычислительные мощности, занятые в реализации этих алгоритмов в существующих системах (II).
2. Рассмотрены существующие алгоритмы и методики, применяющиеся для обработки текстов и широко использующиеся в распространённых поисковых системах, а так же в существующих системах обработки документации (II). Данные алгоритмы, по результатам их изучения, признаны неудовлетворяющими задачам по их использованию в ближайшей перспективе ввиду быстро растущих запросов, предъявляемым к таким системам вследствие резкого роста объёма документов, требующих рубрикации и систематизации (II.3).
3. Исследованы возможности относительно быстрой и безболезненной модернизации имеющихся алгоритмов с применением знаний о внутренней структуре языка, позволяющих без принципиального изменения самих алгоритмов, резко повысить их производительность и качество получаемых результатов (III). Практические исследования результатов применения в классических алгоритмах, основанных на анализе частоты вхождений слова в исследуемый текст, нового подхода, связанного с использованием классов слов, определяемых морфологическим анализатором, показали, что качество результатов повышается на тридцать процентов и более [56], (III). Это достигается, в первую очередь, за счёт более интеллектуальной и адекватной реакции анализатора на такие сложности естественного языка как синонимы и омонимы (III.2).
4. Рассмотрены пути развития алгоритмов обработки текста, основанных на ещё более глубоком анализе текста с использованием не только морфологического, но и семантического анализатора (IV), позволяющих при совместном использовании получить точное математическое представление исходного текста в формализованном виде, пригодном для дальнейшего автоматического разбора с целью изучения внутренней структуры и определения семантических связей слов, составляющих текст. Именно информация о семантических связях и позволяет перейти на качественно новый уровень обработки текста, дающий результаты, превосходящие результаты работы известных алгоритмов на величину варьирующуюся от нескольких десятков, до нескольких сотен процентов (IV.3).
5. Разработано универсальное программное ядро, обеспечивающее разноплановый анализ исходного текста на естественном языке. Избранный для его реализации язык программирования С++, позволил обеспечить хорошую гибкость и простоту кода, при полной реализации всех тонкостей алгоритмов, полученных в процессе теоретических исследований. Различные же методы анализа, позволяют использовать разработанное ядро как в системах классического анализа текстов, связанных с частотными характеристиками входящих в него слов, так и в системах нового поколения, непосредственно ориентированных на семантическую информацию. При этом достаточная гибкость настроек ядра позволяет, с одной стороны, использовать его в программных продуктах, а с другой стороны подключать к нему дополнительные внешние модули, расширяющие его функциональность без необходимости модернизации самого ядра. Кроме того, наличие возможности анализа текстов разными путями позволяет производить сравнительные испытания систем, ориентированных на разные методы обработки исходных данных (V).
6. Разработано и внедрено на практике программное обеспечение, использующее теоретические результаты исследования в форме универсального ядра предоставления смысловой информации о тексте на основе семантических связей имеющихся в нём. Это программное обеспечение было разработано для системы хранения сверхбольших объёмов электронной документации. Использование новых методов, полученных в результате этой работы, позволило поднять общую производительность системы и дало возможность встроить в неё новые дополнительные функции, нехарактерные для таких систем ввиду того, что при обычном подходе, их реализация требует значительных затрат аппаратных ресурсов (VI).
Список литературы диссертационного исследования кандидат технических наук Назаров, Михаил Александрович, 2002 год
1. Апресян Ю.Д. Лексикографические портреты // Научно-техническая информация. Серия 2. 1992
2. Апресян Ю.Д. Лексическая семантика (избранные труды). Том 1. // М., 1995.
3. Апресян Ю.Д. Лексическая семантика. Синонимические средства языка. // М.: Наука, 1974
4. Апресян Ю.Д., Богуславский И.М. и др. Лингвистический процессор для сложных информационных систем // М.: Наука, 1992
5. Боброва А.В. Грамматика русского языка // М., 1999.
6. Богуславский И.М. Сфера действия лексических единиц // М.: Школа "Языки русской культуры", 1996
7. Болотова Л.С. и др. Системы искусственного интеллекта // М., 1998.
8. Боярский К.К., Каневский Г.В., ЛезинА.И., Попова А.И. Формализация знаний в гуманитарных исследованиях // Экономико-математические исследования: математические модели и информационные технологии, СПбНЦ РАН, 2000, с. 248-264.
9. Боярский К.К., Каневский Е.А., Лезин Г.В., Попова А.И. Концептуальное моделирование текстов в историческом исследовании // Информационные технологии в гуманитарных и общественных науках. СПб., 1998. Вып. 7.
10. Васильев В.В. Компьютерное понимание текстов. М., 1988.
11. И. Гайдукова Л.М., Каневский Е.А., Клименко Е.Н., Силина Е.Ф. К вопросу о классификации прилагательных // Информационные технологии в гуманитарных и естественных науках. Выпуск 9., СПбЭМИ РАН, 2000
12. Глисон Г. Введение в дескриптивную лингвистику // М., 1958
13. Гр. Авторов. Энциклопедия кибернетики // М.: Детгиз, 1980
14. ДальВ.И. Толковый словарь живого великорусского языка. В 4-х томах. Т. 2. // СПб.-М.: Т-во Вольф, 1905
15. Ермаков А.Е., ПлешкоВ.В. Ассоциативная семантическая сеть: статистическая модель восприятия и порождения текста // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Том 2. Аксаково, 2001.
16. Жигалов В.А. Как нам обустроить поиск в сети? // Открытые системы. Вып. 12. М., 2000.
17. Жигалов В.А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных // Труды Международного семинара Диалог-98 по компьютерной лингвистике и ее приложениям. Том 2. Казань, 1998.
18. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. Изд. 3-ье //М., 1987
19. Земская Е.А. Словообразование. // Современный русский язык. М., 1981
20. Иомдин JI. Автоматическая обработка текста на естественном языке: модель согласования. М., 1990.
21. История религии. Т. 5 //М., 1980
22. Каневский Е.А., Клименко Е.Н., Тузов В.А. Об одном подходе к классификации прилагательных // в кн.: Труды Международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям, т. 2, г. Протвино, 2000
23. Колпакчи М.А. Дружеские встречи с английским языком // СПб, Издательский дом "Корвус", 1993.
24. Корхов А.В. Использование формализации естественных языков в задаче автоматического поиска // Деп. в ВИНИТИ, М.: № 3892-В99.
25. Корхов А.В., Корхова О.В. Алгоритм решения задачи автоматического поиска с использованием метода формализации русского языка // Деп. в ВИНИТИ, М.: № 70-В01.
26. Корхова О.В. Метод формализации русского языка в построении баз знаний и автореферировании // Труды XXXII научной конференции факультета ПМ-ПУ СПбГУ. СПб., 2001.
27. Корхова О.В. Формализация естественных языков как метод машинного перевода // Деп. в ВИНИТИ, М.: № 3893-В99.
28. Курилович Е. Очерки по лингвистике // М., 1962
29. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Анализ текстов: представление и обработка концептуальной информации // Труды Международного семинара Диалог'97 по компьютерной лингвистике и её приложениям. М.: РосНИИ ИИ, 1997, с. 170-174.
30. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Программирование концептуальной обработки текстов // Информационные технологии в гуманитарных и общественных науках. Вып. 3. СПб, 1996, с. 19-27.
31. Лезин Г.В., Мамедниязова Н.С. О представлении семантики концептуальных моделей в базах знаний. Труды Международного семинара Диалог'2000 по компьютерной лингвистике и её приложениям. // М.: РосНИИ ИИ, 2000. Т.2.
32. Мартемьянов Ю.С. Проблемы актуального членения в исследованиях по автоматическому переводу и реферированию. // М., 1981.
33. Математическая лингвистика — сборник переводов // М., 1961.
34. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <=> Текст" // М.: Школа "Языки русской культуры", 1999
35. Мельчук И.А. Русский язык в модели "Смысл-текст" // М.-Вена, 1995.
36. Назаров М.А. Использование семантических связей в системах анализа текстов на естественном языке // ОПП НИИХ СпбГУ, 2002
37. Назаров М.А. Проблема построения диалоговых систем, использующих естественный язык // Труды XXXII научной конференции студентов и аспирантов 17-23 апреля 2001 г. ОПП НИИХ СпбГУ, 2001, С 283-287
38. Налимов В.В. Вероятностная модель языка. // М., 1974
39. Нелюбин JI.JI. Компьютерная лингвистика и машинный перевод. // М., 1991.
40. Никитин М.В. Курс лингвистической семантики // СПб., 1996
41. Петров В.В. Язык и логическая теория. // Новое в зарубежной лингвистике. Вып. 18. Логический анализ естественного языка. М., 1986
42. Плесневич Г.С. Логика моделей "классы — бинарные отношения" I // Известия РАН. Теория и системы управления. 1997
43. Плесневич Г.С. Логика моделей "классы — бинарные отношения" II // Известия РАН. Теория и системы управления. 1998, №5
44. Пулькина И.М., Захава-Некрасова Е.Б. Русский язык (для лиц, говорящих на английском языке). Изд. 2-ое // М., 1974
45. РахилинаЕ.В. Когнитивный анализ предметных имен: семантика и сочетаемость // Москва, Русские словари, 2000
46. Розенталь Д.Э. Управление в русском языке. Словарь-справочник для работников печати. Изд. 2-ое // М.,1986
47. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах//М., 1989.
48. Сидоров Г.О., ГельбухА.Ф. К вопросу установления и разрешения скрытой анафоры // в кн.: Труды Международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям, т. 2, г. Таруса, 1999, с. 288-297.
49. СкрэггГ. Семантические сети как модели памяти // Новое в зарубежной лингвистике. Вып. 12. М., 1983.
50. Словарь сочетаемости слов русского языка. Под ред. Денисова П.Н. и Морковкина В.В. Изд. 2-ое // М., 1983
51. Слово в тексте и в словаре. Сборник статей к семидесятилетию академика Апресяна Ю.Д. Отв. ред. Иомдин JI.JL, Крысин Л.П. // Москва, Языки русской культуры, 2000
52. Смирницкий А.И. Лексический и грамматический строй // М., 1955
53. Современный русский язык. 4.1. Учебник для вузов // Под ред. Розенталь Д.Э. Авторы Аникина А.Б., Бельчиков Ю.А., Вакуров В.Н. и др. М.: Высш. Школа, 1979.
54. Солтон Дж. Динамические библиотечно-информационные системы. . Мир, Москва, 1979
55. Теряев А.А. Использование классов слов при построении тематических коллекций // СпбГУ 2002.
56. Тузов В.А. Компьютерная лингвистика (опыт построения компьютерных словарей). // В печати (изд-во СПбГУ)., 1999
57. Тузов В.А. Математическая модель языка // Л., Изд-во ЛГУ, 1984.
58. Тузов В.А. Языки представления знаний // С.-Петербург, изд-во СПбГУ, 1990.
59. Хан У., Мани И. Системы автоматического реферирования // Открытые системы. Вып. 12. М., 2000.
60. Хомский Н. Аспекты теории синтаксиса // М., 1972.
61. Цаленко М.Ш. Моделирование семантики в базах данных // М.: Наука, 1989
62. ЦикридзисД., ЛоховскиФ. Модели данных. // М.: Финансы и статистика, 1985
63. Шатуновский И.Б. Семантика предложения и нереферентные слова // М.: Школа "Языки русской литературы", 1996.
64. Allen R., GarlanD. Beyond Definition/use: Architectural interconnection. Proc. ACM Interface Definition Language Workshop // SIGPLAN Notes, Vol.29, No.8, 1994.
65. Ando R.K. et al. Multidocument Summarization by Visualizing Topical Content // Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization, 2000, pp. 79-88.
66. BartschiM. An Overview of Information Retrieval Subjects. // IEEE Computer, N5, 1985,p.67-84.
67. Beck R.P. et al. Architectures for for large-scale reuse // AT&T Tech.J., Vol.71, No.6, 1992, pp.34-45.
68. Berners-Lee T. World Wide Web: Proposal for HyperText Project. 1990 AltaVista. //Digital Equipment Corporation, 1996
69. Borko H., Bernier C.L. Abstracting Concepts and Methods. Academic Press, New York, 1975.
70. Brachmann R.J., Schmolze J.G. An overview of the KL-ONE knowledge representetion system // Cognitive Science, v. 9(2).
71. Dean T.R., Cordy J.R. A Syntactic Theory of Software Architecture. IEEE Transaction on Software Engineering. Vol. 21 //No.4, 1995, pp.269-274
72. GuhaR.V., LenatD.B., PittmanK., Pratt D., and Shepherd M. Cyc: A Midterm Report // Communications of the ACM 33, no. 8, 1990.
73. Hahn U., Reimer U. Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge-Based Abstraction // Advances in Automatic Text Summarization, I. Mani and M. Maybury, eds. MIT Press, Cambridge, Mass., 1999, pp. 215-232.
74. Halasz F.G. Reflection notecards: seven issues for the next generation of hypermedia systems. // Communication of the acm, V31, N7, 1988, p.836-852
75. Hutchins J. Summarization: Some Problems and Methods // Proc. Informatics 9: Meaning-The Frontier of Informatics, K.P. Jones, ed. Aslib, London, 1987, pp. 151-173.
76. Katiyar D., Luckham D., Mitchell J. Polymorphism and subtyping in interfaces // Proc. ACM Workshop on Interface Definition Languages, 1994, pp.22-34
77. Lenat D.B. Cyc: A Large-Scale Investment in Knowledge Infrastructure // Communications of the ACM 38, no. 11, 1995.
78. Lenat D.B., Guha R.V. Building Large Knowledge Based Systems. Reading, Massachusetts: Addison Wesley, 1990.
79. Mani I. et al. The Tipster Summac Text Summarization Evaluation // Proc. 9th Conf. European Chapter of the November 2000.
80. Mani I., BloedornE. Summarizing Similarities and Differences Among Related Documents // Information Retrieval. Vol. 1, No. 1, 1999, pp. 35-67.
81. Mauldin M.L., Leavitt J.R.R. Web Agent Related Research at the Center for Machine Translation. // http://fuzine.mt.cs.cmu.rdu/mlm/signidr94.html
82. Open Text Corporation Releases Industry's Highest Performance Text Retrieval System // http://www.opentext.com/docs/ot5.html
83. Pinkerton B. Finding What People Want: Experiences with the WebCrawler. //http://info.webcrawler.com/bp/WWW94.html
84. Quillian M.R. Semantic memory // Semantic Information Processing. Cambridge, Mass.: MIT Press, 1968
85. Radev D.R., McKeown K.R. Generating Natural Language Summaries from Multiple Online Sources // Computational Linguistics. Vol. 24, No. 3, 1998, pp. 469-500.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.