Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Бруттан, Юлия Викторовна
- Специальность ВАК РФ05.25.05
- Количество страниц 215
Оглавление диссертации кандидат технических наук Бруттан, Юлия Викторовна
Введение.
1 Исследование вопроса представления текстовых описаний с сохранением семантики для его использования в информационно-поисковых системах.
1.1 Исследование вариантов построения современных информационно-поисковых систем.
1.2 Обзор языковых средств концептуального уровня, используемых в информационно-поисковых системах.
1.3 Исследование задач и проблем, которые возникают при реализации семантической компоненты современных информационно-поисковых систем.
1.4 Исследование возможностей существующих вариантов формализованного представления естественного языка для моделирования смысла текстовых описаний.
1.5 Выводы по главе.
2 Разработка метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата.
2.1 Формализованное представление текстовых записей в возможной степени сохраняющее семантику текста на естественном языке.
2.2 Разработка нового варианта клеточного автомата на основе использования языка предикатов.
2.3 Описание метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата.
2.4 Практическое применение метода пространственного представления текстовых описаний.
2.5 Выводы по главе
3 Разработка метода распознавания семантического образа текстового описания.
3.1 Разработка подхода к распознаванию семантического образа текстового описания.
3.2 Пример распознавания семантического образа лингвистически заданного объекта, принадлежащего некоторой предметной области.
3.3 Практическое применение метода распознавания семантического образа текстового описания.
3.4 Выводы по главе.
4 Проектирование информационно-поисковой системы, идентифицирующей текстовые описания, используя метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата и метод распознавания семантического образа текстового описания.
4.1 Определение требований к информационно-поисковой системе, которая выполняет смысловой поиск текстовых описаний из заданного набора.
4.2 Разработка когнитивной модели информационно-поисковой системы нового типа.
4.3 Основные этапы построения информационно-поисковой системы на основе разработанной модели.
4.4 Разработка алгоритмов функционирования информационно-поисковой системы.
4.5 Выводы по главе.
Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Теоретические основы, методы и алгоритмы формирования знаний о синонимии для задач анализа и сжатия текстовой информации2012 год, доктор физико-математических наук Михайлов, Дмитрий Владимирович
Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска2012 год, кандидат технических наук Вишняков, Ренат Юрьевич
Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет2013 год, кандидат технических наук Гвоздев, Алексей Вячеславович
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Математическое моделирование и программная реализация семантического преобразования поисковых запросов2012 год, кандидат технических наук Кириллов, Антон Владимирович
Введение диссертации (часть автореферата) на тему «Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем»
Представляемая работа посвящена разработке и исследованию методов и средств пространственного представления и сравнения текстовых описаний для их использования в информационно-поисковых системах (ИПС).
Актуальность темы. В настоящей работе рассматриваются проблемы ориентации и навигации в мире вербального представления научного знания, решение которых в настоящее время затруднено отсутствием информационно-поисковых систем, позволяющих сравнивать описания различных научных работ на уровне совпадения смысловых ситуаций, а не ключевых слов.
Так как естественный язык человека является контекстно-зависимым (КЗ), а компьютеры классической фон Неймановской архитектуры по основному принципу своего устройства могут работать только с контекстно-независимыми языками, поэтому требуется найти возможность представления в ЭВМ смыслового содержания текстовых записей на контекстно-зависимом языке пусть и с искажениями, но допустимыми для конкретных поисковых образов, для решения задач классификации по требуемым параметрам.
Можно утверждать, что человечество в настоящий момент не решило глобальную задачу распознавания семантики текстов, для организации качественного поиска и сравнения текстовых описаний. Конечно, решение такой задачи в полной мере, привело бы к подлинному научному прорыву, но даже и решение этой задачи не в полном объеме представляется весьма актуальной проблемой научного исследования.
Основы методик представления семантики текстов были заложены в публикациях Поспелова Г.С., Поспелова Д.А. (1981) [53, 54 и др.], Белоногова Г.Г. (1983) [5], Апресяна Ю.Д. (1967) [2-3], Минского М. (1979) [45], ХомскогоН. (1961-1962) [68, 69], Попова Э.В. (1982) [52], МильчукаИ.А. (1982) [42-44, 73]. Результаты их развития излагались в работах Полякова А.О. (1985) [1, 26, 51], Кузнецова И.П. (1986) [34], Леонтьевой Н.Н.
1986) [36-39], Рубашкина В.Ш. (1989-2005) [57-60], Хорошевского В.Ф. (2002), Емельянова Г.М. (1998-2003).
Интерес к разработке систем общения с ЭВМ на ЕЯ проявляется как со стороны научных дисциплин, так и со стороны технических, связанных с разработкой и программной реализацией широкого класса информационно-поисковых систем. Алгоритмически разрешимые процедуры распознавания смысловых образов текстовых описаний на ЕЯ, а также способы представления этих образов, допускающие корректно описываемые процедуры их обработки, позволяют программно реализовать информационно-поисковые системы нового типа (интеллектуальные ИПС). Среди наиболее известных работ, посвященных интеллектуализации информационно-поисковых систем можно выделить публикации Поспелова Д.А. [54 и др.], Финна В.К. [66], Рубашкина В.Ш. [57].
Однако, механизм учёта семантической составляющей в публикациях по этой тематике обычно не даёт возможности использования даже широко известных методов для сравнительного анализа текстовых описаний, поэтому предлагаемая работа, направленная на решение проблем семантического поиска, представляется актуальной.
Целью диссертационной работы является разработка и исследование методов пространственного представления и сравнительного анализа текстовых описаний с целью их использования в информационно-поисковых системах для повышения эффективности функционирования этих систем за счёт частичного сохранения семантики исходных текстовых описаний.
Достижение сформулированной цели предполагает решение следующих основных задач:
Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах2007 год, кандидат технических наук Люстиг, Инга Владимировна
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Синтаксические методы контекстной обработки в задачах распознавания текста2007 год, кандидат технических наук Шоломов, Дмитрий Львович
Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия2010 год, кандидат технических наук Бородащенко, Антон Юрьевич
Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Бруттан, Юлия Викторовна
Результаты работы имеют не только научную, но и практическую значимость. Предложенный в настоящей диссертации подход к построению семантических образов текстовых описаний позволяет теоретически обосновать принципиальную возможность существования алгоритмического решения для задач сравнения этих образов. Предложенный в диссертационной работе алгоритм определения класса исследуемого объекта позволяет эффективно решать задачу определения принадлежности лингвистически заданного объекта к одному из выбранных классов, т.е. сравнивать текстовые описания и определять соответствие между ними. Все это позволяет использовать разработанные подходы и алгоритмы в информационно-поисковых системах с целью повышения эффективности функционирования ИПС. Применение этих подходов в учебном процессе позволяет моделировать его в части оценки знания студентов по любым учебным дисциплинам. А использование разработанных методов при организации электронных библиотек позволяет улучшить качество работы этих библиотек.
Материалы работы основаны на публикациях [6-23, 72]. Полученные результаты апробированы в докладах на 15 международных и российских конференциях и симпозиуме.
Все научные и практические результаты получены соискателем самостоятельно.
Завершая настоящую работу, следует наметить возможные направления дальнейших исследований. Основное направление исследований связано с разработкой тезаурусов и словарей предикатов для различных предметных областей. Как показано в [19, 22], решение этих проблем позволило бы использовать разработанные в настоящей диссертации методы и средства в различных информационно-поисковых системах, в том числе и в поисковых системах Интернета, что повысило качество поиска текстовых документов, т.к. в этом случае ведется не обычный поиск по ключевым словам, а семантико-синтаксический анализ электронных документов с целью выявления тех, которые по смыслу соответствуют запросу пользователя. Внедрение на таком глобальном уровне является очень актуальной в настоящее время задачей, т.к. с увеличением числа документов и предметных областей, которые представлены в сети Интернет, снижается релевантность поиска, т.е. можно говорить о кризисе алгоритмов поиска на текущий момент времени.
Учитывая ориентацию предлагаемого в диссертации подхода на использование в поисковых системах Интернета, актуальными являются вопросы реализации предикатных парсеров для перевода не только русскоязычных текстов [22], но и для других наиболее используемых в сети языков.
Второе направление исследований вытекает из необходимости уменьшения процента потерь при формализации текстовых описаний [15] на основе предложенного автором метода, т.е. необходимости учёта более сложных отношений, чём бинарные. Это проблему можно решить, добавив дополнительные признаки семантического образа.
И, наконец, третье направление исследований связано с применением матричных процессоров для реализации параллельных вычислений при сравнении семантических образов текстовых описаний, что позволит существенно увеличить скорость обработки семантических образов текстовых описаний и, следовательно, повысить эффективность работы информационно-поисковых систем, использующих разработанные в настоящей диссертации методы.
Заключение
В заключение сформулируем положения, определяющие научные и практические результаты работы.
Основные научные и практические результаты состоят в следующем:
1. Проведено исследование вопросов представления текстовых описаний с возможным уровнем сохранения семантики для использования существующих формализованных моделей текстов на ЕЯ в информационно-поисковых системах. Сделан вывод, что наименее разработанными являются модели и методы семантического уровня.
2. Разработан новый вариант клеточных автоматов, заданный языком предикатов, т.е. в рамках второй главы реализовано первое из защищаемых положений.
3. Разработан метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата, т.е. в рамках второй главы реализовано второе из защищаемых положений. А так же проанализированы варианты применения данного метода в различных сферах деятельности.
4. Разработан метод распознавания семантического образа текстового описания, т.е. в рамках третьей главы реализовано третье из защищаемых положений. Показана возможность использования предложенного в диссертации метода распознавания образа текстового описания для моделирования оценки знания студентов по учебной дисциплине, при построении интеллектуального библиотечного классификатора, а также организации поисковых машин нового типа.
5. Проведены экспериментальные исследования по распознаванию семантического образа объекта, заданного текстовым описанием, принадлежащего к одному из выбранных классов объектов.
6. Разработана когнитивная модель информационно-поисковой системы нового типа, которая осуществляет смысловой поиск текстовых документов, т.е. в рамках четвёртой главы реализовано четвёртое из защищаемых положений.
7. Разработаны алгоритмы, реализующие основные функции информационно-поисковой системы нового типа. Т.е. в рамках четвёртой главы реализовано пятое из защищаемых положений.
На основе выше изложенного можно сделать вывод, что все поставленные в диссертационной работе задачи были выполнены в полном объёме.
Список литературы диссертационного исследования кандидат технических наук Бруттан, Юлия Викторовна, 2008 год
1. Александров В.В. Автоматизированная обработка информации на языке предикатов / В.В. Александров, Г.А. Булкин, А.О. Поляков. -М.: Наука, 1982. 102с.
2. Апресян Ю.Д. Избранные труды. В двух томах. Т.1. Лексическая семантика. Синонимические средства языка. — М.: Школа "Языки русской культуры", 1995. 472с.
3. Апресян Ю.Д. Формальная модель языка и представление лексикографических знаний. // Вопросы языкознания. — 1990. №6. -С. 123-139
4. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. -М.: Наука, 1967. 251с.
5. Белоногов Г.Г. Языковые средства автоматизированных информационных систем / Г.Г. Белоногов, Б.А. Кузнецов. — М.: Наука, 1983.-317с.
6. Бруттан Ю.В. Изучение современных информационных технологий при подготовке управленческих кадров // Высокие интеллектуальные технологии образования и науки: Материалы 8-й Международной научно-методической конференции. СПб.: СПбГТУ, 2002. - С. 157
7. БруттанЮ.В. Интеллектуализация поведения компьютеров на основе применения клеточного автомата нового вида // Научно-технические ведомости СПбГПУ. СПб.: Политехнический университет, 2007. -№2 - С. 225-229
8. Бруттан Ю.В; О модели информационно-поисковой системы, позволяющей идентифицировать текстовые описания при произвольной формулировке запроса // Автоматизация, энергетика, компьютерные технологии: Сборник научных трудов. Псков: НИИ-2007.-№1 - С. 40-43
9. Бруттан Ю.В. О содержании подготовки менеджеров в областиинформационных технологий управления / Ю.В. Бруттан, B.C. Белов // Электроника. Машиностроение: Труды ППИ. СПб./Псков: СПбГТУ, 2002. - №6 - С. 214-215
10. Бруттан Ю.В. Применение наукоемких технологий в моделировании экономических систем // Фундаментальные исследования в технических университетах: Материалы 5-й Всероссийской конференции по проблемам науки и высшей школы. СПб.: СПбГТУ, 2001. - С. 250-251
11. Брябин В.М. Диалоговые системы в АСУ / В.М. Брябин, Ю.Я. Любарский, Л.И. Микулич // под ред. Поспелова Д.А. М.: Энергоатомиздат, 1983. - С. 85-120
12. Булкин Г.А. Анализ бинарных отношений в текстах описаний месторождений полезных ископаемых. М.: Наука, 1979. - 102с.
13. Вертешев С.М. От «фон Неймановского» компьютера к метамашине (от программы, хранимой в памяти, к машинам с анализом опыта своего существования). / С.М. Вертешев, А.О. Поляков Псков: ППИ, 2007.-512с.
14. Гладкий А.В. Формальные грамматики и языки. М.: Главная ред.
15. Физ.-мат.лит., 1973.-368с.
16. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс.- М.: Техносфера, 2005. 1072с.
17. Горелик A.JI. Методы распознавания / A.JI. Горелик, В.А. Скрипкин.- М.: Высш. шк., 1977. 192с.
18. Грамматика русского языка. — М.: Высшая школа, 1960. — Т. 2, ч. 1-2
19. Гэри М. Вычислительные машины и труднорешаемые задачи: Пер. с англ. / М. Гэри, Д. Джонсон. М.: Мир, 1982. - 416с.
20. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. // Труды международного семинара Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». Москва, 2002. - Т. 2 - С. 180-185
21. Крёнке Д. Теория и практика построения баз данных. СПб.: Питер, 2003. - 800с.
22. Кузнецов И.П. Семантические представления. М.: Наука, 1986. -295с.
23. Лахути Д.Г. Автоматизированные документальные ИПС: система «Скобки». -М.: Информэлектро, 1985. 42с.
24. Леонтьева Н.Н. Информационная модель системы автоматического перевода // НТИ. Сер. 2, 1985. - №10
25. Леонтьева Н.Н. Проблемы создания системы автоматического перевода // Машинный перевод и прикладная лингвистика: Сборник научных трудов. Вып. 271 - М.: МГПИИЯ им. М.Тореза, 1986
26. Леонтьева Н.Н. Семантика связного текста и единицы информационного анализа НТИ, сер.2, 1981. - №1 - С. 21-29
27. Леонтьева Н.Н. Семантические заготовки к пониманию целого текста / Н.Н. Леонтьева, И.М. Кудряшова, О.Б. Малевич // Машинный перевод и прикладная лингвистика: Сборник научных трудов. Вып. 271 - М.: МГПИИЯ им. М.Тореза, 1986
28. Либинзон Н.И. О тезаурусе дискрипторосочетаний / Н.И. Либинзон,
29. И.С. Добронравов, Д.Г. Лахути, С.М. Гладкова // Проблемы автоматизированной обработки научно-технической информации: Материалы 2-й Всесоюзной научно-технической конференции. М.: ВИНИТИ, 1978. - С. 72-74
30. Малиновский Б. Проблема значения в примитивных языках. // Эпистемология и философия науки. М., 2005. - №3 - С. 199-233
31. Мельчук И.А. Грамматики деревьев. I. Опыт формализации преобразований синтаксических структур естественного языка / А.В. Гладкий, И.А. Мельчук // Информационные вопросы семиотики, лингвистики и автоматического перевода. Москва, 1971. - №1 -С. 16-41
32. Мельчук И.А. Грамматики деревьев. II. К построению Д-грамматики для русского языка / А.В. Гладкий, И.А. Мельчук // Информационные вопросы семиотики, лингвистики и автоматического перевода. Москва, 1974. - №4 - С. 4-29
33. Мельчук И.А. Опыт теории лингвистических моделей «смыслОтекст». — М.: Наука, 1982. 345с.
34. Минский М. Фреймы для представления знаний. — М.: Энергия, 1979. 342с.
35. Моделирование языковой деятельности в интеллектуальных системах // под ред. Кибрика А.Е. и Нарьяни А.С. М.: Наука, 1987.
36. Нагао М. Государственный проект создания системы машинного перевода // Международный форум по информации и документации. -М., 1984.-Т. 9.-№2.-С. 11-16
37. Нейман Дж. фон. Теория самовоспроизводящихся автоматов. М.: Мир, 1971.-87с.
38. Новиков Ф.А. Дискретная математика для программистов. Учебник для ВУЗов. 2-е изд. СПб.: Питер, 2004. - 364с.
39. Одинцев Н.В. Обобщенные модели управления. Синтаксический анализатор на основе обобщенных моделей управления. //
40. Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара Диалог'2002. — Москва, 2002. — Т.2 — С. 401-406
41. Поляков А.О. Семантика условия и инструментарий глобального хранения научных текстов / А.О. Поляков, А.В.Иванов, В.М. Лачинов // Известия СПбГЭТУ «ЛЭТИ». Серия информатика, управление и компьютерная технология. Санкт-Петербург, 2005 — №2 - С. 65-68
42. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.-360с.
43. Поспелов Г.С. Искусственный интеллект: прикладные системы / Г.С. Поспелов, Д.А. Поспелов. М.: Знание, 1985. - 48с.
44. Поспелов Д.А. Логико-лингвистические модели в управлении. М.: Энергоиздат, 1981
45. Протасов С.В. Автогенерация семантических словарей с использованием грамматики связей русского языка // Процессы и методы обработки информации. М., 2005
46. Рубашкин В.Ш. О методах анализа связного текста (к проблеме применения семантических моделей текста в документально-фактографических ИПС) // Вопр. информ. теории и практики. 1983. -№49.-С. 58-73
47. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М., Наука, 1989. 192с.
48. Рубашкин В.Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ—2002: Труды 8-й национальной конференции по искусственному интеллекту с международным участием. М.: Физматлит, 2002
49. Рубашкин В.Ш. Формирование массивов данных путём диалога с классификационной системой // Вопр. информ. теории и практики. — 1982.-№47.-С. 82-89.
50. Рыбина Г.В. Система представления понятийных знаний сиспользованием фреймов / Г.В. Рыбина, Н.А. Строганова // В сб.: Вопросы кибернетики. Интеллектуальные банки данных. -М., 1979
51. Серебрянников О.Ф. Эвристические принципы и логические исчисления. — М.: Наука, 1970. — 283с.
52. Смирнов В.А. Логические методы анализа научного знания. М.: Наука, 1987.-256с.
53. Тоффоли Т. Машины клеточных автоматов / Т. Тоффоли, Н. Марголус. М.: Мир, 1991. - 325с.
54. Тузов В.А. Компьютерная семантика русского языка СПб.: СПбГУ, 2003,- 146с.
55. Файн B.C. Распознавание образов и машинное понимание естественного языка. М.: Наука, 1987
56. Финн В.К. Информационные системы и проблемы их интеллектуализации // НТИ. Сер.1. 1984. - №1. - С. 1-14
57. Фор А. Восприятие и распознавание образов. М.: Машиностроение, 1989.-272с.
58. Хомский Н. О некоторых формальных свойствах грамматик. В кн.: Кибернетический сборник. - Вып. 5 — М.: Изд-во иностр. лит., 1962
59. Хомский Н. Три модели описания языка // Кибернетический сборник. 1961.-Вып.2-С.81-92
60. Цикритзис Д. Модели данных / Д. Цикритзис, Ф. Лоховский. М.: Финанисы и статистика, 1985. - 343с.
61. Шрейдер Ю. А. Равенство, сходство, порядок. М.: Наука, 1971. -254с.
62. Mel'culc I.A. Explanatory Combinatorial Dictionary of Modern Russian.
63. Sleator D. Parsing English with a Link Grammar / D. Sleator, D. Temperley. // Third International Workshop on Parsing Technologies. -1993
64. Staab S. Handbook on Ontologies / S. Staab, R. Studer. Berlin-Heidelberg: Springer-Verlag, 2004155
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.