Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Кулешов, Сергей Викторович

  • Кулешов, Сергей Викторович
  • кандидат технических науккандидат технических наук
  • 2005, Санкт-Петербург
  • Специальность ВАК РФ05.13.18
  • Количество страниц 111
Кулешов, Сергей Викторович. Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Санкт-Петербург. 2005. 111 с.

Оглавление диссертации кандидат технических наук Кулешов, Сергей Викторович

Введение.

1. Анализ предметной области и постановка задач исследования.

1.1. Тезаурусы и глоссарии.

1.2. Электронные словари.

1.3. Системы синтаксического анализа.

1.4. Онтологическая информационная система.

• 1.5. Система WordNet.

1.6. Система Visual Thesaurus.

1.7. Выводы по первой главе.

2. Визуально-динамический интерфейс понятийно-терминологической информационной системы.

2.1. Подсистема синтаксического разбора.

2.2. Морфологический анализ.

2.3. Система построения визуальных глоссариев.

2.4. Реализация системы построения визуальных глоссариев.

2.5. Выводы по второй главе.

3. Разработка семиологического подхода семантической обработки русскоязычных текстов.

3.1. Основы семиологического подхода.

3.2. Модель семиологической системы.

3.3. Семиология и лингвистика.

3.4. Выводы по третьей главе.

• 4. Реализация системы построения динамических тезаурусов и самореферирования и экспериментальная оценка ее эффективности.

4.1. Модель динамической визуальной понятийно-терминологической информационной системы.

4.2. Аналитическое самореферирование текстов.

4.3. Поиск в коллекции документов по запросу.

4.4. Визуализационное моделирование динамических сетевых структур.

4.5. Описание программной реализации системы.

4.6. Прикладные возможности системы и экспериментальная проверка разработанных методов.

4.7. Выводы по четвертой главе.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев»

Наиболее естественным для человека способом общения является естественный язык (ЕЯ). Предлагаемые методы ориентированы на решение поставленной проблемы путем создания русскоязычных онтологических информационных систем.

Проблема создания тезаурусов и глоссариев как информационной базы является ключевым моментом в любой предметной области на определенном этапе ее развития. При этом в настоящий момент нет русскоязычной ментальной модели лексикона человека, дающей возможность динамического развития семантических понятий предметной области, связанной с информационными технологиями.

Разработка автоматизированной системы семантического анализа является основой программного обеспечения с пользовательским интерфейсом, близким к естественно-языковому. Построение тезаурусов должно способствовать снятию проблемы терминологической путаницы в работе информационных систем.

Анализ существующих исследований, посвященных решению задачи автоматизированного построения тезаурусов, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественно-языковой текстовой информации. Эффективное решение задачи разработки программы, реализующей динамическую визуализацию понятийных окружений, и составляет суть диссертационной работы.

Целью работы является разработка и исследование семиологического подхода, обеспечивающего анализ и обработку текстовой информации.с целью получения структурированных словарей, глоссариев и тезаурусов для выбранного антологического материала. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

Анализ основных подходов к выбору, представлению и обработке русскоязычной совокупности текстов - антологии;

Построение модели семантического представления текстов и компьютерного формирования тезаурусов;

Разработка методов аналитического самореферирования русскоязычных текстов;

Разработка методов поиска документов в рамках предложенного семиологического подхода.

Основные методы исследования. В качестве методов исследования использовались статистический анализ, теория множеств, теория графов, реляционная алгебра. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна. В предлагаемой диссертации разработаны новые подходы к решению следующих задач:

Формирование семантических полей заданной предметной области, представленной выбранной совокупностью текстов.

Представление тезаурусов предметных областей в виде визуальной интерактивной среды.

Использование данных, сформированных на основе терминологических семантических полей для ассоциативного поиска текстовых документов.

Использование результатов формирования семантических полей для оценки семантической связности текстов.

Положения, выносимые на защиту.

На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:

Алгоритм формирования семантических полей заданной предметной области, представленной набором текстов.

Метод формирования структуры графа по текстовой информации.

Разработка основных теоретических положений семиологического подхода.

Теоретическая значимость работы заключается в создании семантических моделей проблемно-ориентированных знаний, которые послужат платформой в создании глоссариев, тезаурусов и систем аналитического самореферирования. Разработанные алгоритмы обработки текстов позволяют формировать сети отношений между терминами предметных областей, что дает возможность применять методы теории графов при работе с текстовыми данными. Кроме того, сетевая модель текстовой информации дают возможность наглядного представления связей между понятиями. Особенно это актуально в среде Internet-образования для построения обучающих программ, ориентированных на различные предметные области.

Практическая значимость работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться для создания глоссариев, тезаурусов для требуемых предметных областей. Предложенный критерий семантической связности текстов позволяет производить эффективное ранжирование документов в результатах поиска при работе поисковых систем.

Реализация и внедрение. Полученные результаты реализованы в виде ряда программных систем на различных языках программирования (Java, Delphi). Данные программные системы используются в качестве он-лайн справочных систем в Internet, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.

Публикации. Автором опубликовано по теме диссертации 10 печатных работ.

Структура и объем диссертационной работы. Диссертация состоит из введения, 4 глав, заключения, излагается на 100 страницах, включая перечень используемой литературы из 90 наименований, 27 рисунков и 1 таблицу. Кроме того, в диссертации имеется приложение на 10 листах, содержащее в себе примеры работы разработанных программ, реализующих алгоритмы, описанные в диссертации.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Кулешов, Сергей Викторович

4.7. Выводы по четвертой главе

Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало высокую точность и корректность полученных значений.

В отличие от системы Visual Thesaurus, рассмотренной в первой главе, где визуальная панель представляет заранее сформированные языковые отношения, постулируется достаточность (через антологию предметной области) составления глоссария адекватных (относительно полноты сведений выбранной темы) энциклопедических знаний по требуемой теме.

Следует также отметить следующие результаты:

Правильно выбранная антология заданной предметной области строит понятийное дерево - онтологические сущности.

На основе использования онтологических сущностей удается реализовать семантико-смысловую ассоциативную навигацию и аналитическое самореферирование русскоязычных текстов.

Вместе с тем стоит отметить сложность оценки полученных результатов, и значительное влияние субъективной составляющей, присутствующей при оценке.

89

ЗАКЛЮЧЕНИЕ

В представленной работе для достижения поставленных задач решены следующие вопросы.

1. Предложена модель ассоциативных понятийных связей для представления русскоязычных текстов типа словарей.

2. Разработан метод представления русскоязычных текстов в форме визуальных тезаурусов и глоссариев.

3. Разработан интерфейс визуального представления тезаурусов. Интерфейс представляет сформированные тезаурусы предметных областей в виде визуальной интерактивной среды.

4. Предложен семиологический подход для аналитического самореферирования русскоязычных текстов. Алгоритм самореферирования позволяет выделять из текста наиболее значимые предложения, образующие краткую аннотацию текста.

5. Предложен критерий семантической связности текстов.

6. Предложен метод ассоциативного поиска документов как выборка множества документов по поисковой фразе, удовлетворяющих условию наличия семантических связей в документе между всеми словами поисковой фразы.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в качестве он-лайн справочных систем в Internet, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.

Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

• Современные проблемы социально-экономического развития и информационных технологий (Баку, 2004);

• IX Санкт-Петербургская международная конференция «Региональная информатика-2004» (Санкт-Петербург, 2004);

• Международная конференция по проблемам надежности, качества, информационных и электронных технологий (Сочи, 2004).

В качестве направлений дальнейших исследований можно выделить:

• разработка и реализация интегрированного Internet-сервиса для индексации, обработки и поиска документов произвольного содержания, размещенных в Internet;

• разработка алгоритма проверки тематической близости заданной совокупности документов, а также тематического и терминологического соответствия документа заданной предметной области.

Список литературы диссертационного исследования кандидат технических наук Кулешов, Сергей Викторович, 2005 год

1. Александров В.В., Кулешов С.В. Семиологический подход и информационная безопасность. — Информационная безопасность регионов России (ИРБР-2003). Труды конференции. — СПб., 2004, с. 3946

2. Александров В. В. Интеллект и компьютер. — СПб.: Издательство «Анатолия», 2004. — 285 с.

3. Александров В. В. Развивающиеся системы. В науке, технике, обществе и культуре: СПб. ч. 1. Теория систем и системное моделирование: Изд-во СПбГТУ, 2000, 243 с.

4. Александров В. В., Андреева А. Н., Кулешов С. В. Визуальный динамический глоссарий VISGLOSS. — Системные проблемы надежности, качества, информационных и электронных технологий. Часть 6. — М.: Радио и связь, 2005, с. 4-9

5. Александров В. В., Андреева Н. А., Кулешов С. В. Тенденции развития информационных систем. — IX Санкт-Петербургская международная конференция «Региональная информатика-2004». Материалы конференции., СПб, 2004, с. 27

6. Александров В. В., Арсентьева А. В. Структурный анализ диалога. — Л.: ЛНИВЦ АН СССР, 1983.

7. Александров В. В., Кулешов С. В. Метаглоссарии основа аналитических информационных систем. — Проблемы транспорта № 10 — СПб., 2004, с. 248-259

8. Ю.Александров В. В., Кулешов С. В. Нарротивные представления информационных процессов. — Информационные процессы, Том 4, № 2, 2004, стр. 160-169

9. П.Александров В. В., Кулешов С. В. Семиологические информационные системы аналитическое самореферирование. — Системные проблемы надежности, качества, информационных и электронных технологий. — Часть 6. М.: Радио и связь, 2005, с. 9-14

10. Александров В. В., Кулешов С. В., Юсупов Р. М. Семиологический подход и информационно аналитические системы. — Инфокоммуникационные и вычислительные технологии в науке, технике, образовании. — Ташкент, 2004, с. 13-23

11. З.Анненков А. Портрет слова — izvestia.ru

12. Античные теории языка и стиля. Под общей редакцией О. М. Фрейденберг. ОГИЗ, Государственное социально-экономическое издательство. Москва-Ленинград, 1936 -343 с.

13. Боровиков А. А. Теория вероятностей. М.: Наука, 1986.

14. Бурлак С. А., Старостин С. А. Введение в лингвистическую компаративистику. — Эдиториал УРСС, М., 2001.

15. БучГ. Объектно-ориентированный анализ и проектирование. — М.:Издательство Бином, 2000.

16. Визуальный словарь. On-line версия. — http://www.vslovar.org.ru

17. Володин В. CALS: технология или система. — Вестник воздушного флота. № 03-04, 2003 г., с. 52-55.

18. Гайдышев И. Анализ и обработка данных: специальный справочник. СПб.: Питер, 2001. 752 с.

19. Головин Б. Н. Язык и статистика. М., 1971. 192 с.

20. Делез Ж. Логика смысла. — М., Издательский Центр «Академия», 1995.

21. Диконов В.Г., Коваленко А., Дьяченко А. Обзор существующих электронных словарей — http://slovnik.lrn.ru/world/dicts.html

22. Добрынин В. Ю., Некрестьянов И. С. Задача выбора тематических коллекций, релевантных запросу. // Труды Всероссийской научно-методической конференции "Internet и современное сообщество", Санкт-Петербург, декабрь 1998.

23. Дрот В. Л., Новиков Ф. А. Толковый словарь современной компьютерной лексики.

24. Ермаков А. Е., Плешко В. В. Синтаксический разбор в системах статистического анализа текста. — Информационные технологии. — № 7, 2002.

25. Информационный портал RPM-технологий — http://www.rpm-novation.com/

26. Кирсанов Д. Веб-дизайн. — Символ-Плюс, 2001, 368с

27. Когаловский М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.31 .Когаловский М. Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. 800 с.

28. Колчин А. Ф., Овсянников М. В., Стрекалов А. Ф., Сумароков С. В. Управление жизненным циклом продукции. — М.:Анахарсис, 2002. 304 с.

29. Кондаков Н. И. Логический словарь-справочник. — Москва, Наука, 1975.

30. Кулешов С. В. Визуализационное моделирование динамических сетевых структур. — Математическое моделирование: естественно-научные, технические и гуманитарные приложения. — СПб, 2004, с. 167-169

31. Кулешов С. В. Технология подготовки информационных ресурсов для Internet. — Сборник научных трудов студентов Курганского государственного университета. — Курган, изд-во Курганского гос. университета, 2003 г, с. 86.

32. Лейбниц Г. Новые опыты о человеческом разумении автора системы предустановленной гармонии. — Сочинения в 4-х томах, т.2, М.: Мысль, 1983,686 с.

33. Лексическая база знаний английского языка WordNet — http://www.cogsci.princeton.edu/~wn

34. Мейер Д. Теория реляционных баз данных. — М.:Мир, 1987. с. 608с.

35. Мельчук А. Опыт теории лингвистических моделей «Смысл <-> Текст». — М., 1999.о

36. Мистрик И. Математико-стилистические методы в стилистике. // Вопросы языкознания. 1967, № 3.

37. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002. - N4.

38. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции «Электронные библиотеки». Протвино, 2000. - С. 204-210.

39. Ножов И. М. Прикладной морфологический анализ без словаря. // КИИ-2000. Труды конференции — М.: Физматлит, 2000. Т.1. С. 424-429

40. Ножов И. М. Проектирование сегментационного анализатора русского предложения. // КИИ-2002. Труды конференции — М.: Физматлит, 2002. Т.1. С. 212-222.

41. Ножов И. М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция. // Диалог'2000. Труды конференции — Протвино, 2000. Т.2. С. 284-290.

42. Пиотровский Р. Г. Лингвистический автомат (в исследовании и непрерывном обучении). — СПб,: Изд-во РГПУ, 1999, — 256 с.

43. Севбо И. П. Графические представления синтаксических структур и стилистическая диагностика. — Киев: Наук. Думка, 1981. 192 с.

44. Севбо И. П., Алешкина С. М. Исследование зависимости между длиной фразы и количеством уровней в графе. // Структурная и математическая лингвистика. Вып. 2. Киев, 1974.

45. Сидоров Ю. В., Леонтьев А. А., Рогов А. А., Захаров В. Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. Четвертая Санкт-Петербургская Ассамблея молодых ученых и специалистов: Тез. Докл. СПб:, 1999, с. 66.

46. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). — М.: «Советская энциклопедия», 1981. — 1600 с.

47. Справочник по прикладной статистике. В 2 т. Под ред. Э. Ллойда, У. Ледермана. — М.: Финансы и статистика, 1989, 1990.

48. Сухотин Б. В. Исследование грамматики числовыми методами. — М.: 1990.

49. Тезаурус русского языка RussNet. — http://www.phil.pu.ru/depts/12/RN/indexru.shtml

50. Тестелец Я. Г. Введение в общий синтаксис. — М., РГГУ, 2001.

51. Технология ThinkMap — http://www.thinkmap.com

52. Тойнби А. Дж. Постижение истории: Пер. с англ./Сост. Огурцов А.П.; Вступ. ст. Уколовой В.И.; Закл. ст. Рашковского Е.Б. — М.: Прогресс. 1996-608 с.

53. ТузовВ. А. Математическая модель языка. — Д.: ЛНИВЦ АН СССР, 1980.

54. Тулдава Ю. А. Опыт классификации текстов с помощью кластер-анализа. // Актуальные проблемы квантитативной лингвистики и автоматического анализа текстов. Учен. Зап. Тартуского гос. ун-та. Вып. 591, Тарту, 1981.

55. Шереметьева С.О., Ниренбург С. Эмпирическое моделирование в вычислительной морфологии. // НТИ, №7, 1996.

56. Эко У. Отсутствующая структура. Введение в семиологию. — СПб.: «Симпозиум», 2004.

57. Электронное правительство: рекомендации по внедрению в Российской Федерации. Под ред. В. И. Дрожжинова, Е. 3. Зиндера. — М.: Эко-Трендз, 2004.-352 с.

58. Яблонский С., Сухоногое А. Проект русской версии WordNet. — Петербургский университет путей сообщения. — http://www.pgups.ru/W ebWN/wordnet.uix

59. Alexandrov V. V., Arsentyeva A. V. Dialogue Structure. — Leningrad, LRCC, 1984.

60. Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.

61. Davison B. D. Topical locality in the Web. In Proc. of the SIGIR'00, pp. 272279, 2000.

62. Goldsmith J. Unsupervised Learning of the Morphology of a Natural Language. //University of Chicago, 1998.

63. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.

64. Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.

65. Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW 8, 1999.72.1van A. Sag, Thomas Wasow. Syntactic Theory: A Formal Introduction. — Stanford University, 1999

66. Jing Y., Croft W.B. An Association Thesaurus for Information Retrieval. Department of Computer Science, University of Massachusetts at Amherst, 1994.

67. Landauer Т., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259-284.

68. Lifantsev M. Voting Model for Ranking Web Pages. In Proc. of the IC'OO, pp. 143-148, 2000.

69. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

70. Moby lexicon project. Moby Thesaurus. — http://www.dcs.shef.ac.uk/research/ilash/Moby/

71. Model Integrated Computing and Autonomous Negotiating Teams for Autonomic Logistics — http://www.isis.vanderbilt.edu/Projects/micants/Tech/Briefings/pi/9911/

72. RFC2229 A Dictionary Server Protocol — http://rfc.net/rfc2229.html

73. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.

74. Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.

75. Stephen D., Ravi K., Kevin M., Sridhar R., Sivakumar D., Andrew T. Self-similarity in the Web. In Proc. of the VLDB'01, Sept. 2001.

76. The DICT Development Group. — http://dict.org

77. Visual Thesaurus. On-line версия. — http://www.visualthesaurus.com

78. World Wide Web Consortium — http://www.w3.org/

79. Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377-386, Nov. 2001.101

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.