Система лингвистического анализа и обработки текста в локальных почтовых системах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Семененко, Анатолий Викторович

  • Семененко, Анатолий Викторович
  • кандидат технических науккандидат технических наук
  • 2001, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 100
Семененко, Анатолий Викторович. Система лингвистического анализа и обработки текста в локальных почтовых системах: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2001. 100 с.

Оглавление диссертации кандидат технических наук Семененко, Анатолий Викторович

ВВЕДЕНИЕ.

1. СОВРЕМЕННЫЕ ПОЧТОВЫЕ СИСТЕМЫ И ИХ «ИНТЕЛЛЕКТУАЛЬНЫЕ» ВОЗМОЖНОСТИ.

1.1. современные почтовые клиенты.

1.2. Microsoft Outlook.

1.3. Outlook Express.

1.4. The Bat!.

1.5. Eudora.

1.6. Calypso E-mail.

1.7. Pegasus Mail.

1.8. Netscape M ess enger.

1.9. Opera Mail.

1.10. Mail Control.

1.11. IncrediMail.

1.12. Выводы.

2. МЕТОДЫ И ПОДХОДЫ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОГО РАСПОЗНАВАНИЯ ТЕКСТА.

2.1. Классификация задач добычи данных.

2.2. Прогноз и анализ.

2.3. Эффективная работа с текстами.

2.4. Вариант решения: склады данных и Text Mining.

2.5. Статистический/эвристический подход.

2.5.1. Средства идентификации языка.

2.5.2. Средства извлечения ключевых термов.

2.5.3. Инструментарий суммаризации.

2.5.4. Тематическое разбиение текста.

2.5.5. Кластеризация.

2.6. Интеллектуальный подход.

2.6.1. Загрузка документов в БД.

2.6.2. Индексирование.

2.6.3. Фильтры.

2.6.4. Лексический анализатор.

2.6.5. Список термов.

2.6. б. Группы секций.

2.6.7. Тематическое индексы.

2.6.8. Поиск в Oracle Text.

2.7. подход с использованием нейронных сетей.

2.7.1. Процесс обработки в TextAnalyst.

2.7.2. Построение тематической структуры.

2.7.3. Реферирование.

2.7.4. Гипертекстовая разметка.

2.7.5. Смысловой поиск.

2.8. ВЫВОДЫ.

3. ОБЩИЕ ПРИНЦИПЫ ПРОЕКТИРОВАНИЯ СИСТЕМЫ.

3.1. Кластеризация.

3.1.1. Иерархическая кластеризация.

3.1.2. Реализация механизма дендограмм.

3.2. суммаризация.

3.3. Объектно-ориентированная модель текстовой коллекции.

3.4. Система представления знаний.

3.4.1. Строение модели.

3.5. Выводы.

4. ОПИСАНИЕ РЕАЛИЗАЦИИ РАЗРАБОТАННОГО ПОДХОДА.

4.1. Реализация модуля информационного обеспечения системы.

4.1.1. Microsoft Outlook Express.

4.1.2. Netscape Messenger.

4.1.3. Eudora Mail.

4.2. Общие при нципы представления загруженной информации.

4.3. Визуализация функциональной структуры ПО.

4.3.1. Модуль управления и представления результатов.

4.3.2. Модуль кластеризации.

4.3.3. Модуль суммаризации.

4.3.4. Модуль системы представления знаний.

4.4. Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система лингвистического анализа и обработки текста в локальных почтовых системах»

Крупные компании в течение десятков лет накапливали сведения о своих клиентах, поставщиках, продуктах и услугах. Благодаря высоким темпам развития электронной коммерции, начинающие фирмы могут превратиться в огромные предприятия буквально в течение нескольких месяцев. И, как следствие, будут стремительно расти и их информационные базы. Технология добычи текстовых данных (text mining), предоставляет пользователям инструментарий, позволяющий анализировать большие собрания информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений [10, 23, 24]. Электронные текстовые документы составляют сегодня подавляющую часть информации, необходимой для продуктивной и бесперебойной работы практически в любой организации. И какие бы возможности ни предлагали разработчики программного обеспечения, большинство пользователей по-прежнему в замешательстве стоят на «берегу океана» электронных документов [29]. Известно, что большие объемы текстовой информации самого различного характера передаются посредством систем электронной почты. В конечном итоге зачастую актуальная информация для принятия стратегически важных решений теряется среди прочих сообщений в базе данных почтового клиента. Потери времени, которыми сопровождается поиск искомых данных среди множества подобных, нередко бывают существенными. Как следствие, нужная информация теоретически получена, но не найдена и не использована [10, 31, 39].

Целью работы являлась разработка методологии создания систем, позволяющих на основе баз стандартных почтовых клиентов производить лингвистический анализ текстовой информации, создавать тематические коллекции документов, реферировать и объединять в группы сходные текстовые материалы.

Для достижения поставленной цели были определены и успешно решены следующие задачи:

- Разработка методологии обработки текстовых данных на основе баз существующих почтовых клиентов;

- Проектирование правил формализации методов лингвистического анализа;

- Выработка принципов построения объектно-ориентированной системы, исследующей структурные и лингвистические зависимости в текстах;

- Углубление методов стандартного анализа с использованием преимуществ объектно-ориентированного подхода;

- Реализация разработанных принципов и правил в виде функционирующей системы.

При работе над диссертацией был произведен тщательный анализ уже существующих систем. Как показал этот анализ, основными подходами к решению ставящейся задач являются:

1. файлово-ориентированный, при котором входящий поток данных представляет собой набор файлов, обработанные данные являются полуструктурированными текстами, готовыми для дальнейшей обработки;

2. интеллектуальный подход для текстового анализа, который расширяет возможности стандартных наборов и интегрирован в среду управления реляционными СУБД;

3. техника реализации нейронной сети, обрабатывающей текстовой поток после препроцессорного анализа в текстовых БД

Новизна предложенного решения заключается в рассмотрении технологий анализа и обработки текстовых данных с точки зрения объектно-ориентированного подхода. В этом случае текстовые сообщения и прочая информация, содержащаяся в базах данных почтовых клиентов, интерпретируется в качестве самостоятельных объектов, наделенных свойствами и качествами. Алгоритмы средств лингвистической обработки и анализа расширены и снабжены механизмом обработки текстовых объектов в качестве исходной информационной базы. Исходя из имеющихся опубликованных данных, можно сделать заключение, что на настоящий момент не существует систем, использующих подобный подход для решения ставящейся задачи.

Практическое значение проделанной работы заключается в:

• разработке методологии создания системы, позволяющей в реальном режиме времени обрабатывать информацию, содержащуюся в базах данных почтовых клиентов, и производить ее лингвистический анализ;

• создании принципов обработки и анализа информации при использовании объектно-ориентированного подхода для существующих коллекций документов;

• реализации основных методов, выработанных в процессе исследования, в действующей системе. Система была успешно внедрена и находится в опытной эксплуатации (см. Приложение);

• материалы диссертации были использованы в учебном процессе процессе при подготовке лекций по курсу «Информатика» на ФЭМ в МГИЭМ.

Диссертация состоит из введения, четырех глав, заключения, списка использованной научной литературы и приложения.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Семененко, Анатолий Викторович

4.4. Выводы

На базе предложенного в работе подхода, автором спроектирован и разработан программный комплекс обработки и анализа коллекций сообщений электронной почты на основе существующих баз данных популярных почтовых клиентов.

Рассмотрена функциональная структура комплекса, в том числе - модуль информационного обеспечения системы, модуль управления и представления результатов, модуль кластеризации, модуль суммаризации и модуль системы представления знаний. Описаны общие методы реализации и представлены фрагменты работы модулей в виде мгновенных фотографий.

Заключение

Данная работа представляет собой описание исследований, проведенных автором в области построения методологии проектирования систем, позволяющих на основе существующих баз почтовых клиентов производить обработку и лингвистический анализ коллекции электронных текстовых документов, облегчить и автоматизировать процесс навигации в обработанных и необработанных коллекциях с учетом применения объектно-ориентированного подхода.

Разработанная методология была подтверждена конкретной реализацией в университете Фредерициана (г. Карлсруэ) на факультете прикладной информатики, показавшей как применимость предложенных методов проектирования, так и правильность исходных предпосылок.

В работе получены следующие основные результаты:

1. Проанализированы существующие подходы к созданию систем обработки и анализа текстовых данных. Приведена методология, основные этапы разработки и реализации.

2. В процессе проектирования были выработаны принципы обработки и анализа текстовой информации при использовании объектно-ориентированного подхода для существующих коллекций документов.

3. Автором разработан и предложен подход к навигации в структурированных и неструктурированных коллекциях текстовых данных с учетом рассмотрения документов в качестве объектов, наделенных атрибутами.

4. Рассмотрен рынок современного программного обеспечения для проектирования и реализации программных систем лингвистического анализа и обработки текстовой информации.

Разработаны принципы рационального построения системы в рамках предложенного подхода.

5. На основе разработанных принципов спроектирован, создан, внедрен и успешно функционирует программный комплекс обработки и анализа текстовых данных на основе электронных текстовых документов, призванный облегчить и автоматизировать процесс навигации в обработанных и необработанных коллекциях с учетом рассмотрения сообщений с позиций объектов с атрибутами, что подтвердило рациональность разработанного подхода и жизнеспособность предложенных программных решений.

6. В процессе проектирования были выработаны принципы построения объектно-ориентированной системы, исследующей структурные и лингвистические зависимости в текстах.

7. Разработанный подход к созданию программного комплекса обработки и анализа текстовых данных на основе электронных текстовых документов является достаточно универсальным, успешно опробован на практике и может служить хорошим фундаментом для создания других программных систем подобного типа.

Таким образом, автором была предложена и реализована архитектура системы, позволяющей быстро и удобно производить обработку и лингвистический анализ существующих коллекций электронных сообщений, выделять тематические группы и направления, получать краткое содержание интересующих документов коллекции и гибко производить навигацию в коллекциях с учетом преимуществ применения объектно-ориентированного подхода.

Перечень использованных сокращений

АС Автоматизированная система

БД База данных

ОС Операционная система

ПО Программное обеспечение

СУБД Система управления базами данных

HTML Hypertext markup language (язык гипертекстовой разметки)

IE Internet explorer (броузер Microsoft)

RFC Request for comments (форма описания де-факто стандартов в сети интернет)

RTF Rich text format (формат с сохранением разметки)

SMTP Send mail transfer protocol (протокол для работы с электронной почтой)

Список литературы диссертационного исследования кандидат технических наук Семененко, Анатолий Викторович, 2001 год

1. Ананьин В.И. Корпоративные стандарты точка опоры автоматизации. СУБД, №5-№6,1997.

2. Боуман Д.С., Эмерсон С.Л., Дарновски М. Практическое руководство по SQL. Киев: Диалектика, 1997.

3. Борисов Ю., Кашкаров В., Сорокин С. Нейросетевые методы обработки информации и средства их программно-аппаратной поддержки. Открытые Системы, №4, 1997.

4. Бромберг И. Система контроля этапов жизненного цикла ПО. Открытые системы, №6, 1998.

5. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++. Бином, Невский диалект, 1998.

6. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.

7. Ветко С. Мыши не только гадят. Hard'n'Soft Center, 2000.

8. Вольфман Б. Разработка корпоративных систем с использованием современных инструментальных средств: Тез. докл. Техническая конференция "Корпоративные базы данных". М„ 1997.

9. Гагин А. Чужой почтальон. InterNET, №3(8), 1999.

10. Ганти В., Герке Й., Рамакришнан Р. Добыча данных в сверхбольших базах данных. Открытые системы, №9-№10, 1999.

11. И.Гореткина Е. . Как выбрать программу электронной почты. Сети, №5-№6, 1999.

12. Дьюхарст С., Старк К. Программирование на С++. К.: НИПФ «Диасофт», 1993.

13. Елманова Н. Borland C++Builder 3: новые возможности создания корпоративных информационных систем. Internet. http://www.citforum.ru/koi/programming/cpp/cb3.shtml.

14. Зелинский С. Вместо сумки на ремне. Чип, №7, 2001.

15. Зильбершац А., Здоник С. Стратегические направления в системах баз данных. СУБД, №4, 1997.

16. Зубков А. С толстым файлом на ремне. СофтТерра, 2001.

17. Казарновский К. Электронная почта: смотришь в книгу, а видишь оПХБЕР, или Заметки об извращениях. 1997-1998.

18. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах. Открытые Системы, №4, 1997.

19. Киселев М. Data Mining в управлении портфелем ГКО-ОФЗ. Банковские технологии, №10, 1996.

20. Ковальчук Н. Что такое Opera? 2000-2001, http://www.myopera.net/descraibe.htm

21. Колесников A. Internet. Практика использования. ISBN: 966-552105-5.

22. Коржов В. Data mining по-русски. Computerworld, №34, 2000.

23. Кузнецов С.Д. Переносимость и интероперабельность информационных систем и международные стандарты. ComputerWorld, №4, 1996.

24. Ладыженский Г.М. Архитектура корпоративных информационных систем. СУБД, №5-№6, 1997.

25. Маклаков С. Инструментальные средства создания корпоративных информационных систем. Компьютер Пресс, №7-№9, 1998.

26. Маленкович С. Выбираем e-mail клиента для себя. ПЛ-Компьютеры, №11, 2001.

27. Масалович. А. Этот нечеткий, нечеткий, нечеткий мир. Internet, http ://www.tora-center. ru.

28. Миронов А. Опыт разработки и продвижения комплексных ИС. Открытые системы, №2, 1998.

29. Нортон М. Навигация в море данных. Банковские технологии, №1, 1996.

30. Отставное М. О стойкости крипто, о надежности коммуникации и о «секретных теоремах высшей алгебры». Компьютерра, №49, 1997.

31. Пирогова Н. Время собирать и анализировать данные. Открытые Системы, №4-5, 1998.

32. Полозов С. Электронная почта. The Bat! не только почтовый клиент. iXBT Software, 1999.

33. Решке X., Шелле X. Мир управления проектами. М.: Алане, 1994.

34. Саар А. Об одном подходе к выполнению программных проектов. Открытые системы, №1, 1998.

35. Зб.Семененко А.В. Киоски Данных новый подход к построению систем динамической аналитической обработки. Межвузовский сборник научных трудов «Математическое и программное обеспечение вычислитель-ных систем». Рязань РГРТА, 1999.

36. Семененко А.В. Переход от систем динамической обработки транзакций к витринам данных для систем поддержки принятия решений. Тезисы доклада. Научно-техническая конференция студентов, аспирантов и молодых специалистов МГИЭМ. М.: МГИЭМ, 1999.

37. Семененко А.В. Разработка приложений интеллектулаьного распознавания текста в локальных почтовых системах. Тезисы доклада. Научно-техническая конференция студентов, аспирантов и молодых специалистов МГИЭМ. М.: МГИЭМ, 2002.

38. Хехт-Нильсен Р. Нейрокомпьютинг: история, состояние, перспективы. Открытые Системы, №4-5, 1998.

39. Эссик К. Документ это еще не информация. Служба новостей IDG, Лондон, Computerworld-Россия, 1998.

40. Adamo J.-M. Data mining for association rules and sequential patterns : sequential and parallel algorithms. New York ; Berlin ; Heidelberg : Springer, 2001.

41. Agrawal R. Fast Discovery of Association Rules. Advances in Knowledge Discovery and Data Mining, U.M. Fayyad et al., eds., AAAI/MIT Press, Menlo Park, Calif., 1996.

42. Berger C. R. Data Mining от Oracle: настоящее и будущее. Oracle Magazine Online/RE, 1999.

43. Chen Z. Data Mining and uncertain reasoning : an integrated approach. New York ; Chichester: Wiley, 2001.

44. Clarke L., Schupmann V. Oracle on Windows NT: A Fail Safe Solution. Oracle Magazine, №1, 1998.

45. Collin S. Integrating E-mail : from the Intranet to the Internet. Boston : Digital Press, 1999.

46. Davenport Т.Н. From Data to Knowledge. Oracle Magazine, №3, 1998.

47. Dorner B. Versandhandelsmarketing : Ansatze zur Kundengewinnung und Kundenbindung. Geleitw. von Hans Raffee. Wiesbaden : Dt. Univ.-Verl.; Wiesbaden : Gabler, 1999.

48. Duhs В. E-Mail wie im Film. FreeNet, 2001.

49. El-Hamdouchi A. and Willet P. Hierarchic documnet clustering using ward's method. In proceedings of the fifteenth annual international ACM SIGIR conference on research and development in information retrieval, 1986.

50. El-Hamdouchi A. and Willet P. Comparison of hierarchic agglomerative clustering methods for document retrieval. The computer journal, №32(3), 1989.

51. Feldman R. and Hirsh H. Exploiting background information in knowledge discovery from text. Journal of intelligent information systems, 1996.

52. Feldman R. and Dagan I. Knowledge discovery in text. In proceedings of the first international conference in knowledge discovery, 1995.

53. Ferstl W. J. Eudora Evergreen und Klassiker. TidBITS №357, 1996.

54. Gaizauskas R. and Humphreys K. Conceptions vs. Lexicons: an architecture for multilinqual information extraction. International summer school, SCIE-97, 1997.

55. Garcia С. M. Centra de Documentation de Pegasus Mail. 2002.

56. Greenwald R. Oracle Essentials: Oracle9i, Oracle8i, and Oracle8; what you need to know about Oracle database architecture and features. Koln: O'Reilly, 2001.

57. Grishmann R. Information extraction: techniques and challenges. International summer school, SCIE-97, 1997.

58. Hahn U. and Schnattinger K. Deep knowledge discovery from natural language texts. In proceedings of the third international conference of knowledge discovery and data mining, 1997.

59. Hand D. J. Principles of data mining. Cambridge, Mass. : MIT Press, 2001.

60. Karypis G., Eui-Hong H. and Vipin K. Chameleon: hierarchical clustering algorithm using dynamic modelling. Computer magazine, №8, 1999.

61. Lent В., Agrawal R. and Srikant R. Discovering trends text databases. In proceedings of the third international conference of knowledge discovery and data mining, 1997.

62. Lutz M., Schwertner A. E-Mail effektiv nutzen. Cambridge, Farnham, Koeln, Paris: O'Reilly, 2001.

63. Mani I. Advances in automatic text summarization. Cambridge, Mass.: The MIT Press, 1999.

64. Michalski R., Bratko. and Kubat M. Machine learning and data mining. Wiley, 1997.

65. Microsoft Corporation. Microsoft Outlook 2000, PowerPoint 2000, Visual-Basic-Sprachverzeichnis. Microsoft Corporation. Unterschleissheim : Microsoft Press, 1999.

66. Nauck D. Beyond neuro-fuzzy: perspectives and directions. The Third European Congress on Intelligent Techniques and Soft Computing (EUFIT'95), Aachen, August 28-31, 1995.

67. Neuburg M. The Postman Rings Again. TidBITS №424, 1988.

68. Piatesky-Shapiro G. and Fawley W. Knowledge discovery in databases. AAAAI Press, Menlo Park, Californien, 1991.

69. Rajman M. and Besancon R. Text mining: natural language techniques and text mining applications. In proceedings of the seventh IFIP 2.6 working conference of database semantics, Chapan & Hall IFIP proceedings series. Leysin, Switzerland, 1997.

70. Raymond T. and Jiawei Han. Efficient and effective clustering methods for spatial data mining. In proceedings of the VLDB conference, Santiago, Chile, 1994.

71. Rudolph Т. M. E-Mail: Software-Schuetzchen aufspueren, neue Leute kennenlernen ; das persoenliche Postfach in AOL, CompuServe, T-Online und Internet ; Do you speak E-Mail?, Smilies & Emoticons., Duesseldorf: Data-Becker, 1997.

72. Schels I. Jetzt lerne ich Outlook 2000: programmieren und automatisieren. Muenchen : Markt + Technik Verl., 2000.

73. Stolpmann M. Internet & WWW fuer Studenten : WWW, FTP, E-Mail und andere Dienste. Cambridge : O'Reilly, Internat. Thomson-Verl., 1997.

74. Subipto G., Rajeev R. and Shim K. Rock: a robust clustering algorithm for categorical attributes. 1999.

75. Sullivan D. Document warehousing and text mining. New York ; Weinheim: Wiley, 2001.

76. Fayyad A. M. . Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, Menlo Park, Calif., 1996.

77. Werbos P. J. Beyond regression: New tools for prediction and analysis in the behavioral sciences Masters thesis, Harward University, 1974.

78. Wilks J. Information exrtraction as a core language technology. International summer school, SCIE-97, 1997.

79. Willet P. Recent trends in hierarchic documnet clustering: a critical review. Iformation processing and management, 1988.

80. Zornes A. The Information Supply Chain. Oracle Magazine, №4, 1998.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.