Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев

Боумедин Ахмад Шаннаг

Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Боумедин Ахмад Шаннаг

Боумедин Ахмад Шаннаг
кандидат технических наук
2011

Специальность ВАК РФ05.13.01

Количество страниц 145

Боумедин Ахмад Шаннаг. Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Санкт-Петербург. 2011. 145 с.

Оглавление диссертации кандидат технических наук Боумедин Ахмад Шаннаг

Оглавление

Введение

Положения, выносимые на защиту

Глава 1

1.1. Общие понятия, развитие и применение информационных систем

1.2. Информационные технологии в развитии маркетинга в туристической сфере

1.3. Основные аспекты информационно - логистических и семиологических систем

1.4. Структура инфологической системы

1.5. Обзор основных этапов создания глоссария

1.6. Обзор глоссариев

1.7. Предпосылки для создания мультиязыкового глоссария

1.7.1. Проблема многоязычия в Интернет среде

1.7.2. Проблемы смыслового поиска информации

Выводы по главе 1

Глава 2. Глоссарии и методы извлечения иерархических понятий

2.1. Процесс создания глоссария

2.2. Глоссарий и организации

2.3. Основные подходы к извлечению иерархических понятий

2.3.1. Лексико-синтаксические шаблоны

2.3.2. Дистрибутивное подобие

2.3.3. Вычисление степени сходства

2.3.4. Иерархическая кластеризация

2.3.5. Анализ совместной встречаемости

2.4. Построение иерархии понятий методом формально-концептуального

анализа

Выводы по главе 2

Глава 3. Предварительная обработка данных

3.1 Словарь терминов предметной области

3.2 Сбор данных

3.2.1. Предварительная обработка документов

3.2.2. Предварительная кластеризация текстов антологии

3.3. Оценка и сравнение словарей

3.4. Рейтинго-ранговые распределения слов в текстах

Выводы по главе 3

Глава 4. Извлечение информации для семантической интерпретации

4.1. Система «TAERGloss»

4.2. Извлечение семантической информации

4.3. Оценка и сравнение словарей

4.3.1. Оценки «Точность», «Recall» и «Гармоническое среднее F»

4.3.2. Утилита лексического анализа

Выводы по главе 4

Глава 5. Построение иерархии понятий

5.1. Подход иерархического представления понятий

5.2. Иерархический кластерный анализ

5.3. Формально-концептуальный анализ (БСА)

5.4 Оценка полученных результатов

5.5. Построение глоссария

5.6. Интерфейс программы «ТАЕК^обб»

Выводы по главе 5

Заключение

Список использованной литературы

Введение диссертации (часть автореферата) на тему «Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев»

Введение

Сервисные информационные Интернет-технологии непрерывно создают инновационные приложения, тем самым значительно расширяя свои функциональные возможности. Например, для решения задачи таргетинга в области туристического маркетинга актуальны мультиязыковые глоссарии, инвариантные (совместные) принятым терминологическим определениям в разных странах. Мультиязыковая терминология в сфере туристического маркетинга претерпевает существенные изменения, сообразно стремительному темпу развития и формирования как общественных отношений (конгрессы, международные договоры и научные семинары), так и туризма, его отраслей и видов. В любой деятельности, особенно связанной с международными сделками, самым актуальным является вопрос дефиниций, т.е. совместных (унифицированных) и принятых за основу определений, понятий и терминов. Разночтения в толковании применяемых терминов и их интерпретации на другие языки могут иметь самые неблагоприятные последствия для туристической деятельности в области маркетинга и таргетинга. Разработка стандартов, протоколов, форматов и формирование мультиязыковых тезаурусов рекомендуемых слов, терминов и понятий дают возможность систематизировать термины определенной предметной области и специфики стран, избежать многозначности и омонимии.

В диссертационной работе проведен анализ мониторинга текстового содержания и нормативных документов Интернет-среды по выбранной теме описания маркетинга туристической сферы, то есть комплекса услуг и товаров, в совокупности своей образующих туристическую поездку (тур) или имеющих к ней непосредственное отношение, а также обладающих специфическими чертами производителей (в данной работе - специфика туризма в Султанате Оман) и потребителей туристических услуг.

С этой целью проведены исследования и разработаны методы, алгоритмы и программы семантического анализа текстов для выявления совместимых (эквивалентных) онтологических ядер тематических антологий текстов, содержащих информацию о сервисной организации сферы туризма. При анализе документов разных форматов, таких как HTML, PDF, DOC, и Xml, извлеченная информация полностью или частично дублируется, то есть многократно повторяется, несмотря на разные источники. Обработка такой информации все еще остается неразрешимой задачей для автоматического извлечения и построения онтологии. Для решения этой задачи в диссертации использовался метод кластерного анализа, ранговая и рейтинговая оценка совместных мультиязыковых онтологий, тезаурусов и глоссариев. Развит инфологический подход для выявления мультиязыковых словарей в заданной предметной области, а также метод извлечения терминов для представления знаний, как формального контекста. В диссертации экспериментально апробированы арабская, английская и русская онтологии в области туризма, т.е. иерархия понятий, путем кластеризации и формального контекстного анализа.

Анализ проведенных исследований в области автоматизированного построения мультиязыковых глоссариев для предметной области туристического маркетинга показал, что в настоящее время не ведется подобных разработок. Это можно объяснить тем, что еще никак не сформирован единый подход к решению проблем формирования мультиязыковых онтологических ядер и их сопоставления (поиска эквивалентных ядер) для мультиязыковых антологий текстов.

Цель диссертационной работы заключается в создании эффективных методов формирования и выявления эквивалентных онтологических ядер мультиязыковых антологий текстов и их реализации в области туристического маркетинга.

Целью работы является разработка методов и программных средств дискурсивного анализа и обработки текстовых данных для построения

таргетингого мультиязыкового глоссария туристического маркетинга. Для достижения поставленной цели в диссертационной работе решаются следующие задачи:

1. Исследование методов дискурсивного анализа построения мультиязыковых глоссариев на массиве тематических образцов туристического маркетинга.

2. Разработка методов и алгоритмов выявления тематических кластеров «предложений и запросов», составляющих совокупность форматированных текстов. Формирование глоссариев, построение иерархий онтологических понятий и сопоставление семантического окружения терминологического содержания выбранных текстов на арабском, русском и английском языках.

3. Разработка алгоритмов и программ рейтингового распределения слов и фраз в заданных трехязычных тематических текстах, представленных документами различных форматов.

4. Разработка метода и программ дискурсивного анализа для выявления иерархических понятий семантического соответствия при построении мультиязыковых глоссариев.

5. Разработка интерактивной информационной системы мультиязыковой коммуникации в сфере туристического маркетинга.

Основные методы исследования. Для решения поставленных задач использовались статистический анализ, методы компьютерной лингвистики, теория множеств, теория графов и инфологический подход. При компьютерной реализации в интернет технологии разработанных методов, алгоритмов и программ применялся объектно-ориентированный подход.

Научная новизна работы заключается в следующем:

1. Разработан метод формирования тематической совокупности семантически однородных текстов (антологий) одновременно на трех языках, с интерпретационным сопоставлением ключевых слов, терминов, понятий и фраз

при форматировании документов с учетом особенностей каждого языка, в отличие от общепринятого способа формирования антологии по ключевым словам с помощью поисковой машины и дословного перевода результатов, что позволяет значительно сократить сложность компьютерной семантической обработки текстов в заданной предметной области.

2. Показано, что для тематического сопоставления мультиязыковых глоссариев достаточно использовать логистику отношений терминов и понятий форматированных документов.

3. Разработан метод сокращения объема коллекции текстовых документов различных форматов на основе рейтинго-рангового распределения слов, позволяющий значительно уменьшить время исходного мониторинга в области туристического маркетинга.

4. Разработаны алгоритм и программы фрагментации текстов, выявления иерархий: понятий и терминов, а также их связей, позволяющих автоматизировать процесс заполнения шаблонов (документов) в области туристического маркетинга.

5. Разработана интерактивная программная система формирования мультиязыковых антологий и выявления их онтологических глоссариев для визуального представления слов и понятий, а также иерархических отношений между ними в области туристического маркетинга на арабском, английском и русском языках.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются анализом исследований в данной области, корректность предложенных методов и алгоритмов подтверждается их экспериментальной апробацией и согласованностью результатов, полученных при практической реализации. Основные теоретические положения диссертации апробированы в печатных трудах и докладах на международных научных конференциях.

Практическая значимость работы заключается в создании интерактивной информационной системы мультиязыковой коммуникации TAERgloss на арабском, английском и русском языках в сфере туристического маркетинга. Разработанные алгоритмы и программы позволяют снизить рабочую нагрузку на человека, уменьшить время и повысить эффективность обработки и анализа текстовой информации с целью получения глоссария в выбранной предметной области.

Результаты и внедрение. Полученные результаты реализованы в виде системы TAERgloss на языке С#. Данная программа используется в качестве информационной коммуникативной системы в сфере туристических услуг и доступна в Интернете в режиме он-лайн. Исследования, отраженные в диссертации, были использованы в трех научно-исследовательских работах, выполненных в Султанате Оман: «А Study and Reasoning the phenomena of poor performance of students in University of Nizwa to develop an Intelligent Course Selection System» (2011); «Analyzing students library utilization (reading behavior) and its effect on their performance» (2010); «А Proactive Strategy to Overcome Traffic Catastrophe Predicament in Sultanate of Oman» (2010).

Апробация работы. Научные результаты и основные положения работы докладывались на международных конференциях:

First IEEE International Conference on the Applications of Digital Information and Web Technologies (ICADIWT 2008),

First E-Technologies and Environment Conference (ETEC'2008), International Information Systems Conference (ISC'2011), Symposium Work Ethics Realty and Expectations By Sultanate of Oman Ministry of higher Education College of Applied Sciences (2011),

MECIT's International Conference on Applied Information and Communications Technology (2011),

First Gulf Conference on Scientific Research (University of Bahrain, Kingdom of Bahrain, 2011),

First International Conference on Emerging Research Paradigms in Business and Social Sciences (Dubai, UAE, 2011),

- The International Arab Conference on Information Technology (АСГГ2011),

Naif Arab University for Security Science (NAUSS '2011).

Публикации. Автором опубликовано по теме диссертации 7 печатных работ, среди них 4 работы в журналах из перечня ВАК и 2 в международных журналах.

Структура и объем диссертационной работы. Диссертация состоит из введения, 5 глав, заключения, излагается на 145 страницах, включая перечень используемой литературы из 147 наименований, 50 рисунков и 34 таблицы.

В главе 1 рассматриваются тенденции развития информационных систем и становление понятий логистической и семиологической информационных систем, даются примеры семиологических систем логистического информационного сопровождения. Кратко рассматриваются основные этапы создания глоссария, а также производится обзор современных глоссариев. Затронуты проблемы языкового разнообразия в Интернет и трудности смыслового поиска в Сети.

В главе также рассмотрена предметная область туристического маркетинга, выявлена роль информационных систем в развитии данной сферы деятельности, даны определения.

Приводится обзор современных глоссариев и подходов к созданию понятийной визуализации семантического содержания текстов: «Glossary Commander», «Визуальный словарь», «Визуальный Тезаурус», «WORDNET» и другие.

В главе 2 более подробно рассматривания этапы создания глоссариев, а так же их значение и применение. Рассматриваются основные подходы к извлечению иерархических понятий. В частности обсуждаются их преимущества и недостатки, а также производится краткий обзор методов, которые были применены, чтобы извлечь иерархии понятия, используя лексико-синтаксические образцы. В диссертационной работе используются подходы, основанные на дистрибутивном подобии, проиллюстрированные конкретным примером из предметной области туристической сферы. Основное внимание уделяется исследованию метода формального-концептуального анализа (БСА) для выявления отношений между понятиями.

В главе 3 описывается процедура формирования тематических антологий в области туристического маркетинга для таргетирования проблемно-ориентированных предметных областей. Приводится описание процесса сбора данных для экспериментов. Описаны проведенные эксперименты для предложенных алгоритмов, даются выводы по полученным результатам.

В главе 4 исследуются методы дискурсивного анализа для выявления семантического соответствия и тематического сопоставления трехязычных глоссариев на основе логистики отношений терминов и понятий, содержащихся в форматированных документах туристического маркетинга.

В главе 5 описаны методы кластеризации и формально-концептуального анализа (РСА) для извлечения иерархических отношений между понятиями. В главе приводятся результаты испытаний, примеры и рисунки для пояснения основных этапов разработанного метода извлечения иерархических отношений между словами, терминами и понятиями. В главе описана реализация полученного глоссария для построения онтологии в области туристического маркетинга, а

также представлена интерактивная информационная система ТАЕБ^озб мультиязыковой коммуникации и визуализации полученных глоссариев на трех языках.

В заключении содержится перечень задач, которые были решены в результате диссертационных исследований.

Положения, выносимые на защиту

На основе проведенных теоретических исследований и их экспериментальной апробации на защиту выносятся следующие положения:

1. Методы обработки совместной (арабской, английской и русской) коллекции тематических текстов, представленных документами в различных форматах, для выявления семантически сопоставимых слов, терминов, понятий и фраз.

2. Метод тематического сопоставления мультиязыковых глоссариев на основе логистики отношений терминов и понятий, содержащихся в форматированных документах (бланк, шаблон).

3. Метод сокращения числа форматированных документов, использующий рейтинго-ранговое распределение терминов, понятий и слов в текстах.

4. Методы извлечения иерархических отношений между словами, терминами и понятиями заданной предметной области.

5. Интерактивная информационная система мультиязыковой коммуникации в области туристического маркетинга на арабском, английском и русском языках.

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Боумедин Ахмад Шаннаг

Выводы по главе 5

В результате проведенных исследований разработана интерактивная коммуникативная система TAERgloss, мультиязыковой глоссарий которой может служить основой для построения онтологий туристической сферы на арабском, английском и русском языках.

В системе TAERgloss для каждого выбранного слова строится иерархическая структура динамического развития семантики термина на трех языках: арабском, русском и английском. Визуализация иерархической структуры семантически связанных терминов позволяет облегчить понимание смысла этого термина человеком. Исследуя семантическое окружение слов с помощью визуального интерфейса системы, можно быстро ознакомиться с проблематикой предметной области.

Заключение

Совокупность разработанных методов, алгоритмов и программ и их практическая реализация представляют собой решение актуальной научно-технической задачи автоматического построения мультиязыкового глоссария для сферы туристического маркетинга, имеющей большое значение для развития информационных технологий в области интеллектуальной обработки текстов и машинного перевода. При этом в ходе решения данной задачи были получены следующие результаты:

1. Проведен анализ современного состояния методов дискурсивного анализа построения мультиязыковых глоссариев на массиве тематических образцов туристического маркетинга.

2. Разработан метод формирования тематической совокупности семантически однородных текстов (антологий) одновременно на трех языках, с интерпретационным сопоставлением ключевых слов, терминов, понятий и фраз при форматировании документов с учетом особенностей каждого языка, что позволяет значительно сократить сложность компьютерной семантической обработки текстов в заданной предметной области.

3. Показано, что для тематического сопоставления мультиязыковых глоссариев достаточно использовать логистику отношений терминов и понятий форматированных документов.

4. Разработан метод сокращения объема коллекции текстовых документов различных форматов на основе рейтинго-рангового распределения слов в области туристического маркетинга.

5. Разработаны алгоритм и программы фрагментации текстов, выявления иерархий: понятий и терминов, а также их связей, позволяющих автоматизировать процесс заполнения шаблонов (документов) в области туристического маркетинга.

6. Разработана интерактивная программная система TAERgloss формирования мультиязыковых антологий и выявления их онтологических глоссариев для визуального представления слов и понятий, а также иерархических отношений между ними в области туристического маркетинга на арабском, английском и русском языках.

Список литературы диссертационного исследования кандидат технических наук Боумедин Ахмад Шаннаг, 2011 год

Список использованной литературы

1. Аксенов А.Ю., Зайцева A.A., Боумедин Шаннак. Ранговый метод локализации областей текстовых данных. — «Информационно-измерительные и управляющие системы», №4, т.9, 2011. — С. 61-65.

2. Александров В.В., Арсентьева А. В., Семенков А.И. Структурный анализ диалога. Препринт №80. — Л.: ЛНИВЦД983. — 50 с.

3. Александров В.В., Кулешов C.B., Кокорин П.П. Концепция построения информационно-логистических систем. // Системные проблемы надёжности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах (Инноватика-2008)./ Материалы Международной конференции и Российской научной школы. Часть 1. - М.: Энерго-атомиздат, 2008. — с. 21-23.

4. Андреева H.A., Кокорин ПП. Система построения понятийной иерархии для ассоциативного поиска по текстам. - "Информационно-измерительные и управляющие системы", №4, т.6, 2008. — С. 9-13.

5. Александров В.В., Андреева H.A., Кулешов C.B. Системное моделирование. Методы построения информационно-логистических систем / Учеб. пособие. — СПб.: Изд-во Политехи, ун-та, 2006. — 95 с.

6. Барт Р. Избранные работы: Семиотика: Поэтика: Пер. с фр. / Сост., общ. ред. и вступ. ст. Г. К. Косикова.— М.: Прогресс, 1989. — 616 с.

7. Биржаков М.Б. Введение в туризм. Учебник СПб.: Издательский Торговый Дом "Герда", 2000. — 192 с.

8. БраславскийП., Соколове. «Автоматическое извлечение терминологии с использованием поисковых машин Интернета» // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. «Диалог'2007». — М.: Изд-во РГГУ, 2007. — С.67-74.

9. Быстрянцев С. Кузнецова Г. Информационные технологии в рекламе туристского продукта // Конкуренция и рынок. № 2(13). 2002.

10. Все о туризме. — [Интернет источник] < http://tourlib.net >

11. Дзюбенко A.JI. Информационные технологии управления. Учебный курс (учебно-методический комплекс) — [Интернет источник] <http://www.e-college.ru/xbooks/xbook090/book/index/index .html >

12. Добров Б.Н., Лукашевич Н.В., Сыромятников C.B. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003.

13. Избачков Ю.С., Петров В.Н. Информационные системы — СПб.: Питер, 2006. — 656 с.

14. Информационная система — [Интернет источник] <ш.wikipedia.org/wiki/Инфopмaциoннaя_cиcтeмa>

15. Информация — [Интернет источник] < www.itstan.ru >

16. Киршина М.В. Коммерческая логистика. — М.: Центр экономики и маркетинга, 2008. — 256 с.

17. Кокорин П.П., Колесников P.A., Андреева H.A., Фролов К., Боумедин Шаннаг, Кулешов C.B. О создании инфологических систем поддержки процесса <обучения через развлечение> (edutainment) - «Информационно-измерительные и управляющие системы», №11, т.7, 2009. — С.42-48.

18. Крижановский А. А. Автоматизированный поиск семантически близких слов на примере авиационной терминологии // Автоматизация в промышленности, т. 4,2008. — С. 16-20.

19. Логистика. Визитная карточка — [Интернет источник] <http://logisticstime.com>.

20. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство // Труды Международного семинара Диалог'2002

«Компьютерная лингвистика и интеллектуальные технологии», т.1. — М: Наука, 2002. — С. 266-277.

21. Назаров C.B. Компьютерные технологии обработки информации. Москва. «Финансы и статистика», 1996. — 249 с.

22. Пирс Чарлз Сандерс. Большая Советская Энциклопедия (БСЭ)/ статья Добронравова И. С. — [Интернет источник] <http://bse.sci-lib.com/article089322.html>.

23. Семиотика // Энциклопедия Кругосвет. — [Интернет источник] <http://www.krugosvet.ru/articles/82/1008277/1008277al.htm>.

24. Словари и энциклопедии на Академике — [Интернет источник] <http://dic.academic.ru>.

25. Шаннаг Б., Александров В.В. Морфологический анализатор для арабского языка (SAMA1) // «Информационно-измерительные и управляющие системы», №11, т.7, 2009. — С.60-62.

26. Шаннаг Б., Кокорин П.П., Щелкунова Е.В. Алгоритм нормализации и онтологической кластеризации текстов. // «Информационно-измерительные и управляющие системы», №7, т.8, 2010. — С.60-63

27. Шаннаг Б., Александров В.В., Кулешов C.B. Феномен идентификации. //Труды СПИИРАН/ Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН; Под общ. ред. чл.-кор. РАН P.M. Юсупова. — Вып.11. — СПб.:Наука, 2009. — С.52-62.

28. Шафрин Ю.А. Информационные технологии. — М.: Бином, 1998.

29. Энциклопедия Кругосвет — [Интернет источник] <http://www.krugosvet.ru>.

30. van Abswoude А.А.Н., Vermunt J.K., Hemker B.T., van der Ark L.A. Mokken Scale Analysis Using Hierarchical Clustering Procedures. Applied Psychological Measurement, 5,2004. — P. 332-354.

31. Addicott Rachael; McGivern Gerry; Ferlie Ewan. Networks, Organizational Learning and Knowledge Management: NHS Cancer Networks. // Public Money & Management, Vol. 26, No. 2, April 2006. — pp. 87-94.

32. Ahmad K., Tariq M., Vrusias B., Handy C. Corpus-based thesaurus construction for image retrieval in specialist domains. // In Proceedings of the 25th European Conference on Advances in Information Retrieval (ECIR) 2003. —pp. 502-510.

33. Hiyan Aishawi. Processing dictionary definitions with phrasal pattern hierarchies. // Computational Linguistics, vol. 13 (1987), pp. 195-202.

34. Aitchison J. Thesaurus Construction and Use: A Practical Manual. — Routledge, 4 edn. 2002.

35. Alavi Maryam; Leidner Dorothy E. Knowledge management systems: issues, challenges, and benefits. // Communications of the AIS 1 (2), 1999 — URL <http://portal.acm.org/citation.cfm?id=374117>.

36. Alavi Maryam; Leidner Dorothy E. Review: Knowledge Management and Knowledge Management Systems. // Conceptual Foundations and Research Issues, 2001. — URL <http://web.njit.edu/~jerry/CIS-677/Articles/Alavi-MISQ-2001.pdf>.

37. Anderberg M.R. Cluster Analysis for Applications. — Academic Press, New York, 1973.

38. Apetrei D., Postolache P., Golovanov N., Albu M., Chicco G. Hierarchical Cluster Classification of Half Cycle Measurements in Low Voltage Distribution Networks for Events Discrimination. // International Conference on Renewable Energies and Power Quality (ICREPQ'09) Valencia (Spain), 15th to 17th April, 2009.

39. Architecture for Text Engineering. // In Proceedings of the 16th Conference on Computational Linguistics (COLING96), 1996.

40. Baeza R., Ribeiro B. Modern Information Retrieval. 1999.

41. Berners-Lee Tim, James Hendler and Ora Lassila. The Semantic Web. // Scientific American Magazine. May Issue, 2001. — URL

<http://www.sciam.com/article.cfm?id=the-semantic-web&print=true>. Retrieved March 26,2008.

42. Boguraev B., Briscoe T. Large lexicons for natural language processing: Utilising the grammar coding system of LDOCE. // Computational Linguistics, 1987.

43. Berners-Lee Tim, Fischetti Mark. Weaving the Web. — Harper SanFrancisco. chapter 12. 1999.

44. Bloehdorn S., Hotho A. Text classification by boosting weak learners based on terms and concepts. // In Proceedings of the 4th IEEE International Conference on Data Mining (ICDM), 2004, pp. 331-334.

45. Brewster C., Ciravegna F., Wilks Y. Background and foreground knowledge in dynamic ontology construction. // In Proceedings of the Semantic Web Workshop SIGIR'03, Toronto, Canada, 2003.

46. Bruce G. Buchanan and David C. Wilkins (editors). Readings in Knowledge Acquisition and Learning: Automating the Construction and Improvement of Expert Systems. San Mateo: Morgan Kaufmann, 1993.

47. Canter D., Rivers R, and Graham Storrs. Characterizing user navigation through complex data structures. // Behavior and Information Technology, Vol. 4, No. 2, 1985.—pp. 93-102.

48. Caraballo S.A. Automatic Acquisition of a Hypernym-Labeled Noun Hierarchy from Text. — Brown University. Ph.D. Thesis. 2001.

49. Celson Lima, Alain Zarli, Graham Storer, Jaime Acevedo-Alvarez. A Historical Perspective on the Evolution of Controlled Vocabularies in Europe. // Complex Systems Concurrent Engineering, 2007 — Springer.

50. Claudio Carpineto, Giovanni Romano. Concept Data Analysis: Theory and Applications // Published Online: 13 SEP 2005.

51. Cederberg S., Widdows D. Using LSA and Noun Coordination Information to Improve the Precision and Recall of Automatic Hyponymy Extraction. // Proc. of CoNLL-2003, 2003. — pp. 111-118.

52. Charniak E., Berland M. Finding parts in very large corpora. // In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL), 1999.—pp. 57-64.

53. Ciaramita M., Hofmann T., Johnson M. Hierarchical Semantic Classification: Word Sense Disambiguation with World Knowledge. // Proc. of IJCAI, 2003, pp. 817-822.

54. Ciaramita M. & Johnson M. Supersense Tagging of Unknown Nouns inWordNet. // In Proceedings of EMNLP-03, Sapporo, Japan, 2003. — pp 168-175.

55. Cimiano P., Pivk A., Schmidt-Thieme L., & Staab S. Learning Taxonomic Relations from Heterogeneous Evidence. // In Ontology Learning from Text: Methods, Applications and Evaluation, IOS Press, 2005. —pp. 59-73.

56. Cimiano P., Pivk A., Schmidt-Thieme L., & Staab S. Learning taxonomic relations from heterogeneous sources of evidence. // In Proceedings of the ECAI 2004 Ontology Learning and Population Workshop, 2004.

57. Cimiano P. and Staab S. Learning by Googling. // SIGKDD Explorations, Volume 6, Issue 2, 2004. — pp. 24-34.

58. Cimiano P., Staab S., & Tane J. Automatic acquisition of taxonomies from text: FCA meets NLP. // In Proceedings of the PKDD/ECML'03 International Workshop on Adaptive Text Extraction and Mining (ATEM), 2003. — pp. 10-17.

59. Cimiano P. and Staab S. and Tane J. Deriving Concept Hierarchies from Text by Smooth Formal Concept Analysis // In Proceedings of the GI Workshop Lehren -Lernen - Wissen - Adaptivit (LLWA), 2003 — pp. 72-79.

60. Cluster Analysis. — URL <http://www.statsoft.com/textbook/stcluan.html>.

61. Clustering Algorithm Details. — URL <http://ei.cs.vt.edu/~cs5604/f95/cs5604cnCL/CL-alg-details.html>

62. Comez-Perez A, Juristo N, Montes C, Pazos J. Ingenieria del Conocimiento: Diseno y Construction de Sistemas Expertos.// Ceura, Madrid, Spain, 1997.

63. Corcho O. and Gomez-Perez A. Evaluating Knowledge Representation and Reasoning Capabilities of Ontology Specification Languages. // In Proceedings of the ECAI 2000 Workshop on Application of Ontologies and Problem-Solving Methods, Berlin, 2000.

64. Doan A., Madhavan J., Domingos P. and Halevy P. Ontology matching: A machine learning approach. // In S. Staab and R. Studer, editors, Handbook on Ontologies in Information Systems. Springer-Velag, 2003.

65. Duffy T.M. Technical Manual Production: An Examination of Four Systems. // CDC Technical Report No. 19. Carnegie- Mellon University, Pittsburg, 1985.

66. Etzioni O., Cafarella M., Downey D., Kok S., Popescu A., Shaked T., Soderland S., Weld D., and Yates A. Web-scale information extraction in knowitall. // In Proceedings of WWW-04,2004.

67. Etzioni O., Cafarella M., Downey D., Popescu A., Shaked T., Soderland S., Weld D., and Yates A. Methods for domain-independent information extraction from the web: An experimental comparison. // In Proceedings of AAAI-2004, 2004.

68. Martha W. Evens. Structuring the lexicon and the thesaurus with lexical-semantic relations. // Final report to the National Science Foundation on grant 1ST-1981.

69. Faure D. and N'edellec C. ASIUM: Learning subcategorization frames and restrictions of selection. // In 10th Conference on Machine Learning Workshop on Text Mining, Chemnitz, Germany, 1998.

70. Fellbaum C. WordNet: «An Electronic Lexical Database». — Cambridge, MA: MIT Press, 1998.

71. Ferligoj A. Razvrscanje v skupine. Teorija in uporaba v druzboslovju. — Metodoloski zvezki, 4, Ljubljana, 1989.

72. Field A. Cluster Analysis. — 2000.

73. Finding the Similarities Between Objects — URL <http://radio.feld.cvut.cz/matlab/toolbox/stats/tutori41.html>.

74. Firth J.R. A synopsis of linguistic theory 1930-1955. // In Studies in Linguistic Analysis, pp. 1-32. Oxford: Philological Society. Reprinted in F.R. Palmer (ed.), Selected Papers of J.R. Firth 1952-1959, London: Longman (1968).

75. Firth J. R. Firth developed a particular view of linguistics that has given rise to the adjective. — 1957.

76. Hermine Njike Fotzo, Patrick Gallinari. Information Access via Topic Hierarchies and Thematic Annotations from Document Collections. // ICEIS (2) 2004. — pp. 69-76

77. Gan G., Ma C. and Wu J. Data Clustering: Theory, Algorithms and Applications // ASA-SIAM Series on Statistics and Applied Probability, 2007.

78. Ganter B. and Wille R. Mathematical Foundations. — Springer, Berlin, 1999. [cited at p. 39, 40]

79. Ganter B., & Wille. Formal Concept Analysis. Mathematical. Foundations. Berlin: Springer., R. (1999b). Contextual Attribute Logic. In W. Tepfen

80. Garey M. and Johnson D. Computers and Intractability: A Guide to the Theory of NPcompleteness. — Freeman and Co., 1979.

81. Gelbukh & Sidorov. Zipf and Heaps Laws' Coefficients Depend on Language. // Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18-24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, SpringerVerlag. — pp. 332-335

82. Gelbukh A., Sidorov G., Guzman-Arenas A. Document Indexing with a Concept Hierarchy. // J. Computación y Sistemas. Revista Iberoamericana de Computación, ISSN 1405-5546 (included in the Index of Excellence of CONACyT), Vol. VIII No. 4, April-June 2005, pp. 281-292.

83. Gerber A.J., Barnard A. & Van der Merwe, Alta. A Semantic Web Status Model. // Integrated Design & Process Technology, Special Issue: IDPT, 2006

84. Gerber A., Van der Merwe A., Barnard A. A Functional Semantic Web architecture. // European Semantic Web Conference 2008, ESWC'08, Tenerife, June 2008.

85. Girju R., Badulescu A., and Moldovan D. Learning Semantic Constraints for the Automatic Discovery of Part-Whole Relations. // In the Proceedings of the Human Language Technology Conference (HLT), 2003.

86. Grefenstette G. Evaluation techniques for automatic semantic extraction: Comparing syntactic and window-based approaches. // In Proceedings of the Workshop on Acquisition of Lexical Knowledge from Text, 1992

87. Grefenstette G. Explorations in Automatic Thesaurus Construction. — Kluwer, 1994.

88. Gordon A.D. A Survey of Constrained Classification. // Computational Statistics & Data Analysis, 21,1996. — pp. 17-29.

89. Gordon A.D. Classification (Second edition). — Chapman and Hall/CRC, Boca Raton. 1999. —256 pp.

90. Gruber Th. What is an Ontology — URL <http://www-ksl.stanford.edu/kst/what-is-an-ontology.html>

91. Guarino N. Understanding, Building, and Using Ontologies. — URL <http://ksi.cpsc.ucalgary.ca/KAW/KAW96/guarino/guarino.html>

92. Harris Z. Distributional structure. Word 10 (23), 1954. — pp. 146-162.

93. Harris Z. Mathematical Structures of Language. Wiley. 1968.

94. Hearst M. Automatic acquisition of hyponyms from large text corpora. // In Proceedings of the 14th International Conference on Computational Linguistics (COLING), 1992. — pp. 539-545.

95. Herman Ivan. "W3C Semantic Web Activity". W3C. — URL <http://www.w3.org/2001/sw/>. Retrieved March 13,2008.

96. Hierarchical Clustering — URL <http ://www.kxcad.net/cae_MATLAB/toolbox/stats/bq_679x-3 .html>.

97. Hotho A., Staab S., & Stumme G. Ontologies improve text document clustering. 11 In Prodeedings of the IEEE International Conference on Data Mining (ICDM), 2003.—pp. 541-544.

98. Hovy E. A Standard for Large Ontologies. — URL <http://www.isi.edu/nsf/papers/hovy2.htm>.

99. IR Multilingual Resources at UniNE — URL <http://members.unine.ch/jacques.savoy/clef/index.html>

100. Iwanska L., Mata N., & Kruger K. Fully automatic acquisition of taxonomic knowledge from large corpora of texts. // In Iwanksa L., & Shapiro S. (Eds.), Natural Language Processing and Knowledge Processing, MIT/AAAI Press, 2000 — pp. 335-345.

101. Jasper R. On bigrams for text categorization. — DDLbeta newsgroup, 2003

102. Joining Clusters: Clustering Algorithms. — URL <http://149.170.199.144/multivar/ca_alg.htm, 19.08.2004>.

103. Kalyanpur A. et al. OWL: «Capturing Semantic Information using a Standardized Web Ontology Language». // Multilingual Computing & Technology Magazine, Vol. 15, issue 7, Nov 2004. — URL http://www.mindswap.org/papers/MultiLing.pdf

104. Lin D., Pantel P. Concept Discovery from Text — URL http://www.patrickpantel.com/Download/Papers/2002/coling02.pdf

105. Mandelbrot B. Information Theory and Psycholinguistics. // In B.B. Wolman and E. Nagel. Scientific psychology, 1965.

106. Mandelbrot B. Information Theory and Psycholinguistics. In R.C. Oldfield and J.C. Marchall. Language. Penguin Books, 1968.

107. Markert K., Modjeska N., & Nissim M. Using the web for nominal anaphora resolution. // In EACL Workshop on the Computational Treatment of Anaphora, 2003.

108. Mathworks: Accelerating the pace of engineering and science — URL <http://www.mathworks.com>

109. McDonald S., and Ramscar M. Testing the distributional hypothesis: The influence of context on judgements of semantic similarity. // In Proceedings of the 23rd Annual Conference of the Cognitive Science Society, 2001. — pp. 611-616.

110. Miller and Charles, 1991. — URL <http://ebookbrowse.com/225-06-miller-charles-1991 -pdf-d96134007>

111. Mucha H-J. and Sofyan H. Cluster Analysis. 2003. — URL <http://www.xplore-stat. de/tutorials/clustnode3 .html>

112. Mouillot D., Lepretre A. Introduction of relative abundance distribution (RAD) indices, estimated from the rank-frequency diagrams (RFD), to assess changes in community diversity. // Environmental Monitoring and Assessment (Springer) 63 (2), 2000. — pp. 279-295.

113. Muegge Uwe. Disciplining words: What you always wanted to know about terminology management. 2007. — URL <http://www.tekom.de/upload/alg/tcworld_307.pdf>

114. Nanni M. Speeding-up hierarchical agglomerative clustering in presence of expensive metrics. // PAKDD 2005

115. Pasca M. Weakly-Supervised Discovery of Named Entities Using Web Search Queries. // Proceedings of the 16th ACM Conference on Information and Knowledge Management (CIKM-2007), 2007. — pp. 683-690.

116. Paolillo J., Pimienta D., Prado D. A collection of papers et «Edited with an introduction by UNESCO Institute for Statistics Montreal», Canada.

117. Roberts Matt T. Bookbinding and the Conservation of Books. A Dictionary of Descriptive Terminology. ISBN-0-8444-0366-0, 1982. — 318 p.

118. Popescu A.-M., Etzioni A.Y. Class Extraction from theWorld WideWeb. 2004

119. Ricardo & Berthier. Modern Information Retrieval. ACM Press / Addison-Wesley. C. Buckley, et al. (1994).

120. Rosch Eleanor. Prototype classification and logical classification: the two systems. // Ellin Scholnick (ed), New Trends in Conceptual Representation. Hillsdale, N.J.: Erlbaum, 1981. — pp. 73-85.

121. Ryu P., Choi K. Taxonomy Learning using Term Specificity and Similarity. // In Proceedings of the 2nd Workshop on Ontology Learning and Population, 2006. — pp 41-48.

122. Sanderson M., & Croft B. Deriving concept hierarchies from text. // In Research and Development in Information Retrieval, 1999. —pp. 206-213.

123. Schnittker J. Cluster Analysis Presentation. — URL <http://www.indiana.edu/~socsrp/cluster_analysis.pdf>

124. Sébastien Ferré, Rudolph Sebastian (Eds.). Formal Concept Analysis. 2009, XII, 341 p.

125. Shannag A.N., Yusupov R., Alexandrov V. Student Relationship in Higher Education Using Data Mining Techniques. // Global Journal of Computer Science and Technology — vol. 10, Issue 11 (Ver. 1.0), October 2010 — p. 71-76.

126. Shannaq B., Alexandrov V. Clustering the Arabic Documents (CAD). // Universal Journal of Applied computer Science and Technology (UNIASCIT), Vol 1 (1), 2011.

127. Shannaq B. Diagonal Name Search For Arabic (DNSA). // First E-Technologies and Environment Conference (ETEC08) 15-16 April, 2008 Sohar, Oman.

128. Shannaq B. Language Independent Product Name Search (LIPNS). // First IEEE International Conference on the Applications of Digital Information and Web Technologies (ICADIWT 2008), VSB- Technical University of Ostrava, Czech Republic August 4- 6, 2008.

129. Shannaq B., Arockiasamy S., John D Haynes. Strategic Rating Factors for Finding the Richness of Text in Different formats for Arabic and English Text. // International Information Systems Conference (iSC), 2011.

130. Shannaq B., Kaneez F. On the development of Arabic, English glossaries in business tourism. // ACIT'2011, The International Arab Conference on Information Technology, Naif Arab University for Security Science (NAUSS), Riyadh, Saudi Arabia, 2011.

131. Shannaq B., Kaneez F. Predicting Consumer Buying Behavior Pattern using Classification Technique. // International Information Systems Conference (iSC), 2011.

132. Sheikholeslami G., Chatteijec S., and Zhang A. WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases. 1998. — URL <http://www.cs.sfii.ca/CourseCentral/459/han/papers/sheikholeslami98.pdf>

133. SPSS Statistical Algorithms. SPSS Inc., 1985.

134. Tan M., Wang Y. F., and Lee C. D. The use of bigrams to enhance text categorization. // Information Processing and Management, 38(4):529-546, 2002.

135. Technical writing — URL <http ://en.wikipedia. org/wiki/Technical_writing>

136. The Consulate General of the Sultanate of Oman - Australia — URL <http ://www. oman. org. au/tourism>

137. The Distributional Hypothesis. // Rivista di Lingüistica (Italian Journal of Linguistics), 20 (1).

138. The University of Sussex — URL <http://www.sussex.ac.uk/Users/andyfiteaching/pg/cluster.pdf>

139. Vapnik V. N. Statistical Learning Theory. John Wiley & Sons Inc., New York, 1998.

140. Vapnik V. The nature of statistical learning theory, Springer-Verlag, NY, USA, 1995.

141. Voorhees E. Query expansion using lexical-semantic relations. // In Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information. Retrieval, 1994. —pp. 61-69.

142. Walker D. Query Expansion using Thesauri: Previous Approaches and Possible New Directions. University of California, Los Angeles, 2001.

143. Webb Andrew R. Statistical pattern recognition.

144. West D. B. Introduction to Graph Theoiy. Second Edition, Prentice-Hall, 2001.

145. Wille R. Introduction to formal concept analysis. // In G. Negrini. (Ed.), Modelli e modellizzazione. Models and modelling. 1997.

146. Yarlett D. Language Learning Through Similarity-Based Generalization. PhD Thesis, Stanford University, 2008

147. Zho Y. & Karypis G. Hierarchical Clustering Algorithms for Document Datasets. // Data Mining and Knowledge Discovery, Vol. 10 No. 2, March 2005, pp. 141168.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Боумедин Ахмад Шаннаг

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов2010 год, кандидат технических наук Мокроусов, Максим Николаевич

Введение диссертации (часть автореферата) на тему «Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев»

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Методы и программные средства для анализа документов на основе модели предметной области2006 год, кандидат физико-математических наук Сидорова, Елена Анатольевна

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Боумедин Ахмад Шаннаг

Список литературы диссертационного исследования кандидат технических наук Боумедин Ахмад Шаннаг, 2011 год