Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат наук Филиппов, Алексей Александрович

  • Филиппов, Алексей Александрович
  • кандидат науккандидат наук
  • 2013, Ульяновск
  • Специальность ВАК РФ05.13.12
  • Количество страниц 168
Филиппов, Алексей Александрович. Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей: дис. кандидат наук: 05.13.12 - Системы автоматизации проектирования (по отраслям). Ульяновск. 2013. 168 с.

Оглавление диссертации кандидат наук Филиппов, Алексей Александрович

Оглавление

Список сокращений

Введение

1 Анализ методов структуризации архивов текстовых документов

1.1 Обзор моделей текстовых документов в задачах интеллектуального анализа

1.1.1 Модель документа «множество слов»

1.1.2 Модели документа, учитывающие взаимное положение слов

1.2 Методы индексирования текстовых документов

1.3 Структуры для хранения результатов индексирования текстовых документов

1.4 Классификация методов кластеризации

1.4.1 Задача кластерного анализа

1.4.2 Меры близости, используемые в алгоритмах кластеризации

1.4.3 Классификация алгоритмов кластеризации

1.4.4 Иерархические алгоритмы кластеризации

1.4.5 Неиерархические алгоритмы кластеризации

1.5 Интеллектуальные методы индексирования и кластеризации текстовых документов

1.5.1 Методы мягких вычислений в задачах индексирования и кластеризации текстовых документов

1.6 Применение прикладных онтологий в задачах интеллектуального анализа текстовых документов

1.7 Особенности технических документов как ресурсов электронного архива

1.8 Анализ существующих программных систем управления электронными архивами текстовых документов

1.9 Цели и задачи исследования

Онтологические модели и методы структуризации электронного архива на основе кластеризации

2.1 Формальная модель онтологии электронного архива

2.1.1 Основные требования к онтологии с точки зрения процесса проектирования

2.1.2 Структурно-аналитическая модель прикладной онтологии

2.2 Онтологическая модель технического документа как ресурса электронного архива

2.2.1 Представление технического документа в контексте онтологии предметной области

2.2.2 Формальная онтологическая модель документа

2.2.3 Онтологически-ориентированное индексирование технических документов

2.3 Метод структуризации электронного архива на основе онтологии

2.3.1 Формальная мера расстояния между документами

с учетом онтологии предметной области

2.3.2 Адаптированный РСМ-метод кластеризации документов электронного архива

2.4 Генетическая модель настройки параметров семантических отношений онтологии

2.5 Формальный критерий эффективности применения навигационной структуры

2.6 Выводы по главе

Разработка программной системы интеллектуального электронного архива технических документов

3.1 Структурно-функциональное решение программной системы

3.1.1 Описание функциональных возможностей подсистем хранения данных

3.1.2 Описание функциональных возможностей подсистем интеллектуального анализа документов

3.2 Описание проекта программной системы

3.2.1 Иерархия классов

3.2.2 Основные алгоритмы программной системы

3.3 Выводы по главе

4 Анализ адекватности разработанных моделей и методов на основе вычислительных экспериментов

4.1 Анализ временных затрат на процессы индексирования и структуризации множества технических документов

4.2 Исследование параметров генетической оптимизации в задаче онтологически-ориентированного индексирования

4.3 Математическая модель оценки качества структуризации

4.4 Сравнительный анализ эффективности адаптированного FCM-алгоритма кластеризации

4.5 Анализ результатов вычислительных экспериментов на множестве документов электронного архива ФНПЦ ОАО «НПО «Марс»

4.6 Выводы по главе

Заключение

Библиографический список

А Акт об использовании результатов диссертации

Б Исходные коды основных алгоритмов программной системы

Б.1 Алгоритм нахождения расстояния между двумя онтологическими представлениями ТД

Б.2 FCM-алгоритм кластеризации адаптированный для работы с традиционными представлениями ТД

Б.З FCM-алгоритм кластеризации адаптированный для работы с онтологическими представлениями ТД

Б.4 Алгоритм формирования онтологического представления

ТД

Б.5 Алгоритм генетической оптимизации онтологического

представления ТД

В Онтология предметной области

В.1 Схема онтологии

В.2 Фрагмент онтологии предметной области

Г Представление технического документа в ИЭА

Г.1 Фрагмент предобработанного ТД

Г.2 Фрагмент онтологического представления ТД

Список сокращений

АС - автоматизированная система. ЖЦ - жизненный цикл.

ИЭА - интеллектуальный электронный архив.

НИОКР - научно-исследовательские и опытно-конструкторские работы.

ОКР - опытно-конструкторские работы.

ООИ - онтологически-ориентированное индексирование.

00С - онтологически-ориентированная структуризация.

ОП - онтологическое представление.

САПР - система автоматизированного проектирования.

ТД - технический документ.

ТП - традиционное представление.

Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Введение диссертации (часть автореферата) на тему «Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей»

Введение

Современная крупная проектная организация обладает значительным по объему электронным архивом конструкторской и технической документации, большая часть которой представлена в текстовом неструктурированном виде. Фактически, такой электронный архив текстовой документации содержит в себе опыт и знания большого количества высококвалифицированных специалистов, которые на протяжении многих лет занимались разработкой и проектированием сложных систем. В работах таких исследователей, как Норенков И.П., Тарасов В.В., Collins Н. и др. отмечается, что при увеличении объема электронного архива затрудняется анализ документов по заранее заданным реквизитам, а от лиц, занимающихся проектированием сложных технических систем, требуются навыки в области семантической обработки большого объема технической документации, а также глубоких знаний предметной области. В результате, довольно часто важный опыт предыдущих разработок, зафиксированный в электронных архивах, остается невостребованным и, как следствие, увеличивается время выполнения цикла опытно-конструкторских работ.

Повышение конкурентоспособности современных изделий, выпускаемых предприятиями невозможно без сокращения сроков выполнения научно-исследовательских и опытно-конструкторских работ. В работах [26, 45] отмечается, что именно на начальных этапах разработки новых систем принципиально важным является использование опыта предыдущих проектов, зафиксированных в технических документах. Решение указанной проблемы может основываться на применении интеллектуальных методов и алгоритмов анализа технических документов проектной организации с целью построения навигационной структуры электронного архива. Представление содержимого архива в виде иерархии кластеров, содержащих технические документы, близкие по тематике в контексте используемых стандартов проектируемых систем, позволяет сократить пространство поиска и тем самым ускорить процедуры нахождения

требуемых документов по их содержанию.

Для эффективного применения методов интеллектуального анализа текстовой конструкторской и технической документации не достаточно рассматривать отдельный документ как набор терминов из ограниченной предметной области. Количество используемых терминов в документах настолько велико, что применение известных методов кластеризации текстовых документов является затруднительным по причине их невысокой эффективности. К тому же качество распределения технических документов по кластерам часто оставляет желать лучшего. Учет специфики проектных знаний приводит к необходимости формирования онтологии электронного архива особой структуры, включающей в себя систему понятий предметной области, семантические отношения между ними и функции интерпретации. Поскольку любая проектируемая система изменяет свое состояние в соответствие с жизненным циклом, электронный архив должен обладать функциями адаптации к различным этапам (стадиям) жизненного цикла. Таким образом, электронный архив проектной организации должен обладать свойствами интеллектуальной системы. Ведущие исследователи в области онтологических систем, такие как Хорошевский В.Ф., Загорулько Ю.А., Гаврилова Т.А., Соловьев В.Д., Лукашевич Н.В., Добров Б.В., Ландэ Д.В., Смирнов C.B., Gruber T.R., Berners-Lee T., Uschold M. и другие отмечают актуальность исследований, основанных на онтологическом подходе. В трудах данных исследователей отмечается важность использования онтологического инжиниринга в процессе проектирования. В настоящее время не существует математических методов и алгоритмов, позволяющих структурировать содержание электронного архива текстовых документов, основываясь на их содержании с учетом специфики предметной области проектной организации в контексте жизненного цикла проектируемых систем. Следовательно, актуальным является разработка моделей, методов и алгоритмов построения навигационной структуры электронного архива технической документации на основе предметно-ориентированной кластеризации документов.

Цель диссертационной работы

Целью диссертации является разработка и реализация моделей и алгоритмов структуризации электронного архива технической документации, обеспечивающих снижение времени выполнения процессов информационной поддержки в принятии проектных решений.

Предмет исследования

Модели, методы и средства поддержки принятия проектных решений при формировании навигационной структуры электронного архива технической документации.

Объект исследования

Объектом исследования является электронный архив технической документации крупной проектной организации.

Задачи исследования

В соответствии с целью работы актуальными являются следующие задачи исследования:

• Провести сравнительный анализ существующих современных методов, алгоритмов и систем структуризации содержимого электронных архивов, применяемых в проектных организациях. Рассмотреть их ограничения в контексте жизненного цикла проектируемых систем.

• Рассмотреть возможность применения методов онтологического анализа для решения задач структуризации технической документации с целью построения навигационной структуры электронного архива.

• Разработать формальную модель технического документа электронного архива в пространстве признаков, определяемых прикладной онтологией с учетом жизненного цикла проектируемых систем.

• Разработать адаптируемые к стадиям проектирования методы онтологически-ориентированного индексирования и кластеризации технических документов с целью формирования навигационной структуры электронного архива.

• Разработать необходимые программные средства, позволяющие структурировать содержание электронного архива технических документов, провести вычислительные эксперименты, доказывающие их эффективность, внедрить полученные результаты в практику проектной организации.

Методы исследования

В диссертационной работе применяются методы онтологического анализа, теории графов, теории нечетких систем и мягких вычислений, кластерного анализа, объектно-ориентированного программирования.

Научная новизна

Научная новизна результатов исследования заключается в следующем:

1. Предложена новая формальная модель онтологии электронного архива технической документации, отличающаяся многоуровневой структурой и позволяющая описывать состояние содержимого электронного архива в контексте выполненных проектов, применяемых стандартов проектирования и жизненных циклов систем.

2. Разработана формальная онтологическая модель технического документа как ресурса электронного архива проектной организации, позволяющая решать задачу семантической структуризации содержимого электронного архива.

3. Предложен метод структуризации технических документов, отличающийся способом адаптации РСМ-метода кластеризации и позволяющий формировать иерархическую навигационную структуру содержимого электронного архива проектной организации, учитывая жизненный цикл проектируемой системы.

4. Предложен алгоритм генетической оптимизации, позволяющий производить параметрическую настройку весов семантических отношений интеллектуального электронного архива технической документации на основе результатов экспертной классификации фрагмента содержимого электронного архива.

Практическая значимость работы

Созданная программная система онтологически-ориентированной структуризации текстовых технических документов электронного архива практически применяется в процессе проектирования автоматизированных систем и позволяет достичь улучшенных технико-экономических показателей объектов проектирования за счет сокращения времени выполнения опытно-конструкторских работ.

Разработанные модели и алгоритмы реализованы в форме программной системы и внедрены в деятельность ФНПЦ ОАО «НПО «Марс» (г. Ульяновск). Практическое использование результатов диссертационной работы подтверждено соответствующими документами о внедрении.

Основания для выполнения работы

Данная научная работа выполнялась в рамках тематического плана научных исследований Федерального агентства по образованию в 2009 и

2010 годах, была поддержана грантами РФФИ № 10-07-00064-а в 2010,

2011 и 2012 годах, № 12-01-97010-р_поволжье_а в 2012 году.

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена результатами математического моделирования, результатами экспериментов и испытаний, а также результатами использования материалов диссертации в проектных подразделениях организации.

Основные положения, выносимые на защиту

1. Модель прикладной онтологии электронного архива технической документации является адекватной и эффективной для решения задачи построения навигационной структуры содержимого электронного архива.

2. Онтологическая модель технического документа является достаточной для представления содержания информационного ресурса электронного архива в контексте жизненного цикла для задачи онтологически-ориентированной структуризации.

3. Адаптация метода структуризации технических документов элек-

тронного архива, заключающаяся в применении новой меры расстояния между документами и учитывающая состояние предметной области, представленное в онтологии, является эффективной.

4. Разработанный комплекс программ как подсистема электронного архива технической документации в полной мере реализует все описанные теоретические положения и позволяет сократить время поиска технических документов.

Апробация работы

Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на 43-й научно-технической конференции УлГТУ (г. Ульяновск, 2009 г.); всероссийской конференции с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации» (г. Ульяновск, 2009 год); семинаре с международным участием «Интеллектуальный анализ временных рядов» (г. Ульяновск, 2010 год); 45-й научно-технической конференции УлГТУ (г. Ульяновск, 2011 г.); У1-ой международной научно-технической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (г. Коломна, 2011 т.); всероссийской школе-семинаре «ИМАП-2011» (г. Ульяновск, 2011 г.); молодежной научно-технической конференции «Автоматизация процессов управления» (г. Ульяновск, 2011 г.); 46-й научно-технической конференции УлГТУ (г. Ульяновск, 2012 г.); 4-й всероссийской научно-технической конференции аспирантов, студентов и молодых ученых «ИВТ-2012» (г. Ульяновск, 2012 г.); 1-м международном симпозиуме «Гибридные и синергетические интеллектуальные системы: теория и практика» (г. Калининград, 2012 г.); 13-ой национальной конференции по искусственному интеллекту с международным участием «КИИ-2012» (г. Белгород, 2012 г.); всероссийской школе-семинаре «ИМАП-2012» (г. Ульяновск, 2012 г.); 47-й научно-технической конференции УлГТУ (г. Ульяновск, 2013 г.); Ш-й международной научно-технической конференции «08Т1Б-2013» (г. Минск, 2013 г.); УН-ой международной научно-практической конференции «Интегрированные модели и мягкие вычис-

ления в искусственном интеллекте» (г. Коломна, 2013 г.).

Научные публикации

По результатам работы было опубликовано 18 статей, из которых 4 в журналах из перечня ВАК, и 2 тезиса докладов. Получены свидетельства о государственной регистрации программ для ЭВМ № 2012617586 (2012 г.), 2012617589 (2012 г.).

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Основное содержание работы изложено на 168 страницах, включая 35 рисунков и 11 таблиц. Список использованных источников состоит из 131 наименования.

В первой главе содержится анализ методов индексирования и кластеризации текстовых документов. Рассмотрена модель документа «множество слов» и модели, учитывающие взаимное положения слов. Приведена классификация существующих методов индексирования текстовых документов. Представлена классификация существующих методов индексирования и кластеризации текстовых документов в задачах интеллектуального анализа. Рассмотрено применение методов мягких вычислений в задачах индексирования и кластеризации. Описаны особенности технических документов как ресурсов электронного архива. Приведен анализ существующих программных систем управления электронными архивами технических документов. Во второй главе проведена формализация модели онтологии для решения задачи анализа электронного архива технической документации с учетом жизненного цикла проектируемых систем. Рассмотрена онтологическая модель технического документа как ресурса электронного архива. Описаны методы онтологически-ориентированного индексирования технических документов на основе онтологии предметной области. Представлен адаптированный генетический алгоритм для решения задачи определения доминирующего понятия в текстовом фрагменте технического документа. Рассмотрен метод структуризации электронного архива на основе онтологии с учетом стадий проектирования. Представлена генетическая модель настройки па-

раметров семантических отношений онтологии. Рассмотрен формальный критерий эффективности применения навигационной структуры электронного архива технических документов. В третьей главе рассмотрены архитектура и функциональные возможности программной системы, реализующей онтологически-ориентированные методы индексирования и структуризации технических документов в интеллектуальном электронном архиве. Структуры входных и выходных данных, программное обеспечение и технологические средства. В четвертой главе представлена модель оценки качества кластеризации технических документов, описаны результаты вычислительных экспериментов:

• выполнялся анализ временных затрат на процессы индексирования и структуризации электронного архива технической документации;

• настаивались параметры генетического алгоритма для решения задачи онтологического представления технического документа;

• оценивалось качество структуризации множества документов электронного архива ФНПЦ ОАО «НПО «Марс»;

• оценивалось снижение времени выполнения проектных процедур с использованием навигационной структуры электронного архива.

Личный вклад

Все результаты, составляющие содержание диссертации, получены автором самостоятельно.

Глава 1

Анализ методов структуризации архивов текстовых документов

В настоящее время во многих проектных организациях осуществляется перевод архива технической документации в формат электронного архива, в связи с этим появилась необходимость в систематизации и автоматизации работы с данным электронным архивом технической документации. Базовыми функциями электронного архива являются [45]:

• управление документами и иерархической структурой архива;

• оцифровка, трансформация и представление бумажных документов в разных форматах;

• ускорение занесения большого массива типовых и разнородных документов в систему;

• управление Web-контентом;

• управление задачами и отслеживание статуса их выполнения;

• быстрый и удобный поиск документов.

В работе [28] дано следующее определение понятию информационный поиск. Информационный поиск - это процесс поиска в большой коллекции (хранящейся, как правило, в памяти компьютеров) некоего неструктурированного материала (обычно - документа), удовлетворяющего информационные потребности.

К основным задачам информационного поиска относятся [9, 28]:

• информационный поиск в классическом понимании (поиск документов по запросу пользователя);

• автоматическая кластеризация, рубрикация или фильтрация документов;

• выделение информации из текста.

Для эффективного поиска информации в электронных архивах применяются различные методы предобработки и интеллектуального ана-

лиза текстовых документов [4]: удаление стоп-слов, стемминг (морфологический поиск), ]М-граммы, приведение регистра, извлечение ключевых понятий из текста. Данные методы применяется для снижения времени поиска информации и устранения незначащих слов [4]. Совокупность характеристик текстового документа, учитывающаяся при его обработке и анализе называется моделью документа [9].

1.1 Обзор моделей текстовых документов в задачах интеллектуального анализа

1.1.1 Модель документа «множество слов»

Самой простейшей моделью текстового документа в задачах интеллектуального анализа является булевская модель. При использовании данной модели учитывается лишь факт наличия термина в документе. Развитием данной модели является подход, при котором каждому термину документа соответствует некоторый «вес», что превращает модель «множество слов» в модель «множество пар слово-вес» [2, 4, 8, 14, 25, 48, 56, 68, 115].

Булевская модель

В булевской модели текстовый документ представлен в виде матрицы, в которой указывается соответствие между документами и терминами, содержащимися в данных документах [74, 106, 121, 126]. В качестве словаря выступает множество Т = {¿1,..., £п}, где ^ ~~ термины документа, документ является подмножеством словаря и имеет вид И С Т, где

в е {о, 1}п.

Расширенная булевская модель

В отличие от булевской модели расширенная булевская модель описывает термины не бинарными величинами, а весовыми коэффициентами с использованием аппарата нечетких множеств [74, 106, 121, 126]. Таким образом, весовой коэффициент задается величиной из интервала [0, 1], таким образом, И Е [0,1]п.

Векторная модель

Векторная модель представляет документы матрицей терминов и документов [115]:

М =\F\x \D\,

где F = {/ь ..., fk,..., f2}- D = {di, ..., ..., dn}, d{ - вектор в 2-мерном пространстве Rz.

Множество F формируется из терминов документа, исключая термины с низкой и высокой частотой, данные пороговые значения определяются экспериментально. Исключение слов означает, что слова рассматриваются только как признаки [4].

Согласно [4, 115] каждому термину fk в документе di ставится в соответствие его вес £ [0,1], который обозначает важность этого термина для данного документа.

Матричная модель Матричная модель содержит множества из п документов и т терминов, встречающихся в одном или нескольких документах [74, 106, 121, 126]. Можно выделить три типа матрицы сопряженности:

• «доку мент-доку мент» D. Значение d[i,j] указывает на наличие общих терминов в г-м и j-м документах, либо равен количеству общих терминов в этих документах;

• «документ-термин» С. Значение с[г, j] указывает на наличие термина j в г-м документе, либо равен весу данного термина в документе;

• «термин-термин» Т. Значение t[i,j] указывает на наличие документов содержащих одновременно г-й и j-й термины, либо равен количеству таких документов.

1.1.2 Модели документа, учитывающие взаимное положение слов

Различные модели документа вида «множество слов» широко используются на практике, однако такое представление документа приводит к потере некоторой информации. Для решения данной проблемы при-

меняются модели документов, учитывающие взаимное положение слов [9, 75, 81, 85, 96, 102, 103, 108, 111, 116, 120, 121, 123, 126, 127, 130, 131].

Формирование многословных терминов

При использовании данного подхода происходит уточнение исходного массива терминов за счет введения псевдотерминов, состоящих из нескольких отдельных терминов, устойчиво формирующих вместе одно понятие. Наиболее простым методом вычисления многословных терминов является выделение из текстов всех пар или троек стоящих вместе слов, таким образом, многословные термины обычно формируются стоящими рядом в тексте словами [9].

Некоторые исследователи [75] предлагают подход, при котором индексируются только пары слов, часто встречающиеся в коллекции.

Разбиение документа на фрагменты

Данный подход предполагает, что документ разбивается на множество фрагментов, которые рассматриваются обособленно. Таким образом, модель документа представляет собой не одно множество терминов, а несколько связанных между собой множеств.

Как следует из работы [111] разбиение текста на фрагменты происходит с использованием сведений о неравномерности распределения терминов, так как значимые термины распределены в документе неравномерно (их количество возрастает во фрагментах, которые связаны по смыслу с данным термином и убывает в фрагментах, не связанных с данным термином).

В работе [102] описана модель документа, построенная на основе информации о взаимном расположении слов с использованием «скользящего окна». С помощью словаря определяется параметр CLC (Computing Lexical Cohesion), который, по мнению авторов, позволяет разбить документ на фрагменты, описывающие одну тему. Вес документа формируется из суммы весов фрагментов с наибольшим весом.

Модели, использующие синтаксический анализ

В данном случае под синтаксическим анализом понимается автомати-

ческий разбор текста и построение синтаксических структур входящих в его состав фраз, с использованием лингвистической информации о терминах и их взаимном расположении [108]. На основе результатов анализа формируются дополнительные маркеры, определяющие синтаксическую роль терминов. Определенным недостатком данного подхода является вероятностный характер распределения маркеров, что связано с неопределенностью синтаксического анализа текста на естественном языке.

Существует множество моделей представления текстовых документов в задачах интеллектуального анализа. На смену простой модели «множество слов» пришли более сложные модели, наиболее распространенными из них являются следующие:

1. Документ, как множество весов терминов.

2. Документ, как множество фрагментов.

Именно эти виды моделей и их комбинации получили широкое применение в современных системах интеллектуального анализа.

1.2 Методы индексирования текстовых документов

Для осуществления процесса интеллектуального анализа текстовых документов необходимо провести предварительную обработку их содержимого с помощью интеллектуальных методов анализа структурированного текста (Text Mining).

В работе [87] дано следующее определение данному понятию: обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Под неструктурированными данными следует понимать набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру.

Процесс интеллектуального анализа текстовых документов можно представить как последовательность нескольких шагов [4, 88, 106, 122]:

1. Поиск информации. Отбор документов для дальнейшего анализа и обеспечение их доступности.

2. Предварительная обработка документов. Преобразование документов в формат, с которым работают методы Text Mining. Целью таких преобразований является удаление лишних слов и придание тексту более строгой формы.

3. Извлечение информации. Извлечение из выбранных документов ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

4. Применение методов Text Mining. Извлечение шаблонов и отношений, которые содержатся в тексте.

5. Интерпретация результатов. Интерпретация заключается или в представлении результатов на естественном языке, или в их визуализации в графическом виде.

Этап предварительной обработки текста призван решить проблему наличия в документе слов не несущих полезную информацию, а также слов близких по смыслу. В результате данного этапа количество терминов в документе уменьшается за счет удаления неинформативных слов и приведения, близких по смыслу слов к единой форме, тем самым увеличивая скорость обработки и анализа.

Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов [4, 88, 106, 122]:

• удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа. Обычно заранее составляются списки таких слов, и в процессе предварительной обработки они удаляются из текста. Типичным примером таких слов являются вспомогательные слова и артикли, например: «так как», «кроме того» и т.п.;

• стемминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме. Нормальная форма исключает склонение слова, множественные формы, особенности устной речи и т.п. Например, слова «сжатие» и «сжатый» должны быть преобразованы в нормальную форму слова «сжимать». Алгоритмы морфологического разбора учитывают языковые особенности и вследствие этого являются языковозависимыми алгоритмами;

• N -граммы - это альтернатива морфологическому разбору и удалению стоп-слов. TV-грамма - это часть строки, состоящая из N символов. Например, слово «дата» может быть представлено 3-граммой «_да», «дат», «ата», «та_» или 4-граммой «_дат», «дата», «ата_», где символ подчеркивания заменят предшествующий или замыкающий слово пробел. По сравнению со стеммингом или удалением стоп-слов, iV-граммы менее чувствительны к грамматическим и типографическим ошибкам. Кроме того, N-граммы не требуют лингвистического представления слов, что делает данный прием более независимым от языка. Однако ЛГ-граммы, позволяя сделать текст более строгим, не решают проблему уменьшения количества неин: формативных слов;

Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Список литературы диссертационного исследования кандидат наук Филиппов, Алексей Александрович, 2013 год

Библиографический список

1. Айвазян CA., Бухштабер В.М., Енюков Е.С. Прикладная статистика. Классификация и снижение размерности. - М. : Финансы и статистика, 1983.

2. Андреев A.M., Березкин Д.В., Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов -Вестн. МГТУ. Сер. Приборостроение №. - М. : Изд-во МГТУ, 2003.

3. Андреев A.M., Березкин Д.В., Рымарь B.C., Симаков К. В. Использование технологии Semantic Web в системе поиска несоответствий в текстах документов. - URL: http://www.inteltec.ru/publish/articles/textan/rimar_RCDL2006.shtml . Дата обращения: 14.06.2011.

4. Баргесян A.A. Анализ данных и процессов: учеб. пособие. - Санкт-Петербург : БХВ-Петербург, 2009.

5. Бериков B.C., Лбов Г. С. Современные тенденции в кластерном анализе // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы». - 2008.

6. Берштейн Л.С., Боженюк А. В. Нечеткие графы и гиперграфы. - М. : Научный мир, 2005. - С. 41-49.

7. Вятченин Д.А. Нечеткие методы автоматической классификации. -Минск : Технопринт, 2004.

8. Гаврилова Т.А., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. - М. : Радио и связь, 1992.

9. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска. - URL: http://maxgubin.com/articles/thesis.pdf . Дата обращения: 12.06.2011.

10. ГОСТ 34.003-90 «Информационная технология. Комплекс стандартов на автоматизированные системы. Термины и определения» -URL: http://protect.gost.ru/v.aspx?control=7&id=137473 . Дата обращения: 11.05.2012.

11. Добров Б.В., Лукашевич Н. В., Синицин М. Н., Шапкин В. Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска. // Труды 7й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - Ярославль, 2005.

12. Дюран В., Оделл П. Кластерный анализ, Статистика. 1977.

13. Ермаков А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста. // Материалы международной конференции «Диалог 2008». - Москва, 2008. - С. 154-159

14. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии №7. -2002.

15. Загоруйко Н.Г. Прикладные методы анализа данных и знаний - Новосибирск : ИМ СО РАН, 1999.

16. Загоруйко Н.Г. и др. Система «Ontogrid» для построения онтологий // Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. конференции Диалог'2005. - М. : 2005. С. 146-152.

17. Загорулько Ю.А. Автоматизация сбора онтологической информации об интернет-ресурсах для портала научных знаний // Известия Томского политехнического университета №5. - 2008.

18. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Семантический подход к анализу документов на основе онтологии предметной области. - URL: http://www. dialog-21.ru/digests/dialog2006/materials/html/SidorovaE.htm . Дата обращения: 12.09.2012.

19. Карпенко А.П. Меры важности концептов в семантической сети онтологической базы знаний // Наука и образование: электронное научно-техническое издание № 7. - М. : Московский государственный технический университет им. Н.Э. Баумана, 2010..

20. Корячко В.П., Курейчик В.М., Норенков И.П. Теоретические основы САПР. - М: Энергоатомиздат, 1987.

21. Коваль С.А. Автоматическая переработка текста на базе объектно-предикатной системы // Структурная и прикладная лингвистика.

Вып. 5. - СПб. : 1998. С. 199-207.

22. Куприянов М.С., Ярыгин О.Н. Построение отношения и меры сходства нечетких объектов. // Техническая кибернетика №3. - 1998.

23. Ландэ Д.В. Добыча знаний. - URL: http://visti.net/ dwl/art/dz/ . Дата обращения: 08.09.2011.

24. Лексические и грамматические особенности технических документов. - URL: http://www.inkursy.ru/ljeksichjeskije-i-grammatichjeskije-osobjennosti-tjekhnichjeskikh-dokumjentov.html . Дата обращения: 23.04.2013.

25. Леонтьева H.H. К теории автоматического понимания естественных текстов: Семантические словари: состав, структура, методика создания - М. : Изд-во МГУ, 2001.

26. Малюх В. Н. Введение в современные САПР: Курс лекций. - М. : ДМК Пресс, 2010.

27. Мандель И.Д. Кластерный анализ, Финансы и статистика. - 1988.

28. Маннинг К., Рагхаван П., Шютце X. Введение в информационный поиск. Пер. с англ. - М. : ООО «И.Д. Вильяме», 2011.

29. Найханова Л.В. Основные аспекты построения онто-логий верхнего уровня и предметной области. - URL: http://window.edu.ru/resource/717/36717 . Дата обращения: 08.02.2013.

30. Наместников A.M., Чекина A.B., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов // Программные продукты и системы №4. - 2007. С. 10-13.

31. Наместников A.M., Филиппов A.A. Хранилище проектных документов // Тезисы докладов 43-й научно-технической конференции УлГ-ТУ «Вузовская наука в современных условиях» (26-31 января 2009 года). - Ульяновск : УлГТУ, 2009. С. 114-115.

32. Наместников A.M., Филиппов A.A. XML репозиторий проектных документов // Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации», 1-5 декабря 2009 г. Россия, Ульяновск: сборник научных трудов. В 4 т. Т. 4. -

Ульяновск : УлГТУ, 2009, С. 254-256.

33. Наместников A.M. Интеллектуальные проектные репозитории. -Ульяновск: УлГТУ, 2009. С. 110.

34. Наместников A.M., Филиппов A.A. Концептуальная индексация проектных документов // Автоматизация процессов управления №2(20). - 2010. С. 34-39.

35. Наместников A.M., Филиппов A.A. Концептуальная индексация проектных документов // Интеллектуальный анализ временных рядов: сборник научных трудов семинара с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект № 02.740.11.5021, г. Ульяновск, 15 июня 2010 г. - Ульяновск : УлГТУ, 2010. С. 69-77.

36. Наместников A.M., Филиппов A.A. Нечеткая кластеризация концептуальных индексов проектных документов // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов 6-й Международной научно-технической конференции (Коломна, 16-19 мая 2011 г.). В 2-х томах. Т2. - М. : Физматлит, 2011. С. 958-968.

37. Наместников A.M., Филиппов A.A. Реализация системы кластеризации концептуальных индексов проектных документов // Автоматизация процессов управления №3(25). - 2011. С. 46-50.

38. Наместников A.M., Субхангулов P.A., Филиппов A.A. Разработка инструментария для интеллектуального анализа технической документации // Известия Самарского научного центра Российской академии наук № 4, Том 13. - 2011. С. 984-990.

39. Наместников A.M., Филиппов A.A. Метод онтологической кластеризации документов в интеллектуальном проектном репозитории // Гибридные и синергетические интеллектуальные системы: теория и практика : материалы 1-го международного симпозиума / под ред. проф. A.B. Колесникова. - Калининград : Изд-во БФУ им. И. Канта, 2012. С.205-213.

40. Наместников A.M., Субхангулов P.A., Филиппов A.A. Система кластеризации и полнотекстового поиска проектных документов на ос-

нове прикладной онтологии // Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия): Труды конференции. Т.2.- Белгород : Изд-во БГТУ, 2012. С. 104-111.

41. Наместников A.M., Филиппов A.A. Метод генетической оптимизации онтологических представлений проектных документов в задаче индексирования // Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия): Труды конференции. Т.4. -Белгород : Изд-во БГТУ, 2012. С. 84-91.

42. Наместников A.M., Субхангулов P.A., Филиппов A.A. Онтологически-ориентированная система кластеризации и полнотекстового поиска проектных документов // Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2013): материалы III Междунар. научн.техн. конф. (Минск, 21-23 февраля 2013г.) / редкол. : В. В. Голенков (отв. ред.) [и др.]. - Минск : БГУИР, 2013. С. 219-224.

43. Наместников A.M., Субхангулов P.A., Филиппов A.A. Применение нечетких моделей в задачах кластеризации и информационного поиска текстовых проектных документов // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов VII-й Международной научно-практической конференции (Коломна, 20-22 мая 2013 г.). В 3-х томах. ТЗ. - М. : Физматлит, 2013. С. 1278-1289.

44. Нгуен Ба Нгок, Тузовский А. Ф. Модель информационного поиска на основе семантических метаописаний / Управление большими системами. Выпуск 41. М. : ИПУ РАН, 2013. С.51-92.

45. Норенков И. П. Основы автоматизированного проектирования: учеб. для вузов. - 4-е изд., перераб. и доп. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2009.

46. Олдендерфер М. С., Блэшфилд Р. К. Кластерный анализ / Факторный, дискриминантный и кластерный анализ: пер. с англ.; Под. ред. И. С. Енюкова. - М. : Финансы и статистика, 1989.

47. Паклин H.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ CD). - СПб. : Питер, 2009.

48. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М. : Наука, 1989.

49. Рутковская Д., Пилиньский М., Рутковский J1. Нейронные сети, генетические алгоритмы и нечеткие системы, 2-е изд. - М. : Горячая линия-Телеком, 2008.

50. Силин В. Tamino. Информационный сервер для электронного бизнеса. - URL: http://citforum.ru/internet/articles/xml_tamino.shtml. Дата обращения: 24.02.2012.

51. Скурихин А. Генетические алгоритмы/ Новости искусственного интеллекта Ш. - 1995. С. 6-17.

52. Смирнов C.B. Онтологический анализ предметных областей моделирования // Известия Самарского научного центра РАН. 2001.

53. Соловьев В.Д., Добров Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы. Учебное пособие. - М. : 2006.

54. Техническая документация на продукцию по Р 50-605-80-93 - URL: http://tdocs.su/9538. Дата обращения: 15.03.2013.

55. Томас Кормен, Чарльз Лейзерсон, Рональд Ривест, Клиффорд Штайн. Алгоритмы. Построение и анализ. Второе издание. - Вильяме, 2011. С. 385-386.

56. Уэно X., Кояма Т., Окамото Т. и др. Представление и использование знаний: Пер. с япон. - М. : Мир, 1989.

57. Филиппов A.A. Концептуальный индексатор проектных документов // Тезисы докладов 45-й научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (24-29 января 2011 года). - Ульяновск : УлГТУ, 2011. С. 181.

58. Филиппов A.A. Индексирование и кластеризация проектных документов на основе графовой модели онтологии // Информатика, моделирование, автоматизация проектирования: сборник научных трудов / под. ред. H. Н. Войта. - Ульяновск : УлГТУ, 2011. С. 367-372.

59. Филиппов A.A. Нечеткая кластеризация концептуальных индексов проектных документов // Автоматизация процессов управления:

сборник докладов Молодежной научно-технической конференции, Ульяновск, 13-14 декабря 2011 г. / под общ. ред. A.A. Емельянова. -Ульяновск : ФНПЦ ОАО «НПО «Марс», 2011. С. 116-122.

60. Филиппов A.A. Онтологически-ориентированное индексирование проектных документов. XML-сервер Tamino как ядро интеллектуального проектного репозитория // Вузовская наука в современных условиях : сборник материалов 46-й научно-технической конференции (23-28 января 2013 года). В 3 ч. 4.2. - Ульяновск : УлГТУ, 2012. С. 154-157.

61. Филиппов A.A. Онтологически-ориентированная кластеризация проектных документов // Информатика и вычислительная техника: сборник научных трудов 4-й Всероссийской научно-технической конференции аспирантов, студентов и молодых ученых ИВТ-2012. В 2 т. / под ред. Н. Н. Войта. - Ульяновск : УлГТУ, 2012. С.323-331.

62. Филиппов A.A. Реализация онтологически-ориентированных подсистем индексирования и кластеризации проектных документов // Информатика, моделирование, автоматизация проектирования: сборник научных трудов / под ред. Н. Н. Войта. - Ульяновск : УлГТУ, 2012. С.389-397.

63. Филиппов A.A. Анализ временной сложности онтологически-ориентированных методов индексирования и кластеризации проектных документов / / Вузовская наука в современных условиях : сборник материалов 47-й научно-технической конференции (28 января -2 февраля 2013 года). В 3 ч. 4.2. - Ульяновск : УлГТУ, 2013. С. 174-177.

64. Филиппов A.A. Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей // Автоматизация процессов управления, № 3(33), 2013. С. 61-68.

65. Хорошевский В.Ф. Ефименко И.В. Онтологическое моделирование экономики предприятий и отраслей современной России: Часть 3. Российские исследования и разработки в области онтологического инжиниринга и бизнес-онтологий : препринт WP7/2011/08 (ч. 3) -М. : Изд. дом Высшей школы экономики, 2011.

66. Чекина А.В. Генетическая кластеризация информационных ресурсов в интеллектуальном проектном репозитарии / А.В. Чекина // Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации» (ОИ-2009): Труды конференции. -Ульяновск : УлГТУ, 2009.

67. Чекина А.В. Генетическая кластеризация информационных ресурсов / А.В. Чекина // Шестая международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 16-20 мая 2011г.): Труды конференции - Т.1. - М. : Физматлит, 2011.

68. Шумский С.А. Ассоциативный поиск текстовой информации // Труды Всероссийской конференции «Нейроинформатика 99», ч.З. - М. : 1999г. С. 101-109.

69. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. пособие. - М. : Финансы и статистика, 2004.

70. Ярушкина Н.Г., Чекина А.В. Кластеризация информационных ресурсов на основе генетического алгоритма // Автоматизация процессов управления №4. - 2010..

71. Ярушкина Н.Г., Чекина А.В. Кластеризация информационных ресурсов на основе генетического алгоритма Двенадцатая национальная конференция по искусственному интеллекту с международным участием КИИ - 2010: Труды конференции. Том 4. - 2010.

72. Ahmed A. A. Radwan, Bahgat A. Abdel Latef, Abdel Mgeid A. Ali, Osman A. Sadek. (2006) Using Genetic Algorithm to Improve Information Retrieval Systems. Proc. of World Academy of Science, Engineering and Technology Vol. 17.

73. Atkinson-Abutridy, J., Mellish, C., Aitken, S., Combining Information Extraction with Genetic Algorithms for Text Mining, Intelligent Systems, IEEE, vol. 19, P. 22-30, 2004.

74. Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley; 1st edition, 1999.

75. D. Bahle, H. E. Williams, and J. Zobel. E?cient phrase querying with

an auxiliary index. In K. Jarvelin, M. Beaulieu, R. Baeza-Yates, and S. H. Myaeng, editors, Proceedings of the ACM-SIGIR Conference on Research and Development in Information Retrieval, P. 215-221, Tampere, Finland, August 2002.

76. Birchenhall, C.R., N. Kastrinos, and S. Metcalfe (1997). Genetic algorithms in evolutionary modelling, Journal of Evolutionary Economics, 7, P. 375-393.

77. Michael. Y. Bogatyrev, Alexey P. Terekhov, Framework for Evolutionary Modelling in Text Mining. - URL: http://ceur-ws.org/Vol-476/paper4.pdf . Дата обращения: 24.10.2012.

78. Bremermann, H.J., Rogson, M. and Selaff, S., «Search by Evolution», in Biophysics and Cybernetic Systems. M. Maxfield, A. Callahan, and L.J. Fogel, Eds. Washington DC: Spartan Books, P. 157-167, 1965.

79. Bremermann, H.J., Rogson, M. and Selaff, S., «Global Properties of Evolution Processes», in Natural Automata and Useful Simulations. H. Pattee, E.A. Edlsack, L. Fein, and A.B. Callahan, Eds. Washington DC: Spartan Books, P. 3-45, 1966.

80. Stefan Buettcher, Charles L. A. Clarke, Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press, 2010.

81. Abdur Chowdhury and M. Catherine McCabe. Improving information retrieval systems using part of speech tagging. Technical Report TR 199848, 1998.

82. Ciorascu C., Ciorascu I. and Stoffel K. knOWLer - Ontological Support for Information Retrieval Systems // Proceedings of 26th Annual International ACM SIGIR Conference, Workshop on Semantic Web, Toronto, Canada, August 2003.

83. Cole, R. M. (1998) Clustering With Genetic Algorithms. University of Western Australia.

84. Bruce Croft, Donald Metzler, Trevor Strohman, Search Engines: Information Retrieval in Practice, Addison Wesley; 1 edition, 2009.

85. James A. Danowski. Wordij: A word-pair approach to information retrieval. In TREC, P. 131-136, 1992.

86. K. Deb, Multiobjective Optimization Using Evolutionary Algorithms,John Wiley & Sons, 2001.

87. Fayyad U. and Piatetsky-Shapiro G., «From Data Mining to Knowledge Discovery: An Overview», Advances in knowledge Discovery and Data Mining, Fayyad U., Piatetsky-Shapiro G.

88. Ronen Feldman, James Sanger, The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2007.

89. Fräser, A.S., «Simulation of genetic systems», J. of Theor. Biol., vol. 2, P. 329-346, 1962.

90. Fräser, A.S., «The evolution of purposive behaviour», in Purposive Systems, H. von Foerster, J.D. White, L.J. Peterson, and J.K. Russel, Eds. Washington DC: Spartan Books, P. 15-23, 1968.

91. Goldberg, D.E., «Genetic algorithms in search, optimization and machine learning». Addison Wesley, 1989.

92. Goldberg, D.E., «Sizing populations for serial and parallel genetic algorithros», Proc. of the 3rd Intern, conference on Genetic Algorithms and Their Applications, San Mateo, CA, P. 70-79, June 1989.

93. Gordon, M.D. (1988). Probabilistic and genetic algorithms for document retrieval, Communications of the ACM, 31(10), P. 1208-1218.

94. Gruber T.R. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human-Computer Studies 43 (5-6), 1995. P. 907-928.

95. David A. Grossman, Ophir Frieder, Information Retrieval: Algorithms and Heuristics, Springer; 2nd edition, 2004.

96. Donna Harman. What we have learned, and not learned, from tree. In Proc. of the BCS IRSG'2000, P. 2-20.

97. Holland, J.H., «Adaptive plans optimal for for Payoff-Only Environments», Proc. of the 2nd Hawaii Int. Conf. on Systems Sciences, P. 917-920, 1969.

98. Holland, J.H., Adaptation in Natural and Artificial Systems. Ann Arbor: Univ. of Michigan Press, 1975.

99. Hotho, A., Maedche, A., Staab, S.: Ontology-based Text Clustering,

Workshop «Text Learning: Beyond Supervision»,IJCAI 2001.

100. Kanti Mardia et al. (1979). Multivariate Analysis. Academic Press.

101. S. M. Khalessizadeh, R. Zaefarian, S.H. Nasseri, and E. Ardil, Genetic Mining: Using Genetic Algorithm for Topic based on Concept Distribution. - URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.193.5090& rep=repl&type=pdf . Дата обращения: 24.10.2012.

102. Hideki Kozima. Text segmentation based on similarity between words. In Meeting of the Association for Computational Linguistics, P. 286-288, 1993.

103. Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information retrieval. Information Systems, 10(2): 115-141, 1992.

104. Lamprier, S., Amghar, T., Levrat, В., Saubion, F. (2007). SegGen: a Genetic Algorithm for Linear Text Segmentation. In: Proceedings of the Twentieth International Joint Conference on Artificial Intelligence. A A AI Press, Menlo Park, California, 2007. P. 1647-1652

105. Maedche A., Zacharias V. Clustering ontology-based metadata in the semantic web. 13th European Conference on Machine Learning ECML'02 6th European Conference on Principles and Practice of Knowledge Discovery in Databases PKDD'02, Helsinki, Finland, 2002.

106. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, An Intriduction to Information Retrieval. - URL: http://nlp.stanford.edu/IR-book/ . Дата обращения: 15.03.2012.

107. Michalewicz, Z., Genetic Algorithms + Data Structures - Evolutionary Programs. Springer-Verlag, Al Series, New York, 1992.

108. Christof Monz. Computational semantics and information retrieval. In Proceedings of the 2nd Workshop on Inference in Computational Seman tics (ICoS-2), P. 1-5, 2000.

109. Muller, H.M., Kenny, E.E., Sternberg, P.W.: Textpresso: An Ontology-Based Information Retrieval and Extraction System for Biological Literature. PLoS Biol. 2(ll):e309.doi:10.1371/journal.pbio.0020309, 2004.

110. Pathak, P. Gordon, M. Fan, W. (2000) Effective information retrieval

using genetic algorithms based matching functions adaption, in: Proc. 33rd Hawaii International Conference on Science (HICS), Hawaii, USA.

111. Jay M. Ponte and W. Bruce Croft. Text segmentation by topic. In European Conference on Digital Libraries, P. 113-125, 1997.

112. Popov B., Kiryakov A., Ognyanoff D., Manov D. and Kirilov A., KIM -asemantic annotation platform for information extraction and retrieval. Natural Language Engineering, 10, Issues 3-4, P. 375-392, 2004.

113. Reed J., Toombs R., and Barricelli, N.A., «Simulation of biological evolution and machine learning», Journal of Theoretical Biology, vol. 17, P. 319-342, 1967.

114. Robertson, A.M. Willet, P. Generation of equifrequent groups of words using a genetic algorithm, Journal of Documentation 50 (3), 1994, P. 213-232.

115. Salton, G., Automatic Text Processing. Addison-Wesley Publishing Company, Inc., Reading, MA, 1989.

116. G. Salton, J. Allan, and C. Buckley. Approaches to Passage Retrieval in Full Text Information Systems. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, P. 49-58, 1993.

117. Serrano-Guerrero, J.; Olivas, J. A.; de la Mata, J.; Garces, P.: «Physical and Semantic Relations to Build Ontologies for Representing Documents». En Liu, Y.; Chen, G. and Ying, M. (eds.): Fuzzy logic, Soft Computing and Computational Intelligence (Eleventh International Fuzzy Systems Association World Congress IFSA), Beijing, China, (2005). Tsinghua University Press - Springer, vol. I., P. 503-508.

118. C.N. Silla, G.L. Pappa, A. Freitas and C.A. Kaestner, «Automatic text summarization with genetic algorithm-based attribute selection» 9th Ibero-American Conference on AL, Lecture Notes in Computer Science, 3315 (2004). P. 305-314.

119. Toby Segaran, Programming Collective Intelligence.Building Smart Web 2.0 Applications. O'Reilly Media, 2007.

120. Alan F. Smeaton, Ruairi O'Donnell, and Fergus Kelledy. Indexing structures derived from syntax in TREC-3: System description. P. 100-

110, 1994.

121. Fei Song and W. Bruce Croft. A general language model for information retrieval (poster abstract). Research and Development in Information Retrieval, P. 279-280, 1999.

122. Ashok Srivastava, Text Mining: Classification, Clustering, and Applications, Chapman and Hall/CRC, 2009.

123. T. Takaki. Ntt data: Overview of system approach at trec-8 ad-hoc and question answering. In Proc. of the 8'th Text REtrieval Conference, 2000.

124. Tryon R.C. Cluster analysis. - London: Ann Arbor Edwards Bros, 1969.

125. Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications. To appear in Knowledge Engineering Review 2(11). The University of Edinburgh, 1996.

126. Ellen M. Voorhees. Natural language processing and information retrieval. In Information Extraction: Towards Scalable, Adaptable Systems, P. 32-48, 1999.

127. H. E. Williams, J. Zobel, and P. Anderson. What's next? Index structures for efficient phrase querying. In J. Roddick, editor, Proceedings of the Australasian Database Conference, P. 141-152, Auckland, New Zealand, 1999.

128. Zadeh, Lotfi A., «Fuzzy Logic, Neural Networks, and Soft Computing», Communications of the ACM, March 1994, Vol. 37 No. 3, P. 77-84.

129. E. Zitzler and L. Thiele, An Evolutionary Algorithm for Multiobjective Optimisation: The Strength Pareto Approach, tech. report 43,Swiss Federal Inst, of Technology (ETH), 1998.

130. C. Zhai, X. Tong, N. Milic-Frayling, and D. Evans. Evaluation of syntactic phrase indexing - clarit nip track report. In The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication, 1997.

131. Justin Zobel, Alistair Moffat, Ross Wilkinson, and Ron Sacks-Davis. Efficient retrieval of partial documents. In Proceedings of the second conference on Text retrieval conference, P. 361-377. Pergamon Press, Inc., 1995.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.