Модели и методы интеграции структурированных текстовых описаний на основе онтологий

Иванов, Владимир Владимирович

Модели и методы интеграции структурированных текстовых описаний на основе онтологий тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Иванов, Владимир Владимирович

Иванов, Владимир Владимирович
кандидат физико-математических наук
2009

Специальность ВАК РФ05.13.11

Количество страниц 145

Иванов, Владимир Владимирович. Модели и методы интеграции структурированных текстовых описаний на основе онтологий: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Казань. 2009. 145 с.

Оглавление диссертации кандидат физико-математических наук Иванов, Владимир Владимирович

ВВЕДЕНИЕ.

ГЛАВА 1. Обзор состояния дел в области доступа к информации и интеграции данных по культурному наследию.

Введение.

§1.1. Теоретические и технологические основы интеграции данных.

1.1.1. Обзор теоретических подходов.

1.1.2. Технологические аспекты систем интеграции данных.

§ 1.2. Обзор систем музейных метаданных.

1.2.1. Проект «Краткое описание (этикетка) музейного предмета».

1.2.2. Рекомендации Российского этнографического музея.

§1.3. Обзор онтологий верхнего уровня.

1.3.1. Онтология CIDOC CRM.

1.3.2. Онтология OpenCYC.

1.3.3. Онтология DOLCE.

1.3.4. Онтология SUMO.

1.3.5. Сравнение онтологий верхнего уровня.

1.3.6. Анализ преимуществ и недостатков онтологии CIDOC CRM.

§1.4. Тезаурусы по культурному наследию.

1.4.1. Тезаурус по искусству и музейному делу.

1.4.2. Тезаурус по архитектуре и искусству (ААТ).

§1.5. Информационные системы, использующие онтологические ресурсы.

Выводы.

ГЛАВА 2. Создание и приложения онтологии по культурному наследию.

Введение.

§2.1. Подход к связыванию онтологии CIDOC CRM и тезауруса ААТ.

§2.2. Модель процесса интеграции разнородных структурированных текстовых описаний.

2.2.1. Этап 1. Выравнивание представления структуры описания.

2.2.2. Этап 2. Поиск соответствий между элементами схем.

2.2.3. Этап 3. Определение полного отображения.

2.2.4. Этап 4. Реализация отображения. Выполнение построенного отображения и фиксация результата.

2.2.5. Этап 5. Оценка качества результата отображения.

§2.3. Разрешение лексической многозначности в структурированном хранилище описаний музейных предметов.

§2.4. Поиск в интегрированной базе знаний по запросу на естественном языке.

2.4.1. Особенности интегрированного хранилища.

2.4.2. Модель обработки запроса.

2.4.3. Алгоритм поиска описаний по запросу.

Выводы.

ГЛАВА 3. Экспериментальное исследование модели интеграции, методов поиска и снятия лексической многозначности в структурированных описаниях.

Введение.

§3.1. Описание исходных данных.

§3.2. Критерии оценки качества и параметры алгоритма поиска элементарных соответствий.

§3.3. Эксперименты с алгоритмом поиска элементарных соответствий.

§3.4. Сравнение алгоритма поиска элементарных соответствий с алгоритмами, основанными на методах классификации.

§3.5. Эксперименты с алгоритмом поиска описаний в базе знаний.

§3.6. Экспериментальное исследование лексической многозначности в структурированных описаниях.

Выводы.

Введение диссертации (часть автореферата) на тему «Модели и методы интеграции структурированных текстовых описаний на основе онтологий»

В диссертации описываются результаты, полученные при решении ряда проблем, возникающих в области интеграции и доступа к информации по культурному наследию на основе онтологического подхода. Предложена и реализована методология- интеграции разнородных источников данных по музейной документации. Приводятся результаты экспериментов по интеграции описаний из баз данных реальных музеев, проведены оценка качества полученных результатов и сравнение с известными методами. Предложен оригинальный подход- к автоматизированному разрешению лексической многозначности, возникающей при обработке текстовых описаний музейных предметов с помощью информационно-поискового' тезауруса.

Проблемам; связанным, с интеграцией разнородных источников, информации, посвящено > множество работ как в области технологий баз данных [57], так и в области искусственного интеллекта [27]. Главная цель при решении задачи интеграции данных состоит в обеспечении доступа к множеству разнородных источников на основе общего для всех источников интерфейса запросов. Необходимость и актуальность разработки автоматизированных средств для решения этих задач обусловлены быстрым увеличением количества источников данных и объемов хранимой в них информации. Как правило, интеграция информации производится в рамках некоторой фиксированной предметной области. Использование онтологий (как концептуальных моделей предметной области) для решения задач интеграции информации представляется перспективным направлением [19, 36, 37]. С одной стороны, онтологии предназначены для явного описания понятий и связей между понятиями предметной области, а, с другой стороны, они являются разделяемыми ресурсами и наилучшим образом подходят на роль общего интерфейса к разнородным источникам данных.

Выбор в качестве основного предмета исследования структурированных источников данных обоснован следующими факторами. Объем информации, хранимой в реляционных базах данных, электронных таблицах, слабоструктурированных описаниях и т.п., в различных областях деятельности существенно превосходит объем неструктурированных текстов. При этом, с содержательной точки зрения, тексты, могут описывать, более разнообразную информацию, но автоматическая обработка текстовых документов с учетом их смысла оказывается намного сложнее, чем аналогичная обработка структурированных данных. Этот подход лежит в основе семантического веба (Semantic Web) [22, 23, 42, 75] и предполагает развитие онто-логий как средств выражения смыслового содержимого ресурсов сети Интернет.

Различие между двумя, формами представления существенно влияет на подходы к обработке и доступу к информации, среди, которых выделяют вид информационной системы (документальной или фактографической), язык запросов (близкий к естественному или специализированный, структурированный), способ обработки запроса (оценка релевантности или точное совпадение с запросом). В диссертации в качестве предметной^ области выбрана сфера культурного наследия, в рамках которой оба способа организации информации существуют совместно. При этом наблюдаются тенденция к формализации описаний, введение стандартов метаданных, массовое внедрение в музеях и библиотеках информационных систем фактографического типа, переход от традиционных библиотек к электронным, содержащим информацию разного типа (тексты, фото, аудио и видео). Формализация структуры данных дает определенные преимущества, в особенности, если система используется изолированно. Но необходимость в использовании онтологий для спецификации концептуальной схемы «внутренней» базы данных либо не очевидна, либо просто отсутствует. Однако ситуация меняется при доступе к нескольким структурированным источникам данных: возникают проблемы, связанные с неоднородностью. Сам термин неоднородность понимается по-разному в зависимости от уровня, на котором предполагается объединение источников:

1) физическая неоднородность;

2) структурная неоднородность;

3) семантическая неоднородность.

Физическая неоднородность связана с использованием различных СУБД или типов СУБД для представления данных, соответствующих общей концептуальной схеме. Причина^ появления физической неоднородности связана с выбором технических средств (платформы, протоколов и пр.)- № лингвистического обеспечения (языков представления данных и знаний, языка запросов) при проектировании системы на основе фиксированной^, схемы данных.

Основная причина появления структурной неоднородности состоит в различных подходах к моделированию понятий и отношений предметной области, когда общий язык представления схем данных используется по-разному для выражения одних и тех же понятий. Типичные структурные различия наблюдаются при выборе формы, с помощью которой будет выражено то или иное понятие.

Семантическая неоднородность связана с несоответствиями между применяемыми системами терминов (и различиями в понимании смысла терминов), которые могут привести к разночтениям при определении смысла содержимого источников данных. Важным аспектом, рассматриваемым в диссертации, является использование онтологий при обработке разных типов неоднородности, поскольку онтологии различного уровня абстракции подходят и для формального описания структуры понятий предметной области, и для представления значений специализированной терминологии.

Известные подходы к интеграции информации сталкиваются с рядом проблем, в первую очередь, из-за отсутствия общего взгляда на структуру понятий предметной области (онтологии верхнего уровня), а также из-за отсутствия единой терминологии (набора лексических единиц). При автоматической обработке текстовых значений возникают дополнительные трудности, связанные с разрешением лексической многозначности и кореферентности. Многие современные подходы ориентированы либо на обработку структуры источника данных (метаданных, концептуальной схемы), либо на текстовое содержимое. Предлагаемые в диссертации методы и их реализация учитывают оба указанные аспекта. Для комплексного решения задачи обработки структуры описаний, и лексических значений в терминологии создана онтология по культурному наследию, формализующая основные понятия и отношения^ области музейной документации и содержащая более 20 тыс. понятий.

Поскольку материальная- культура так или иначе затрагивает многие аспекты деятельности человека, выбранная предметная область является очень широкой, как с точки зрения объемов информации, так и с точки зрения количества понятий и терминов, используемых для описания. Музейные БД в России содержат миллионы описаний музейных предметов. При этом общее число предметов,.хранящихся в фондах, составляет десятки миллионов. Специализированные словари и справочники по искусству содержат десятки, а иногда и сотни тысяч терминов. Такая ситуация имеет место при фактическом отсутствии единого стандарта описания музейного предмета и способов обмена метаданными, что сильно затрудняет доступ к информации по культурному наследию, возможность построения эффективных систем поиска. Поэтому первая задача, которая была решена в рамках диссертации, состояла в создании масштабной формальной онтологии по культурному наследию, соответствующей международному стандарту. Для, обеспечения интероперабельности наиболее распространенные в российских музеях схемы метаданных были проанализированы и связаны с созданной онтологией.

Один из основных результатов исследования состоит в создании математического и программного обеспечения для поддержки автоматизированного отображения структуры и содержимого музейных описаний на созданную прикладную онтологию. Предложена модель процесса интеграции, осуществляемого на основе онтологии по культурному наследию. Один из методов, реализованных в рамках процесса интеграции, основан на предположении о том, что- для описания значения близких по смыслу элементов данных используются близкие наборы терминов. Близость между наборами!терминов вычисляется с помощью лексической компоненты онтологии, построенной на основе информационно-поисковых тезаурусов:

Следствием,приведенияфазнородных структур к единой схеме данных и системе терминов является возможность генерации интегрированного хранилища фактов, извлеченных из нескольких исходных источников, реализации новых, механизмов доступа- к. описаниям, фактографического поиска с помощью запросов на естественном или формальном структурированном языке запросов. Схема результирующего хранилища фактов, соответствует структуре понятий формальной онтологии верхнего уровня; что позволяет применять логический вывод на фактах хранилища.

В диссертации предложен алгоритм поиска информации в хранилище по запросу на языке, близком к естественному. При разработке алгоритма учитывалась привязка отдельных элементов к понятиям тезауруса. Алгоритм поиска обрабатывает запрос на естественном языке и извлекает из структурированного хранилища связные совокупности утверждений, соответствующие смыслу запроса в целом. Алгоритм имеет ряд параметров, позволяющих варьировать глубину поиска в хранилище (т.е. максимальную длину извлекаемых цепочек утверждений), а также способ обработки запроса.

Методы связывания-разнородных схем данных и поиска по запросу на естественном языке имеют программные реализации, которые тестировались на трех музейных базах данных. Приводятся результаты оценки качества работы соответствующих алгоритмов. Проведено экспериментальное сравнение предлагаемых алгоритмов с алгоритмами, основанными на методах классификации с обучением и методах кластеризации (без предварительного обучения).

Особое место в диссертации отводится анализу лексической многозначности, появляющейся при обработке текстовых полей БД с помощью тезауруса. Показано, что использование всех понятий тезауруса для индексирования содержимого каждого структурного элемента нецелесообразно, поскольку приводит к высоким показателям многозначности (до 40% от общего числа текстовых значений, содержащих понятия тезауруса). Предложено индексировать текстовое содержимое некоторого элемента (столбца таблицы) с помощью специально подобранного подмножества понятий тезауруса (т.н. фасета), что дает значительное сокращение числа случаев многозначности на 10-35%. Анализ случаев лексической многозначности привел к пониманию особой роли отношения метонимии при решении задач семантической интеграции структурированных описаний. Следствием этого стали рекомендации по дальнейшему развитию лексической составляющей созданной прикладной онтологии в области культурного наследия.

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Иванов, Владимир Владимирович

Выводы

1. Наилучшие результаты работы алгоритма поиска элементарных соответствий по двум критериям (полноте и точности) получены для следующих значений параметров idx={lemma, thes}, wgt={tff:idf}. Для БД ВРМ достигнуты значения Р = 80% при R = 56%, а максимальная полнота (100%) достигнута при точности в 60%. Для двух других БД значения критериев были ниже — на уровне 30—50% по точности при 60-80% по полноте.

2. Сравнение алгоритма поиска соответствий с известными методами классификации показало, что предлагаемый алгоритм работает не хуже (по критериям точности и полноты), чем методы без предварительного обучения, и несколько хуже, чем алгоритмы, основанные на предварительном обучении. Однако алгоритм поиска элементарных соответствий строит большее число гипотез, на которых достигаются максимальные значения одного из критериев.

3. Эксперименты с алгоритмом поиска описаний предметов в структурированном хранилище на некоторых запросах, содержащих понятия тезауруса ААТ, показали улучшение критерия точности поиска по сравнению с ИПС Google на 11-49%.

4. Рекомендации по развитию лингвистического обеспечения информационных систем в области культурного наследия состоят в добавлении отношения метонимии между понятиями тезаурусов. Необходимость добавления нового типа отношения обоснована потребностью в использовании метонимии для снятия многозначности и для улучшения качества алгоритмов поиска элементарных соответствий.

ЗАКЛЮЧЕНИЕ

В настоящее время для представления понятий предметной области используются два основных направления. Подходы, находящиеся в рамках первого направления, основаны на выделении существенных свойств понятий, выявлении отношений, в которых понятия могут участвовать. Предметная область делится на два уровня: интенсиональный (уровень модели, множества классов, свойств и т.п.) и эксенсиональный (уровень данных, множество примеров понятий или экземпляров классов, связей между экземплярами и т. п.). Индивидуальные объекты предметной области моделируются экземплярами понятий. За редким исключением (например • проект CYG), реально действующие системы, созданные в рамках этого направления, имеют формальные описания не более чем для нескольких сотен или тысяч классов, но не для десятков тысяч. V

В рамках, второго направления понятия предметной- области используются в качестве значений ограниченного, заранее заданного множества признаков, с помощью которых представляются объекты предметной области. G одной стороны, не возникает необходимости формализовать внутреннюю структуру понятий, а, с другой стороны, общее число понятий может составлять десятки тысяч, что позволяет эффективно решать задачи, возникающие в «широких» предметных областях. Ярким примером ресурсов создаваемых в этом направлении, являются информационно-поисковые тезаурусы (ИПТ), формализующие терминологию (множество лексических значений) различных предметных областей. При информационном поиске понятия ИПТ (дескрипторы) используются для представления содержимого текстовых документов в качестве значений признаков, по которым документы можно извлекать из коллекции.

В рамках обоих из описанных направлений создаются принципиально отличные друг от друга ресурсы, называемые впоследствии онтологиями.

Один из основных вопросов, на которые получен ответ в диссертации, состоит в том, можно ли совместить свойства формальных (но относительно небольших) онтологий со свойствами крупных терминологических ресурсов. В диссертации была поставлена цель создать подобный ресурс для области культурного наследия, исследовать его свойства и возможность применения для решения задач, характерных для каждого из направлений, — интеграции данных и задач информационного поиска.

В качестве исходных ресурсов были выбраны онтология верхнего уровня и тезаурус по архитектуре и искусству. В качестве основного формализма — язык- дескриптивной логики. Процесс связывания онтологии верхнего уровня; и тезауруса оказался нетривиальной задачей. Основную трудность представляет формализация связей между классами онтологии верхнего уровня и понятиями тезауруса. Понятия, перенесенные из тезауруса в онтологию, не должны иметь экземпляров» (поскольку это — значения), поэтому их не имеет смысла представлять как классы (в отличие от понятий онтологии верхнего уровня); Однако понятия* тезауруса объективно описывают множества объектов (классы). Для разрешения этого противоречия предложено формализовать связи между онтологией и тезаурусом в виде логических ограничений, накладываемых на определенные свойства онтологии верхнего уровня. Результатом связывания онтологии верхнего уровня и тезауруса стал крупный онтологический ресурс по культурному наследию, объем которого составил более 20 тыс. понятий.

Основной задачей, для решения которой применялся созданный ресурс, является задача интеграции данных. Структурированные описания музейных предметов состоят из двух уровней: схемы описания и содержимого, представляемого в основном текстовыми значениями. В связи с этим интеграция разнородных структурированных описаний на основе онтологии также должна выполняться на двух уровнях. Уровню схемы источника данных соответствуют понятия формальной онтологии, а уровню текстового содержимого — понятия тезауруса.

В диссертации предложена и реализована модель процесса интеграции разнородных структурированных текстовых описаний на основе прикладной онтологии. Процесс направлен на автоматизированное формирование базы знаний1, содержащей факты, извлеченные из множества исходных описаний. Разработаны соответствующие алгоритмы, реализующие предложенную модель. В ходе проведения экспериментов описания более чем 10 тыс. музейных предметов были представлены в базе знаний. Проведены эксперименты по сравнению алгоритма поиска элементарных соответствий с алгоритмами, основанными на методах классификации с обучением и методами кластеризации. Эксперименты показали, что предложенный в диссертации метод работает в среднем не хуже методов кластеризации, но хуже методов с предварительным.обучением.

В* рамках решения задачи поиска' описаний в интегрированном хранилище разработан алгоритм поиска по запросу, сформулированному на естественном языке. Предложена модель обработки запроса, учитывающая особенности базы знаний, в которой осуществляется поиск. Алгоритм сравнивался с ИПС Google. По критерию точности на-запросах, содержащих понятия тезауруса, было получено улучшение до 50%. При этом полнота поиска либо не изменялась, либо (на некоторых запросах) за счет расширения запроса с помощью тезауруса количество извлекаемых описаний увеличивалось в 3-5 раз. Методам решения задач информационного поиска в диссертации уделено недостаточно внимание, приведенные результаты охватывают только несколько типичных поисковых запросов, в силу того, что методы поиска имеют косвенное отношение к главной цели исследования — разработке математического обеспечения процесса интеграции структурированных текстовых описаний. Предполагается, что поиску в масштабных интегрированных хранилищах описаний будут посвящены, дальнейшие исследования.

Основная цель, поставленная при написании диссертационного исследования, была достигнута: создан крупный онтологический ресурс, описывающий понятия и отношения в области культурного наследия и объединяющий свойства формальной онтологии и тезауруса. Показано наличие у ресурса всех свойств, характерных для онтологии. Свойство разделяемости следует из того, что онтология верхнего уровня CIDOC CRM является международным стандартом, а понятия тезауруса ААТ подтверждаются многими примерами из специальной литературы в данной предметной области. Онтология содержит только явные утверждения, выраженные на языке дескриптивной логики. В диссертации также показано, как построенная онтология по культурному наследию может использоваться в качестве концептуальной основы для интеграции структурированных текстовых описаний музейных предметов, информационного поиска и снятия лексической многозначности. Предполагается, что этим круг ее приложений не ограничится. К перспективным приложениям результатов диссертации можно отнести создание сводных семантически размеченных каталогов музейных фондов и программных средств, для улучшения качества многоязычного доступа к информации по культурному наследию.

Список литературы диссертационного исследования кандидат физико-математических наук Иванов, Владимир Владимирович, 2009 год

1. Атрибуция музейного памятника: справочник / Под ред. И.В. Дубова. - СПб.: Лань, 1999.-346 с.

2. Гаврилова Т., Хорошевский В. Базы знаний интеллектуальных систем: учебник для вузов. СПб.: Питер, 2000. - 384 с.

3. ГОСТ 7.25-80. Тезаурус информационно-поисковый одноязычный: правила разработки, структура, состав и форма представления.

4. Дейт К. Дж. Введение в системы баз данных. — 8-е изд. М.: Вильяме, 2006.

5. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения: учебное пособие. М.: Интернет-Университет Информационных Технологий; БИНОМ; Лаборатория знаний, 2008.-172 с.

6. Емельянов Н.Е., Ерохин В.И. Особенности систем, создаваемых на основе НИКА-Технологии (на примере системы НИКА Музей) // Сборник трудов Института системного анализа РАН. - 2004.

7. Кронгауз М.А. Семантика: учебник для вузов. М.: Российский государственный гуманитарный университет, 2001. — С. 128-132.

8. Кузьмина Е.С., Лаанье К., Эткен Ж. EROS: технические возможности и запросные средства системы // Материалы конференции EVA-2005, Москва. — 2005.

9. Кузьмина Е.С., Ноль Л.Я., Черненко В.В., Кощеева Е.Л. и др. Краткое описание музейного предмета: информационно-лингвистическое обеспечение. — Псков; М., 2001.

10. П.Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог'2002». -М.: Наука, 2002. Т. 2.

11. Лукашевич Н.В., Чуйко Д.С. Автоматическое разрешение лексической многозначности на базе тезаурусных знаний // Интернет-математика 2007: сборник работ участников конкурса. — Екатеринбург: Изд.-во Урал, ун-та, 2007. — С. 108-118.

12. Минский М. Фреймы для представления знаний. — М.: Энергия, 1979.

13. Нариньяни А.С. Кентавр по имени ТЕОН: тезаурус+онтология // Международный семинар по компьютерной лингвистике и ее приложениям «Диалог'2001». 2001 - Т. 1.-С. 184-188.

14. Нариньяни А.С. ТЕОН-2: от Тезауруса к Онтологии и обратно // Международный семинар «ДИАЛОГ'2002». Протвино, 2002. - Т. 1. - С. 307313.

15. Российский семинар по оценке методов информационного поиска // Труды III Российского семинара РОМИП'2005 / Под ред. И.С. Некрестьянова. СПб.: НИИ Химии СПбГУ, 2005. - 226 с.

16. Соколов А.В. Принцип построения фасетно-блочных тезаурусов // Информационные языки. М., 1975. - С. 222-243.

17. Суперанская А.В., Подольская Н.В., Васильева Н.В. Общая терминология: вопросы теории. — 2-е изд., стереотип. / Отв. ред. Т.Л. Канделаки. — М.: Едиториал УРСС, 2003. 248 с.

18. Baader F., McGuinness D., Nardi D., Patel-Schneider P. The Description Logic Handbook: Theory, implementation and applications. Cambridge: Cambridge University Press, 2003.

19. Bergamaschi S., Castano S., Vincini M., Beneventano D. Semantic Integration of Heterogeneous Information Sources // Data and Knowledge Engineering. 2001. -№36(3).-P. 215-249.

20. Berlin J., Motro A. Database Schema Matching Using Machine Learning with Feature Selection // Proceedings of Intl. Conference Advanced Information Systems Engineering (CaiSE). 2002.

21. Berners-Lee Т., Fischetti M. Weaving the Web: Origins and Future of the World Wide Web. Britain: Orion Business, 1999.

22. Berners-Lee Т., Hendler J., Lassila O. The Semantic Web // Scientific American. -2001.

23. Blazquez M1., Fernandez M., Garcia-Pinar J.M., Gomez-Perez A. Building Ontologies at the Knowledge Level using the Ontology Design Environment// Proceedings of Knowledge Aquisition Workshop (KAW98). 1998.

24. Caffo R. The MINERVA Project: Inintiatives for High Quality of Cultural Communication // Proceedings of Electronic Imaging and the Visual Arts (EVA-2005, Florence) Conference. Bologna: Pitagora Editrice, 2005.1. P. 24-26.

25. Calvanese D., De Giacomo G. Data integration: A logic-based perspective // AI Magazine, 2005. V. 26. -№1. - P. 59-70.

26. Calvanese D., De Giacomo G., Lenzerini M. Ontology of Integration and Integration of Ontologies // Description Logics. 2001.

27. Calvanese D., De Giacomo G., Lenzerini M., Vard M.Y. Answering queries using views over description* logics knowledge bases // Proceedings of the Description Logic Workshop. CEUR Workshop Proceedings. 1999. - V. 22. - P. 9-13.

28. Calvanese D., De Giacomo G., Lenzerini M. Description logics for information integration // Computational Logic: From Logic Programming into the Future, LNCS. -Springer-Verlag, 2001.

29. Cohen W. Integration of Heterogeneous Databases Without Common Domains Using Queries Based on Textual Similarity // Proceedings of ACM SIGMOD Intl. Conference Management of Data. 1998. - P. 201-212.

30. Corcho O. A layered declarative approach to ontology translation with knowledge preservation // Frontiers in Artificial Intelligence and its Applications. Dissertations in Artificial Intelligence. 2005. - 168 p.

31. Do H.H., Rahm E. COMA — A System for Flexible Combination of Schema Matching Approach // Proceedings of Intl. Conference on Very Large Databases (VLDB). 2002.

32. Doan A.H., Madhavan J., Domingos P., Halevy A. Learning to Map between Ontologies on the Semantic Web // Proceedings of Intl. Conference World Wide Web (WWW).-2002.

33. Doan A., Madhavan J., Domingos P., Halevy A. Ontology Matching: A Machine Learning Approach // Handbook on Ontologies in Information Systems / Ed. by S. Staab and R. Studer. Springer-VeKlag, 2004. - P. 397-416.

34. Doerr M., Hunter J., Lagoze C. Towards a Core Ontology for Information Integration // Journal of Digital Information. — 2003. — V. 4. — Issue 1.

35. Eisenberg A., Melton J. SQL:1999, formerly known as SQL3 // ACM SIGMOD Record. 1999. - V. 28. - №1.

36. Embley D.W., Jackmann D., Xu L. Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration // Proceedings of Intl. Workshop on Information Integration on the Web (WIIW). -2001.

37. Euzenat J., Shvaiko P. Ontology Matching. Heidelberg: Springer, 2007. - 340 p.

38. Farquhar A., Fikes R., Rice J. The Ontolingua server: A tool for collaborative ontology construction // International Journal of Human-Computer Studies. 1997. -№46,-P. 707-727.

39. Fensel D., Wahlster W., Lieberman H., Hendler J. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. 2003.

40. Fresa A. MICHAEL: Multilingual Inventory of Cultural Heritage in Europe // Proceedings of Electronic Imaging and the Visual Arts (EVA-2005, Florence) Conference. — Bologna: Pitagora Editrice, 2005. P. 34—40.

41. Fundamentals of Data Warehousing / Ed. by M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. — Springer-Verlag, 1999.

42. Gamier F. Thesaurus iconographique: systeme descriptif des representations. Paris, 1984.-239 p.

43. Gruber T.R. A Translation Approach to Portable Ontology Specifications // Knowledge Acquisition. 1993.-V. 5.-P. 199-220.

44. Gruber T.R. The role of common ontology in archieving shareable, reusable knowledge bases // Proceedings of the Second International Conference on Principles of Knowledge Representation and Reasoning. 1991. - P. 601-602.

45. Guarino N., Garetta P. Ontologies and Knowledge Bases. Towards a Terminological

46. Clarification // Towards Very Large Knowledge Bases; ed. by N.J.I. Mars. Amsterdam, Philadelphia: IOS Press, 1995.

47. Halevy A.Y. Answering queries using views: A survey // The VLDB Journal. -2000. V. 10. - №4. - P. 270-294.

48. Hyvonen E., Miikela E., Salminen M., Valo A. et al. MuseumFinland Finnish Museums on the Semantic Web // Journal of Web Semantics. - 2005. - V. 3. - №2. -P. 25.

49. Jackson P., Mouliner I. Natural language processing for online applications: text retrieval, extraction and categorization. — Amsterdam, Philadephia: John Benjamins Publishing Company, 2002.

50. Kifer M., Lausen G., Wu J. Logical Foundations of Object-Oriented and Frame-Based Languages // Journal of the ACM. 1995.

51. Leacock C., Charorow M. Combining local context and WordNet similarity for word sense identification // WordNet: An electronic lexical database. Cambridge, MA: The MIT Press, 1998.

52. Lahanier G., Aitken G., Pillay R. EROS: European Research Open System // Proceedings of Intl. Conference on Hypermedia and Interactivity in Museums. 2003.

53. Lenat D.B., Guha R.V. Building Large Knowledge-Based Systems: Representation1 and Inference in the Cyc Project. — Addison-Wesley, 1990,

54. Lenzerini M. Data integration: A theoretical perspective // ACM PODS Conference. -2002.-P. 233-246.

55. Levy A.Y., Mendelzon A.O., Sagiv Y., Srivatstava D. et al. Answering queries using views // Proceedings of PODS. San Jose, CA, 1995.

56. Levy A.Y., Rajaraman A., Ordille J.J. Querying heterogeneous information sources using source descriptions // Proceedings of Very Large DataBases Conference (VLDB).-Bombay, 1996.

57. Li W.S., Clifton C., Liu S.Y. Database Integration Using Neural Networks: Implementation and Experiences // Knowledge and Information Systems. 2000. -V. 2. — №1.

58. Madhavan J., Bernstein P.A., Doan А.Ы., Halevy A. Corpus-based Schema Matching // Proceedings of Intl. Conference on Data Engineering (ICDE). 2005.

59. Miller G. Nouns in WordNet // WordNet An Electronic Lexical Database / Ed. by C. Fellbaum. - Cambridge: The MIT Press, 1998.

60. Miller R.J. et al. The CLIO Project Managing Heterogeneity // ACM SIGMOD Record.-2001.-№30(1).-P. 78-83.

61. Noy N., Hafiier C. The State of the Art in Ontology Design: A Survey and Comparative Review // Al Magazine. 1997. - P. 53-74.

62. Noy N., McGuinness D. Ontology Development 101: A Guide to Creating Your First Ontology//Technical Report KSL. -2001.

63. Pease A., Niles I. Toward a Standard Upper Ontology // Formal Ontology in Information Systems. Proceedings of the 2nd International Conference (FOIS-2001) / Ed. by C. Welty, B. Smith. -New York: ACM Press, 2001. P. 2-9.

64. Poesio M. Domain modelling and NLP: Formal ontologies? Lexica? Or a bit of both? // Applied Ontology. 2005. - V. 1. -№l. - P: 27-33:

65. Schreiber G., Amin A'.,, van Assem M., De Boer V. et al. MultimediaN E-Culture Demonstrator // International Semantic Web Conference (ISWC2006). 2006: -P. 951-958.

66. Sowa J.F. Knowledge: Representation: Logical, Philosophical and Computational Foundations. Pacific Grove; CA: Brooks Cole Publishing Co., 2000:

67. Sowa J.F. "Semantic networks" // Encyclopedia of Artificial Intelligence / Ed. by S.C. Shapiro.-New York: Wiley, 1987.

68. Towards the Semantic Web: Ontology-Driven Knowledge Management / Ed. by J. Davies, D. Fensel, F. van Harmelen Chicester, UK: John Wiley & Sons, 2003.

69. Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review. 1996. - V. 11. -№2. - P. 93-155.

70. Van Ossenbruggen J., Amin A., Hardman L., Hildebrand M. et al. Searching and Annotating Virtual Heritage Collections with Semantic Web Techniques // Museums and the Web. 2007.

71. Van Rijsbergen C.J. Information Retrieval. London: Butterworths, 1979.

72. Wache H. Towards rule-based context transformation in mediators // International Workshop on Engineering Federated Information Systems (EFIS 99) / Ed. by S. Conrad; W. Hasselbring, and G. Saake.- New York, 1999.

73. Wache H., Vogele Т., Visser U., Stuckenschmidt H; et al. Ontology-Based Integration of Information A Survey of Existing Approaches // Proceedings of the IJCAI-2001 Workshop: Ontologies and Information Sharing. - Seattle, WA, 2001.

74. Xu L., Embley D: Discovering Direct and Indirect Matches for Schema Elements //

75. Proceedings of Intl. Conference on Database Systems for Advanced Applications (DASFAA). — 2003.1. Электронные ресурсы

76. Collections Trust — Collections Trust Homepage Электронный ресурс. — Режим доступа: http://www.mda.org.uk, свободный.

77. Categories for the Description of Works of Art (Research at the Getty) / Ed. by M.Baca and P. Harpring Электронный ресурс. Режим доступа: http://www.getty.edu/research/conductingresearch/standards/cdwa/index.html, свободный.

78. Art and Architecture Thesaurus (Research at the Getty) Электронный ресурс. -Режим доступа: http://www.getty.edu/research/conducting research/vocabularies/aat/, свободный.

79. OpenLink Virtuoso Universal Server: Documentation Электронный ресурс. -Режим доступа: http://docs.openlinksw.com/pdf7virtdocs.pdf, свободный.

80. DOLCE: a Descriptive Ontology for Linguistic and Cognitive Engineering Электронный ресурс. Режим доступа: http://www.loa-cnr.it/ DOLCE, html, свободный.

81. Suggested Upper Merged Ontology (SUMO) Электронный ресурс. Режим доступа: http://www.ontologyportal.org, свободный.

82. Kondylakys Н., Doerr М., Plexousakis D. Mapping language for information integration. Technical Report 385, ICS-FORTH, December 2006 Электронный ресурс. Режим доступа: http://cidoc.ics.forth.gr/ docs/MappingTR385December06.pdf, свободный.

83. Crofts N., Doerr M., Gill Т., Stead S. Definition of the CIDOC Conceptual Reference Model Электронный ресурс. Режим доступа: http://cidoc.ics.forth.gr/docs/cidoccrmversion4.0.pdf, свободный.

84. The SCULPTEUR R&D Project Электронный ресурс. Режим доступа: http://sculpteurweb.org, свободный.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат физико-математических наук Иванов, Владимир Владимирович

Метод и технологии семантической обработки информации для государственного и муниципального управления2011 год, кандидат технических наук Ломов, Павел Андреевич

Математическая модель интеграции данных на основе дескриптивной логики2008 год, кандидат физико-математических наук Бездушный, Алексей Анатольевич

Введение диссертации (часть автореферата) на тему «Модели и методы интеграции структурированных текстовых описаний на основе онтологий»

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Иванов, Владимир Владимирович

Список литературы диссертационного исследования кандидат физико-математических наук Иванов, Владимир Владимирович, 2009 год