Многоязыковый информационный поиск с использованием мультиагентной платформы тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Шоуман Марва Ахмед Элшахат
- Специальность ВАК РФ05.13.17
- Количество страниц 130
Оглавление диссертации кандидат наук Шоуман Марва Ахмед Элшахат
1.1.3 Проблемы индексирования
1.1.4 Язык индексирования
1.2 Критерии оценки систем информационного поиска
1.3 Анализ моделей оценки релевантности информационного поиска
1.3.1 Логическая модель
1.3.2 Векторные Модели
1.3.3 Вероятностные Модели
1.3.4 Модель логического вывода
1.4 Анализ применимости мультиагентной организации для реализации
МИП
Выводы по главе
Глава 2 Исследование процесса многоязыкового информационного поиска и разработка его структурной модели
2.1 Структура документа
2.2 Способы анализа текстов при информационном поиске
2.2.1 Лексемизация
2.2.2 Удаления слов-остановок
2.2.3 Лемматизация
2.2.4 Оценка весов терминов
2.2.5 Нормирование весов терминов
2.2.6 Построение функции ранжирования
2.3 Разработка мультиагентной архитектуры системы МИП
2.4 Разработка модели информационного поиска для одного языка
2.4.1 Анализ применимости метаграфа в качестве модели
2.4.2 Анализ применимости нечеткого метаграфа в качестве модели
2.4.3 Модель одноязыкового информационного поиска в виде нечеткого метаграфа
2.5 Разработка модели многоязыкового информационного поиска
Выводы по главе
ГЛАВА 3 Разработка методики многоязыкового информационного поиска
3.1 Анализ применимости систем нечеткого логического вывода для оценки релевантности документов и формирование функций
принадлежности и правил вывода
3.2 Алгоритм оценки релевантности документов с использованием систем нечеткого логического вывода
3.3 Экспериментальная оценка применимости систем нечеткого вывода
Мамдани и Сугено для оценки релевантности документов при поиске на одном языке
3.3.1 Оценка результатов ранжирования с использованием СНЛВ
Мамдани
3.3.2 Оценка результатов ранжирования с использованием СНЛВ Сугено
3.4 Разработка методики многоязыкового информационного поиска с помощью мультиагентной системы
Выводы по главе
Глава 4 Экспериментальное подтверждение результатов работы
4.1 Разработка экспериментальной системы
4.1.1 Программные платформы мультиагентной архитектуры
4.1.2 Реализация экспериментальной мультиагентной системы для одноязыкового информационного поиска
4.1.3 Реализация экспериментальной мультиагентной системы для многоязыкового информационного поиска
4.2 Оценка качества предлагаемой мультиагентной системы
Выводы по главе
Заключение
Список сокращений и условных обозначений
Литература
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах2016 год, кандидат наук Зо Лин Кхаинг
Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования2012 год, кандидат технических наук Колосов, Алексей Павлович
Разработка методов и алгоритмов мультиагентного поиска релевантной информации в информационных средах гипертекстовой организации2000 год, кандидат технических наук Кононенко, Роман Николаевич
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Введение диссертации (часть автореферата) на тему «Многоязыковый информационный поиск с использованием мультиагентной платформы»
Введение
Актуальность темы диссертации. Объем специальной информации, относящейся к самым разным областям науки и техники, в интернете постоянно растет. Использование этой информации невозможно без эффективного инструмента поиска во всем доступном объеме данных. Такой инструмент должен искать интересующие пользователя-специалиста данные не только в специально структурированных, но и в неструктурированных документах на всех известных пользователю языках, т.е. осуществлять многоязыковый информационный поиск.
Многоязыковый информационный поиск (МИП) ориентирован на представителей научного сообщества, знающих иностранные языки, а также иностранных студентов, обучающихся по самым разным направлениям.
Основным критерием качества для многоязыковых информационных поисковых систем в силу особенности их применения для поиска научной или учебной информации на нескольких языках являются не столько быстродействие, как для обычных поисковых систем, сколько высокая релевантность первых полученных результатов. Под релевантностью при этом понимается семантическое соответствие поискового запроса и найденного документа.
Ведущие универсальные поисковые системы, такие как Google, Yandex и др. обеспечивают высокое быстродействие и полноту поиска на языке запроса, но для получения результатов на заданных языках требуют изменения региона поиска и, следовательно, ввода отдельного запроса для поиска на каждом языке, а также не предполагают объединения и качественного ранжирования полученных результатов.
Немногочисленные существующие специализированные системы многоязыкового информационного поиска имеют существенные недостатки. Так, например система, предлагаемая Chandra Mohan, Sadanandam, Raju Korra (английский - французский - немецкий - хинди, 2013), имеет значительное время
поиска и не предполагает ранжирования результатов, а в системе, предлагаемой Leyla Zhuhadar, Olfa Nasraoui, Robert Wyatt, Elizabeth Romero (английский -испанский, 2010) используются сложные методы ранжирования найденных документов, применение которых дополнительно увеличивает и так существенное время отклика системы. Также не существует систем многоязыковых поисковых систем, ориентированных на арабский и русский языки.
Следовательно, проблема создания методики многоязыкового информационного поиска (МИП) с ранжированием полученных результатов по степени релевантности остается актуальной.
Вместе с этим практика последних лет показала, что при создании распределенных интеллектуальных систем целесообразно использовать мультиагентную технологию. Это связано с тем, что мультиагентные системы обладают высокой гибкостью, хорошей масштабируемостью и повышенной надежностью. Указанные свойства явились решающими при выборе мультиагентной реализации системы МИП. При этом эффективная реализация мультиагентной системы предполагает обоснованный выбор ее архитектуры, а потому выполнения соответствующих исследований.
Целью диссертации является Повышение релевантности первых результатов автоматического многоязыкового информационного поиска в рамках применения мультиагентного подхода.
Задачи исследований. Для достижения поставленной цели необходимо было решить следующие задачи:
1. Анализ процесса МИП документов и выявление операций, которые должны быть выполнены в процессе поиска на заданных языках для получения результатов, ранжированных по степени релевантности запросу.
2. Выбор критерия качества МИП, дополнительного к традиционным: быстродействию, точности, полноте, выпадению и др., который позволит оценить качество ранжирования результатов поиска.
3. Разработка архитектуры и реализации мультиагентной системы МИП.
4. Разработка структурной модели МИП, учитывающей мультиагентную реализацию поисковой системы.
5. Построение формальной процедуры оценки релевантности найденного документа по качественно заданным весам терминов в запросе и документе.
6. Разработка методики МИП, включающей ранжирование результатов поиска по степени релевантности документов.
Выполнение экспериментальных исследований и оценка их результатов
Методы исследования. В работе использованы алгоритмы анализа текста (лексемизация - фильтрация - лемматизация), метод ранжирования документов на основы векторной оценки, структурная модель процесса в виде нечеткого метаграфа, системы нечеткого вывода типа Сугено и Мандани.
Научная новизна. Научная новизна заключается в следующем:
1. Получена модель одно- и МИП с использованием мультиагентной реализации в виде нечеткого метаграфа, выявляющая составляющие процесса поиска, их последовательность, а также возможности их комплексирования.
2. Разработана методика МИП, включающая предварительную обработку текстов, получение оценок релевантности с применением нечеткого логического вывода и ранжирование найденных документов.
3. Разработана многоагентная архитектура системы МИП, определены функции агентов и взаимосвязи между ними, что позволяет получить более эффективную реализацию системы МИП.
4. Введена лингвистическая переменная «Вес термина», позволяющая формализовать вербальную оценку релевантности документов и использовать ее для последующего ранжирования результатов поиска.
5. Предложено ранжирование результатов поиска в случае одного или нескольких языков с использованием алгоритмов нечеткого логического вывода типов Мамдани и Сугено, что увеличило вероятность нахождения требуемых документов среди первых найденных по сравнению с существующими поисковыми системами.
Практическая значимость заключается в создании мультиагентной системы информационного поиска для трех языков (русского, арабского и английского).
Достоверность результатов работы подтверждается адекватностью используемых моделей, корректностью математических преобразований и результатами проведенных экспериментов.
Внедрение результатов работы. Результаты работы в виде методики, а также аналитических и программных средств были использованы в ряде договорных разработок НПЦ «ИНТЕЛТЕК ПЛЮС», что позволило повысить качество многоязыкового информационного поиска в рамках сравнительного анализа методов и моделей системы обработки данных. Кроме того материалы работы используются в учебном процессе кафедры Компьютерные системы и сети МГТУ им. Н.Э. Баумана, что позволило повысить уровень подготовки магистров в области разработки программного обеспечения интеллектуальных информационных систем.
Апробация работы Основные положения и результаты диссертационной работы представлялись и докладывались на:
1. П-ой Международная научно-практическая конференция «Актуальные проблемы и перспективы развития радиотехнических и инфокоммуникационных систем «Радиоинфоком-2015», 14-18 апреля 2015 г., МИРЭА. Москва.
2. Конференции Евразийского Союза Ученых (ЕСУ), Москва, 2015.
3. XI-ой Международной научно-практической конференциях «ИНФО-2013», 1-10 октября 2013 г., Сочи.
Публикации. Основные научные результаты диссертационной работы отражены в 9 статьях, в том числе 3 статьи - в журналах, включенных ВАК РФ в Перечень ведущих.
Личный вклад. Все результаты и положения, составляющие основное содержание диссертации, разработаны и получены лично автором или при его непосредственном участии.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, и содержит 1 30 страницы текста, 31 рисунков и 14 таблиц.
Глава 1 Анализ процесса информационного поиска и постановка задачи многоязыкового информационного поиска
Информация является жизненно важным ресурсом для всех организаций. К тому же эффективный менеджмент и информационный поиск являются важными организационными функциями. С развитием Интернета и других глобальных сетей эти вещи, как ожидается, будут заметно развиваться. В результате люди, которым необходима информация, часто подавлены и перегружены значительным объемом определенной доступной информации, а поиск полезной информации требует значительных усилий. Системы информационного поиска (ИП) разработаны, чтобы помочь человеку извлечь полезную или интересующую его информацию из разных собраний документов. Системы ИП и системы поиска документов не являются последними инновациями. Они существуют со времен первых библиотек в форме библиотечных каталогов. С тех пор системы информационного поиска быстро изменились ввиду роста объемов информации в текстовом виде, доступной в цифровом и бумажном виде. Это значительное увеличение доступной информации привело к необходимости разработки автоматизированной системы информационного поиска.
Автоматизированные системы ИП были изначально разработаны, чтобы помочь организовывать огромные объемы научной литературы, которые развивались с 1940 г. Многие университеты, корпорации и публичные библиотеки сейчас используют системы ИП для предоставления доступа к книгам, журналам и другим документам. Коммерческие системы ИП предлагают базы данных, содержащие миллионы документов в многообразии предметных областей. Словари и энциклопедии баз данных сейчас широко доступны на ПК.
ИП оказался полезным в таких разрозненных областях, как автоматизация бизнеса и разработка программного обеспечения. Действительно, любая дисциплина, которая опирается на документы, в своей работе может потенциально использовать преимущества ИП. Система ИП сопоставляет пользовательские запросы - формальные выражения информационных потребностей - и документы, хранящиеся в базе данных. Документ является объектом данных, обычно текстовых, хотя он может также содержать другие типы данных, таких как фотографии, графы и т. д. Часто сами документы не хранятся непосредственно в системе ИП, но представлены в ней как идентификаторы.
В этой главе нами будут представлены модели систем ИП и связанные с ними проблемы. Глава содержит на две основные части. Первый раздел - это анализ процесса многоязыкового информационного поиска и выявление проблем его осуществления. Второй раздел - анализ моделей оценки релевантности информационного поиска.
1.1 Анализ процесса многоязыкового информационного поиска и выявление проблем его осуществления
Термин «ИП» подразумевает поиск неструктурированных записей, таких как записи, состоящие в основном из текста в свободной форме на естественном языке. Конечно, другие типы данных тоже могут быть не структурированными, например фотоснимки, аудио, видео и т. п. Тем не менее исследования в области ИП были посвящены в основном поиску текста на естественном языке, разумный акцент был сделан на важность и огромные объемы текстовых данных, находящихся в сети Интернет и частных архивах.
Некоторые моменты из терминологии следует уточнить. Записи, в которых осуществляется ИП, часто называют «документами». ИП документов
осуществляется в организованных (относительно статически) хранилищ, наиболее часто называемых «коллекцией» (Слово «архив» тоже используется. Также используется слово «корпус». Термин «цифровая библиотека» становится наиболее распространенным. Но общий термин «коллекция» все еще часто используется в научной литературе). Однако следует понимать, что термин ИП не относится строго только к статическим коллекциям. Коллекция может быть потоком сообщений, например сообщений электронной почты, факсов, новостных рассылок, протекающих через Интернет или какую-нибудь частную сеть[1], [2].
Система ИП документов обычно состоит из трех основных подсистем: представления документа, представления пользовательских требований (запросов) и алгоритмов, используемых для определения соответствия пользовательских требований (запросов) представлениям документов. Простейшая архитектура показана на рисунке 1.1.
Рисунок 1.1 - Базовая архитектура информационно-поисковых систем [1]
Коллекция документов состоит из большого числа документов, содержащих информацию о различных предметных областях и темах, представляющих интерес. Содержание документа преобразуется в
представление документа (вручную или автоматически). Представления документов сделаны таким образом, чтобы сопоставление их с поисковыми запросами было легким. Другое предположение о представлении документов о том, что такое представление должно корректно отражать замысел автора. Главной задачей в представлении является то, как выбрать соответствующие термины указателя. Обычно представление осуществляется путем извлечения ключевых слов, которые считаются идентификаторами контента, и упорядочиванием их в заданном формате.
Запросы преобразуют информационную потребность пользователя в форму, которая корректно отражает информационное требование пользователя и подходит для осуществления поиска на соответствие. Форматирование запроса зависит от основной модели ИП, используемой в системе.
Пользователь присваивает рейтинг полученным документам, как релевантным или нерелевантным к его информационной потребности. Основная проблема, стоящая перед любой системой ИП, состоит в том, как находить только документы, релевантные информационным потребностям пользователя, при этом не извлекая нерелевантные.
Обратная связь по оценке пользователем релевантности обычно используется системой (см. рисунок 1.1) для улучшения описаний документов или запросов с ожиданием того, что общая производительность системы улучшится после введения такой обратной связи [1], [3].
Алгоритмы сопоставления используют представления документа и запроса для поиска документов, отобранных системой как релевантные. Однако документы, возвращенные системой, необязательно должны быть релевантными с пользовательской точки зрения. Двумя основными факторами, которые влияют на несоответствие между набором документов, отобранных системой, и теми, предполагаемыми пользователем как релевантные их
конкретному запросу, являются неоднозначность естественного языка и возможный ограниченный набор знаний пользователей в области запроса. Проблема двусмысленности (неоднозначности) естественного языка объясняется тем, что концепция может быть выражена несколькими способами. Например, рассмотрим слово windows (окна). Пользователь использует это слово для поиска документов в операционной системе Windows или документов, объясняющих, как классифицировать различные типы архитектуры, рассматривая формы окон [3]. Формулировка методов для преодоления проблемы двусмысленности естественных языков является главной целью исследований информационного поиска.
Помимо традиционного информационного поиска (ИП) или поиска на одном языке, где документы и запросы написаны на одном и том же языке, в области исследования ИП рассматриваются еще два типа ИП: кроссязычный ИП в многоязыковой среде и многоязычный ИП (МИП).
1.1.1 Анализ многоязыкового информационного поиска
В то время как ИП был активной областью исследований на протяжении многих десятилетий большая часть его истории имеет очень сильный уклон в сторону английского языка, как языка, выбранного для исследовательских целей и оценки. Какими бы они ни были на протяжении этих лет, многие мотивы за почти исключительную работу с английским языком, как языком ИП, они потеряли свою актуальность. Интернет уже больше не является одноязычным, и неанглоязычный контент значительно увеличивается. С 2005 года две трети всех пользователей сети Интернет оказались не говорящими на английском языке [4].
В действительности только одна пятая часть пользователей сети Интернет является носителем английского языка. Природа сети Интернет не знает каких-
либо языковых границ. Люди из разных стран, говорящие на разных языках, используют сеть Интернет. Это однозначно мотивирует развитие и улучшение многоязычных методов ИП. Люди часто могут быть заинтересованы в релевантной информации на разных языках, которая получена с помощью одного процесса поиска с использованием многоязычных методов. Это также позволяет пользователям выражать потребности в информации на своих родных языках, тогда как результаты поиска могут быть на других [5].
Многоязычный ИП предполагает хорошее понимание вопросов, касающихся ИП на одном языке. Для малых европейских языков, таких как голландский и финский, затраты на разработку и поддержку языковой инфраструктуры относительно высоки. Но положение языков, для которых разработано небольшое количество вычислительных инструментов, будет осложняться в растущем глобальном обществе ввиду культурных и экономических причин [4].
Кроссязычный ИП является задачей поиска документов, релевантных запросу, на некотором языке (языке запроса) в наборе (собрании) документов на некотором другом языке (языке набора (собрания)).
Кроссязычный ИП является подобластью ИП, касающейся поиска информации, записанной на языке, отличном от языка пользовательского запроса. Например, пользователь может создать свой запрос на английском языке, а получить релевантные документы на французском. Для этого большинство систем кроссязычного ИП используют технологии перевода [5-7].
Система многоязычного ИП (МИП) помогает пользователям соствить запрос на одном языке и осуществлять поиск документов на более чем одном языке [5, 7, 8- 11].
Система МИП находит применение там, где набор данных состоит из документов на разных языках и пользователи системы ИП могут читать на
некоторых языках, на которых написаны документы. В большинстве случаев люди в действительности имеют базовые навыки чтения и понимания на некотором другом языке, в отличие от их родного языка, на котором они обычно пишут поисковые запросы. Далее, если пользователи не понимают язык найденного документа, могут быть использованы системы машинного перевода (МП) для получения текста на родном языке пользователя.
Рассмотрим многоязычные системы, о которых есть сведения в периодике.
Работа Zhuhadar L., Nasraoui O., Wyattand R., Romero E. [12]. Авторами используется метод перевода запроса для поиска документов на нескольких языках с техникой расширения для перевода по фразам. Они также использовали поисковики, применяющие модель векторного пространства для сопоставления терминов запроса с проиндексированными документами, где использовалось уравнение скоринга. Скоринговый алгоритм основан на представлении документов вектором. Каждое представление вектора-термина связано с каждым полем документа, для которого пользователь делает запрос на английском или испанском языке.
Работа Capstick, J., Diagne, A.K., etal. [13]. Система MULINEX -полностью реализованный многоязыковой поисковик и навигационная система для Всемирной паутины. Система позволяет пользователям искать и просматривать мультиязыковые собрания документов с использованием их родного языка, чтобы формулировать, расширять и уточнять запросы, просматривать набор результатов и читать найденные документы.
Этот мультиязыковой функционал получен благодаря использованию перевода запросов со словарем, категоризации документов на нескольких языках и автоматическому переводу аннотаций и документов. Система
установлена в составе онлайн-служб двух компаний - Интернет контент и сервис провайдерах.
Работа Maeda A., Sadat F., etal. [14]. Сначала запрос переводится с родного языка пользователя на язык просматриваемых документов с помощью двуязычного словаря. При этом первоначальный запрос разделяется на слова с использованием морфологического анализатора. Затем каждое слово автоматически переводится на целевой язык с использованием машиночитаемого словаря.
Работа Qin J., Zhou Y., Chau M., Chen H. [15]. В системе принят словарно-ориентированный подход, сочетающий в себе перевод фраз, анализ совместного появления перед переводом и после расширение запроса. Подход был оценен доменными экспертами и результаты представлены таким образом, что достигается перевод предложений. Достигнут уровень в 74.6% улучшения точности при сравнении с простым переводом каждого слова.
Работа Sethuramalingam S., VasudevaVarma [16]. Языки: английский-хинди, хинди-английский, использован словарно-ориентированный перевод запросов. Для перевода применен подход соответствий, для ранжирования -алгоритм люцена (lucene) BM25.
Работа ChandraMohan, Sadanandam, RajuKorra [17]. Здесь мультиязыковой словарь основан на переводе каждого слова запроса, а собрания на английском, французском, немецком и хинди обрабатываются системами ИП и МИП. Для перевода запросов был использован переводчик Google. При этом английский язык рассматривался как язык источника, а французский, немецкий и хинди - как целевые языки.
Работа Hsin-Chang Yang, Chung-Hong Lee [18]. В этой работе авторами представлен метод на основе GHSOM (Growing Hierarchical Self-Organizing Map) для обнаружения соответствий между разными языками и применением
этого метода для задачи МИП. Эксперименты показали, что этот метод предоставил многообещающий подход для решения задачи МИП.
Работа Yoshinaga Terano Zhong N. [19]. Автором предложен новый Веб-поисковик, который автоматически классифицирует собранные документы, осуществляет поиск информации на нескольких языках (например, японском или английском). Это достигается обработкой с помощью формализованного описания предметной области - онтологии. Они создали многоязычную онтологию для применения в качестве указателя словаря. Онтология управляет для конкретных предметных областей отношениями ключевых слов и их весов, согласно которым классифицируются документы.
Перечисленные выше системы позволяют осуществлять автоматический перевод текста на другой язык и выполнить поиск документов на этих языках. Сравнительные данные по перечисленным выше системам, представлены в таблице 1. Большинство из них использует перевод запросов методом «слово-слово». Это приводит к большому количеству ошибок перевода, в свою очередь, приводящих к включению в результаты нерелевантных документов. Также практически во всех системах отсутствует ранжирование найденных документов. Единственная система, использующая ранжирование, применяет для выполнения классификацию на базе онтологии.
Кроме того все эти системы все еще имеют высокий уровень ошибок, которые, например, возникают вследствие неоднозначности терминов и сложности грамматики. С неоднозначностью терминов сталкиваются и одноязыковые системы ИП, но для систем МИП ошибки неоднозначности терминов на стадии перевода потенциально [5] могут увеличиться. Эти проблемы, возможно, не будут решены в ближайшем будущем. Это мотивирует разработку многоязычных методов ИП, которые не зависят от систем
машинного перевода или как минимум способны компенсировать ошибки таких систем.
Таблица 1.1 - Анализ существующих систем МИП
Авторы Языки Особенности реализации Недостатки
Jialun Qin, Yilu Zhou,Michael Chau,Hsinch un Chen, (2006) Английский - китайский Перевод запроса «слово - слово». Ошибки перевода запроса. Дополнительные временные затраты на обработку нерелевантных ссылок. Отсутствие ранжирования документов.
Leyla Zhuhadar, Olfa Nasraoui, Robert Wyatt, Elizabeth Romero (2010) Английский - испанский Перевод запроса по словарю с ограниченным набором научных тем. Сложная оценка релевантности по модели векторного пространства. Большие временные затраты на подсчет оценки релевантности и удаление нерелевантных документов.
Chandra Mohan, Sadanandam, Raju Korra (2013) Английский французский - немецкий -хинди Перевод запроса «слово - слово». Сбор текстов на четырех языках. Ошибки перевода запроса. Отсутствие ранжирования документов.
Узким местом в развитии многоязычных подходов в ИП являются языковые ресурсы, которые являются посредниками между языками. Примерами таких ресурсов, которые часто используются в настоящих многоязычных системах ИП, являются билингвальные словари, такие как Интерлингва WordNet и EuroWordNet 2. Подобные ресурсы обычно написаны отдельными авторами и покрывают только ограниченный набор тем [5, 11].
Проблема МИП, по существу, заключается в машинном переводе текста очень маленького объема (запроса). Есть две работы, описывающие подходы к этой проблеме. Один - перевод со словарем с использованием машиночитаемых многоязычных словарей, а второй - автоматическое извлечение возможных эквивалентных переводов посредством параллельного статистического анализа или сопоставления собраний документов. Существует серьезная вопрос для систем МИП: каким образом пользователи смогут оценить релевантность найденных документов, представленных на нескольких языках, и каким образом будет осуществляться выбор наиболее релевантных документов для перевода машиной или человеком [20], [11].
Большинство систем МИП используют некоторый тип перевода. В то время как существуют методы без перевода, такие как методы, основанные на онотологическом представлении документов и запросов. Многоязычная онтология представления документов/запросов использована в [21], [7].
Интеграция перевода запроса и документа с одноязычным ИП для улучшения точности поиска представлена в [22], [7] и выполняет кластеризацию для повышения эффективности просмотра веб-страниц.
В кросс-языковом и МИП потребность в информации и соответствующий запрос пользователя могут быть сформулированы на языках, отличных от тех, на которых написаны документы. Релевантность является принципиально независимой от языка характеристикой документа.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет2002 год, кандидат технических наук Амамра Рушди Ахмад
Разработка и модификация моделей и алгоритмов поиска данных в INTERNET/INTRANET среде для улучшения качества поиска2014 год, кандидат наук Хорошко, Максим Болеславович
Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода2009 год, кандидат технических наук Занин, Дмитрий Евгеньевич
Моделирование и разработка средств и технологий поиска документальной информации2004 год, кандидат технических наук Голицына, Ольга Леонидовна
Агрегированное представление текстов для задач поиска в коллекциях текстовых документов2019 год, кандидат наук Фролов Дмитрий Сергеевич
Список литературы диссертационного исследования кандидат наук Шоуман Марва Ахмед Элшахат, 2016 год
Литература
1. Greengrass E. Information Retrieval: A Survey: University of Maryland . — 2000.
— 225 c.
2. Sagayam R., Srinivasan S., Roshni S. A Survey of Text Mining: Retrieval Extraction
and Indexing Techniques. // International Journal of Computer & Electronics Research
(IJCER) . — 2012. — Vol. 2. — №5.— P. 1443-1444.
3. Indrawan M.A framework for information retrieval based on Bayesian networks:
PhD dissertation: Monash University. — 1998.
4. Hollink V. Monolingual Document Retrieval for European Languages. / V. Hollink, J. Kamps, C. Monz, M .de Rijke M // International Journal of Informatiom Retrieval. — 2004. — Vol. 6. — P. 33-52.
5. Sorg P. Exploiting Social Semantics for Multilingual: PhD dissertation: Karlsruher institut fur technologie. — 2011.
6. Cross-language information retrieval. [Электронный ресурс]. URL: https://en.wikipedia.org/wiki/Cross-language_information_retrieval (дата обращения: 13.06.2015).
7. Dhavachelvan P., PothulaSujatha. A Review on the Cross and Multilingual. // International Journal of Web and Semantic Technology (IJWesT) . — 2011. — №5. — Vol. 2. —P. 115-124.
8. Korra R. Performance evaluation of Multilingual Information Retrieval (MLIR) system over Information Retrieval (IR). // Proceedings of the International Conference system Recent Trends in Information Technology (ICRTIT) . — 2011. —P.722-727.
9. Sujatha P. Performance Evaluation of CLIR and MLIR using Precision Metric
Variants .// International Journal of Computer Technology and Applications. — 2012.
— №4. — Vol 3. — P.1637-1644.
10. Sujatha P. A Review on Performance Evaluation Measures of Multi Lingual Information Retrieval Systems.// International Journal of Advanced Research in Computer Science and Software Engineering. — 2012. — №8. — Vol. 2. — P.440-460.
11. Sujatha P., Dhavachelvan P. Precision at K in Multilingual Information Retrieval. // International Journal of Computer Applications. — 2011. — Vol 24. — №9. — P. 40-43.
12. Zhuhadar L., Nasraoui O., Wyatt R ., Romero E. Multi-language Ontology-Based Search Engine. // In Proc. of The Third International Conference on Advances in Computer-Human Interactions. — Netherlands. — 2010. — P. 13-18 .
13. Capstick J., Diagne K. MULINEX: Multilingual Web Search and Navigation. // In Proc. of Natural Language Processing and Industrial Applications. — Canada. — 1998.
14. Maeda A., Sadat F. Query Term Disambiguation for Web Cross-Language Information Retrieval using a Search Engine. // In Proc. of the Fifth Int'l Workshop on Info. Retrieval with Asian Languages. — China. — 2000. — P. 173-179.
15. Jialun Q., Zhou Y., Yilu Z., Chau M., Hsinchun C. Multilingual Web retrieval: An experiment in English-Chinese business intelligence. // Journal of the American Society for Information Science and Technology(JASIST). — 2006. — Vol. 5. — P. 671-683.
16. Sethuramalingam S., Vasudeva V. IIIT Hyderabad's CLIR experiments for FIRE-2008// In Proc. of The working notes of First Workshop of Forum for Information Retrieval Evaluation (FIRE) . — 2008. — Kolkata.
17. Chandra D., Sadanandam M., Raju K. Software Metric Framework for Multilingual Information Retrieval (MLIR). // System Performance Assessment. — 2013. — Vol 2 . — № 4. — P.38-46.
18. Yang C. , Lee H. Multilingual Information Retrieval Using GHSOM. // In Proc. of Eighth International Conference on Intelligent Systems Design and Applications( ISDA '08) . — 2008. — Vol 1. — P. 225-228.
19. Yoshinaga K., Terano T., Zhong N. Multi-lingual Intelligent Information Retriever with Automated Ontology Generator // In Proc. of Third International Conference on Knowledge-Based Intelligent Information Engineering Systems. — 1999. — P. 62-65.
20. Mandl.T, Womser-Hacker C., Ferro N., Nicola Di Nunzio G. How Robust are Multilingual Information Retrieval Systems? // In Proc. of ACM SAC Symposium on Applied Computing (SAC) . — 2008. — P.1132-1136.
21. Aliane H. An Ontology Based Approach to Multilingual Information Retrieval. // In Proc.Of The International Conference of Information and Communication Technologies. — 2006. — Vol 1. — P. 1732 - 1737.
22. Fujii A., Ishikawa T. Evaluating Multi-lingual Information Retrieval and Clustering at ULIS. // In Proc. of the Second NTCIR Workshop Meeting on Evaluation of Chinese and Japanese Text Retrieval and Text Summarization. — 2001. — P. 5144-5148.
23. Salton G. A Simple Blueprint for Automatic Boolean Query processing. // The Journal of Information Processing and Management. — 1988. — Vol 24. — № 3. — P. 269-280.
24. Fuhr N. Two Models of Retrieval with Probabilistic Indexing. // In Proc. of the 9th Annual Conference on Research and Development in Information Retrieval. — New York . — 1986. — P. 249-257.
25. Lewis D., Sparck-Jones K. Natural Language Processing for Information Retrieval // The Journal of Communication the ACM. — 1996. — Vol 39. — № 1. — P. 92-101.
26. Milstead J. Subject Access Systems : Orlando Academic Press. — 1989.
27. Manning D., Raghavan C., Schütze H. Introduction to Information Retrieval: Cambridge. — England. — 2008.
28.Пальчунов Д. Е. Решение задачи поиска информации на основе онтологий // Бизнес- информатика. 2008. № 1. C. 3-13.
29.Агеев, М.С. Официальные метрики РОМИП'2004 [Электронный ресурс] / М.С. Агеев, И.Е. Кураленок // Российский семинар по оценке методов информационного поиска (РОМИП 2004). - Пущино. - 2004. - Режим доступа: http://www.cir.ru/docs/ips/publications/2004_romip_metrix.pdf.
30. Sharma M., Patel R. A Survey on Information Retrieval Models ,Techniques And Applications. // International Journal of Emerging Technology and Advanced Engineering. — 2013. — Vol 3. — № 11. — P. 542-545.
31. Singhal A. Modern information retrieval: a brief overview.// Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. — 2001. — Vol 24. — P. 35-43.
32. Salton G, Wong A, and Yang .C. A Vector Space Model for Automatic Indexing. // The Journal of Communincations the ACM. — 1975. — Vol 18. — № 11. — P. 613620.
33. Khankasikam K. A comparison of information retrieval models applied to Thai digital library. // In Proc. Of The 2nd International Conference of Computer and Automation Engineering (ICCAE) .— 2010. — Vol 1. — P.335 - 338.
34. Turtle H. Inference networks for document retrieval: PhD dissertation: University of Massachusetts at Amherst. — 1991.
35. Callan J. ,Croft W., Harding S. The INQUERY Retrieval System. // Database and Expert Systems Applications. — 1992. — P. 78-83.
36. Turtle H., Croft W., Efficient Probabilistic Inference for text retrieval. // In Proc. Of RIAO 3 Conference Proceedings. — Spain. — 1991 . — P 644-662.
37. Turtle H, Croft W. Evaluation of an inference Network based retrieval model. // ACM Transaction on information system . — 1993. — Vol. 9. — № 3. — P .187-222
38. Brini A., Boughanem M., Dubois D. Towards a possibilistic approach for Information Retrieval. // In Proc. Of EUROFUSE Conference Data and Knowledge Engineering. — 2004. — P. 92-102.
39. Maalal S. Addou M. A new approach of designing Multi-Agent Systems.// International Journal of Advanced Computer Science and Applications (IJACSA) . — 2011. — Vol. 2. — № 11. — P 147-156.
40. Wooldridge M. Intelligent Agents, Multi agent systems. // MIT Press Cambridge. — 1995. — P. 27-78.
41. Woolridge M .Introduction to Multiagent Systems: John Wiley and Sons. — 2001.
42. YANG H., WANG Z., ZHOU X., ZHOU T., WANG Z. A Community Mining Algorithm for Web Texts Based on Multi-agent System. // Journal of Computational Information Systems . — 2010. — P . 3509-3516.
43. Aref M. A multi-agent system for natural language understanding. // In Proc. of International Conference on Integration of Knowledge Intensive Multi-Agent Systems (KIMAS '03) . — USA. — 2003. — P. 36-40.
44. Zheng G., Yuan R. Multi-Agent Supply Logistics Intelligent Management System Based on Negotiation. // Computer Science Applications and Education. — 2013. — Vol.3 . — № 1. — P.477-481.
45. Web search engine .Wikipedia .The Free Encylopedia.[Электронный ресурс]. URL: http://en.wikipedia.org/wiki/Web_search_engine. (дата обращения: 27.04. 2015).
46. Sheth B., Maes P. Evolving agents for personalized information filtering. // In Proc. of IEEE Conference on Artificial Intelligence for Applications (CAIA-93) . — 1993. — P. 345-352
47. Lieberman H. Letizia: An agent that assists web browsing. // In Proc. of the Fourteenth International Joint Conference on Artificial Intelligence (IJCAI-95) . — Canada. 1995. — P. — 924-929.
48. Armstrong R., Freitag D., Joachims T., Mitchell T. Webwatcher: A learning apprentice for the World Wide Web. // AAAI Spring Symposium on Information Gathering. - 1995. - P. 6-12.
49. Etzioni O., Weld D. Intelligent agents on the internet: fact, fiction and forecast. // IEEE Expert. - 1995. - Vol.10. - № 3. - P. 44-49.
50. Bleyer M. Multi-Agent Systems for Information Retrieval on the World Wide Web: Diploma Thesis. University of Ulm. - Germany. - 1998.
51. Jirapanthong W., Sunetnanta T. An XML-Based Multi-Agents Model for Information Retrieval on WWW. // In Proc. of the 4th National Computer Science and Engineering Conference (NCSEC2000) . - Thailand. - 2000.
52. Shaban K., Basir O., Kamel M.Team Consensus in Web Multi-agents Information Retrieval System // World Automation Congress. - 2004. - Vol. 17. - P. 68-73.
53. Alam H., Kumar A., Nakamura M , Rahman F., Tarnikova Y. , Wilcox C. .Structured and Unstructured Document Summarization: Design of a Commercial Summarizer using Lexical Chains. // In Proc. of the Seventh International IEEE Conference on Document Analysis and Recognition (ICDAR) . - 2003. - P. 1147 -1152.
54. Unstructured data. Wikipedia, the free encyclopedia. [Электронный ресурс]. URL: http://en.wikipedia.org/wiki/Unstructured_data.From Wikipedia, (дата обращения :03.03. 2015).
55. Hejab M, Fawareh A., Shaidah J. Agent-based Knowledge Mining Architecture. // In Proc. of International Conference on Computer Engineering and Applications (IPCSIT) . - 2011. - Vol.2. - P. 525 - 530.
56. R.Malik, CONAN. Text Mining in Biomedical domain: PhD thesis: Utrecht University. - Austria. - 2006.
57. Ghosh S., Roy S., Bandyopadhyay S. A tutorial review on Text Mining Algorithms
// In Proc. of International Journal of Advanced Research in Computer and
Communication Engineering. — 2012. — Vol. 1. — № 4. — P. 223 - 233.
5S. Vidhya. A, Aghila G. Text Mining Process, Techniques and Tools : an Overview. //
In Proc. of International Conference on Technology and International Journal of
Information Technology and Knowledge Management. — 2010. — Vol 2. — № 2. — P.
613-622.
59. Dasari d., Rao V. A Novel Approach of Data Mining Model for Text Classification Categorization. // In Proc. of International Journal of Application or Innovation in Engineering & Management (IJAIEM) . — 2013. — Vol 2. — № 3. — P. 521- 525.
60. RamanathanV., Meyyappan T. Survey of Text Mining // In Proc. of International Conference on Technology and Business Management. — 2013.
61. Luhn P. The Automatic Creation of Literature Abstracts. //IBM Journal of Research and Development. — 195S. — Vol 2. — № 2. — P 159-165.
62. Sparck- Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. — 1972. — Vol 2S. — № 10. — P .11-20.
63. Indrawan M. A framework for information retrieval based on bayesian networks: PhD dissertation: Monash University. — 199S.
64. Шоуман M.A., Андреев A.M., Иванова Г.С., Ветрова В.В. Нечеткий метаграф для моделирования автоматического многоагентного поиска информации. // Сборник научных трудов II-ой Международная научно-практическая конференция «Aктуальные проблемы и перспективы развития радиотехнических и инфокоммуникационных систем «Радиоинфоком-2015» . — 14-18 апреля. — М.: MИРЭA. — 2015. — С. 227-232.
65. Polettini N. The Vector Space Model in Information Retrieva,Term Weighting Problem. Technical Report TR95-1560. Department of Information and Communication Technology. — Italy University of Trento. — 2004.
66. Singal A, Buckley C., Mitra M., Salton G. Pivoted document length normalization. Technical Report TR95-1560. Department of Computer Science. Cornell University. New York. — 1995.
67. Salton G., Buckley C . Term-weighting approaches in automatic text retrieval.// Information Processing and Management. — 1988. — Vol 24. — № 5. — P. 513 - 523.
68. Иванова Г.С. Автоматический поиск информации с использованием мульти-агентной системы. / Г.С. Иванова, А.М. Андреев, В.И. Нефедов, М.А. Шоуман, Е.В. Егорова. // Электромагнитные волны и электронные системы . — 2015. — № 2. — Т. 20. — С. 33 - 38.
69. Gaur D. , Shastri A. , Biswas R. Metagraph. A New Model of Data Structure. // International Conference on Computer Science and Information Technology. — 2008.
70. Basu.A, Blanning.R .Metagraph and Their Application: Springer, US, Integrated Series in Information Systems. — 2007.
71. Khan W., Dashore P. Uncertainty Knowledge Representation through Fuzzy Metagraph. // International Journal of computer Application (IJCA) . — 2007. — Vol 2. — P 149-154.
72. Dashore P, Jain S. Fuzzy Metagraph and Hierarchical modeling // International Journal on Computer Science and Engineering . — 2011. — Vol 3. — № 1. — P.435 -449.
73. Basu A. , Blanning R . Workflow Analyasis Using Attributed Metagraphs. // Proc. Of The 34th Hawaii Int'l Conf. System Sciences . — 2001. — P. 3735-3743.
74. Thirunavukarasu A., Maheswari U. Optimization of Fuzzy Metagraph Based Stock Market DSS Using Genetic Algorithm. //Computers, Automatic Control, Signal Processing and Systems Science. — 2014. — P. 132 - 139.
75. Thirunavukarasu A., Maheswari S. Design and Analysis of Fuzzy Metagraph Based Data Structures. // International Journal on Computer Science and Engineering (IJCSE). 2012. - Vol. 4. - №. 11. - P 1830- 1835.
76. Mordeson N., Nair S. Fuzzy Graphs and Fuzzy Hypergraphs: Physica-Verlag Heidelberg New York. 2000.
77. Thirunavukarasu A., Maheswari S. Fuzzy metagraph based clustering techniques paripex // Indian journal of research. — 2013. — Vol. 2. — № 8. — P. 117-119.
78. Basu A, Blanning W. Metagraphs. Omega. // International Journal on Management Science. — 1995. — Vol 23. — P. 13-25.
79. Thirunavukarasu A., Maheswari S. Fuzzy metagraph based knowledge representation of decision support system. // International Journal on Computer Engineering and technology . — 2012. — Vol 3. — № 2. — P. 157-166.
80. Thirunavukarasu A, Maheswari U. Technical analysis of Fuzzy Metagraph based decision Support system for capital market. // Journal of Computer Science. — 2013. Vol.9. — № 9. — P.1146-1155.
81. Иванова Г.С., Андреев А.М., Шоуман М.А. Поиск и Ранжирование документов с использованием мультиагентной системы. //Фундаментальные исследования. — 2015. — № 10 . — часть 3. — С.489-494.
82. NEGNEVITSKY M. Artificial Intelligence: a guide to intelligent systems. Pearson Education Limited.England. — 2005.
83. Dehzangi O. , Zolghadri J. , Taheri S. , and Fakhrahmad M. Efficient Fuzzy Rule Generation: A New Approach using Data Mining Principles and Rule Weighting. // In Proc. of 4-th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD) . — 2007.
84. Ross J. Fuzzy Logic with Engineering Applications: John Wiley & Sons. Third Edition. — UK. — 2010.
85. Buckley J., Eslami E. An introduction to fuzzy logic and fuzzy sets. // Advances in Soft Computing.Physica-Verlag, Germany. — 2002.
86. Dashore P, Suresh J. Fuzzy Rule Based Expert System to Represent Uncertain Knowledge of E-commerce. // International Journal of Computer Theory and Engineering. — 2010. — Vol.2. — № 6. — P. 882-886.
87. Jerry M . Mendel.Fuzzy Logic Systems for Engineering: A fitorial. — 1990.
88. A Short Fuzzy Logic Tutorial . — 2010. — April 8.
89. Zadeh A. Fuzzy sets. // Information and Control. — 1965. — Vol. 8. — P. 338353.
90. Jang R., Sun T., Mizutani E. Neuro-Fuzzy and Soft Computing: Prentice Hall. — India. — 2011
91. Hamdan H. An Exploration of the Adaptive Neuro-Fuzzy Inference System (ANFIS) in Modelling Survival: PhD dissertation. University of Nottingham. — 2013.
92. JANG J.S.R, SUN C.T. Neuro-fuzzy modeling and control. // In Proc. of the IEEE.
— 1995. — Vol 83. — P. 378-406.
93. Patil P.D, Kulkarni N.J . Text Summarization Using Fuzzy Logic. // International Journal of Innovative Research in Advanced Engineering (IJIRAE) . — 2014. — Vol 1.
— № 3. — P.42-45.
94. Kaur A, Comparison of Mamdani-Type and Sugeno-Type Fuzzy Inference System for Air Conditioning System. // International Journal of Soft Engineering(IJCSE). — 2012. — Vol. 4. — № 11. — P.1830- 1835.
95. Kamboj V., Kaur A. Comparison of Constant SUGENO-Type and MAMDANI-Type Fuzzy Inference System for Load Sensor. // International Journal of Soft Computing and Engineering (IJSCE) . — 2013. — Vol 3. — № 2.
96. Shouman M.A., Ivanova G.C., Andreev A.M. Comparison of fuzzy interference system for documents ranking score. // Евразийский Союз Ученых (ЕСУ) . — 2015.
— № 1(18) . — часть 1. — С. 65-71.
97. Ruben .N. The Application of Fuzzy Logic to the Construction of the Ranking Function of Information Retrieval Systems. // Computer Modeling and New Technologies. — 2006. — Vol.10. — № 1. — P. 20-27.
98. Fuzzy Logic Toolbox User's Guide: The MathWorks Inc. — 2004.
99. Mendel J. Fuzzy logic systems for engineering: a tutorial. // In Proc. of the IEEE.
— 1995. — Vol 83. — № 3. — P 345-377.
100. Mamdani E.H. and Assilian S .An experiment in linguistic synthesis with a fuzzy logic controller // International Journal of Man-Machine Studies. — 1975. — Vol .7. — № 1. — P.1-13.
101. What is Sgeno type fuzzy inference [Электронный ресурс]. URL: http://www.mathworks.com/help/fuzzy/what-is-sugeno-type-fuzzy-inference.html. (дата обращения :15.06. 2015).
102. Круглов В. Сравнение алгоритмов Мамдани и Сугэно в задаче аппроксимации функции. // Нейрокомпьютеры: разработка, применение. — 2003.
— № 5. — С. 70-82
103. Venkatadri M., Hanumat S. , Manjunath G. A Novel Business Intelligence System Framework // Universal Journal of Computer Science and Engineering Technology. 2010. — Vol 1 — № 10. — P.112-116.
104. Bellifemine F, Poggi A, Rimassa G: JADE -A FIPA-compliant agent framework, University of Parma. - 2000.
105. IEEE Foundation for Intelligent Physical Agents. Specifications. - 1997.
106. Rapid miner text mining extension. [Электронный ресурс]. URL: http://www.predictiveanalyticstoday.com/rapidminer-text-mining-extension(дата обращения: 20.07. 2015).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.