Исследование и разработка моделей и средств обеспечения документального поиска в распределенных гетерогенных информационных ресурсах тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Окропишин, Антон Евгеньевич
- Специальность ВАК РФ05.13.01
- Количество страниц 148
Оглавление диссертации кандидат наук Окропишин, Антон Евгеньевич
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
Глава 1. ИССЛЕДОВАНИЕ И МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ЗАДАЧАХ ДОКУМЕНТАЛЬНОГО ПОИСКА
1.1 Обзор решений, обеспечивающих информационный поиск в распределенных ИР
1.2 Поисковые взаимодействия в системах информационного обмена
1.3 Исследование зависимости информационной совместимости от фактора рассеяния
1.4 Экспериментальная оценка интегральных характеристик полноты ресурса и рассеяния по видам документов
1.5 Общая постановка задачи распределенного поиска в гетерогенных
информационных ресурсах
Выводы к главе 1
Глава 2. ИНФОРМАЦИОННАЯ СОВМЕСТИМОСТЬ РЕСУРСОВ
2.1 Экспериментальный анализ используемости метаданных в поисковых интерфейсах распределенных ИР
2.2 Модель метаинформационной совместимости
2.3 Модель лингвистической совместимости ресурсов
2.4 Модель лексической совместимости документальных ресурсов
Выводы к главе 2
Глава 3. ОБЪЕКТНАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО РЕСУРСА
3.1 Формализованное описание информационного ресурса
3.2 Компоненты объектной модели информационного ресурса
3.3 Исследование средств, обеспечивающих внешние взаимодействия ресурса
3.4 Реализация объектной модели для задачи автоматизированного использования описания ресурса
3.5 Состав и структура описания информационного ресурса
Выводы к главе 3
Глава 4. РАЗРАБОТКА СРЕДСТВ ОБЕСПЕЧЕНИЯ ПОИСКА В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ
4.1 Технология распределенного поиска в гетерогенных информационных ресурсах
4.2 Функции и структура унифицированной поисковой среды
4.3 Репозиторий описаний информационных ресурсов
4.4 Алгоритм функционирования программного комплекса
4.5 Экспериментальная оценка эффективности механизма обеспечения
интероперабельности ИР
Выводы к главе 4
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
Приложение 6
Приложение 7
Приложение 8
СПИСОК СОКРАЩЕНИЙ
АИС - автоматизированная информационная система
АИТТС - автоматизированная информационно-поисковая система
АРМ - автоматизированное рабочее место
ЕФБД НИОКР - Единая федеральная база данных НИОКР
ИГТП - информационная потребность пользователя
ИПС - информационно-поисковая система
ИР - информационный ресурс
ИС - информационная система
НТИ - научно-техническая информация
НИР - научно-исследовательская работа
ОКР - опытно-конструкторская работа
ПрО - предметная область
ТКЭД - таблица классов элементов данных
ЭБ - электронная библиотека
ЯПЗ - язык поисковых запросов
081 - модель взаимодействия открытых систем
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам2001 год, доктор технических наук Максимов, Николай Вениаминович
Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели2014 год, кандидат наук Бармин, Александр Александрович
Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах2012 год, кандидат технических наук Галиев, Тимур Эргунович
Аналитические и процедурные модели информационного пространства музея нобелистики2008 год, кандидат технических наук Тявкин, Игорь Владимирович
Лингвистическое обеспечение информационно-поисковых систем библиотек АПК: Методика формирования и пути совершенствования2003 год, кандидат педагогических наук Пирумова, Лидия Николаевна
Введение диссертации (часть автореферата) на тему «Исследование и разработка моделей и средств обеспечения документального поиска в распределенных гетерогенных информационных ресурсах»
ВВЕДЕНИЕ
Неотъемлемым атрибутом современного общества в последние десятилетия стало непрерывное увеличение объемов информации, представленной на электронных носителях и организованной в виде множества разнообразных распределенных документальных ресурсов. Этому, в частности, способствует быстрая информатизация обществ развивающихся стран [70].
При этом становится очевидным, что развитие средств работы с порождаемой обществом информацией не может компенсировать возрастающую как количественно, так и качественно сложность ее обработки [5, 14, 16]. Так как процессы познания, представляющие основу для развития современного общества, неизбежно связаны с взаимодействием, одной из форм которого является использование знаний, представленных в информационных ресурсах (ИР), то для дальнейшего стабильного поддержания этого развития основной проблемой становится необходимость обеспечения доступа к накопленным в информационных ресурсах знаниям для ученых и специалистов.
Эти ресурсы1, в свою очередь, представлены широким спектром форм, начиная от отдельных статей (файлов) в общем доступе на Шегпе^сайтах и заканчивая структурированными базами данных электронных библиотек (ЭБ). Подобная разнородность, тем не менее, закономерна и объясняется особенностями происхождения, а также, во многом, использования хранящейся в ресурсах информации. Для доступа к такого рода информации используют: поисковые машины с их инструментарием, направленным на слабоструктурированную, в силу специфики своего происхождения, предметную область (ПрО); индивидуальные поисковые средства каждого из ресурсов, настроенные на особенности и структуру конкретных баз данных.
Важным фактором, определяющим развитие поисковых средств, является требование к оперативности, полноте и достоверности научной и научно-технической информации. От того, насколько полно ученые и специалисты всех отраслей обеспечены новейшей актуальной информацией, зависит уровень развития науки и страны в целом [41]. Поэтому одним из основных направлений информатизации общества стало повсеместное распространение электронных библиотек [6], призванных хранить разнородную электронную информацию и предоставлять пользователям удаленный доступ. И по мере создания новых электронных библиотек и онлайновых каталогов сформировался целый ряд требова-
1 Здесь и далее по тексту понятие «ресурс» для краткости будет заменять понятие «информационный ресурс».
ний к такого рода информационным ресурсам и способам их организации. К ним можно отнести [12]:
• развитие новых походов к каталогизации информационных ресурсов и ЭБ;
• разработка техники индексирования, методов поиска и обнаружения релевантных ресурсов, а также принципов и средств их анализа;
• интеграция разнородных коллекций ИР на логическом и семантическом уровне;
• разработка подходов к интеграции данных и методов их реализации;
• создание функционально развитых пользовательских интерфейсов.
И все же, несмотря на решение многих технических проблем, связанных со скоростью и удобством доступа к информации в рамках отдельных ресурсов, ситуация с возможностью ее агрегации и унификации форм ее представления заметно не меняется. А широкое внедрение информационных систем (ИС) и баз данных в сочетании с сетевыми решениями, тем не менее, остается пока лишь очередным этапом в попытках человека справиться с проблемами получения и переработки информации [24].
Сложившаяся ситуация имеет как технические (о которых будет упомянуто позже), так и социально-экономические предпосылки, во многом обусловленные происхождением тех или иных информационных ресурсов и ЭБ. Среди этих предпосылок можно выделить в первую очередь языковую принадлежность документов содержащихся в ресурсе. Так как наиболее крупные ресурсы всегда основываются на базе уже существующего предприятия или библиотеки и пополняются за счет постепенной оцифровки ранее созданного контента, то и характер их наполнения непосредственно связан с языковой принадлежностью базовой организации. В связи с этим потенциальный потребитель сталкивается с необходимостью самостоятельно проводить сравнение и отбор документов по разноязычным источникам. Помимо этого фактора принципиальную роль играет и другой - тематическая и отраслевая принадлежность ресурса, напрямую определяющая содержащиеся в нем документы, и как следствие, их структуру.
Все это свидетельствуют о том, что, несмотря на создание все более совершенных систем управления ИР в рамках отдельно взятых ЭБ, на уровне выше отдельной ЭБ -уровне информационного пространства в целом, остается не решенной одна из основных задач любой ИС - предоставление пользователю нужной ему информации в удобной и доступной для него форме, обеспечивающей максимальное соответствие его личным потребностям и выбираемой из всех доступных на данный момент по данной теме источников. Здесь пользователь сталкивается со многими из тех проблем, которые можно считать решенными в рамках отдельно взятой ЭБ. Стоит отметить, что для полноценного обеспе-
чения учебной и научной деятельности он все же будет вынужден подняться на этот уровень, выйдя за рамки привычного набора информационных ресурсов. [40]
Для разрешения сложившейся ситуации мировое сообщество предпринимает ряд действий, направленных на интеграцию информационных потоков, порожденных различными источниками. Согласно [68], выделяются три подхода:
1. Основанная на каталогизации агрегация данных, произведенных сторонними ИР в пределах некоторого ресурса, имеющего собственную структуру данных и собственные поисковые механизмы. В этом случае конечный пользователь в поисковой выдаче получает список ссылок на исходные ресурсы и на основании собственных прав доступа может к ним обратиться. Среди основных достоинств такого метода можно выделить качество поиска по собственной базе и, как следствие, высокую долю релевантных документов, получаемых пользователем. Тем не менее, задача создания такого каталога в масштабе всего информационного пространства и даже в рамках отдельной тематики, выглядит не выполнимой.
В рамках данного подхода существует метод, при котором агрегируется не только вторичная информация, но и полный текст документов. Этот подход также ограничен правовыми аспектами.
Примером реализации такого подхода можно считать информационную систему доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса (ИС ЭКБСОН) [35].
2. Создание реестра ресурсов по нескольким тематикам и поддержание возможности работы с их содержанием по основным поисковым протоколам с использованием собственных простейших поисковых возможностей. При этом результат поиска или ссылка не возвращает полного текста статьи пользователю, вместо этого предоставляя доступ к интерфейсу ресурса-первоисточника. Относительная простота реализации такого метода очевидна, однако не менее очевиден и основной недостаток - значительная потеря поисковых возможностей, а, в итоге, необходимость для конечного пользователя взаимодействовать с отдельными ИР.
3. Создание самостоятельной поисковой среды с унифицированным интерфейсом, осуществляющей автоматизированное взаимодействие с ресурсами-первоисточниками информации. Такая среда обслуживает запрос пользователя путем его передачи множеству ИР в подходящей для них форме. Полученные результаты алгоритмами ранжирования формируются в совокупную поисковую выдачу, предоставляемую пользователю в единой форме. Фактически в этом подходе реализуются принципы, использующиеся в обычных ЭБ, с той лишь разницей, что поисковый механизм системы взаимодействует не
со статичными данными, хранящимися в базе ресурса, а с агентами, порождающими такие данные. Преимущество этого подхода состоит в обеспечении максимальной в рассматриваемой ситуации полноты и точности результатов, т.к. полностью используется поисковые возможности исходных ресурсов через доступные интерфейсы. Основная сложность такой реализации состоит в обеспечении автоматизированного взаимодействия среды с ресурсами-агентами и в настоящее время в чистом виде такие системы не функционируют.
К системам подобного класса, представляющим базовые средства поиска, относятся, например: Bibliographix [52] и Reference Manager [74].
Актуальность исследования. Следствием приведенных выше фактов является парадокс, при котором растущее информационное общество порождает с возрастающей скоростью все большие объемы информации, обработать и использовать которые оно не способно. Это вызвано во многом тем, что человек, как система переработки и генерации информации, принципиально не изменился, в отличие от окружающей его информационной действительности. Он, как пользователь электронных библиотек и ресурсов, неизбежно сталкивается с проблемой сравнения и выбора из множества, только уже не документов, а их источников - проблемой, которая в соответствии с идеологией информационных систем должна решаться на стороне ресурса.
Поэтому оказываются нередки случаи, когда группы ученых проводят похожие исследования, не используя результаты трудов своих коллег, что фактически означает потерю, в лучшем случае временную, ранее приобретённых обществом знаний, содержащихся в информационном пространстве, из-за невозможности их идентификации во множестве других знаний.
Организация современных специализированных средств доступа к отечественным и зарубежным результатам научной деятельности, исследований и экспериментов для научных, инженерных, преподавательских и управленческих кадров является залогом высоких темпов развития науки и техники. Этот факт отражен в ряде президентских указов, предписывающих, в частности, создание в Российской Федерации единой базы данных о научно-исследовательских и опытно-конструкторских работах [33, 34].
Целью диссертационной работы является разработка моделей и средств унифицированного доступа к гетерогенным распределенным информационным ресурсам, обеспечивающим оптимизацию процесса поискового взаимодействия пользователя с ресурсами с учетом особенностей задач информационного обеспечения научных исследований.
Основными задачами являются:
• исследование процессов поискового взаимодействия в среде распределенных гетерогенных информационных ресурсов;
• разработка моделей информационной совместимости ресурсов;
• разработка объектной модели информационного ресурса для задач распределенного документального поиска;
• разработка механизма обеспечения интероперабельности ИР, использующего унифицированные описания ресурсов, включающего трансляцию поискового запроса с языка поисковых запросов (ЯПЗ) исходного ресурса на язык целевого ресурса и сопоставление схем данных взаимодействующих ресурсов;
• проектирование и разработка средств унифицированного доступа к распределенным гетерогенным информационным ресурсам, включая формирование прототипа репо-зитория описаний ИР.
Объектом исследования являются распределенные гетерогенные информационные ресурсы, доступные для поискового взаимодействия по сети, такие как документальные базы данных, электронные библиотеки, каталоги издательств, поисковые машины, а также характеристики этих ресурсов с точки зрения организации автоматизированного доступа к ним.
Предметом исследования являются:
• совокупность способов взаимодействия с информационными ресурсами;
• механизмы установления соответствий между элементами данных при работе с ИР.
Экспериментальной базой являются промышленные информационные ресурсы, а
также полученные автором результаты экспериментальных исследований поисковых процессов в среде гетерогенных ИР, проводимых в рамках НИР2'3 и ОКР4, а также лабораторных практикумов и учебно-исследовательских работ студентов в НИЯУ МИФИ и РГГУ.
2 Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» в Центре информационных технологий и систем по проекту «Создание информационно-аналитической системы регистрации, учёта, обработки и хранения отчётных документов по НИОКР, выполняемым ФГУП и ОАО, с целью проведения мониторинга состояния и основных тенденций и направлений развития научных исследований и разработок, выполняемых компаниями государственного сектора, в том числе направленных на реализацию приоритетных направлений развития науки, технологий и техники в Российской Федерации, а также критических технологий Российской Федерации»
3 РФФИ, грант 11-09-13128 офи-м-2011-РЖД. «Моделирование и разработка распределенных гетерогенных информационных ресурсов онлайн-информирования пассажиров»
4 Опытно-конструкторская работа по теме: «Создание единой государственной информационной системы мониторинга процессов аттестации научных и научно-педагогических кадров высшей квалификации» для разработки подсистемы «Шлюз с ЕФБД НИОКР» (мероприятие 5.1 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»)
Методы исследования. Основные результаты работы получены с использованием методов теории множеств, теории вероятностей, математической статистики и системного анализа.
Научная новизна результатов работы.
• модель метаинформационной совместимости, позволяющая ввести расстояние на основе меры различия между любой парой схем данных, отражающее точность отображения схем данных при переходе от одного ресурса к другому;
• модель лингвистической совместимости, позволяющая ввести расстояние для пар языков поисковых запросов на основе меры их различия, отражающее потерю смысла поискового запроса при переходе к иному синтаксису и структуре данных;
• модель лексической совместимости, дающая вероятностную оценку близости ресурсов по используемой лексике, отражающую зависимость результатов поиска от попарного пересечения словарей ресурсов.
Практическая значимость результатов работы:
• модель метаинформационной совместимости позволяет рассчитать близость между схемами данных взаимодействующих ресурсов, обеспечивая оценку целесообразности использования ассоциированного ресурса и, тем самым, позволяя снизить избыточность выдачи;
• модель лингвистической совместимости позволяет количественно оценить адекватность преобразования поискового запроса, выполняемого в соответствии с синтаксисом и набором метаданных целевого ИР, что обеспечивает возможность взаимного ранжирования поисковых результатов, получаемых из нескольких ИР;
• модель лексической совместимости ресурсов дает вероятностную оценку лексической близости ИР, которая при переадресации запроса используется для обоснования выбора ресурса;
• объектная модель информационного ресурса, обеспечивающая построение унифицированного объектно-ориентрованного описания ресурса, используемого для ранжирования потенциально полезных ресурсов и преобразования запросов в соответствии с требованиями целевого ИР;
• совокупность программных инструментов позволяет обеспечить пользователей средствами поддержки управления поиском в ИР, обеспечивая возможность обращения к внешним ресурсам не только с использованием запросов на ЕЯ, но и запросов, содержащих булевы и контекстные операторы ЯПЗ, что в значительной степени повышает точность выдачи и, в отдельных случаях, например для Мегпй-поисковых машин, на 2-3 порядка снижает количество документов в выдаче.
На защиту выносятся:
• модель метаинформационной совместимости ресурсов и мера, позволяющая определить совместимость схем данных для пар ресурсов;
• модель лингвистической совместимости ресурсов и мера, позволяющая определить совместимость ИПЯ различных ИР;
• модель лексической совместимости ресурсов и мера, отражающая близость лексики ИР, обусловленной тематикой;
• объектная модель, алгоритм и объектно-ориентированное описание ресурса, обеспечивающие управление процессом переадресации поисковых запросов с учетом различий в схемах данных, а также в формах и синтаксисе ЯПЗ.
Достоверность полученных результатов и адекватность моделей подтверждаются корректностью математического аппарата, а именно элементов теории множеств, теории вероятностей и системного анализа, использованных в диссертационной работе; а также сопоставлением с экспериментальными данными, полученными путем компьютерного моделирования и путем внедрения в составе конкретных информационных систем.
Апробация. Основные результаты работы докладывались и обсуждались на конференциях:
1. Научная сессия МИФИ-2009. XIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
2. 7-я Курчатовская молодёжная научная школа 2009;
3. Международная научно-практическая конференция 2009 «Математика, информатика, естествознание в экономике и в обществе»;
4. XIX международная конференция-выставка «Информационные технологии в образовании» 2009;
5. Научная сессия МИФИ-2010. XIV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
6. IX Международная научно-практическая конференция-выставка «Единая образовательная информационная среда: направления и перспективы развития электронного и дистанционного обучения 2010»;
7. XX международная конференция-выставка «Информационные технологии в образовании» 2010;
8. Научная сессия НИЯУ МИФИ-2011. XV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
9. Научная сессия НИЯУ МИФИ-2012;
10. «Технические и программные средства систем управления, контроля и измерения» (УКИ'12): Конференция с международным участием, 2012;
11. Научная сессия НИЯУ МИФИ-2013.
Реализация результатов работы:
• модель информационной совместимости разнородных информационных ресурсов, в частности модель лексической совместимости, а также объектная модель ресурса (модель и язык унифицированного описания информационного ресурса) использованы в Федеральном государственном автономном научном учреждении «Центр информационных технологий и систем органов исполнительной власти» (ФГАНУ ЦИТиС) в рамках опытно-конструкторской работы по теме: «Создание единой государственной информационной системы мониторинга процессов аттестации научных и научно-педагогических кадров высшей квалификации» для разработки подсистемы «Шлюз с ЕФБД НИОКР» (мероприятие 5.1 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»);
• модель лингвистической совместимости (обеспечение совместимости по языкам поисковых запросов), объектная модель ресурса и объектно-ориентированное описание ИР (модель и язык унифицированного описания информационного ресурса) использованы в Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Национальный исследовательский ядерный университет «МИФИ» в рамках проекта автоматизации Центра информационно-библиотечного обеспечения учебно-научной деятельности;
• модели лингвистической и метаинформационной совместимости информационных ресурсов, объектная модель и объектно-ориентированное описание ресурсов, а также программно-информационные средства поддержки поиска в распределенных гетерогенных информационных ресурсах использованы в ИНИОН РАН в составе информационного портала для организации поиска в локальных реферативных БД с возможностью трансляции и передачи запроса в ассоциированные внешние ИР.
Публикации. По теме диссертации опубликовано 16 статей, а также получено два свидетельства о государственной регистрации программ для ЭВМ.
Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (85 наименований), а также приложений (содержит 148 страниц текста, 39 рисунков, 11 таблиц).
В первой главе проводится обзор разработанных в настоящее время систем и программных комплексов, реализующих подходы к решению задачи интероперабельности на уровне поискового взаимодействия в сети гетерогенных информационных ресурсов.
С точки зрения системного анализа рассматриваются основные объекты ПрО — ресурс, пользователь, сеть информационных ресурсов, и взаимодействие этих объектов. Предлагается объектное представление ресурса, позволяющее в дальнейшем оценивать различные характеристики межресурсных взаимодействий, значимые для процесса распределенного поиска.
Анализируются факторы, влияющие на возможности и качество поиска в среде распределенных гетерогенных информационных ресурсов. Для оценки влияния рассеяния информации на процесс проведения поиска в распределенных ИР предложена мера полноты ресурса по видам документов, а также мера рассеяния видов документов по ресурсам. Для иллюстрации факта рассеяния информации проводится эксперимент по поиску документов в различных ресурсах по заданным тематикам, показывающий распределение документов разного вида по ресурсам и пересечение документальных выдач от разных ресурсов между собой. Показана значительная степень рассеяния видов документов, рассчитанная на основании встречаемости тех или иных видов документов в различных ресурсах, а также высокая степень уникальности ресурсов-источников информации (в частности, ЭБ) в смысле документального наполнения и их малый охват поисковыми машинами.
На основании проведенных исследований сформулирована задача обеспечения автоматизированного поиска в среде распределенных ИР.
Во второй главе приводятся результаты эксперимента, показывающие значительную концентрацию доступных для использования при поиске элементов данных в относительно небольшом множестве рассмотренных ИР и незначительный рост их множества при росте числа ресурсов.
Описывается модель метаинформационной совместимости, в ее рамках строится иерархия классов элементов данных, обеспечивающая построение механизма сопоставления метаданных, и рассчитывается расстояние между классами элементов данных. Рассматривается разработанный метод обеспечения метаинформационной совместимости при построении единой поисковой среды, базирующийся на использовании глобальной таблицы соответствия элементов данных, и приводятся примеры расчета расстояния между классами элементов данных.
Представлена разработанная модель лингвистической совместимости, позволяющая оценить возможности трансляции запросов при переходе от синтаксиса одного ресурса к синтаксису другого. Определяются факторы, влияющие на качество трансляции, выражающееся в степени потери исходного смысла запроса.
Разрабатывается модель лексической совместимости ресурсов, в рамках которой оценивается вероятность нахождения документа в целевом ресурсе по введенному запросу при условии его нахождения в базовом. Данная оценка позволяет судить о близости в смысле индексирования, а также о тематической близости пар различных ресурсов. Описывается эксперимент, проведенный для проверки корректности выведенной зависимости, показавший наличие отклонения расчетных значений от экспериментальных. Вводится и рассчитывается поправочный коэффициент, позволяющий минимизировать погрешность, даваемую исходной формулой. Приводится мажоранта рассмотренной вероятности и проводится эксперимент, показывающий адекватность полученной оценки.
В третьей главе объектная модель ресурса представляется с точки зрения сетевой реализации поискового взаимодействия - используется трехуровневое представление ресурса набором параметров, соответствующим трем верхним уровням модели взаимодействия открытых систем ОБ!, которые в рамках решаемых задач оказывают влияние на поисковый процесс и отображают семантику, синтаксис и прагматику процесса. Выделяются основные параметры, отвечающие за три рассматриваемых уровня поискового взаимодействия: сеансовый, представительский и прикладной.
Проводится анализ различий поисковых интерфейсов информационных ресурсов и встречающихся ограничений на использование элементов данных в запросах.
Приводится уточненное описание ресурса для уровня программной реализации в рамках уже построенной модели, позволяющее создать унифицированное описание ресурса для задач автоматизированного распределенного поиска.
Предложено объектно-ориентрованное описание ИР, позволяющее составлять спецификации для их последующего использования при автоматизированном доступе к удаленным ресурсам.
В четвертой главе предлагается технология проведения информационного поиска в среде распределенных гетерогенных информационных ресурсов. Проводится ее поэтапный анализ, и выделяются основные аспекты, касающиеся вопросов автоматизации процесса поиска в нескольких ресурсах, такие как формулировка запроса, выбор подходящего ресурса для поиска, преобразование запроса с учетом установленных соответствий элементов данных, а также отправка запроса ассоциированному ресурсу и обработка ответа от него.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Методы и средства унифицирующей интеграции информационных ресурсов межтехнологического обмена в автоматизированном проектировании аппаратно-программных комплексов2013 год, кандидат наук Подобрий, Александр Николаевич
Методы и инструменты создания интегрированных цифровых библиотек1999 год, кандидат физико-математических наук Бездушный, Анатолий Николаевич
Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах2009 год, кандидат технических наук Васина, Елена Николаевна
Создание системы организации доступа к информационным ресурсам университетской библиотеки2007 год, кандидат технических наук Шиваров, Александр Евгеньевич
Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем2005 год, кандидат филологических наук Пономарев, Василий Васильевич
Список литературы диссертационного исследования кандидат наук Окропишин, Антон Евгеньевич, 2013 год
• Список баз
о База
■ Имя
■ Описание
■ Объем
■ Список доступных типов документов
■ Список доступных схем
• Список схем
о Схема
■ Имя
■ Описание
■ Список полей
• Поле
о Gid о Код о Метка о Описание о Минимальная длина о Максимальная длина о Тип данных
• Список доступных запросов работы с сессией
о Запрос работы с сессией
■ Имя
■ Описание
■ Приоритет
■ Тип
■ Шаблон синтаксиса
■ Переменные
• Переменная
о Имя о Тип
■ Ответ
■ Условия
• Переменная
о Имя о Значение о Шаблон переменной о Истинность
• Список доступных запросов управления представлением
о Запрос управления представлением
■ Имя
■ Описание
■ Тип
■ Шаблон Синтаксиса
■ Переменные
• Переменная
о Имя о Тип
■ Ответ
• Список доступных поисковых документальных запросов
о Поисковый документальный запрос
■ Имя
■ Описание
■ Шаблон синтаксиса
■ Ответ
• Список доступных поисковых запросов
о Поисковый запрос
■ Имя
■ Описание
■ Способ кодирования символов
■ Язык запросов
• Форма
• Максимум терминов
• Способ работы со словоформами
• Разрешен пробел
• Указывается одно поле для всего запроса
• Для каждого поля свой подзапрос
• Переменная передается отдельно от имени поля
• Шаблон для передачи пары «имя поля»-«термин»
• Список доступных операторов-связок
о Оператор-связка
■ Шаблон оператора
■ Метка
■ Тип
■ Способ учета расстояния
■ Способ учета порядка Список возможных атомов запроса
о Атом запроса
■ Шаблон атома
■ Список полей, для которых он применим
■ Список возможных операторов критерия
• Оператор критерия
о Метка о Класс
■ Список возможных квалификаторов
• Квалификатор
о Метка о Класс
■ Ответ • Список ответов о Ответ
Имя
Описание Тип
Описание документальной выдачи
• Шаблон списка результатов
• Список шаблонов частей документов
о Название части документа о Шаблон Описание файловой выдачи
• Имя фала
• МШЕ-тип
Формальное описание структуры объектно-ориентрованного описания ИР средствами XML Schema [83] приведено в приложении 7.
Выводы к главе 3
1. Предложенная в п. 2.1 обобщенная модель информационного ресурса представлена в терминах модели ОБ1, что позволяет использовать ее в рамках реальной информационной среды с учетом специфики ее реализации.
2. Построенная на основании обобщенной модели объектная модель ИР, представляет параметры ресурса на нескольких независимых уровнях (сессионном, представительском и прикладном), что позволяет формализовать процесс взаимодействия с ресурсом в целом.
3. Проведен анализ прикладных поисковых интерфейсов ресурсов, системно отражающий существующие различия в их исполнении, включая различия в протоколах взаимодействия, способах записи и представления запроса, а также используемых кодировках. Сделан вывод о конечном числе возможных форм представления и передачи запроса, что допускает его унифицированное описание.
4. Объектная модель представлена в терминах набора параметров ресурса, определяющих поисковое взаимодействие с ним, что позволяет построить его унифицированное описание, достаточное для управления автоматизированным взаимодействием с ресурсом.
5. Разработано объектно-ориентированное описание ИР, позволяющие составлять машиночитаемые спецификации ИР для задач автоматизации распределенного документального поиска в гетерогенных информационных ресурсах.
Глава 4. РАЗРАБОТКА СРЕДСТВ ОБЕСПЕЧЕНИЯ ПОИСКА В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ
4.1 Технология распределенного поиска в гетерогенных информационных ресурсах
Для формализации технологии поиска в сети распределенных гетерогенных информационных ресурсов рассмотрим процесс поиска научной информации в соответствии с технологией, реализуемой АИС хЖВ18 [25, 26] (рисунок 4.1), разрабатываемой при личном участии автора.
Мультиагентный поиск
Автоматический
ащ
Трансляция и переадресаиня запроса
Результаты поиска
— Г « '
« ' ] « •
Автоматическая
Рисунок 4.1 - Процесс поиска научной информации
Представленная технология обеспечивает полноту охвата множества документальных ресурсов и способов взаимодействия с ними (что подтверждается опытом промышленной эксплуатации системы), при этом итеративный подход (поиск по обратной связи по релевантности) позволяет получать новые релевантные документы не только на первой, но и на последующих поисковых итерациях. Очевидно, что реализация подобного подхода на уровне множества ресурсов, путем взаимодействия с ними с помощью предоставляемых протоколов (т.е. использования разработанных средств преобразования поисковых запросов и установки соответствия между элементами данных), обеспечит повышение полноты и точности распределенного поиска.
На рисунке 4.2 изображены основные группы распределенных информационных ресурсов, задействованных при осуществлении поиска в АИС хЖЕИБ, а также виды документов в них представленные.
БД, порталы, сервисы
Бнблшлеки.
службы, издательства
Кагал от издажельсгва
Каталог издательства
Издательства:
> НАУКА
> ЕЕ8Е\1ЕК
Монографии
Журналы
Статьи
Библиотека:
> РГБ
_ > ГПНТБ
> ВИНИТИ
> БЕН
Монографии Журналы Статьи Препринты
ХЬ^' народные и
трзвенэаиоизльные
службы
конференций
Монографии Журналы Статьи Врепршты
Монографии С аеаязлягированные Статьи библиотеки н службы' Ж^рнаты
Препринты
> ВПТБ, ФИПС
- > вшит и
* инион
> 1У1РО
Материалы
конференций
Патенты
Отраслевые библиотеки:
■ АтомИнформ
■ ВНТИЦеетр
Архивы предприятий
Поисковые маш ины
Монографии
Статьи
Журналы
Пр,тричть'
Материалы
конференций
Дйесерьхщми Отчет к МОКР
Мсищгиалы
Лохучеиты
Патенты
Отчеты ШЮКР
Зокументы
Рисунок 4.2 - Ассоциированные распределенные гетерогенные ИР
В зависимости от конкретного случая применения АИС и набора доступных в данный момент ресурсов необходимо иметь возможность настраиваемого унифицированного взаимодействия с ними.
Выделим следующие этапы поискового процесса в среде распределенных гетерогенных ИР с учетом используемой в рамках х1ЯВ15 технологии:
• формулировка запроса;
• выбор в соответствии с интересующей тематикой одного или группы ресурсов;
• преобразование запроса на языки целевых ресурсов, исходя из их описаний;
• отправка запроса целевым ресурсам;
• получение и обработка ответа от каждого из ресурсов;
• ранжирование результатов поиска по набору заранее известных признаков;
• переадресация запроса к другим ресурсам, в случае если полученные результаты не удовлетворяют требованиям пользователя;
• добавление новых результатов к уже полученным и повторное ранжирование;
• сохранение полученных результатов.
Приведенные выше этапы не зависят от реализации и могут считаться эталонными для процесса распределенного поиска в целом, перечисленные действия также выполняются и пользователем в ходе работы в среде информационных ресурсов (но уже в ручном режиме).
Реализация некоторых этапов требует наличия внешних данных помимо собственных знаний пользователя - данных о существующих ресурсах, интерфейсах доступа к ним и форме представления информации. В случае ручного поиска, пользователь заранее узнает о существовании ИР и затем, изучив его устройство, обращается к нему при поиске. При этом, как говорилось ранее, он вынужден вручную совмещать и ранжировать результаты, полученные от разных ресурсов, и этот процесс зачастую является в значительной степени субъективным.
На рисунке 4.3 приведена обобщенная схема процесса распределенного поиска в гетерогенных ИР:
/ Начало 4
/ N
! Конец 1
Рисунок 4.3 - Процесс поиска в распределенных гетерогенных ИР
Таким образом, технология проведения распределенного поиска разделяется на семь этапов (выделенных прямоугольниками), каждый из которых является автономным и может выполняться независимо при наличии соответствующих входных данных.
Рассмотрим подробнее требования к каждому этапу, выполнение которых необходимо для их автоматизированной реализации.
Для первого этапа (формулирования запроса), в большинстве случаев, характерным является не только факт слабой информированности пользователя о предмете своего исследования, но и неумение словестно выразить связанные с ним информационные потребности. Это особенно актуально для информационного обеспечения научных исследований, когда цель поиска изменяется в процессе самого поиска, например, при ознакомлении с найденным документом. Причем факт изменения цели возможно даже не будет явно осознан исследователем [7].
Подходы к решению этой проблемы ищутся достаточно давно, и «состоят в конструировании документальных ИПС как систем класса «человек-машина»» [29]. То есть, на этом этапе необходимо обеспечить пользователя возможностью самостоятельно конструировать и развивать запрос путем его обогащения и переформулирования в процессе исследования документального массива. Это возможно, например, в рамках базовой (для разрабатываемой объединенной поисковой среды) системы - АИПС хШШБ [26] и реализуется с помощью многоитерационного поиска с обратной связью по локальным документальным БД заданной тематики. Эффективность такого подхода в смысле увеличения количества релевантных документов на каждом шаге была показана в [40].
На втором этапе пользователю требуется осуществить выбор одного или нескольких ресурсов, из чего следует, что создание и поддержание актуального списка ИР, включающего возможность их автоматизированного выбора на основе тематики запроса, по специфицированным для ресурсов характеристикам Н и Т (тематический и видовой спектр ресурса), обеспечит значительное увеличение эффективности поискового процесса в целом. Кроме того, для эффективного ранжирования ресурсов по релевантности теме
поиска, необходимо учитывать значения интегральных характеристик Л™ и А1], отражающих полноту и равномерность распределения документов по видам и тематикам. В таком случае, при узкоспециализированном поиске пользователю будут вначале предлагаться более узконаправленные ресурсы (по видам и/или тематикам, в зависимости от конкретного запроса) и только после этого, если информационная потребность не будет удовлетворена, запрос будет перенаправлен к ресурсам широкого спектра тематик и видов документов. Для политематического поиска ранжирование будет производиться в обратном порядке. Такой подход позволит повысить точность всего поиска в целом за счет
ограничения выдачи путем снижения числа опрашиваемых ресурсов, что положительно отразится эффективности поиска.
Другим аспектом, который необходимо учесть при переходе от поиска в одном ресурсе к другому является их лексическая совместимость, определяемая в п. 2.4. Основываясь на изначальном выборе ресурса, следует в дальнейшем при переходе к новым ресурсам ранжировать их в порядке близости в лексическом смысле к исходному. Как следует из модели лексической совместимости, это позволит увеличить процент релевантных документов на следующих шагах поиска в других ресурсах и, как следствие, эффективность поискового процесса.
Одним из наиболее значимых и трудоемких этапов всего процесса в целом является преобразование запроса в соответствии с синтаксисами выбранных ресурсов, в которые запрос будет переадресован. От адекватности такой трансляции, причем не только в новый синтаксис, но и в новую схему данных, напрямую зависит степень сохранения исходного смысла запроса при его передаче целевому ресурсу (в соответствии с п. 2.2). Таким образом, этот этап можно назвать ключевым в технологии автоматизации всего взаимодействия. Его реализация в рамках данной работы обеспечивается следующими средствами:
• автоматизированное приведение запроса к новому синтаксису на основании описания целевого ЯГТЗ специфицированного в рамках объектно-ориентированного описания ресурса (полученного из репозитория сведений о ресурсах). В качестве средств управления процессом преобразования выступают функции расстояния на основе мер различий для отдельных компонентов языка, определенные в рамках модели лингвистической совместимости - они позволяют обеспечить преобразование запроса с заданной точностью, полностью исключая из результата или заменяя на некоторые константы те из элементов исходного запроса, которые не нашли себе соответствия, определяемого функциями расстояния;
• автоматизированное отображение элементов данных в исходном запросе на новые, доступные в рамках целевого ресурса, с использованием ТКЭД и в соответствии с моделью метаинформационной совместимости. При таком подходе, с помощью функции расстояния для классов (п. 2.1) соотносимых элементов данных, становится возможным управлять процессом отображения, влияя на состав получающихся в результате элементов. Таким образом, использование в процессе трансляции запроса механизмов, основанных на модели метаинформационной совместимости, позволяет осуществлять как расширяющие, так и сужающие отображения между различными наборами элементов данных.
На третьем этапе осуществляется отправка запроса выбранным ИР на основании сведений о протоколах взаимодействия с ресурсами, их идентификационных данных и данных пользователя. Автоматизация этого процесса и, как следствие, поддержание технической совместимости ресурсов, в рамках технологии осуществляется путем использования сведений о протоколе взаимодействия с ресурсом из репозитория, представленных в унифицированном формате объектно-ориентированного описания.
На четвертом этапе получение результатов от ресурсов может осуществляться по двум возможным схемам, обе из которых могут быть реализованы в рамках технологии:
• перенаправление пользователя в интерфейс каждого из целевых ресурсов, с возможностью проведения дальнейшего поиска в нем. Такой подход позволят полностью использовать весь поисковый инструментарий целевых ресурсов, заложенный разработчиками, что не возможно при работе с ресурсом через любой сторонний клиент, когда, так или иначе, происходит некоторая потеря функциональности и удобства работы в пользу унификации пользовательского интерфейса.
Очевидным недостатком такого подхода, однако, является невозможность непосредственной автоматизации ранжирования объединенных результатов поиска, т.е. следующего этапа технологии.
• объединение поисковых результатов (на уровне метаданных, т.е. ссылок) в рамках унифицированной промежуточной схемы данных для их последующего ранжирования. Тем не менее, при таком подходе для пользователя значительно сокращаются возможности дальнейшего взаимодействия с ресурсом с использованием всех доступных функций.
Реализация шестого этапа, на котором осуществляется ранжирование полученных результатов, зависит, как говорилось выше, от используемого метода реализации пятого этапа. В том случае, если производится объединение результатов, дальнейшее их сравнение может осуществляться на основании заранее рассчитанных «весов» отдельных ресурсов по тематике запроса и характеристике «качества преобразования запроса», также рассчитываемой для каждого ресурса, например, на основании модели совместимости ЯГО. Кроме того, возможен подход, при котором исходный запрос будет выполнен повторно средствами платформы объединенной поисковой среды для сформированной «налету» из полученных документов выборки.
Сохранение документов (на седьмом этапе) возможно осуществлять независимо от реализаций предыдущих этапов, как автоматизировано, так и в ручную. При этом в качестве хранилища может использоваться и файловая система, и структура, используемая для хранения документов базовой системой.
Как видно, технология распределенного поиска допускает гибкую реализацию отдельных этапов и делает возможным построение на основании рассмотренных ранее моделей отдельных объектов, участвующих в процессе поиска, а также отдельных этапов этого процесса единого механизма, обеспечивающего выполнение этих этапов - унифицированную поисковую среду.
Эффективность применения описанной технологии подтверждается опытом эксплуатации разработанного автором модуля взаимодействия с распределенными гетерогенными ИР в составе АИС х!ГШ18 в течении двух лет в рамках проекта по созданию единой государственной информационной системы мониторинга процессов аттестации научных и научно-педагогических кадров высшей квалификации [33, 34], а также проекта по разработке информационной системы доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса [35] (приложение 8).
4.2 Функции и структура унифицированной поисковой среды
На основании описанной выше технологии был разработан программный комплекс, обеспечивающий автоматизированное поисковое взаимодействие пользователя с внешними распределенными гетерогенными ресурсами, выполняющий следующие функции:
• Предоставление унифицированного интерфейса для работы с удаленными ресурсами;
• Обеспечение возможности конструирования поискового запроса в синтаксисе унифицированного ЯПЗ;
• Поиск документов по локальным тематическим базам, доступным на сервере системы;
• Обогащение поискового запроса с помощью тематического тезауруса;
• Автоматический перевод поискового запроса с русского и на русский язык (с помощью подключаемого модуля-переводчика);
• Автоматическая трансляция поискового запроса в языки удаленных ИР, путем установки нечетких соответствий между элементами ЯПЗ определяемых мерами, сформулированными в рамках моделей метаинформационной и лингвистической совместимости;
• Поддержание технической совместимости ресурсов путем автоматического преобразования запроса в заданный формат и его отправка целевому ИР, с последующим получением ссылки на результаты поиска.
Концептуальная схема программного комплекса приведена на рисунке 4.4.
Комплекс обеспечивает возможность взаимодействия и поддержание интеропера-бельности на уровне приложений с ресурсами, имеющими все типы синтаксисов языков запросов (префиксный, инфиксный и постфиксный), независимо от используемой схемы взаимного расположения основных элементов запроса (области поиска, оператора критерия и выражения условия). Также отсутствуют ограничения на способ кодирования символов и возможность работы с операторами отличными от AND.
Интероперабельность на уровне представления обеспечивается путем установки соответствий между элементами данных разных ИР через унифицированный набор элементов данных, сформированный в виде ТКЭД в соответствии с п. 2.1.
На сеансовом уровне взаимодействие с распределенными ресурсами и поддержание технической совместимости обеспечивается через поисковый шлюз, соответствующий используемому протоколу (HTTP или Z39.50). Используемое объектно-ориентированное описание ИР позволяет указать протокол взаимодействия с ресурсом, сетевой адрес ресурса, имя базы, в которой будет проводиться поиск и используемой схемы, а также формата вывода полученных результатов, для ресурсов, поддерживающих такие параметры.
При осуществлении взаимодействия, в зависимости от протокола, модуль переадресации запроса после трансляции запроса и установки необходимых соответствий элементов данных передает сгенерированный запрос одному из шлюзов, через который в дальнейшем проходит поисковая сессия с данным ресурсом.
Архитектура программного комплекса включает два решения, обеспечивающих унифицированную поисковую среду для пользователя: \¥еЬ-приложение и \vindows-приложение с незначительными различиями функциональности.
В соответствии с технологией распределенного поиска пользователю средствами базовой системы \IRBIS предоставляется возможность конструирования запроса (рисунок 4.5) и поиска по локальным (для ,тп-приложения) и расположенным на сервере системы (для web-пpилoжeния) документальным базам.
Прост ой поиск __
Параметры поискам присмотра
База Оанныг Щ САРИ (Записей: 92126) Сформируйте »трое по поисковый полям
Общий словарь [ALL] * Автор/Редактор [AU] ~ Дата провед ксэнф [CONFDT]
ториеоый реактор Словарь
Иванов Словарь _
'1999' Словарь
Выполнение в порядке следоваши (а не приоритета операторов НЕ-Л-ПЛЩ Лопотмт'пные \сюеия отбора Нечеткий поиск (по части поисковых терминов)
- Искать строго по указанным словам ■* - по вариантам словоформ (автомаскпрование) При выводе использовать кратка! список по полю [77] Гоо изоания[ОТ]
Найти
Очистить
Рисунок 4.5 — web-интерфейс конструирования запроса
После проведения локального поиска пользователь имеет возможность перейти к работе с внешними ресурсами в рамках унифицированной поисковой среды (рисунок 4.6), обеспечиваемой средствами разработанного программного комплекса, при этом сохранив подготовленный ранее запрос.
Internet поиск по запросу < VI,L:(tUoi»im lr-xtoiO
Yandex ГПНТБ РФ
Google Scholar Search
¿Library Authors
' Евразийское патентное ведомство
Rambler
¿Library Journals Science Direct
t AltaVista Г elibrary Patents
« SpnngerLmk
'' Yahoo
* National Science Digital Lib.
-> Helmhotu Centre (Berlin)
^ Nigma
abstract "(thorium AND reactor) f Искагь gjfitgfñefeü
Пдезюкоп ..
Рисунок 4.6 - web-интерфейс доступа к внешним ИР
На этом этапе пользователь может отредактировать транслированный запрос для дальнейшей работы, которая осуществляется через поисковый интерфейс отдельных ресурсов.
Для реализации унифицированного представления результатов в системе может быть использован ряд подходов, основанных на алгоритмах выделения результатов поиска из получаемого от ресурса ответа с помощью шаблонов регулярных выражений. Для этого, как уже упоминалось ранее, в описании ресурса предусмотрен набор соответствующих переменных. В работах [75, 80] описан ряд подходов для автоматической генерации таких шаблонов и показаны значительные возможности их применения.
Ранжирование результатов может быть обеспечено путем использования характеристик ресурса, включаемых в его описание, касающихся его тематики и видов документов, содержащихся в нем, а также, когда это возможно, средствами оценки лексической близости словарей различных ресурсов.
Ряд подходов по объединению и ранжированию выдачи предложено в [69]. Они основываются, в частности, на ранжировании результатов исходя из минимального исходного ранга результата по всем выдачам от каждого отдельного ресурса, с учетом показателя полезности ресурса-источника, а также на основании Ьр -нормы рангов результатов от различных ресурсов.
4.3 Репозиторий описаний информационных ресурсов
Функции создания, хранения и редактирования описаний информационных ресурсов, необходимых для обеспечения автоматизированного доступа к ним в рамках проведения распределенного документального поиска в гетерогенных ИР, реализуются разработанным АРМ администратора унифицированной поисковой среды - модулем управления репозиторием метаданных.
Модуль является хутсЬшв-приложением и работает с хранилищем, реализованным в файловой системе. Он имеет следующие экранные формы для работы с репозиторием:
Главная форма модуля (рисунок 4.7) выполняет основные функции навигации по базе ресурсов, включая их сортировку и отбор по заданному набору параметров.
Администратор базы ресурсов „.jiffm* w. Nätaj
Список удаленных ресурсов Ресурс --I
ю Название Тип Интернет адрес » f ^Добавить J
31 TAYLOR i FRANCIS OPEN http //wtm tandfonline com/ 13 Редактировать!
32 33 Royal College of Physicians PROJECT MUSE OPEN OPEN http //www ingentaconnect com http //muse |hu edu/ S^ Удалить j
34 Institute for Operations Research and the OPEN http //journals informs org/ ; Другие функции
35 ESDU Engineering Solutions foi Acadet OPEN http //www esdu.com ji Поля I
36 Duke University Press OPEN http //www dukeiournals org/ jr Настройки I
37 American Association of Physics TeacheOPEN http //www aapt org/ ¡У Обновить |
38 American Chemical Society OPEN http //pubs acs org/
39 American Physical Society OPEN http //publish aps org/
40 Amencan Society of Agricultural And Biol OPEN https //ehbraty asabe org/
41 ISI Web Of Knowledge OPEN http //rsiknowledge com/
42 Emerald OPEN http //www emeraldinsight com
43 Journal of the Acoustical Society of Arne OPEN http //scitation aip org
44 OPTICAL SOCIETY OF AMERICA |0SA OPEN http //www opticsinfobase org/advancedsearch
45 Nature Publishing OPEN http //www nature com/
46 Cambridge University Pres« OPEN http //www lournals Cambridge org г
4? ELSEVIER (Science Direct) OPEN http //www sciencedirect com
ля IQTCIR ПРРЫ hhr. ! Ai.i it-lru /I Выход |
Рисунок 4 7- Список ресурсов, зарегистрированных в репозитории
Для редактирования или добавления сведений о ресурсе используется форма, приведенная на рисунке 4.8. На первом этапе администратор заполняет карточку ресурса, внося в нее следующие сведения:
• название ресурса;
• адрес главной страницы ресурса в Internet;
• доступное пользователю описание ресурса, которое может помочь при его выборе;
• тип ресурса: поисковая система, электронная библиотека с открытым интерфейсом доступа, закрытый ресурс без возможности доступа через URL или Z39.50-pecypc;
• специфические параметры для Z39.50-pecypcoB;
• адрес интерфейса, через который осуществляется поисковый доступ к нему;
• способ кодирования запроса при отправке.
Эти сведения являются базовыми и на начальном этапе определяют основные параметры установки поискового сеанса с ресурсом.
Внешний ресурс
^Спецификация удаленного ресурса! Спецификация языка запросов поисковой системы удаленного ресурса
Название поискового ресурса ррппдегИпк Характеристики ресурса
Адрес е интернете ртр /Г*тм зрппдегНпк сот Описание ресурса:
ЗрппдегЬпк-это одна из ведущих мировых интерактивных баз данных для высококачественных ЭТМ журналы, книжная серия, книги, справочные материалы и интерактивной коллекцией архивов
Тип ресурса
(•' Открытый (Интернет)
Параметры Интернет-ресурса
Предзапрос: jhttp//www springerlink com/content?k=
" Закрытый ¡CLOSE Параметры внутреннего ресурса
Постзапрос |8,5ог(огс1ег=езс Способ кодировки символов и русских буке (Зарубежный стандартный
Параметры библиотечного ресурса
Ц Сохранить X Отмена
Рисунок 4.8 — Форма спецификации внешнего ресурса
На следующем этапе проводится описание синтаксиса языка поисковых запросов ресурса, включая следующие параметры:
• нотация записи запроса;
• набор допустимых в запросе символов;
• шаблон для тройки элементов «область поиска»-«критерий сравнения»-«термин»;
• соответствия булевых и контекстных операторов ресурса операторам, использующимся в базовом ЯПЗ;
• параметры маскирования:
• соответствия операторов критерия.
На этой же форме (рисунок 4.9) производится установка соответствий между эталонным набором элементов данных из таблицы соответствия с элементами данных, доступных в рамках описываемого ресурса.
Внешний ресурс
Спецификация удаленного ресурса | Спецификация языка запросов поисковой системы удаленного ресурса
Структура предложения запроса. Способ записи запроса Обычная
Прямая Польская
Г Обратная Польская Оперзтор поля по умолчанию ¡аЬШас»
Другие параметры запроса Шаблон элемента запроса
Г~ Простые запросы
Символ пробела :!
|<Щ> '<1гт>' Имя поля
Критерий
Термин
Сведения об операторам системы Логические операторы Контекстные операторы Операторы маскирования
АЫО [АИО
оп Гоя
N01 [
Олерагторы полей
Операторы критериев
SENT | NEAR !
СТХ. [
.V Авто поиск по словоформам Параметры:
с <
Вхождение |
Назначить определение полю Выбрать доступные определения]
Описание Обозначение I Шаблон
ISBN isbn <fld>: '<tim>'
I Реферат abstract <fld>. '<trm>'
I Автор author <fld> '<trm>'
j ISSN issn <fld> '<trm>'
Добвить поле Удалить поле
1 <fld> '<trm>'
I Сохранить
X Отмена
Рисунок 4.9 - Форма описания языка запросов и установки соответствия элементов данных
Также АРМ администратора репозитория обеспечивает возможность редактирования набора-медиатора элементов данных в таблице соответствия.
После ввода характеристик ИР модуль автоматически генерирует спецификацию ресурса в соответствии с разработанным объектно-ориентированным описанием и сохраняет их в форме, доступной также для прочтения человеком и ручного редактирования.
4.4 Алгоритм функционирования программного комплекса
В соответствии с рассмотренной технологией взаимодействие с пользователем в рамках унифицированной поисковой среды реализуется в несколько этапов.
На первом этапе пользователь осуществляет поиск по запросу, составленному им в синтаксисе АИПС х1ЯВ15 в рамках локальных тематических документальных баз, в соответствии с его личным представлением о собственной информационной потребности. Конструирование запроса производится средствами АИПС х!КВ18, включающими возможность указания различных поисковых полей (элементов данных), а также используя полный набор булевых операторов, набор контекстных операторов и операторов работы с морфологией. После проведения ряда поисковых итераций, осуществляемых в рамках технологии поиска по обратной связи [7, 39], обогащая и модифицируя запрос, в том чис-
ле средствами расширения запроса по тезаурусу, пользователь может перейти к поиску во внешних ассоциированных ресурсах.
Исходя из лексической близости ассоциированных ресурсов (объектно-ориентированные описания которых составлены администратором системы в соответствии со структурной моделью ИР и хранятся в репозитории ресурсов) к ресурсам, просмотренным пользователем ранее, рассчитанной на основании меры лексической близости, а также исходя из значений коэффициентов тематической и видовой полноты для ресурсов (с учетом исследуемой пользователем темы и интересующих видов документов) пользователю предлагается ранжированный список ассоциированных ресурсов доступных для поиска.
После выбора конкретного ресурса, система осуществляет преобразование запроса к синтаксису целевого ресурса, тем самым обеспечивая интероперабельность на прикладном уровне в рамках среды. В соответствии с моделью лингвистической совместимости ресурсов описание синтаксиса целевого ЯПЗ, используемое для трансляции запроса включает в себя следующие параметры языка:
• нотация записи запроса;
• правила записи элементов «область поиска», «критерий», «термин», а также их связь с булевыми операторами в рамках запроса;
• обозначение булевых и контекстных операторов, операторов критериев и квалифи-каторов терминов;
• указание на способ передачи переменных в запросе.
Такой набор параметров, как показывалось ранее, является достаточным для выполнения поставленной задачи.
Алгоритм преобразования основан на представлении любого исходного запроса согласно модели лингвистической совместимости (п. 2.2) и включает следующие этапы:
1. Преобразование исходной (линейной) формы запроса в форму дерева;
2. Редактирование узлов в дереве в соответствии с правилами синтаксиса целевого ЯПЗ, т.е.:
• трансляция обозначений операторов;
• замена встречающихся имен элементов данных;
• добавление литералов (используя кавычки) при необходимости.
3. Поэлементный перевод запроса на другой язык (в случае получения соответствующего указания);
4. Поэлементное обогащение запроса по тезаурусу (в случае получения соответствующего указания)
5. Обход дерева одним из трех способов и запись нового выражения запроса:
• «левый-корень-правый» - для сбора нового запроса, записанного в обычной (инфиксной) нотации;
• «корень-левый-правый» - для сбора нового запроса в префиксной нотации;
• «левый-правый-корень» - для сбора нового запроса в постфиксной нотации; Пример дерева для запроса ((критический ток, остаточная намагниченность)) И
((пиннинг, объемные дефекты )) приведен ниже (рисунок 4.10):
АЖ>
V . '
ОЯ I ои.
Далее представлен пример работы алгоритма для различных поисковых систем и электронных библиотек по запросу (АБ OR TI)=('solar neutrons') (таблица 6):
Таблица 6
Пример работы алгоритма трансляции запроса для различных ИР
Название ресурса Результат трансляции зарпоса
Yandex title('solar neutrons')
AltaVista anchor: 'solar neutrons' OR title:'solar neutrons'
ГПНТБ p_qdesc='solar neutrons'&p_qtitle=''solar neutrons'
SpringerLink abstract: "solar neutrons" OR title: "solar neutrons"
Евразийское патентное ведомство AB=solar neutrons
Как видно из примера, трансляция допускает вынужденное изменение исходного запроса в результате сужения множества доступных в рамках целевого ресурса элементов данных (в соответствии с тем, как это определяется в рамках модели метаинформацион-ной совместимости, т.е. путем расчета значений функции расстояния между классами элементов данных исходных и целевых ресурсов), а также в некоторых случаях отсутствия близких исходным (в смысле, определенном моделью лингвистической совместимости) булевых и контекстных операторов. Последнее является достаточно частым явлением в простейших [Мсгпй-каталогах, где не предусмотрены какие-либо развитые поис-
ковые средства. Также это объясняется достаточно богатыми возможностями ЯПЗ xIRBIS, что позволяет использовать его в качестве базового для унифицированной поисковой среды.
На следующем шаге, после трансляции запроса в синтаксис целевого ресурса, для обеспечения технической совместимости с ассоциированным ресурсом, осуществляется его приведение к форме соответствующей требованиям прикладного интерфейса целевого ресурса, которые в соответствие с п. 3.3 делятся на группы, определяющие используемый протокол, кодировку, а также правила взаимного расположения элементов запроса, включая правила использования элементов данных.
После формирования выражения запроса в соответствии с требованиями прикладного интерфейса целевого ресурса осуществляется его отправка с использованием дополнительных программных клиентов (в тех случаях, когда взаимодействие происходит по протоколу отличному от HTTP). Затем пользователь перенаправляется в интерфейс целевого ресурса, для дальнейшей работы с полученными результатами.
4.5 Экспериментальная оценка эффективности механизма обеспечения
интероперабельности ИР
Поисковые механизмы существующих ресурсов различаются по возможностям обработки поисковых запросов в зависимости от их корректности, с точки зрения используемого синтаксиса и упоминаемых в запросе элементов данных. Этот фактор напрямую влияет на интероперабельность ИР, определяемую возможностью обрабатывать частично или полностью не корректный запрос. Очевидно, что чем более мягкие условия накладываются на соответствие входного запроса заданным правилам, тем больше вероятность успешного поиска (с точки зрения самого факта получения документальной выдачи). Это, однако, по вполне понятным причинам, не обеспечивает качество получаемого результата (определяемого полнотой и точностью).
Для иллюстрации повышения эффективности поиска, проводимого по запросу, транслированному в соответствии с разработанной технологией и с использованием разработанных программных средств, был проведен поиск по десяти различным ИР. Для каждого ресурса поиск проводился тремя способами: без трансляции запроса, с использованием запроса, транслированного с учетом синтаксиса ЯПЗ целевого ИР, но без установки соответствий элементов данных, и поиск по полностью транслированному запросу. Для каждого способа и ресурса оценивалось количество полученных формально релевантных документов. Результаты поиска приведены в таблице 7.
Использовался следующий запрос (представленный в синтаксисе ЯПЗ xIRBIS):
TI:thorium AB:(extraction, selection, separation, processing, purification) AB:(technology, methods, instruments) DT>=2010
В соответствии с этим запросом должны быть найдены все документы, включающие в заголовке слово thorium, в области реферата хотя бы одно из слов: extraction, selection, separation, processing или purification и хотя бы одно из слов: technology, methods или instruments. Кроме того дата публикации документов должна быть не ранее 2010-го года.
Для поиска использовались следующие ресурсы: ScienceDirect, arXiv.org, Евразийское патентное ведомство (Espacenet), emeraldinsight.com, WILEY - BLACKWELL JOURNALS, PROJECT MUSE, NSDL, JSTOR, Google Advanced Scholar Search, Yandex.
Таблица 7
Зависимость результатов поиска от состояния входного запроса
Ресурс Запрос Трансляция запроса
Запрос не транслирован Не транслированы имена полей Запрос полностью транслирован
ScienceDirect (Title(thorium) OR Srctitle(thorium) OR Srctitleplus(thorium) OR Article-TOC(thorium)) AND (Ab-stract(extraction OR selection OR separation OR processing OR purification) AND Abstract(technology OR methods OR instruments)) Ошибка синтаксиса выражения 3 тыс. формально-релевантных документов 20 формально- релевантных документов
arXiv.o rg ((abs:((technology OR methods) OR instruments) AND abs:((((extraction OR selection) OR separation) OR processing) OR purification)) AND ti:thorium) Ошибка синтаксиса выражения 0 формально- релевантных документов 1 формально- релевантный документ
Espace net ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) AND Espacenet Ошибка синтаксиса выражения 0 формально- релевантных документов 8 формально- релевантных документов
emer- al-dinsight .com thorium AND ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) Ошибка синтаксиса выражения 3 формально- релевантных документа 2 формально- релевантных документа
WILEY BLAC KWEL L JOURN thorium AND ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) Ошибка синтаксиса выражения 5 тыс. формально-релевантных документа 1 формально- релевантный документ
ALS
PROJE CT MUSE thorium AND ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) Ошибка синтаксиса выражения 37 формально- релевантных документа 0 формально- релевантных документов
NSDL thorium AND ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) 0 формально- релевантных документов 2 формально- релевантных документа 10 формально- релевантных документов
JSTOR ((ca:(thorium) AND ab:(extraction OR selection OR separation OR processing OR purification)) AND ab:(technology OR methods OR instruments)) AND (year:[2010 TO 3000]) 0 формально- релевантных документов 70 формально- релевантных документов 1 формально- релевантный документ
Google Advanced Scholar Search (intitle:thorium) AND ((((extraction OR selection) OR separation) OR processing) OR purification) AND ((technology OR methods) OR instruments) 0 формально- релевантных документов 15 тыс. формально-релевантных документов 3210 формально-релевантных документа
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.