Моделирование и разработка средств и технологий поиска документальной информации тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Голицына, Ольга Леонидовна

  • Голицына, Ольга Леонидовна
  • кандидат технических науккандидат технических наук
  • 2004, Москва
  • Специальность ВАК РФ05.25.05
  • Количество страниц 209
Голицына, Ольга Леонидовна. Моделирование и разработка средств и технологий поиска документальной информации: дис. кандидат технических наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Москва. 2004. 209 с.

Оглавление диссертации кандидат технических наук Голицына, Ольга Леонидовна

Введение.

Глава 1. Структурно-методологические основы информационнопоисковых систем

1.1. Информация в системах основной и информационной деятельности.

1.2. Человеко-машинный информационный поиск в документальных БД.

1.3. Типология информационной неопределенности и видов информационного поиска.

1.4. Обобщенная схема и средства информационного поиска.

1.4.1. Обобщенная схема информационного поиска.

1.4.2. Средства и интерфейсные объекты в поисковых технологиях.

1.4.3. Использование словарных и рубрикационных структур при подготовке и обработке запроса.

1.4.4.Средства поиска, обеспечивающие нормализацию лексики ИПЯ.

1.4.5.0ценка и обработка результатов поиска.

Выводы по первой главе.

Глава 2. Модели и алгоритмы информационного поиска в документальных

2.1. Матрица «термин-документ» как основа реализации поисковых механизмов.

2.1.1. Модель механизма поиска по совпадению терминов.

2.1.2. Модель механизма поиска по логическому выражению.

2.1.3. Модель механизма поиска с использованием контекстных операций

2.1.4. Модели механизма поиска по сходству.

2.1.4.1. Модель механизма поиска документов-аналогов.

2.1.4.2. Модель механизма эвристического поиска.

2.1.4.3. Модель механизма поиска с использованием обратной связи по релевантности терминов.

2.2. Взаимосвязь моделей механизмов поиска.

2.3. Алгоритмическая реализация моделей механизмов поиска.

2.3.1. Базовые процедуры работы с матрицей «термин-документ».

2.3.2. Алгоритм процедуры поиска по совпадению терминов.

2.3.3. Алгоритм процедуры поиска по логическому выражению.

2.3.4. Алгоритм процедуры поиска аналогов.

2.3.5. Алгоритм процедуры эвристического поиска.

2.3.6. Алгоритм процедуры поиска с использованием обратной связи по релевантности терминов

Выводы по второй главе.

Глава 3. Средства лингвистической поддержки информационного поиска в документальных БД.

3.1. Логика ИПЯ.

3.2. Статистические меры близости.

3.3. Исследование эффективности мер, основанных на структурно-частотных характеристиках.

3.3.1. Алгоритм построения иерархических словарных структур.

3.3.2. Ранжирование терминов словаря для расширения поискового запроса в технологии обратной связи.

3.3.3. Оценка эффективности использования интегрального коэффициента при ранжировании терминов для расширения запроса.

Выводы по третьей главе.

Глава 4. Реализация поисковых моделей и лингвистических средств в документальной ИПС.

4.1. Логическая структура документальной базы данных.

4.2. Физическая структура документальной базы данных.

4.3. Информационно-поисковый язык документальной ИПС.

4.4. Синтаксис и семантика использования дескрипторов.

4.5. Средства формирования запросов.

4.6. Реализация технологий поиска документов по сходству.

4.7. Технологические объекты для построения предложения запроса.

4.8. Схема и средства развития поискового процесса.

Выводы по четвертой главе.

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Моделирование и разработка средств и технологий поиска документальной информации»

Современный уровень развития информационных технологий делает доступными в реальном масштабе времени информационные ресурсы (ИР) самого разного объема и содержания. Для облегчения работы с большими объемами информации разрабатываются разнообразные формы и способы ее представления, а также методы поиска, что выражается, например, в создании «фирменных» стандартов и систем, индивидуально настраиваемых самим пользователем.

Широко используемое понятие «информационные системы» практически не имеет единого концептуального определения. Наиболее часто это понятие трактуется как «комплекс, состоящий из информационного фонда и процедур: управляющей, обновления, информационного поиска и завершающей обработки, - позволяющей накапливать, хранить, корректировать и выдавать информацию» [20].

Такое интуитивно-утилитарное определение информационной системы (ИС) «вытекает» и связано с устоявшейся и уже привычной, но, тем не менее, особой формой целенаправленной деятельности человека - обработкой информации как сведений

0 чем-то, материально представленных в форме документов на традиционных бумажных или машиночитаемых носителях. Т.е., «системность» отражает существо функционального отношения: состав и структура ИС определяется, исходя из требований к уровню эффективности обслуживания информационных потребностей конечных пользователей, прежде всего в части нахождения в накопленных массивах тех записей (документов), которые предположительно содержат нужные сведения.

Однако принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную1. Это особенно важно учитывать в процессах информационного обеспечения научных исследований, когда объект поиска не может быть заранее четко определен и когда изначально определенная цель поиска может измениться в процессе самого поиска, например, при ознакомлении с найденным документом, причем факт изменения цели может быть и не осознан исследователем явно, что в итоге может привести к неполному результату поиска.

Автоматизированная информационная система, ориентированная на персональную информационную поддержку основной деятельности, интегрирующая такие спе

1 На наш взляд, именно эта особенность определяет необходимость создания информационных систем с поисковыми интерфейсами более сложными, чем «запросно-ответные». циализированные средства, как поиск, обработка и организация информации, должна строиться с учетом ряда следующих разноплановых особенностей.

1. Используемые информационные ресурсы наряду с оригинальным авторским представлением материала в большинстве своем характеризуются высокой системати-зированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов в предметной области — ПОДов, и систем нормативно-справочной информации - рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ИР).

2. Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал).

Функционирование современных ИПС [67] основывается на двух предположениях: 1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков; 2) пользователь способен указать этот признак. Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой. Такие понятия, как стратегия и технология поиска, средства и методы, модели и алгоритмы являются достаточно употребляемыми, однако разные авторы используют эту терминологию в разных контекстах и зачастую наделяют разным содержанием. Приведем несколько примеров.

В [50] процесс поиска сведен к выбору критерия отбора, максимизирующего количество релевантных документов, минимизирующего количество выданных документов или обеспечивающего уникальность получаемой информации.

В [51] стратегия поиска определяется как общий план диалогового сеанса, а тактика - как путь дальнейшего перемещения в процессе поиска. В [70] вводятся библиографическая, аналитическая и эмпирическая стратегии, которые выделяются по специфичности информационной потребности и требованиям к знаниям пользователя и ресурсам ЛИПС. Библиографическая стратегия ориентирована на поиск по заданным библиографическим характеристикам документа, аналитическая - на поиск, когда конкретные характеристики документа отсутствуют, однако требования к его информационному содержанию известны достаточно точно. Эмпирическая - на поиск, когда вводится информация о пользователе, которая используется для построения профиля его интересов. Профиль сопоставляется с хранящимися в системе профилями-прототипами (если профиль близок к прототипу, в качестве ответа на запрос предлагаются результаты поиска по запросу-прототипу). В [14, 17] определяются четыре основных класса стратегий информационного поиска: случайная (последующий вариант формулировки поискового предписания никак не связывается с предыдущими пробами), стратегия расширения, стратегия сужения, смешанная (композиционная) стратегия. В [52] стратегия связывается с выбором различных подвидов функции просмотра и печати результатов поиска с точки зрения снижения суммарных затрат пользователя.

В [56, 80, 82] рассматриваются технологии отбора документов и формы задания условия отбора; определяется поиск с обратной связью по релевантности как одна из поисковых стратегий. В [69] рассматриваются технологии поиска с использованием логических операторов и методов сходства документов по ближайшему окружению. В [83] как ключевая часть поиска рассматривается интерактивный отбор поисковых терминов. В [65] информационный поиск рассматривается как способ ориентации в базе данных. В [68] предложена логическая модель информационного поиска в ситуации неопределенности.

В [62] дано 6 видов рекомендаций по отысканию информации при интерактивном поиске: начальный поиск документов, отбор документов по ссылкам, просмотр потенциально релевантных документов, отбор документов по характеристикам первоисточников, постоянное отслеживание определенных источников информации, систематическая работа с определенным источником для отбора релевантной информации.

В [73] рассматриваются три вида методов поиска: 1) математические (вероятностный, векторного пространства и кластеризации); 2) лингвистические; 3) алгоритмические. Автор утверждает, что, определив соответствующую логику с моделью и методом доказательств, можно использовать все три вида методов.

В [63] анализируются четыре метода информационного поиска (булева логика с точным совпадением, расширенная булева логика, вероятностный поиск, поиск по кластерам) в связи с характером информационной потребности и даются рекомендации по использованию методов. В случае уточнения (пользователю известны какие-то библиографические признаки нужного ему документа) наиболее эффективен поиск на точное совпадение терминов. При тематическом поиске (пользователь может сформулировать тематику своего запроса в адекватных понятиях и терминах) рекомендуется использовать кластерные или вероятностные методы и расширенную булеву логику. В случае неопределенного поиска (пользователь хочет получить информацию о понятиях и отношениях в малознакомой ему тематической области) лучше применять кластерные методы.

Метод оценки эффективности поиска, предлагаемый в [55], базируется на смешивании моделированных и реальных информационных потребностей и предполагает использование для оценки результатов как группы испытуемых, так и индивидуальных планов экспертной группы. При оценках различается тематическая и ситуационная релевантность. Учитывается также динамический характер информационных потребностей, которые у одного и того же потребителя могут со временем изменяться.

В [86] перечисляются 7 этапов поиска: 1) организация стратегии поиска, 2) ввод первой версии запроса, 3) начальная адаптация к интерактивному поиску, 4) выработка конечной версии поисковой стратегии, 5) испытание конечной версии стратегии на выбранных файлах, 6) применение поисковой стратегии для поиска в различных интерактивных службах, 7) постпоисковые операции - заказ документов, связь с авторами, разработка стратегии.

Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, либо отыскав дополнительные сведения, либо организовав процесс таким образом, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля, а в том случае, если они являются «информационно-ориентированными», то им также свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, «самостоятельный» проблемно-ориентированный, индивидуально обновляемый и пополняемый информационный ресурс, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Упомянутая ранее особенность работы пользователя' в режиме «самообслуживания», в контексте задачи автоматизации совокупной деятельности означает, что система должна представлять собой среду, обеспечивающую поддержку не только функций потребителя по обработке найденной информации и тех функций, которые традиционно относились к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык - ИПЯ, выбор ИР,' автоматизированный поиск и ручной отбор материалов), но также и такие «обеспечивающие» функции, как структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация : и обработка результатов поиска, причем на уровне как отдельного документа, так и информационных ресурсов в целом. Отметим, что технические возможности, которыми ныне располагает пользователь, вполне позволяют ему фактически создавать информационный; ресурс— формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

При всем разнообразии, средств поиска и представления ресурсы научной информации: по-прежнему характеризуются достаточной формализованностью и систематизированностью как в части формирования, так и в части существования в виде потребительского информационного продукта. Основой, обеспечивающей стабильность процесса генерации-потребления информации, является лингвистическое обеспечение (JIO).

В условиях совмещения г пользователем функций генератора ИР и потребителя принципиальными становятся такие системные требования, предъявляемые к лингвистическому обеспечению, как. простота к сбалансированность: JIO должно включать лишь те средства, которые образуют единое целое, соразмерны и, безусловно, необходимы для эффективного функционирования системы.

Большое значение имеет гибкость лингвистического обеспечения. Эффективность поиска, безусловно, повышается при использовании на этапе формирования запроса отраслевых словарей и тезаурусов. Следует, однако, отметить, что составление таких средств вручную занимает несколько лет, причем за это время многое меняется и в проблематике, и в лексике отрасли.

Для анализа использования лексики тезаурусов автором было проведено исследование динамики использования дескрипторов информационно-поискового тезауруса по информатике [16] при индексировании базы данных ВИНИТИ РАН «Информатика». Результаты исследования представлены в Таблице 1 и на Рис. 1.

Таблица 1. Анализ использования дескрипторов тезауруса

Год Кол-во док-тов Кол-во кл. сл. в поле KW Кол-во дескрипторов тезауруса в словнике Доля дескрипторов в поле KW

1981 5 18 11 0,611

1982 23 93 46 0,495

1983 42 147 91 0,619

1984 167 454 210 0,463

1985 713 1461 479 0,328

1986 4718 5242 991 0,189

1987 6165 6398 1025 0,160

1988 6575 6518 1013 0,155

1989 7017 7000 983 0,140

1990 6715 6805 963 0,142

1991 5699 6515 865 0,133

1992 4473 5977 794 0,133

1993 3932 5218 734 0,141

1994 4473 7400 722 0,098

1995 4420 5367 533 0,099

1996 4355 4195 684 0,163

1997 2758 7200 596 0,083

1998 832 2999 346 0,115

Доля дескрипторов в словнике по годам

0.050 --

0.000 I . I . , I . . I . . I . . . .

1981 1982 1983 1984 1985 1906 1987 1988 1989 1990 1991 1992 1993 1994 1995 199в 1997 1998

Рис. 1. Распределение доли дескрипторов тезауруса по годам.

Исследования показали, что доля дескрипторов тезауруса, использованных при индексировании документов, существенно уменьшается с течением времени.

С другой стороны, использование при поиске достаточно сложных структур, каковыми являются информационно-поисковые тезаурусы, для пользователя может представлять определенную трудность. Поэтому одной из задач данной работы является разработка и исследование мини-тезауруса - иерархически упорядоченного проблемно-ориентированного словника, поддержка которого в актуальном состоянии ведется достаточно простыми автоматизированными средствами.

В целом же, автоматизация информационной деятельности должна основываться на общих принципах и теоретических моделях, которые, во-первых, охватывают максимальное количество типов и уровней процессов, как генерации, так и обработки информации, а во-вторых — будут работоспособны при реализации конкретных систем.

Целью диссертационной работы является исследование информационно-поисковых систем и создание комплекса моделей, методов и средств поиска в документальных ИР.

В работе определены следующие основные задачи:

- системный анализ взаимосвязи информационных объектов в процессах генерации-поиска информации;

- определение основных принципов функционирования документальных информационных систем (ИС) и построение обобщенной схемы поиска в документальных БД;

- определение понятия механизма поиска и разработка замкнутой системы математических моделей механизмов информационного поиска в документальных БД;

- исследование состава и структуры лингвистического обеспечения автоматизированных ИС, ориентированных на поиск научной информации;

- разработка средств автоматизированного создания и использования компонентов лингвистического обеспечения, в том числе разработка методов и средств построения иерархически упорядоченных проблемно-ориентированных словников (мини-тезаурусов);

- разработка обобщенной технологии, языка запросов и программных средств поиска информации в документальных БД.

Диссертационная работа состоит из введения, четырех глав, заключения и приложений.

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Голицына, Ольга Леонидовна

Выводы по четвертой главе

1. Определены состав и структура документальной базы данных, в которой информационная база состоит из двух компонент: коллекции записей собственно данных и описания этих данных. При этом структура документов может быть определена двумя путями: заданием схемы - последовательности именованных типизированных полей данных, или контекстным определением — использованием специализированных языков разметки (например, HTML или XML), задающих индивидуальные особенности представления материала каждого документа. Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов, что обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов.

2. Разработана форма представления словарных структур, обеспечивающая компактное страничное хранение и обновление лексикографических конструкций любого формата.

3. Разработан и описан комплекс поисковых средств, включающий информационно-поисковый язык, ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса.

4. Построена схема соотношения основных объектов и средств, участвующих в процессе поиска. Показано, что технологическая схема, обеспечивающая выполнение требования адекватного информирования, включает два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.

Заключение

Анализ состояния и тенденций развития поисковых систем и технологий показал, что перспективным направлением является создание персональных информационных систем. Функционально такие системы должны включать, помимо поисковых возможностей, средства формирования и систематизации информационных массивов, оценки и анализа результатов поиска, а также формирования и развития средств лингвистического обеспечения.

В рамках исследования информационно-поисковых систем и создания моделей, методов и средств поиска получены следующие результаты:

1. Для различных типов поисковых задач, характеризующихся различного типа информационными неопределенностями, определены логические модели и адекватные лингвистические средства поиска. Процесс поиска представлен как последовательность шагов, приводящих при посредстве системы к снятию информационных неопределенностей и получению значимого для пользователя результата. Разработана обобщенная схема информационного поиска, в которой технологические объекты обеспечивают локализацию и снятие неопределенностей соответствующего типа.

2. Определено понятие механизма поиска как преобразователя поискового запроса в выдачу, где в качестве поискового запроса может использоваться как совокупность терминов, так и совокупность ПОДов информационного массива. На основе линейного представления универсального информационного массива разработаны модели поисковых механизмов. Исследована взаимосвязь разработанных моделей и построена система моделей механизмов поиска, образующих замкнутое пространство относительно операции абстрактной композиции, описывающей процессы развития ПОЗа.

3. Разработаны алгоритмы, реализующие модели поисковых механизмов. В основу алгоритмов положена совокупность процедур, преобразующих виртуальную матрицу «термин-документ», представленную на физическом уровне инвертированными словарными структурами. Обоснована целесообразность сохранения промежуточных поисковых результатов в физических структурах БД с тем, чтобы обеспечить возможность расширения матрицы «термин-документ».

4. На основе анализа лингвистических средств, используемых для фиксации контекста словоупотреблений, определено, что с точки зрения простоты и сбалансированности использования наиболее приемлемым лингвистическим средством является мини-тезаурус, оперативно создаваемый пользователем в процессе работы с информационным пространством ПрО.

Для построения семантической структуры мини-тезауруса предложено использовать меру, отражающую вес термина в тематическом информационном массиве и базирующуюся на структурных и частотных характеристиках термина. Экспериментально показано, что использование предложенного весового коэффициента позволяет выделить для темы пространство ядерных терминов частотного словаря, которые становятся дескрипторами мини-тезауруса.

5. На основе представления семантической связи между терминами как характеристики близости двух информационных потоков проведено экспериментальное исследование влияния предложенного весового коэффициента на коэффициент корреляции термина с тематической областью. Показано, что применение интегрального коэффициента, учитывающего две составляющие — коэффициент корреляции и вес термина в информационном массиве — позволяет повысить эффективность ранжирования терминов в процедурах расширения поискового запроса. Оценка эффективности интегрального коэффициента была проведена с использованием рабочей характеристики запроса в координатах «полнота — полезная работа АИПС». Результаты экспериментов для тематических областей БД «Информатика», задаваемых Рубрикатором ВИНИТИ, показали,, что ранжирование терминов по значению интегрального коэффициента приводит к более эффективным запросам.

6. Определены состав и структура документальной базы данных, в которой информационная база состоит из двух компонент: коллекции записей собственно данных и описания этих данных. Разработана форма представления инвертированных структур, обеспечивающая компактное страничное хранение и обновление лексикографических конструкций любого формата.

7. Разработан и описан комплекс поисковых средств, включающий информационно-поисковый язык, технологию и ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса. Построена технологическая схема, обеспечивающая выполнение требования адекватного информирования, которая включает два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.

Представленные в диссертационном исследовании модели и средства обеспечивают создание комплекса компонентов лингвистического, информационного и программного обеспечения автоматизированных информационных систем. На их основе были разработаны:

- концепция, архитектура и ряд программных компонентов информационной системы IRBIS, предназначенной для многоаспектного поиска информации в библиографических, реферативных и полнотекстовых базах данных разнородных документов;

- система управления базами данных, обеспечивающая контроль доступа и необходимое разнообразие форм представления документальной информации;

- информационно-поисковый язык, обеспечивающий расширенные возможности управления отбором документов в разнородных документальных базах данных;

- обобщенная технология информационного поиска и ряд унифицированных интерфейсных средств, обеспечивающих эффективные стратегии информационного поиска.

Разработанная при непосредственном участии автора документальная ИПС IRBIS применяется для создания промышленных информационных ресурсов: для генерации баз данных, использующихся в локальном режиме (MS DOS и Windows версии), в том числе на CD ROM носителях, а также для создания электронных библиотек (Web-версия и Z39.50-Bepcra).

Результаты диссертационной работы внедрены в ВИНИТИ РАН, ИНИОН РАН, ВНТИЦентре РФ, и др. (акты о внедрении приведены в Приложении 13)

Список литературы диссертационного исследования кандидат технических наук Голицына, Ольга Леонидовна, 2004 год

1. Аветисян Д.О. Проблемы информационного поиска. — М.: Финансы и статистика, 1981.

2. Базмаджян Р.А. и др. Универсальная система «Кристалл». — Ереван: АрмНИИНТИ, 1969.

3. Белнап Н., Стал Т. Логика вопросов и ответов. — М.: Прогресс, 1981.

4. Белоозеров В.Н., Косарская Ю.П. Опыт разработки словаря с разветвленной системой тезаурусных связей // НТИ. Сер. 2,2001. N 8. - С. 28-31.

5. Браславский П.И., Гольдштейн С.Л., Ткаченко Т.Я. Тезаурус как средство описания систем знаний // НТИ. Сер. 2,1997. N 11. - С. 16-22.

6. Васина Е.Н., Голицына О.Л., Максимов Н.В., Попов И.И. Информационные ресурсы и документальные базы данных. Создание, использование, анализ (учебное пособие). М.: РГГУ., 1997.

7. Войшвилло И.К. Понятие. М., 1967.

8. Воробьев Г.Г. Проблема документальной информации / сб. Кибернетика и документалистика. Механизмы процесса накопления, хранения и поиска научной информации. М.: Наука.—1966., с.5-34.

9. Герасимов М.Б., Пунтиков Н.П., Перегудова М.В., Маленков С.А., Цыганков М.А., Евграфов А.А., Виноградов А.Е. Методы автоматического построения специализированного тезауруса // СТАР СПб / www.dialog-21 ,ru

10. Голицына О.Л., Максимов Н.В. Стратегии и технологии информационного поиска // 4-я Международная конференция НТИ-99: «Интеграция. Информационные технологии. Телекоммуникации. Москва, 17-19 марта 1999г.» М.:ВИНИТИ, 1999.

11. Голицына О.Л., Максимов Н.В. Человеко-машинный информационный поиск в документальных базах данных // Теория и практика общественно-научной информации. Вып. 12. - М.: ИНИОН РАН, 1996.

12. Голицына О.Л., Максимов Н.В., Попов И.И. Базы данных: Учебное пособие. — М.: Форум: ИНФРА-М, 2003. 352 с.

13. Горькова В.И., Зотова Л.А. Критерии оценки структурных связей понятий классификационных систем. // НТИ, сер. 2, 1979, № 9.

14. Димитрова К. Стратегии информационного поиска // Библиотека, 1995, 3, №1, С. 16-22.

15. Забегаева Н.Н., Максимов Н.В. Информационный поиск и модели поведения пользователей. // НТИ. Сер.2. -2001, №10.

16. Информационно-поисковый тезаурус по информатике. / Сост. Пащенко Н.А., Ксенофонтова Е.Б. Скоробогатая В.Ф., научный редактор Черный А.И. -М.:ВИНИТИ, 1987.

17. Карначук В.И. Классификация информационно-поисковых стратегий. — Новосибирск, 1986.

18. Козачук М.В. Концептуальный анализ текстов в системах автоматической обработки научно-технической информации. Дисс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. М.: ВИНИТИ, 2002.

19. Кравченко Е. А., Павлов А. Н., Попов И. И. Реализация ассоциативных поисковых стратегий в документально-лексической информационной базе // НТИ, Сер.2, 1985. -№1.

20. Криницкий Н.А., Миронов Г.Д., Фролов Г.Д. Автоматизированные информационные системы /Под ред. Дородницына А.А. М.: Наука, 1982. —384 с.

21. Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического индексирования и руб-рицирования: разработка, структура, ведение // НТИ, Сер. 2, 1996. N 1. - С. 1-6.

22. Мазур М. Качественная теория информация. М.: Мир, 1974,239с.

23. Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Дисс. на соискание ученой степени доктора техн. наук по спец. 05.25.05. — М.: РГГУ, 2001.

24. Максимов Н.В. Компоненты и технологии интерактивного поиска документальной информации. // МФД. 2001, №3.

25. Маршакова Н.Б. Построение информационно-поискового тезауруса методов дистрибутивно-статистического анализа. // НТИ, сер. 2,1977, № 5.

26. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. М.: Наука, 1968.

27. Москович В.А. Информационные языки. М.: Наука, 1971.

28. Озкарахан Э. Машины баз данных и управление базами данных. / Пер. с англ. М.: Мир, 1989.-С. 539-593.

29. Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС // НТИ. Сер. 1,2000. N 5. - С. 7-16.

30. Плотников Б.А. Об использовании лексико-графических данных при построении тезауруса. // НТИ, сер. 2.1975, № 9.

31. Покрас Ю.Л. Об одном способе установления парадигматических отношений при построении информационно-поискового тезауруса. // НТИ, сер. 2,1971, №3.

32. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. М.: ТПК АЛЬЯНС, 1996,408с.

33. Попов И.И. Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами. / Дисс. на соискание уч. степени доктора техн. наук. — М.: РГГУ, 1996.

34. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: математический аппарат моделирования // НТИ, Сер. 2,1981. № 3. - С. 10-16.

35. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: оценка качества лингвистического обеспечения // НТИ, Сер.2,1981. № 6. -С. 7-14.

36. Попов И.И. Оценка и оптимизация информационных систем. М.: МИФИ, 1981.

37. Попов И.И., Попов С.В. Об одном подходе к оценке технической эффективности ИПС и ее анализу. // НТИ, сер. 2,1979, № 6.

38. Попов И. И., Романенко А. Г. Некоторые вопросы оптимизации комплектования информационных фондов. // Вопросы моделирования и оптимизации информационных систем, Вып. 4 М.: Информэлектро, 1973.

39. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока // НТИ, Сер. 2,1991. № 2. - С. 23-27.

40. Ратцева И.И. Проблема выбора значения слова и смысловые расстояния. //НТИ, 1966, №5.

41. Селезнева Л.В. Принципы построения функционального тезауруса: структурный аспект / Текст: варианты и интерпретации. Бийск, Вып. 5. 2000. - С. 121-122.

42. Семенов Ю.А. Современные поисковые системы // (ГНЦ ИТЭФ) / book.itep.ru

43. Скороходько Э.Ф. Лингвистические проблемы обработки текстов в автоматизированных информационно-поисковых системах. // Вопросы информационной теории и практики. Сб.№25, М.: ВИНИТИ. 1974.

44. Смирнов В.А., Финн В.К. Предисловие к книге Белнап Н., Стал Т. Логика вопросов и ответов. — М.: Прогресс, 1981.

45. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М.: Советское радио, 1973.

46. Урманцев Ю.А. Начала общей теории систем. //Системный анализ и научное знание. -М.: Наука, 1978, с.7-41.

47. Урсул А.Д. Отражение и информация. М.: Мысль, 1973.

48. Харин Н. П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами. // НТИ, Сер. 2, № 9, 1989г., С. 19-93.

49. Шайкевич А.Я. Дистрибутивно-статистический анализ в семантике. // Принципы и методы семантических исследований М.:Наука, 1976.

50. Шкаренкова JI. Оптимизация стратегии поиска при работе с зарубежными базами данных. София, 1987.

51. Bates М. How to use information search tactics online. // Online, 1987, 11, №3.

52. Bates M. Search strategies for dialog's view fee. // Online, 1995, 1, pp.22-31.

53. Bates M. The design of browsing and berrypieking techniques for the online search interface. Online Rev. V.13, № 5,1989, p. 407-424.

54. Bookstein A. Probability and fuzzy-set applications to information retrieval. White Plains, N.Y. 1985.

55. Borlund P., Ingwersen P. The development of a method for the evaluation of interactive information retrieval systems // J. Doc., 1997, 53,3, pp.225-250.

56. Boughanem M., Chrisment C., Soule-Dupuy C. Query modification based on relevance back-propagation in an ad hoc environment // Inf. Process, and Manag., 1999,35, pp. 121139.

57. Buckley C., Allan J., Salton G. Automatic routing and retrieval using SMART: TREC-2. Inf. Proc.& Manag. V. 31, №3, 1986, p. 315-326.

58. Cooper William S. Getting beyond Boole. Inf. Process, and Manag. V.24, № 3, 1988.

59. Cory K. Discovering hidden analogies in an online humanities database // Libr. Trends, 1999,48, pp.60-71.

60. Deogun Jitender S. Integration of information retrieval and database management systems. Inf. Process, and Manag. V 24, №3, 1988.

61. Ellis D., Cox D., Hall K. A comparison of the information seeking patterns of researchers in the physical and social sciences // J. Doc., 1993,49(3), pp.356-369.

62. Ingwersen P. Wormell I. Modern indexing and retrieval techniques matching different types of information needs. // 44th FID Conf. and Congr., Aug. 28 Sept. 1, 1988. Pt 1. -1988, pp. 192-203.

63. Keen E. Michael. The use of term position devices in ranked output experiments. J. Doc. V.47, № 1, 1991, C. 1-22.

64. Kerr S.T. Wayfinding in an electronic database: the relative importance of navigational cues vs. mental models // Inform, processing a. management, 1990, Vol.26, N 4. P. 511533.

65. Losee Robert M. An analytic measure predicting information retrieval system performance. Inf. Process, and Manag. V.27, № 1,1991, C. 1-13.

66. Maron M.E. Probabilistic design principles for conventional and full-text retrieval systems. // Inf. Process, and Manag., 1988, 24, 3.

67. Miyamoto S. Application of rough sets to information retrieval // J. of the Amer. soc. for inform, science Vol. 49, N 3. P. 195-205.

68. Mohan К. C. Free-text retrieval systems: R&D in information retrieval // J. Sci. and Ind. Res., 1993, 52, №5, pp. 338-349.

69. Pejtersen A.M. Design of intelligent retrieval systems for libraries based on models of users search strategies. New York, 1986.

70. Radecki Tadeusz. Probabilistic methods for ranking output documents in conventional Boolean retrieval systems. Inf. Process, and Manag. V 24, N 3, 1988.

71. Rijsbergen C.J. Information Retrieval. London-Boston, Butterworths, 1975.

72. Rijsbergen K.V. Logics for information retrieval. // Note recens. e notiz, 1988, 37 (1-2), pp.121-124.

73. Robertson S. E.; Beaulieu M. Research and evaluation in information retrieval. J. Doc. V. 53, №1,1997, P. 51-57.

74. Robertson S.E., Sparck J.K. Relevance weighting of search. Doc. Retriev. Syst., London, 1988 C. 143-160.

75. Robertson S.E. On relevance weight estimation and query expansion J. Doc. V.42, № 3, 1986.

76. Robertson S.E., Thompson C.L., Macaskill M.J.; Bovey J.D. Weighting, ranking and relevance feedback in a front end system. J. Inf. Sci. V. 12, №1-2, 1986.

77. Salton G., Zhang Y. Enhancement of text representations using related document titles. Inf. Proc.& Manag. V. 22, №5, 1986, p. 385-394.

78. Satoh Kenji, Akamine Susumu, Okumura Akitoshi. Improvements on query term expansion and ranking formula. Pap. 4th Text RE trie v. Conf. (TREC-4), Gaithersburg, Md, Oct., 1996. N1ST Spec. Publ., № 500-236,1996, C. 475-481.

79. Shaw W. M. Retrieval expectations, clusterbased effectiveness, and performance standards in the CF database // Inf. Process, and Manag., 1994,30, №5, pp.711-723.

80. Sparck J.K. The way forward in information retrieval. ELSNews, june, 1997, P. 12-13.

81. Spink A. Study of interactive feedback during mediated information retrieval // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, N 5. P. 382-394.

82. Spink A., Saracevic T. Interaction in information retrieval: selection and effectiveness of search terms // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, №8. pp.741-761.

83. Swanson D. R. Undiscovered public knowledge // Libr. Quart. 1986, 56, №2.

84. Tailor R.S. Question-negotiation and information seeking in libraries. // College and Research Libraries, 1968,29, pp. 178-194.

85. Tenopir C. Online information hunting //J. Amer. Soc. Inf. Sci., 1993, 44, №6, pp.365367.

86. Tenopir C., Shu Man Evena. Magazines in full text: uses and rearch strategies , Online Rev., V.13,№ 2,1989, p. 107-118.

87. Wade Stephen J., Willett Peter, Bawden David. SIBRIS: the Sandwich Interactive Browsing and Ranking Information System: J. Inf. Sci., V 15, N 4-5, 1989, p. 249-260.

88. Yochum Julian A. Research in automatic profile creation and relevance ranking with LMDS: Pap. 3rd Text REtriev. Conf. (TREC-3), Gaithersburg, Md, Nov. 2-4, 1994. NIST Spec. Publ, №500-225, 1995, C. 289-297.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.