Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Григорьев, Александр Сергеевич

  • Григорьев, Александр Сергеевич
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 160
Григорьев, Александр Сергеевич. Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2006. 160 с.

Оглавление диссертации кандидат технических наук Григорьев, Александр Сергеевич

Введение.

1. Аналитический обзор методов и стратегий поиска текстовой информации. Системы обработки текста документов.

1.1. Задача поиска по текстам документов.

1.2. Классификация методов полнотекстового поиска.

Методы классического поиска (без использования контекстной информации).

Использование контекстной информации.

2. Метод поиска.

2.1. Описание метода обработки статистической сочетаемости слов.

2.2. Статистическое выявление устойчивых сочетаний слов.

2.3. Объединение схожих по написанию форм слов.

2.4. Обработка данных о статистической сочетаемости слов.

2.5. Группирование текстов по спискам устойчивых сочетаний слов

2.6. Выполнение естественно-языкового поискового запроса.

Краткие выводы.

3. Алгоритмы обработки текста документов и запросов, реализующие метод поиска.

3.1. Подготовка документов к обработке и их хранение.

3.2. Заполнение словаря.

3.3. Статистическое выявление устойчивых сочетаний слов.

3.4. Обработка данных о статистической сочетаемости слов.

3.5. Группирование текстов по спискам связности слов.

3.6. Определение соответствия текста поисковому запросу.

4. Программная реализация поискового метода и ее испытания.

4.1. Описание программной реализации.

4.2. Описание тестового набора текстов.

4.3. Определение эмпирических пороговых значений и коэффициентов

4.4. Экспериментальные оценки требуемых ресурсов при реализации разработанного метода.

4.5. Оценка качественных и количественных показателей разработанного метода поиска.

4.6. Сравнительная оценка ресурсоемкости разработанной поисковой системы.

Краткие выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова»

Социально-экономические преобразования в нашей стране и во всем мире во многом связаны с процессами информатизации общества [1]. Формируемое при этом информационное общество рассматривает информацию и знания как главные продукты производства и основные ценности. В процессах хранения и предоставления информации фундаментальную роль играют библиотеки [107]. В связи с ростом объемов обрабатываемой библиотеками информации возникают проблемы их радикальной перестройки для использования возможностей, предоставляемых современной вычислительной техникой. Удобство пользования библиотекой определяется ее поисковыми возможностями. Поэтому актуальность изучения существующих методов поиска, их совершенствования и создания нового поискового механизма определяет цель данной работы.

В настоящее время поиск и предоставление документов читателям, чаще всего, ограничены заложенными в систему библиографическими описаниями документов. Использование полей библиографических описаний (заглавие, авторы и др.), хранящихся в библиотечном каталоге, не всегда позволяет читателю найти интересующий его источник. Название издания, как правило, не может достаточно полно и достоверно отразить все содержание документа. Слова, составляющие заданный пользователем поисковый запрос, могут отсутствовать в заглавии документа при том, что сам документ частично или полностью удовлетворяет запросу.

Для устранения данной проблемы документ, помещенный в фонды системы, снабжается текстовым описанием - рефератом [44] или списком ключевых слов. Текст реферата, конечно, полнее заглавия отражает содержание документа, но для использования этого текста при поиске требуются специальные средства для выделения той части слов и словосочетаний, которая отражает тематику документа. Традиционно задачу получения набора слов, характеризующих документ, «вручную» выполняют редакторы в издательствах или сотрудники библиотеки. Это вносит элемент субъективности в данную процедуру. Списки таких слов, полученные для однотипных документов в разных учреждениях, могут сильно различаться. Чтобы избежать этой проблемы требуются автоматические поисковые средства, самостоятельно анализирующие текст реферата.

Второй традиционный путь поиска документов в библиотеках основан на использовании различных классификаторов (иерархических

1 2 3 тематических рубрикаторов ББК , ГАСНТИ\ УДК" [43]), позволяющих распределять документы по информационным группам. Так при помощи широко распространенного классификатора УДК [42] документы классифицируют путем индексирования по заданным рубрикам. Однако, использование дерева рубрик УДК для поиска и размещения информации в нужный раздел «вручную» малоэффективно в связи со сложностью визуального восприятия сильно разветвленного дерева описаний индексов УДК [43]. Автоматизированный поиск в пространстве классифицированных документов сводится к сопоставлению текста запроса с описанием рубрик классификатора и последующим представлением пользователю всех документов выбранной рубрики [73], что мало отличается от поиска по названию издания или по тексту реферата.

Концептуальная схема [71], описывающая механизм доступа пользователей библиотеки к документам через их описания или с использованием классификаторов или других поисковых интерфейсов, изображена на рис. В.1.

1 Библиографический Библиотечный Классификатор Государственная Автоматизированная Система Научно-Технической Информации 3 Универсальный Десятичный Классификатор

--Хранилище документов

Фон д документов

Документы

Оператор

Текстовые образы документов

Запрос^

-Поисковые средства

Документы

11оисковое описание документов

Поисковый интерфейс N

Читатели

Запрос

Поисковый сервер

Рис. В.1. Схема доступа пользователей библиотеки к её фондам

По мере увеличения информационных мощностей вычислительных систем стало возможным помещать в хранилище информационной системы библиотеки вместе с библиографическим описанием и сам документ. Документы, хранящиеся в электронных хранилищах вместе со своими описаниями, называются Электронными Документами (ЭД). ЭД - это неизменяемый во времени объект, сохраненный на машиночитаемом носителе и снабженный описанием [72]. Таким документом может быть как текстовый файл (набор текстовых файлов), так и любой другой вид информации (графическая, аудио), хранимой в виде файлов. Библиотека, организующая хранение ЭД вместе с их описаниями получила название Электронной Библиотеки (ЭБ). В такой библиотеке при поиске используется не только библиографическое описание документа, но и его текстовый образ. Для текстового документа при этом используется его текст. Для построения текстового образа произвольного документа, хранящего графическую или аудио информацию, создается текстовое описание содержимого этого документа. При этом в ЭБ поиск выполняется по всему тексту текстового образа документа и поэтому называется полнотекстовым поиском.

Темпы роста объема информационных хранилищ документов постоянно увеличиваются. Поэтому классическое решение задачи поиска, заключающееся в отыскании документов, содержащих слова запроса, уже не может удовлетворить пользователя. Количество найденных документов часто превышает объем, который пользователь способен проанализировать. Например, поиск по запросу «цены на персональные компьютеры» в пространстве описаний документов поисковой системы Япс1ех [25] дает более 60 миллионов наименований. Очевидно, лишь малая часть из них представляет интерес для автора запроса. Для повышения степени релевантности найденных документов поисковому запросу могут быть использованы формализованные поисковые интерфейсы и сложные классификаторы [42]. За счет этого обеспечивается высокое быстродействие и более точное соответствие результатов запросу. Несмотря на это, большинство пользователей не использует при поиске формализованный интерфейс. Использование формализованного интерфейса требует специального обучения пользователя и наличия у него навыков формальных преобразований запроса с естественного языка на язык, понятный поисковой системе. Поэтому более чем в 90% случаев пользователи предпочитают формулировать запрос в виде набора терминов или некоторой фразы [2].

По названным причинам в настоящее время существует потребность в создании поисковой системы ЭБ, позволяющей пользователю на естественном языке формулировать поисковые запросы, по которым система предоставит документы с высокой степенью релевантности. Для преобразования запроса с естественного языка, на котором пользователь привык мыслить, на формализованный язык интерфейса в настоящей диссертации предложен метод статистической оценки контекста слова и реализующая его поисковая система.

Определение. Естественный Язык (ЕЯ) - множество терминов и оборотов разговорного, профессионального или литературного языка, используемых пользователем при общении с другими людьми в конкретной среде или области деятельности. В общем случае, ЕЯ могут произвольно пересекаться.

Поиск документов с использованием ЕЯ запросов сводится к задаче обработки текстов. Над решением поставленной задачи работали С. Брин, JI. Пейдж, И. Сегалович, разработавшие методы полнотекстового поиска по инвертированному списку (булев поиск), реализованный в поисковых системах Интернет Google [25], Япс1ех [5] и др. При создании Реферативного Журнала ВИНИТИ [44] и в работах Г.П. Луна выполняется более глубокий анализ текста с целью выделения наборов ключевых слов из документов.

Значительный вклад в разработку, исследование и применение методов определения связей слов в предложениях внесли авторы формально-грамматических методов. В.А. Крищенко разработал метод, использующий структурную схему предложения, и реализовал его в «Информационной Метапоисковой Системе» [19]. В разработанном А.В. Бриком вероятностно-грамматическом методе [16], реализованном в программных продуктах «ODB-Text» и «Минерва», формально-грамматическая модель успешно дополнена использованием функции вероятностной оценки связности слов. Метод различительных сил, основанный на статистическом подходе и реализованный В.И. Шабановым в программном комплексе «Классификатор» [54], использует ассоциативные связи между терминами для снижения привязки к конкретному языку.

При обработке ЕЯ текстов используются также алгоритмы искусственного интеллекта. Имитационный подход реализован в диалоговых системах Ф.С. Файном [3]. Адаптивное распознавание образов используется в поисковой системе Retrieval Ware компании Convera [45]. Программный комплекс 4Thought компании Cognos [8] использует нейронные сети.

Особое место среди методов обработки текстов занимает лингвистический подход. В связи со сложностью применяемого в нем описания языка разработанные модели, как правило, не доводятся до практической реализации, как, например, уникальная модель «Смысл-Текст» И.А. Мельчука [104].

Общими недостатками приведенных методов являются либо игнорирование связей между словами, либо необходимость проведения ручного обучения правилам обработки текстов. В данной работе поставлена задача создания метода обработки ЕЯ текстов, который позволяет автоматически строить структуры, описывающие предложения запроса и документов для их сопоставления при поиске. Обучение обработчика текста особенностям языка, основанное на получении статистических закономерностей при анализе частот появления слов и их статистической сочетаемости между собой в текстах, минимизирует участие человека в обучении. При этом часто встречающиеся объекты образуют устойчивые группы, а редко встречающиеся - исключаются из рассмотрения, так как не служат источником информации о сочетаниях слов.

Автоматическое обучение языку разработанным в диссертации методом производится без подготовки формальных правил, описывающих язык. Для выявления закономерностей статистической сочетаемости слов анализируются все предложения текстов, хранящихся в системе. Это позволило решить задачу выделения частей предложения и выявления их зависимостей между собой, основываясь на статистических данных, полученных из анализа частот повторения сочетаний слов.

Наряду с проблемами обучения систем и выполнения поиска в работе решаются проблемы хранения поискового индекса документов - специально организованной служебной информации, ускоряющей поиск и расширяющей поисковые возможности используемого метода. Информация, создаваемая при подготовке неструктурированного текстового источника для осуществления поиска, может иметь объем, превышающий объем самого документа. В данной работе решается, какая информация должна быть сохранена для описания документа, а какая исключается из рассмотрения для снижения объема обрабатываемых при поиске данных.

Объект исследования в данной работе - произвольные тексты на естественных языках и их сочетаниях.

Целью диссертационной работы является создание метода, направленного на повышение качества полнотекстового поиска путем выделения повторяющихся сочетаний слов как в анализируемых текстах, так и в поисковых запросах, сформулированных на естественном языке.

Для достижения поставленной цели в диссертации решены следующие задачи:

• систематизированы известные методы и стратегии поиска, выделены основные этапы обработки текстов на естественном языке;

• разработаны и оптимизированы структуры для хранения служебной информации, создаваемой в процессе статистического анализа текстов;

• разработан метод поиска по произвольным документам на естественном языке, использующий устойчивые сочетания слов, автоматически выделяемые как в анализируемых текстах, так и в запросах;

• использовано группирование документов по спискам устойчивых сочетаний слов с целью ускорения поиска;

• разработан метод автоматического обучения анализатора текста языку по динамически пополняемому библиотечному информационному фонду документов за счет выявления закономерностей при статистическом анализе ассоциативных связей между словами текстов документов;

• создан программный комплекс, реализующий разработанный метод поиска.

Диссертация состоит из введения, четырех глав, выводов, заключения, списка литературы и приложения. Диссертация изложена на 158 страницах текста, содержит 39 рисунков и 30 таблиц. Библиография содержит 113 наименований. В первой главе выполнена математическая постановка задачи, описаны ключевые понятия и даны определения используемой в работе терминологии. Дан обзор стратегий текстового поиска, детально рассмотрены методы обработки текстов. По результатам проведенного анализа построена классификация методов текстового поиска. Сделаны выводы о достоинствах и недостатках каждого из методов и сформулированы цели и направления данного исследования. Во второй главе описан подход к полнотекстовому поиску с использованием неформализованных запросов. Описан метод статистической обработки текстов для оценки морфологической, синтаксической и семантической сочетаемости слов. В третьей главе разработана алгоритмическая структура, соответствующая описанному методу, а также решены задачи ограничения объемов создаваемой служебной информации. Выбраны параметры функций оценки подобия объектов при выделении значимых слов, формировании групп текстов и сравнении структур предложений запроса и текста. В четвертой главе экспериментальные данные использованы для обоснования принятых зависимостей и ограничений. Разработанный поисковый метод оценен с точки зрения точности и полноты поиска. Произведена его сравнительная оценка с методикой, использованной в поисковой машине Япёех.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Григорьев, Александр Сергеевич

Основные результаты разработки и реализации метода статистической обработки контекста могут быть формулированы в следующем виде:

1. Создан метод поиска информации в фондах электронных документов, базирующийся на статистической обработке контекста слова и сопоставлении найденных устойчивых сочетаний слов в текстах документа и запроса.

2. Разработаны новые алгоритмы автоматического выполнения морфологической, синтаксической и семантической обработки текстов, обеспечивающие возможность интеллектуального поиска информации на основе введенной функции оценки значимости слова с использованием словаря синонимов, составленного без участия человека.

3. Предложен метод автоматического обучения поисковой системы, позволяющий проводить поиск вне зависимости от предметной и тематической направленности документов, по фондам, содержащим тексты на различных языках.

4. Создан программный комплекс, реализующий разработанный метод и позволяющий пополнять и обрабатывать информационные фонды, выполнять по ним поиск документов.

5. Проведено исследование практической применимости предложенного метода поиска. Разработан критерий качества поиска, с использованием которого подтверждено увеличение полноты и степени релевантности найденных документов по сравнению известными поисковыми системами.

Показано, что дальнейшее развитие научно-практических разработок целесообразно проводить в следующих основных направлениях: 1. Контролировать корректность выделения незначимых слов введением в функцию значимости условности, то есть контекстной зависимости. В одних сочетаниях слова признаются значимыми, а в других -незначимыми.

2. При определении значения релевантности документа запросу учитывать значимость каждого найденного устойчивого сочетания, вычисляемую как среднюю значимость всех слов сочетания.

3. Исключать из обработки и, возможно, хранения таблицы всех сочетаний слов на время эксплуатации системы, так как они не используются, пока не добавляются новые документы. г г

Список литературы диссертационного исследования кандидат технических наук Григорьев, Александр Сергеевич, 2006 год

1. Соловьева Д.Я., Коссаковская Н.К., Гордон С.А. Перспективы развития научно-технических библиотек // Юбилейный сб. научн. тр. ГПНТБ России 1970-1995 гг. М., 1999.-С. 94-111.

2. Jansen В., Spink A., Bateman J. Real life information retrieval: a study of user queries on the web // ACM SIGIR Forum. 1998. - V. 32, № 1. -P. 22-28.

3. Файн B.C. Распознавание образов и машинное понимание естественного языка. М.: Наука, 1987. - 176 с.

4. Бронников В. Виртуальная жизнь клеточных автоматов // Компьютер в школе. 1998. - №2. - С. 10-19.

5. Холмогоров В. Поиск в Интернете и сервисы Яндекс. СПб.: Питер, 2006. - 122 с.

6. Тихомиров Ю.В. Microsoft SQL Server 7.0. СПб.: БХВ-Санкт-Петербург, 1999. - 720 е.: ил.

7. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика / Пер. с англ. Ю.А. Зуева, В.А. Точенова. М.: Мир, 1992. - 175 с.

8. Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы. 1998. - №1. - С. 30-35.

9. Hsu С., Dung М. Generating finite-state transducers for semi-structured data extraction from the web // Information Systems. 1998. - V. 23, №. 8. -P. 521 - 538.

10. Вирин В. Кто ищет, тот всегда найдет! // ComputerWorld Россия. 2003. -№8. - С. 6-8.

11. Bittco Solutions NetReality: neural net virtual reality document management thing//Linux Weekly News. 1999. - № 0225. - P. 38-41.

12. Бобровский С. Досье искусственного интеллекта // PC Week. 1999. -№45 (219).-С. 18-20.

13. Нейман Дэн:., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970. - 230 с.

14. Урманн Дж. Oracle 8. Программирование на языке PL/SQL. М.: Лори, 1999.-610 с.

15. Neuhaus P., Hahn U. Restricted Parallelism in Object-Oriented Lexical Parsing // Proc. Of the 16th Int. Conf. On Computational Linguistics. -Copenhagen, 1996. P. 36-49.

16. Брик А.В. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: дис. . канд. техн. наук: 05.13.11 / МГТУ им. Н.Э. Баумана. М., 2002. - 160 с.

17. Collins М. Three Generative, Lexicalised Models for Statistical Parsing /Dept. Of Computer and Information Science, University of Pennsylvania. -Philadelphia, 1997.- 216 p.

18. Бахвалов Т. Язычество без тайн // Компьютерра. 2005. - №39. -С. 23-30.

19. Крищенко В.А. Программное обеспечение для метапоиска информации в гипертекстовой среде: дис. канд. техн. наук: 05.13.11. М., 2002. -143 с.

20. Свинарев С. Нейроагенты Neugents приступают к управлению информационными системами // Computer Weekly. 1999. - №3. -С. 16-17.

21. Ахо У., Ульман Дж. Синтаксический анализ. М.: Мир, 1978. -612с.-(Теория синтаксического анализа, перевода и компиляции; Т.1).

22. Компьютерный синтаксический анализ: описание моделей и направлений разработок / Г.Д. Карпова, Ю.К. Пирогова, Т.Ю. Кобзарева и др. М., 1991. - 130 с. - (Итоги науки и техники / ВИНИТИ. Сер. Вычислительные науки; Т.6).

23. Architectures and mechanisms for language processing / Edited by Matthew W. Crocker, Martin Pickering, Charles Clifton, Jr. Cambridge; New York: Cambridge University Press, 2000. - 365 p.

24. Губарев В.В. Алгоритмы статистических измерений. М.: Энергоатомиздат, 1985. - 272с.

25. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford: Stanford University, 1999. - 20 p.

26. Волошина Т. Нормативное регулирование контрольно-надзорных отношений //Грани Гаранта. 2004. -№3 (11). - С. 19-23.

27. Романенко В.Н., Никитина Г.В. Сетевой информационный поиск: Практическое пособие. СПб.: Профессия, 2005. - 285 с.

28. Григорьев А.С. Организация хранения, обработки и доступа к полнотекстовым документам в современных АБИС // Новые информационные технологии: Матер, шестого Всерос. научн.-практ. сем.-М., 2003.-С. 128-138.

29. London Т. Guidelines and Good Practice for Developing SQL. Illinois: Northern Illinois University, 1992. - 65 p.

30. Feuerstein S. Oracle PL/SQL Best Practices: Optimizing Oracle Code. -Cambridge: O'Reilly, 2001. 204 p.

31. Костюк В.И., Ходаков B.E. Системы отображения информации и инженерная психология. Киев: Вища школа, 1977. - 192 с.

32. Корн Г., Корн Т. Справочник по математике (для научных работников и инженеров). М.: Наука, 1978. - 832 с.

33. Современный русский язык. Фонетика. Лексикон. Словообразование. Морфология. Синтаксис. СПб.: Лань, 2001. - 864 с.

34. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. М.: Изд-во МГТУ им. Н.Э. Баумана, 2005.304 с. - (Информатика в техническом университете).

35. Библиография: Общий курс / Под ред. М.А. Брискмана, А.Д. Эйхенгольца. М.: ВИНИТИ, 1969. - 560 с.

36. Хамилтон С. Научно-исследовательские проекты Microsoft // Computer World. 1998. - №31. - С. 40-42.

37. Хроленко А.Т. Лингвокультуроведение: Учебное пособие. Курск: Издательство Регионального Открытого Социального Института, 2001. -180 с.

38. Григорьев А.С. Исследование проблемы проектирования систем обработки естественно-языковых текстов и организации поиска по ним // Информатика и системы управления в XXI веке: Тр. молодых ученых, аспирантов и студентов: Сб. тр. 2004. - №2. - С. 184-188.

39. Черемных С.В., Семенов И.О., Ручкин B.C. Структурный анализ систем: IDEF-технологии. М.: Финансы и статистика, 2001. - 208 с.

40. Концепция семантического поля исторического источника / Ю.Я. Вин, А.Ю. Гриднева, Д.Е. Кондратьев и др. // Диалог со временем. Альманах интеллектуальной истории. 2004. - №12. - С. 84-99.

41. Григорьев А.С. Машинное понимание естественного языка при составлении запросов к поисковой системе библиотеки // Новые информационные технологии: Матер, седьмого Всерос. научн.-практ. сем. М., 2004. - С. 70-76.

42. Вспомогательные таблицы: Универсальная десятичная классификация /Ред. Ю.М. Арский. М.: ВИНИТИ, 2001. - 246 с. - (УДК. Универсальная десятичная классификация; Т. 1).

43. Зайцева Е.М. Отчет по первому этапу разработки Схемы классификации печатной продукции. М.: Российское книжное общество, 2004. -С. 3-7.

44. Черный А.И. Введение в теорию информационного поиска. М.: Наука, 1975.-238 с.

45. Рузайкин Г.И. Развитие поисковых систем в Интернете // Мир ПК. -2005.-№ 9 .-С. 100-102.

46. Bittco Releases NetReality at Comdex Fall '99; The Most Advanced Personal Internet Search Tool // Business Wire. 1999. - November 18. - P. 18-19.

47. Браславский П.И. Стиль как дополнительный параметр поиска информации в Internet // Русская компьютерная и квантитативная лингвистика. М., 2000. - С. 396.

48. Воронина И.Е. Проблемы формализации русского языка // Русская компьютерная и квантитативная лингвистика. М., 2000. - С. 398-399.

49. Шабанов В.И. Модели и методы автоматической классификации текстовых документов: дис. . канд. техн. наук: 05.13.1 1. М., 2003. -227 с.

50. Григорьев А.С. Автоматическое получение ключевых словосочетаний текста электронного документа на произвольном языке // Новые информационные технологии: Матер, восьмого Всерос. научн.-практ. сем.-М., 2005.-С. 110-118.

51. Волкова И.А., Головин И.Г. Синтаксический анализ фраз естественного языка на основе сетевой грамматики // Тр. международного сем. ДИАЛОГ'98. М., 1998. - С. 39-45.

52. Вудс В.А. Сетевые грамматики для анализа естественных языков // Кибернетический сборник. Новая серия. 1978. - Вып. 13. - С. 86-113.

53. Magerman D. Natural Language Parsing as Statistical Pattern Recognition. Doctoral thesis. Stanford: Stanford University, 1994. - 161 p.

54. Сегалович И.В. Как работают поисковые системы. М.: КОЛИНТ, 2005.-25 с.

55. Растригин Л.А. По воле случая. М.: Молодая гвардия, 1986. - 208 с.

56. Goldberg D.E. Genetic Algorithms in Search, Optimization and Machine Learning. Massachusetts: Addison-Wesley, 1989. - 412 p.

57. Зайцев А.В. Методика создания индексных файлов для осуществления полнотекстового поиска в сети Интернет. СПб: ГУАГ1 CODENET, 2001.-49 с.

58. Кондратьев Д.Е., Тихонова О.В. Алгоритм сравнения статей на основе семантической близости понятий // Новые информационные технологии: Матер, шестого Всерос. научн.-практ. сем. М., 2003. -С. 26-31.

59. Григорьев А.С. Новая система обработки естественно-языковых текстов в исследовании понятий и терминов византийских источников // Межкультурное взаимодействие и его интерпретации: Матер. Всерос. научн. конф. М., 2004. - С. 197-200.

60. Куралеиок И.Е., Некрестьянов И.С. Автоматическая классификация документов с использованием семантического анализа // Электронные библиотеки, перспективные методы и технологии: Тр. первой Всерос. научн.-метод. конф. СПб, 1999. - С. 86-96.

61. Manning C.D., Carpenter R. Probabilistic Parsing Using Left Corner Language Models // Information Processing & Management. 1997. - №1. -P. 12-24.

62. Raychauclhuri S., Schutze H., Altman R.B. Using text analysis to identify functionally coherent gene groups // Genome Research. Stanford; San Mateo, 2002.-P. 1582-1590.

63. Бойцов JI. Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Шестая Всерос. научн. конф. М., 2004. - С. 148-156.

64. Damerau F.J. A technique for computer detection and correction of spelling errors//Communications of the ACM. 1964. - VoI.7(3). - P. 171-176.

65. Левенштейи В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР.- 1965,- Т. 163, №4. С. 845-848.

66. Luhn H.P. A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. 1957. -№1. - P. 309-317.

67. Григорьев А. С. Принципы создания современной библиотечной поисковой системы // Информатика и системы управления в XXI веке: Тр. молодых ученых, аспирантов и студентов: Сб. тр. 2003 .- №1. -С. 330-333.

68. Абызгильдин А.Ю., Руднев Н.А. Проект информационной системы учебного предприятия // Новые образовательные технологии: Сб. тр. научн.-метод, сем. Уфа, 2001. - С. 28.

69. Седжвик Р. Фундаментальные алгоритмы на С. Анализ/Структуры данных/Сортировка/Поиск/Алгоритмы на графах: Пер. с англ. СПб: ООО «ДиаСофтЮП», 2003. - 1136 с.

70. Гренандер У. Лекции по теории образов: Регулярные структуры: Пер. с англ. М.: Мир, 1983. - 432 с.

71. Трофимов С.A. Rational XDE для Visual Studio .NET. М.: Бином-Пресс, 2003.-304 с.

72. Авторское право: Нормативные акты. Национальное законодательство и международные конвенции / Сост., авт. вступ. ст. И. Силонов; оформл. Г. Сыроватского. М.: Элит-Клуб; Юридическая книга, 1998. -429 с.

73. Фомин Я.А., Тарловский Г.Р. Статистическая теория распознавания образов. М.: Радио и связь, 1986. - 264 с.

74. Елохин В.Р., Елохин И.В. Имитационный метод статистической аппроксимации. Апатиты: Изд-во Кольского научного центра РАН, 2002. - 120 с.

75. Васильев В.И., Коноваленко В.В., Горелов Ю.И. Имитационное управление неопределенными объектами. Киев: Наукова думка, 1989. -216 с.

76. Колмогоров А.Н. Основные понятия теории вероятностей. М.: Наука, 1974.- 119 с.

77. Ибрагимов И.А., Хасьмииский Р.З. Асимптотическая теория оценивания. М.: Наука, 1970. - 384 с.

78. Клейнен Дж. Статистические методы в имитационном моделировании: Пер. с англ. / Под ред. Ю.П. Адлера, В.Н. Варыгина. М.: Статистика, 1978.- 335 с.

79. Бойцов Л. Поиск по сходству в документальных базах данных //Программист. 2001. -№ 1. - С. 32-35.

80. Риоло P.JI. Естественный отбор в мире битов // В мире науки (Scientific American). 1992. - Сентябрь-Октябрь. - С. 160-165.

81. Manber U., Myers G. Suffix Arrays: A New Method for On-line String Searches // 1st ACM-SIAM Symposium on Discrete Algorithms. -Philadelphia, 1990.-P. 12-20.

82. Manber U. Finding similar files in a large file system // USENIX Conference. Boston, 1994. - P. 343-349.

83. Joyce Т., Needham R.M. The Thesaurus Approach to Information Retrieval // American Documentation. 1958. - №12. - P. 611-625.

84. Automatic query expansion using SMART TREC-3 / G. Salton, C. Buckley, J. Allan etc. // An Overview of the Third Text Retrieval Conference (TREC 3). - 1995. - №500-225. - P. 69-80.1. Г

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.