Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Бородащенко, Антон Юрьевич

  • Бородащенко, Антон Юрьевич
  • кандидат технических науккандидат технических наук
  • 2010, Орел
  • Специальность ВАК РФ05.13.01
  • Количество страниц 192
Бородащенко, Антон Юрьевич. Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Орел. 2010. 192 с.

Оглавление диссертации кандидат технических наук Бородащенко, Антон Юрьевич

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ,

ЕДИНИЦ И ТЕРМИНОВ

ВВЕДЕНИЕ

1 СЕМАНТИЧЕСКАЯ ФИЛЬТРАЦИЯ ТЕКСТОВОЙ ИНФО- 12 МАЦИИ КАК НАПРАВЛЕНИЕ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ ПРЕДПРИЯТИЯ

1.1 Особенности организации информационно-аналитической 12 деятельности на предприятии и роль семантической фильтрации при решении информационно-аналитических задач

1.2 Место семантической фильтрации в современных техноло- 20 гиях обработки текстовой информации

1.3 Постановка задачи диссертационного исследования

1.4 Анализ методов решения задачи семантической фильтра

Выводы по главе

2 КОМПЛЕКС МОДЕЛЕЙ СЕМАНТИЧЕСКОЙ ФИЛЬТРА- 42 ЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

2.1 Особенности автоматической обработки текстовой инфор- 42 мации на естественном языке

2.2 Графовая (структурная) модель семантической фильтрации 53 текстовой информации

2.3 Марковская (контекстная) модель семантической фильтра- 58 ции текстовой информации

2.4 Гипертекстовая (внеконтекстная) модель семантической 61 фильтрации текстовой информации

Выводы по главе

3 КОМПЛЕКС АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

3.1 Алгоритм семантической фильтрации текстовой информации на основе аппарата теории графов

3.2 Алгоритм семантической фильтрации текстовой информации на основе аппарата марковских случайных процессов

3.3 Алгоритм семантической фильтрации текстовой информации на основе гипертекста

3.4 Комплексный алгоритм семантической фильтрации текстовой информации

Выводы по главе

4 СТРУКТУРНАЯ СХЕМА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ С ФУНКЦИЕЙ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ И ОЦЕНКА ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ КОМПЛЕКСА АЛГОРИТМОВ

4.1 Функциональная и структурная схема перспективной информационно-аналитической системы с функцией семантической фильтрации

4.2 Сравнение результатов тестирования макета программы семантической фильтрации с существующими аналогами

4.3 Экспертная оценка эффективности применения макета программы семантической фильтрации текстовой информации

4.3.1 Методика оценивания эффективности макета программы семантической фильтрации текстовой информации

4.3.2 Результат оценивания эффективности макета программы семантической фильтрации текстовой информации

Выводы по главе

ВЫВОДЫ

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия»

Использование передовых информационных технологий в условиях интенсивного развития рыночных отношений становится одним из наиболее важных, а часто и решающих факторов, определяющих эффективность управления предприятием. В организациях все чаще внедряют современные информационные системы, чтобы обрабатывать внешние и внутренние потоки информации, осуществлять анализ, прогнозирование и принятие управленческих решений. Практика использования указанных систем стала нормой для современного предприятия. Известен "рецепт для хорошего решения: 90 % информации и 10 % вдохновения" [1]. Однако сами по себе информационные системы и технологии не могут быть основным инструментом в достижении производственных целей. Только те предприятия, которые четко определили корпоративную и конкурентную стратегию, имеют представление о собственных информационных потребностях, могут добиться успеха.

Мировой опыт показывает, что системообразующим элементом управления предприятием является информационно-аналитическая деятельность, осуществляемая информационно-аналитическими подразделениями (ИАП) предприятия [2]. Начиная производство, нужно провести информационно-аналитическое маркетинговое исследование сектора рынка и региона выбранного бизнеса, ответить на вопросы о необходимых трудовых ресурсах соответствующей квалификации, соотношении спроса и предложения на планируемую к выпуску продукцию, сложившемся на рынке ценообразовании, требованиях к качеству продукта, законодательной базе, регламентирующей данный вид деятельности, будущих конкурентах и возможных партнерах и многом другом.

Анализ указанной информации предполагает поиск источников данных, наиболее полно и объективно отражающих реальные рыночные процессы. Основными видами такой информации являются статистические, коммерческие, биржевые, финансовые, профессиональные и научно-технические 6 данные. Для перечисленных категорий текстовая информация является преобладающим видом, требующим применения соответствующих технологий обработки. Наиболее полным, доступным и актуальным источником такой информации являются потоки профессиональной информации, циркулирующей на предприятии (отчеты, аналитические записки, сопроводительные документы и т. д.), публикации СМИ, обзоры и подборки, распространяемые по подписке, а также в сети Интернет. Значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов. Эти обстоятельства затрудняют принятие обоснованных и своевременных решений, в основу которых должно быть положено изучение всего массива информации, отражающей ситуацию в аспекте поставленной руководством задачи. В связи с этим разработка и внедрение на предприятии информационно-аналитических систем и технологий, ориентированных на автоматизированную обработку текстовой информации на основе методов интеллектуального анализа данных (ИАД), являются актуальной задачей.

В существующих информационно-поисковых (ИПС) и информационно-аналитических системах (ИАС) обработки текстовой информации в достаточно полной мере реализованы следующие функции: аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование, поиск по ключевым словам и практически не реализована функция семантической фильтрации. Задача фильтрации массива исходной информации в целях предоставления пользователю ограниченного объема документов в настоящее время требует значительных трудозатрат высококвалифицированных специалистов. Перечисленные аргументы и определяют актуальность темы и научной задачи диссертационного исследования, заключающейся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в информационно-аналитических системах обработки текстовой информации ИАП предприятия.

В области проблем автоматической обработки текстовой информации известны работы [3, 4, 11, 14, 42, 63, 101 и др.]. Перечисленными авторами разработаны основные теоретические и прикладные вопросы анализа текстов на естественном языке. Однако несмотря на это поиск информации в настоящее время выполняется как правило лишь с помощью примитивных запросов на основе ключевых слов.

Целью диссертационной работы является разработка моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение эффективности информационного поиска за счет увеличения точности и полноты, а также сокращения времени отбора полезной информации за счет автоматизации рутинных функций.

Для достижения поставленной цели решены следующие задачи:

1. Выбор и обоснование методов семантического анализа текстовой информации в информационно-аналитических системах.

2. Моделирование процесса семантической фильтрации текстовой информации.

3. Разработка и исследование структурных решений и управляющих алгоритмов, обеспечивающих выполнение семантической фильтрации текстовой информации заданной тематики.

4. Разработка структурной схемы и реализация прототипа автоматизированной системы семантической фильтрации текстовой информации в информационно-аналитических системах ИАП предприятия.

Объект исследования - информационно-аналитические системы обработки текстовой информации ИАП предприятия, в качестве предмета исследования выступают модели, методы и алгоритмы интеллектуального анализа текстовых документов, обеспечивающие их поиск и ранжирование в соответствии со степенью семантического подобия к эталонному тексту.

При проведении исследований использовался математический аппарат теории вероятностей, математической статистики, марковских случайных процессов, распознавания образов, подобия, компьютерной лингвистики, теории систем и системного анализа, планирования экспериментов и исследования операций.

Результаты диссертационного исследования изложены в четырех главах, заключении и четырех приложениях.

В первой главе диссертации рассмотрены структурные и функциональные особенностей построения ИПС и ИАС, проведен анализ используемой в настоящее время технологии обработки текстовой информации, который позволил обосновать необходимость введения процедуры семантической фильтрации в состав существующих систем. Сделан вывод о том, что в современных ИАС в достаточно полной мере реализованы основные функции технологии обработки текстовой информации и практически не реализована функция семантической фильтрации информации. Однако значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов, что определяет исключительная актуальность разработки информационных технологий, практически не требующих участия специалиста на этапах интеллектуального поиска необходимой информации и ее смысловой классификации. На основании этого сформулирована проблема диссертационного исследования и выполнена общая постановка научной задачи, обоснованы методы ее решения.

Содержание второй главы составляет разработка математических моделей семантической фильтрации текстовой информации. Осуществлен анализ особенностей автоматической обработки текстов на естественном языке, с учетом которых был разработан комплекс моделей многоаспектной семантической фильтрации на основе оценки структурного (графовая модель), контекстного (марковская модель) и внеконтекстного (гипертекстовая модель) подобия. В отличие от существующих аналогов в предлагаемых моделях используются множества ключевых слов, словосочетаний и связей между ними, учитываются отношения между словами текста, а также связи между документами.

В третьей главе предложен комплекс алгоритмов семантической фильтрации текстовой информации, включающий в себя алгоритмы семантической фильтрации на основе аппарата теории графов, марковских случайных процессов и гипертекста. Приведены примеры их работы. В целях эффективного использования разработанных алгоритмов предлагается комплексный алгоритм семантической фильтрации, имеющий в своем составе блок определения свойств анализируемых текстов, на основании которого осуществляется включение в работу того или иного алгоритма семантической фильтрации. После этого осуществляется процедура многоаспектного ранжирования текстов, в качестве которой использован кластерный анализ ^-средних, позволяющий осуществить разбиение исходного массива текстов на необходимое пользователю количество классов.

В четвертой главе приведен вариант структурной схемы перспективной ИАС предприятия с функцией семантической фильтрации текстовой информации. Показана возможность решения других различных задач интеллектуального анализа текстовой информации с применением разработанных моделей и алгоритмов семантической фильтрации на примере реализации процедуры автоматического рубрицирования и контент-анализа. Кроме того, осуществлена оценка эффективности применения комплекса алгоритмов в информационно-аналитических системах путем сравнения результатов тестирования макета программы с существующими аналогами и проведения экспериментальных испытаний.

Основными положениями, выносимыми на защиту, являются: ,

1. Комплекс моделей семантической фильтрации текстовой информации, позволяющий определять степень сходства анализируемых документов с эталонным текстом.

2. Комплекс алгоритмов семантической фильтрации текстовой информации, предназначенный для внедрения в информационно-аналитическую систему предприятия.

3. Структурная схема информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, обеспечивающая существенное ускорение решения задач по обработке текстовых документов на предприятии.

Результаты исследований реализованы, внедрены и используются в виде комплекса моделей и алгоритмов семантической фильтрации текстовой информации в НИЦ ФСО России и Орловском государственном техническом университете, что подтверждено соответствующими актами.

Получено свидетельство о государственной регистрации программ для ЭВМ "Лексический анализатор предложений "WordParser" (№ 2004610984 от 21.04.2004 г.), "Формирователь нестандартного библиографического описания информационно-аналитических материалов "СинтагмаИАМ" (№2007610512 от 31.01.2007 г.), "Программа семантической фильтрации текстов" (№ 2009612007 от 20.04.2009 г.) и "Система контент-анализа новостного потока RSS "RSSreader" (№ 2010610833 от 26.01.2010 г.).

Основные результаты работы докладывались, одобрены и опубликованы на 6-й Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, 3-й Всероссийской научной конференции "Проблемы создания и развития информационно-телекоммуникационной системы специального назначения" (г. Орел, 2003 г.), III Международной научно-технической конференция "Информационные технологии в науке, образовании и производстве" (г. Орел, 2008 г.), отраженных в списке публикаций.

По теме диссертации опубликовано 9 работ, в том числе 3 статьи в рецензируемых журналах, входящих в перечень ВАК Минобрнауки России, тезисы 2 докладов и выступлений на научно-технических конференциях и семинарах, 4 свидетельства о государственной регистрации программ для ЭВМ.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Бородащенко, Антон Юрьевич

выводы

На основании анализа современных методов обработки текстов в диссертации показано, что функция отбора информации, соответствующей потребностям пользователя, на базе использования семантических эталонов практически не реализована на практике, что требует значительных затрат времени при осуществлении информационного поиска. В исследовании решена актуальная научная задача, заключающаяся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в ИАС обработки текстовой информации ИАП предприятия, а также существенное сокращение времени отбора полезной информации.

Из проделанной работы можно сделать следующие выводы:

1. Предложен комплекс моделей семантической фильтрации текстовой информации, обеспечивающий повышение эффективности поиска информации за счет отбора и ранжирования результатов по степени сходства с выбранным пользователем эталоном.

2. В зависимости от тематики документов, требуемых пользователем, необходимо осуществлять корректное задание текстов-эталонов, что обеспечивает выполнение семантической фильтрации с высоким качеством.

3. Использование критериев, отражающих в различных аспектах семантическое сходство сравниваемых текстов, позволяет существенно снизить неопределенность относительно их статистических образов и повысить на основе этого чувствительность процедуры ранжирования.

4. Сформированные модели и математических выражения, отражающие структурное, контекстное и внеконтекстное подобие двух текстов, позволили разработать алгоритмы семантической фильтрации на основе аппарата теории графов, марковских случайных процессов и гипертекста, отличающиеся от аналогов многоаспектным рассмотрением текстовых документов, и позволяющие повысить полноту и точность поиска информации, релевантной потребностям пользователя.

5. Для комплексного использования разработанных алгоритмов предложен обобщенный алгоритм семантической фильтрации текстовой информации, имеющий в своем составе блок определения свойств анализируемых текстов, на основании которого осуществляется включение в работу того или иного алгоритма семантической фильтрации. Алгоритм обеспечивает выделение из массива текстов полезной информации в несколько раз быстрее, чем в существующих методах.

6. На основе комплекса моделей и алгоритмов приведены технические решения по реализации системы семантической фильтрации текстовой информации в составе типового лингвистического процессора, применяемого при построении ИПС. Сформирована структурная схема перспективной модульной подсистемы аналитической обработки текстовой информации предприятия с функцией семантической фильтрации. Результаты исследования внедрены в Научно-исследовательском центре ФСО России и Орловском государственном техническом университете.

7. На примере реализации процедуры автоматического рубрицирования и контент-анализа показана возможность решения других различных задач интеллектуального анализа текстовой информации с использованием разработанных моделей и алгоритмов семантической фильтрации.

Список литературы диссертационного исследования кандидат технических наук Бородащенко, Антон Юрьевич, 2010 год

1. Баззел Р. Д., Кокс Д. Ф., Браун Р. В. Информация и риск в маркетинге. М.: Финстатинформ. - 1993. - 95 с.

2. Технологии разведки для бизнеса Электронный ресурс. / Минаев С. Информационно-аналитическая поддержка бизнеса. — М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: http://www.it2b.ru/it2b2.view3.page71.html, свободный. Яз. рус.

3. Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы // под ред. К. В. Тараканова. М.: Сов. Радио, 1973. — 328 с.

4. Белоногов Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информационных систем. — М.: Наука, 1983. 288 с.

5. Савина О. А. Управление промышленным предприятием с использованием систем поддержки решений. — М.: Издательство МАИ, 2000. 256 с.

6. Административно-управленческий портал Электронный ресурс. / Непомнящий Е. Г. Экономика и управление предприятием: конспект лекций. Таганрог: Изд-во ТРТУ, 1997. Режим доступа к ресурсу: http://www.aup.ru/books/m83/14.htm, свободный. - Яз. рус.

7. Ромачев Р. В., Нежданов И. Ю. Конкурентная разведка. Практический курс. М.: Ось-89,2007. - 272 с.

8. Доронин А. И. Бизнес-разведка. М.: Ось-89, 2007. — 528 с.

9. Меркулов Ф. Г. Энциклопедия деловой разведки и контрразведки. -М.: Русь-Олимп, 2007. 428 с.

10. Чубукова И. A. Data Mining: учеб. пособие / Основы информационных технологий. М.: БИНОМ. Лаборатория знаний. Интернет-университет информационных технологий. 2006. 382 с.

11. Добыча знаний Электронный ресурс. / Ланде Д. В. Глубинный анализ текстов. Технология эффективного анализа текстовых данных. М.: Персональный сайт Дмитрия Ландэ, 2009. Режим доступа к ресурсу: http://dwl.kiev.ua/art/dz/index.html, свободный. - Яз. рус.

12. Энциклопедия "Кругосвет" Электронный ресурс. / Методология лингвистики. М.: Яндекс, 2008. Режим доступа к ресурсу: http://slovari.yandex.rii/dict/krugosvet/article/f/fb/1012983.htm, свободный. - Яз. рус.

13. Энциклопедия "Кругосвет" Электронный ресурс. / Экономико-математический словарь. М.: Яндекс, 2008. Режим доступа к ресурсу: http://slovari.yandex.ru/dict/lopatnikov/article/lop/lop-1752.htm, свободный. -Яз. рус.

14. Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М.: Высшая школа, 1977. - 384 с.

15. Computerworld Россия Электронный ресурс. / Коржов В. Data mining по-русски. M.: Издательство "Открытые системы", 2008. Режим доступа к ресурсу: http://www.osp.ru/cw/2000/34/6742/, свободный. - Яз. рус.

16. Ландэ Д. В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. М.: Издательский дом "Вильяме", 2005. - 272 с.

17. IBM Software Электронный ресурс. / DB2 Intelligent Miner. New York: International Business Machines Corp., 2008. Режим доступа к ресурсу: http://www-01.ibm.com/software/data/iminer/fortext, свободный. - Яз. англ.

18. Открытые системы Электронный ресурс. / Удо Хан, Индерджиет Мани. Системы автоматического реферирования. М.: Издательство "Открытые системы", 2008. Режим доступа к ресурсу: http://www.osp.ru/os/2000/12/178370, свободный. - Яз. рус.

19. Data Mining Community's Top Resource Электронный ресурс. / Data Mining and Analytics Resources. — Boston: KDnuggets, 2009. Режим доступа к ресурсу: http://www.kdnuggets.com, свободный. — Яз. англ.

20. Электронное периодическое издание it2b Электронный ресурс. / Технологии разведки для бизнеса. М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: www.it2b.ru, свободный. - Яз. рус.

21. Электронное периодическое издание it2b-pro Электронный ресурс. / Разведка для профессионалов. М.: ООО "Р-Техно", 2009. Режим доступа к ресурсу: www.it2b-pro.ru, свободный. - Яз. рус.

22. Р-техно Электронный ресурс. / Экономическая разведка. М.:000 "Р-Техно", 2009. Режим доступа к ресурсу: www.r-techno.com, свободный. Яз. рус.

23. CNews Электронный ресурс. / Издание о высоких технологиях. -М.: Холдинг РБК, 2009. Режим доступа к ресурсу: www.cnews.ru, свободный. Яз. рус.

24. Беляев К. В., Босов А. В., Краюшкин Д. В. Обзор и сравнительный анализ информационно-аналитических систем. М.: ИЛИ РАН, 2008. - 136 с.

25. СУБД Oracle8i Электронный ресурс. / Система InterMedia Text. -М.: Oracle Россия, 2008. Режим доступа к ресурсу: http://www.oracle.com/ global/ru/index.html, свободный. Яз. рус.

26. Официальный сайт RCO Электронный ресурс. / Технологии анализа и поиска текстовой информации. Электрон, дан. - М.: Russian Context Optimizer, 2008. Режим доступа: www.rco.ru, свободный. — Яз. рус.

27. ЮМ Software Электронный ресурс. / IBM DB2 Intelligent Miner. М.: International Business Machines Corp., 2008. Режим доступа к ресурсу: http://www01 .ibm.com/software/m/data/db2bi/minerintelligent.html, свободный. Яз. рус.

28. PC WEEK/RE Электронный ресурс. / Средства поиска корпорации Semio. — М.: ЗАО "СК Пресс", 2008. Режим доступа к ресурсу: http://www.pcweek.ru/themes/detail.php?ID=40393, свободный. Яз. рус.

29. Autonomy The Leader in Meaning-Based Computing & Enterprise Search Электронный ресурс. / Autonomy Knowledge Server. — NY: Autonomy Corp, 2008. Режим доступа к ресурсу: http://www.autonomy.com, свободный.- Яз. англ.

30. Галактика ZOOM Электронный ресурс. / Уникальные возможности поиска и аналитических исследований. М.: Корпорация "Галактика", 2006. Режим доступа к ресурсу: http://www.galaktika-zoom.ru/product/, свободный.1. Яз. рус.

31. Cognitive Technologies Электронный ресурс. / Информационно-аналитическая система Астарта. М.: Cognitive Technologies, 2009. Режим доступа к ресурсу: http://www.cognitive.ru/products/astarta.htm, свободный. -Яз. рус.

32. Компания "Ай-теко". ИТ-консалтинг и системная интеграция Электронный ресурс. / Управление знаниями. М.: Ай-теко, 2009. Режим доступа к ресурсу http://www.i-teco.ru/pidatamanagement.html, свободный. -Яз. рус.

33. ИВК СОНЕТ Электронный ресурс. / Информационно-аналитическая Система Обработки Неформализованных Естественных Текстов. М.: ЗАО ИВК, 2009. Режим доступа к ресурсу: http://www.ivk.ru/index.php?module=product&objid=16, свободный. — Яз. рус.

34. Синергетические системы Электронный ресурс. / Логико-аналитический комплекс SEMANTIX. М.: Компания "Синергетические системы", 2009. Режим доступа к ресурсу: http://www.synsys.ru/semantix/ru/, свободный. — Яз. рус.

35. Киселев С. JT. Системы "Аналитический курьер" и X-Files — основа технологии извлечения знаний текстов из произвольных источников. // Бизнес и безопасность в России, 2007. -№ 48, с, 102-106.

36. Searchlnform Server. Функциональная спецификация. М.: Компания "СофтИнформ", 2008. - 26 с.

37. Википедия свободная энциклопедия Электронный ресурс. / Контекст. - M.: MediaWiki, 2009. Режим доступа к ресурсу: http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BD%D1 %82%D0%B5%D 0%В A%D 1 %81 %D 1 %82, свободный. - Яз. рус.

38. Тулдава Ю. Проблемы и методы квантитативно-системного исследования лексики. Таллин: Валгус, 1987. - 204 с.

39. Фабиан Б. Книги, библиотеки и гуманитарные исследования // отв. ред. В. П. Леонов. СПб., 1996. - 258 с.

40. Захаров В. П. Лингвистические средства информационного поиска в Интернете. // Библиосфера, 2005. № 1, с. 63-71.

41. Parsaye К. A Characterization of Data Mining Technologies and Processes. // The Journal of Data Warehousing, 1998. № 1, p. 43-55.

42. Гухман А. А. Введение в теорию подобия. М.: Высшая школа, 1973.-296 с.

43. Седов Л. И. Методы подобия и размерности в механике. М.: Наука, 1977.-440 с.

44. Баренблатт Г. И. Подобие, автомодельность, промежуточная асимптотика. Теория и приложения к геофизической гидродинамике. М.: Наука, 1982.-256 с.

45. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. М.: Мир, 1978. - 413 с.

46. Фу К. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.

47. Колере П.А., Ден М.Е. Распознавание образов. Исследование живых и автоматических распознающих систем: Пер. с англ. — М.: Мир, 1970. -287 с.

48. Информационные системы: учебное пособие для студентов ВУЗов по специальности 071900 "Информационные системы в экономике" / Под ред. В. Н. Волковой, Б. И. Кузина. - СПб.: Изд-во СПбГТУ, 1998. - 213 с.

49. ХиМиКги — Химическая энциклопедия Электронный ресурс. / Подобия теория М.: XuMuK.ru, 2009. Режим доступа к ресурсу: http://wvvw.xumuk.rU/encyklopedia/2/3429.html, свободный. - Яз. рус.

50. Салдин Е. Л., Шнейдмиллер Е. А., Юрков М. В. Методы подобия в теории ЛСЭ-усилителя. // Физика элементарных частиц и атомного ядра, том 23, вып. 1, 1992.-56 с.

51. P. Mitra and G. Wiederhold. Resolving terminological heterogeneity in ontologies. In Proceedings of the ECAI'02 workshop on Ontologies and Semantic Interopera-bility, Lyon, 2002, p. 45-50.

52. S. Melnik, H. Garcia-Molina, E. Rahm. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In Proc. 18th ICDE, San Jose, CA, 2002, p. 117-128.

53. S. Zghal, S. Ben Yahia, E. Mephu Nguifo, Y. Slimani. SODA: an OWL-DL based ontology matching system. In Proceedings of the first French Conference on Ontology (JFO 2007), Sousse, 2007. http://ceur-ws.org/Vol-304/paper24.pdf

54. Тузовский А. Ф. Онтолого-семантические модели в корпоративных системах управления знаниями. // Автореферат диссертации на соискание ученой степени доктора технических наук. Томск: ТПУ, 2007. - 40 с.

55. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: Издательство института математики, 1999. — 270 с.

56. Вентцель Е. С., Овчаров Л. А. Теория случайных процессов и ее инженерные приложения / учеб. Пособие для втузов. М.: Высшая школа, 2000. 383 с.

57. Фомин Я. А., Тарловский Г. Р. Статистическая теория распознавания образов. М.: Радио и связь, 1986. 264 с.

58. Проблемы текстуальной лингвистики / Под ред. В. А. Бухбиндера. -Киев: Вища школа, 1983. 175 с.

59. Гальперин И. Р. Текст как объект лингвистического исследования. -М.: КомКнига, 2007. 144 с.

60. Дымарский М. Я. Проблемы текстообразования и художественный текст (на материале русской прозы Х1Х-ХХ веков). — СПб.: Издательство С.-Петербургского университета, 1999. 284 с.

61. Лотман Ю. М. Внутри мыслящих миров. Человек текст - семи-осфера - история. - М.: "Языки русской культуры", 1999. - 464 с.

62. Толковый словарь русского языка / Под ред. Д. В. Дмитриева. М.: Астрель, 2003 г. - 1584 с.

63. Алексеев П. М. Частотные словари: Учебное пособие. — СПб.: Изд-во С.-Петерб. ун-та, 2001. — 156 с.

64. Солодилова И. А. Смысл художественного текста. Словесный образ как актуализатор смысла. Учебное пособие для студентов III курса. — Оренбург: ГОУ ОГУ, 2004. 153 с.

65. Московский центр НЛП Электронный ресурс. / Алхутов С. Опыт о смысле. М.: МЦ НЛП, 2008. Режим доступа к ресурсу: http://www.mcnlp.ru/index.php?section=articles&id=1003, свободный. - Яз. рус.

66. Корытная М. Л. Роль заголовка и ключевых слов в понимании художественного текста: Автореферат диссертации на соискание ученой степени кандидата филологических наук. Тверь, 1996. — 18 с.

67. Роднянский В. Л. О роли ключевых слов в понимании текста // Психолингвистические проблемы семантики и понимания текста. Калинин, 1986, с. 106-113.

68. Сахарный Л. В., Штерн А. С. Набор ключевых слов как тип текста // Лексические аспекты в системе профессионально-ориентированного обучения иноязычной речевой деятельности. Пермь: Пермский политехнический ун-т, 1988, с. 34-51.

69. Сахарный Л. В. Расположение ключевых слов в структуре развернутого текста (к изучению деривационных механизмов компрессии текста) // Деривация в речевой деятельности (Общие вопросы. Текст. Семантика). Пермь, 1988, с. 27-29.

70. Сиротко-Сибирский С. А. Смысловое содержание текста и его отражение в ключевых словах (на материале русских текстов публицистического стиля): Автореферат диссертации на соискание ученой степени кандидата филологических наук. Л., 1988. 18 с.

71. Селезнев К. Обработка текстов на естественном языке. // Открытые системы. СУБД, № 12, 2003, с. 48-53.

72. Горбачевич К. С. Русский синонимический словарь. СПб: ИЛИ РАН, 1996.-510 с.

73. Меркурьева Н. М. Словарь антонимов русского языка: Сложные слова. Около 1800 антонимических пар. -М.: Издательство "Газета "Правда", 1999.-480 с.

74. МЕТИС Электронный ресурс. / Технологии анализа и поиска информации. М.: ООО "Гарант-Парк-Интернет", 2009. Режим доступа к ресурсу: http://www.metric.ш/services.asp?obno=29, свободный. - Яз. рус.

75. Мальковский М. Г., Грацианова Т. Ю., Полякова И. Н. Прикладное программное обеспечение: системы автоматической обработки текстов. Учебное пособие. М.: МГУ, 2000. - 52 с.

76. В^есЬ: разработка и внедрение информационных систем Электронный ресурс. / ИАС "АРИОН". Анализ текстов на естественном языке. — М.: ЗуТесЬ, 2009. Режим доступа к ресурсу: http://www.sytech.ru/about.php? 1с1=149, свободный. Яз. рус.

77. Апресян Ю. Д., Богуславский И. М., Иомдин JI. JI. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. 256 с.

78. Волкова И.А. Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров : учеб. пособие / И.А. Волкова; Моск. гос. ун-т им. М.В. Ломоносова, Фак. вычисл. мат. и кибернетики. М.: МГУ, 2006. - 43 с.

79. Ермаков А. Компьютерная лингвистика и анализ текста // Мир ПК, № 9, 2002. С. 86-88.

80. Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика. Навигация в сложных сетях: модели и алгоритмы. — М.: Книжный дом "Либроком", 2009. 264 с.

81. Baeza-Yates R., Ribeiro-Neto В. Modern Information Retrieval. ACM Press Series / Addison Wesley, New York, 1999. -513 p.

82. Кристофидес Н. Теория графов. Алгоритмический подход: Пер. с англ. М.: Мир, 1978. - 432 с.

83. Татт У. Теория графов: Пер. с англ. М.: Мир, 1988. - 424 с.

84. Руководство разработчика RCO Semantic Network: библиотека построения семантических сетей. М.: Гарант-Парк-Интернет, 2002. - 36 с.

85. Научные статьи и отчеты Компания Яндекс Электронный ресурс. / Сегалович И. Как работают поисковые системы. — М.: "Яндекс", 2009. Режим доступа к ресурсу http://download.yandex.ru/company/iworld-3.pdf, свободный. - Яз. рус.

86. Кремер Н. Ш. Теория вероятностей и математическая статистика:учеб. для студентов вузов, обучающихся по экономическим специальностям /

87. Н. Ш. Кремер. М.: Юнити-Дана, 2007. - 551 с.

88. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Основы \ эконометрики: учеб. для вузов: в 2 т. — Т.1: / С. А. Айвазян, В. С. Мхитарян.

89. Теория вероятностей и прикладная статистика. — М.: Юнити-Дана, 2001. — 656 с.

90. Айвазян С. А. Прикладная статистика. Основы эконометрики: учеб. для вузов: в 2 т. Т.2: С. А. Айвазян. Основы эконометрики. - М.: Юнити-Дана, 2001. - 432 с.

91. Deller J.R., Jr., Proakis J.G., Hansen J.H.L. Discrete-Time Processing of Speech Signals. N.J., Prentice Hall, 1993. - 800 p.

92. Мартынович П. А., Свириденко В. А. Система верификации диктора для его надежного распознавания через телефонную сеть // Тезисы докладов международной конференции "Информатизация правоохранительных систем". М., 2001, с. 211-216.

93. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова. // Вестник МГУ, сер. 9: Филология, 2000. № 2, с. 115-126.

94. Кукушкина О. В., Поликарпов А. А., Хмелей в Д. В. Определение авторства текста с использованием буквенной и грамматической информации. // Проблемы передачи информации, 2001. № 37(2), с. 96-109.

95. Джонс М. Т. Программирование искусственного интеллекта в приложениях / пер. с англ. Осипов А.И. М.: ДМК Пресс, 2004. - 312 с.

96. Рабинер Л. Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИИЭР, т. 77, № 2, 1989, с. 86-120.

97. Kleinberg J. M. Authoritative sources in a hyperlink environment // In Processing of ACM-SIAM Symposium on Discrete Algorithms, 1998. № 46(5). -604-632 p.

98. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. WWW7, 1998, p. 107-117.

99. Ландэ Д. В. Основы интеграции информационных потоков: Моно- ' графия. К.: Инжиниринг, 2006. - 240 с.

100. Программа семантической фильтрации текстов Текст.: Свидетельство о государственной регистрации программы для ЭВМ № 2009612007 от 20.04.2009 г. / А. Ю. Бородащенко, М. В. Бочков, A. JI. Салбиев. М.: ФГУ ФИПС, 2009.

101. Курс лекций "Алгоритмы для интернета" Электронный ресурс. / Лившиц Ю. Метод опорных векторов. Электрон, дан. - М.: СПбГУ ИТМО, 2006. Режим доступа: http://logic.pdmi.ras.ni/~yura/inteniet/07ia.pdf, свободный. - Яз. рус.

102. Официальный сайт RCO Электронный ресурс. / Продукты RCO. -Электрон, дан. М.: Russian Context Optimizer, 2008. Режим доступа: http://www.rco.ru/product.asp#pd9, свободный. - Яз. рус.

103. Шалак В. И. Современный контент-анализ. Приложение в области: политологии, психологии, социологии, культурологии. — М.: Омега-Л, 2004. 272 с.

104. Акимов А. И., Матвеев Л. Л. Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов // Евразийский патент № 002016 от 22.10.2001 г., класс G 06F 17/30. М.: Евразийское патентное ведомство, 2001. — 28 с.

105. Орлов А. И. Экспертные оценки. Учебное пособие. М.: 2002. —31 с.

106. Орлов А. И. Экспертные оценки. // Заводская лаборатория, 1996. № 1, с. 54-60.

107. Гохман О. Г. Экспертное оценивание. — Воронеж: ВГУ, 1991.152 с.

108. Бабич П. Н., Чубенко А. В., Лапач С. Н. Статистика в науке и бизнесе. Комплекс прикладных программ для Microsoft Excel. Киев: Морион, 2002. - 640 с.

109. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. -М.: Наука, 1983.-416 с.

110. Блохин В. Г. Современный эксперимент: подготовка, проведение, анализ результатов. — М.: Радио и связь, 1997. — 230 с.

111. Монтгомери Д. К. Планирование эксперимента и анализ данных: пер. с англ. Л: Судостроение, 1980. - 384 с.

112. Гмурман В. Е. Теория вероятностей и математическая статистика : учеб. пособие. М.: Высшее образование, 2008. - 479 с.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.