Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Кузнецов, Денис Юрьевич
- Специальность ВАК РФ05.13.01
- Количество страниц 173
Оглавление диссертации кандидат технических наук Кузнецов, Денис Юрьевич
Глоссарий.
Введение.
Глава 1. Анализ существующих подходов к извлечению знаний.
1.1. Анализ подходов к организации хранилищ данных и знаний.
1.1.1 Экспертные системы.
1.1.2 Системы управления корпоративными знаниями.
1.1.3 Системы документооборота и автоматизации работы офиса.
1.1.4 Распределенные информационные сети.
1.1.5 Системы сбора и классификации информации.
1.1.6 Хранилища данных.
1.1.7 Хранилища знаний и системы выделения смысла из текста.
1.2. Описание новой альтернативной системы.
1.3. Анализ подходов к автоматическому извлечению знаний и анализу текста на естественном языке.
1.3.1 Что такое знание в современных информационных технологиях.
1.3.2 Классификация задач извлечения знаний.
1.3.3 Методы извлечения знаний.
1.3.4 Классы задач Text mining.
1.3.5 Существующие системы и решения задач Text mining.
1.3.6 Модели представления и форматы хранения знаний.
1.4. Описание модели формального представления знаний.
Глава 2. Декомпозиция целей исходной сложной задачи.
2.1. Анализ задачи разработки системы хранилища знаний как прикладной системы.
2.1.1 Архитектура системы.
2.2. Анализ задач операций над знаниями.
2.2.1 Концептуальная модель знаний.
2.3. Операции над знаниями.
2.3.1 Задача лексического анализа текста.
2.3.2 Представление знаний и задача их преобразования.
2.3.3 Операция смыслового контекстного поиска.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами2013 год, кандидат технических наук Фаррохбахт Фумани Мехди
Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска2004 год, кандидат технических наук Тригуб, Наталья Александровна
Методика извлечения структурных знаний из естественных текстов на основе нечетких семантических гиперсетей2002 год, кандидат технических наук Вохминцев, Александр Владиславович
Модели и методы интеграции структурированных текстовых описаний на основе онтологий2009 год, кандидат физико-математических наук Иванов, Владимир Владимирович
Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска2012 год, кандидат технических наук Вишняков, Ренат Юрьевич
Введение диссертации (часть автореферата) на тему «Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети»
Задачи анализа текущей деятельности и принятия управленческих решений для холдингов и больших предприятий металлургической отрасли требуют обработки большого объема текстовой информации, которая в настоящее время содержится в электронном виде во всех областях науки и техники. Так, Московский Институт Стали и Сплавов, как ведущий металлургический вуз страны, обладает большими массивами металлургической и материаловедческой информации.
В прикладных системах поддержки принятия решений (С1111Р) появилась возможность использования знаний, заложенных в текстовой информации больших массивах электронных документов. Для эффективного использования такой информации в задачах поддержки принятия решений [1] основными требованиями стали автоматическое извлечение знаний (АИЗ) из текста, высокая производительность операций анализа текста и поиска знаний, высокое качество извлекаемых знаний и их представления в удобном, агрегированном виде.
Развитие глобальной сети Интернет привело к реализации крупнейшего в истории человечества хранилища информации в электронном виде. При этом плохая структурированность описательной (текстовой) части информации значительно снижает эффективность ее использования [2]. Аналогичная ситуация складывается в корпоративных информационных системах, в которых файл -сервера и хранилища данных содержат тысячи и сотни тысяч документов на естественном языке (ЕЯ). Возникла ситуация, когда лицо, принимающее решение (ЛПР), при поиске знаний в доступных ему документах не способно в разумное время их качественно проработать без использования специальных программных средств.
Программные средства, организующие поиск по содержимому документов, значительно улучшили ситуацию [3]. Но даже при сильном сужении перечня найденных документов, этот результат нельзя считать достаточным, так как ЛПР сталкивается с необходимостью анализа всего содержимого найденных документов. Использование морфологического анализа во многом улучшило качество результатов поиска, но не более того.
В задачах принятия решений на основе большого количества текстовых документов на ЕЯ необходимо проводить предварительный программный смысловой анализ текста, реализуемый с использованием синтаксического и семантического анализа.
В настоящее время задача предметно независимого семантического анализа текста на естественном русском языке (ЕРЯ), реализуемого в виде высокопроизводительного программного обеспечения (ПО), работающего в автоматическом режиме, не решена. В отличие от множества европейских языков, семантический анализ текста которых успешно используется во многих программных продуктах, слабая формализация русского языка и, как следствие, его неоднозначность, делает задачу смысловой обработки русскоязычных текстов весьма сложной.
Таким образом, задача построения СППР на основе системы хранилища знаний (СХЗ), основанного на ЕРЯ документах, весьма актуальна.
Цель работы
Цель работы заключается в разработке подхода к построению СППР на основе СХЗ, осуществляющей работу с электронными текстовыми документами на ЕРЯ, выделение из них знаний и использование выделенных знаний для различных целей принятия решений.
Основные задачи, которые ставятся в работе: ■ провести многокритериальный анализ существующих подходов к построению СППР на основе информационных систем извлечения и управления знаниями; разработать концептуальный подход к построению СППР на основе СХЗ с интеллектуальной обработкой текстовой информации на ЕРЯ, отличающийся высокой производительностью и качеством; разработать модели представления знаний на различных этапах обработки текста и работы системы; определить в ходе системно-функционального анализа методы обработки электронных текстовых документов на ЕРЯ с целью извлечение из них знаний, независимо от предметной области и тематики текста; разработать для работы ЛПР удобный графический пользовательский интерфейс, позволяющий использовать все функции системы; разработать систему хранения исходных документов и знаний, систематизировать процессы добавления документов, удаления документов из системы и доступ к документам для их чтения и анализа; разработать методы и алгоритмы быстрого смыслового контекстного поиска (СКП) по накопленным знаниям, оптимизированные с учетом специфики модели знаний; разработать подсистемы с использованием технологии клиент-сервер для реализации одновременной работы нескольких пользователей с единым хранилищем знаний, для чего разработать новый протокол передачи данных между приложениями клиента и сервера.
Фундаментом работы является представление знаний в виде объектной семантической сети (ОСС). Внешний модуль АТЕЯ [4] используется для проведения анализа электронного текста на ЕРЯ с целью построения ОСС.
Объекты и задачи работы
Исходя из поставленной цели решения сложной проблемы, проведена декомпозиция цели и сформированы локальные цели.
1. В отношении представления знаний: провести многокритериальный анализ существующих понятий и моделей знаний, подходов к представлению знаний; конкретизировать понятие знания согласно поставленной задаче; формализовать язык описания знаний в качестве универсальной формы представления знаний для передачи знаний на различных этапах работы системы между ее компонентами.
2. В отношении разработки СППР на основе СХЗ: провести многокритериальный анализ существующих подходов к разработке СППР на основе текстовой информации и извлечения знаний из текста на ЕРЯ; разработать концептуальный подход к разработке СППР на основе СХЗ согласно поставленным целям.
3. В отношении архитектуры хранилища знаний: разработать многокомпонентную архитектуру системы, с использованием технологии системы клиент-сервер, позволяющую реализовать многопользовательский режим работы; разработать модель представления знаний в каждом из компонентов системы; разработать модули анализа текста, реализующие преобразование электронного документа в хорошо структурированный текстовый вид, проведение лексического анализа документа и вызов внешнего модуля смыслового анализа текста для построения ОСС; разработать протоколы и механизмы взаимодействия компонентов системы;
4. В отношении алгоритмов работы со знаниями: и разработать методы работы со знаниями, включающие проведение СКП в хранилище знаний на основе текста запроса на ЕРЯ; разработать быстрые алгоритмы преобразования представления знаний при передаче знаний между модулями системы; разработать алгоритмы быстрого СКП в хранилище, оптимизированные с использованием особенностей модели ФПЗ; разработать базу данных, выполняющую задачу хранения данных системы в представлении, необходимом для проведения поиска и использования знаний в системе; разработать представление результатов выделения знаний из СХЗ.
Практическая ценность работы
Результаты работы позволяют организовывать СППР на основе корпоративных и отраслевых хранилищ знаний, реализуемых с использованием предложенных методов и алгоритмов обработки и хранения текстовой информации. Реализовано накопление электронных документов из различных источников и извлечение заложенных в эти документы знаний.
Решение научной проблемы СКП знаний является основополагающей при использовании знаний в других задачах работы со знаниями, заложенными в тексте на ЕЯ. Исходя из этого, разработано прикладное алгоритмическое решение быстрого СКП на стороне СУБД. Результаты работы позволяют решить следующие общие научные проблемы:
Автоматическое интеллектуальное реферирование групп электронных документов на ЕРЯ с учетом целей реферирования в виде запроса на ЕРЯ или искусственно сформированных сегментов ОСС.
Выделение из текста электронных документов неявных (явно не изложенных) знаний.
Выделение целевых знаний из больших массивов электронных текстовых документов, расположенных в глобальной сети Интернет, за счет вторичного анализа результатов работы поисковых систем на основе статистического и частотных методов.
Автоматическое определение авторства, стиля изложения и тематики электронных документов.
Изменение стиля изложения документа на ЕЯ и его перефразирование с целью упрощения.
Использование ОСС позволило достичь хорошего качества результатов смыслового контекстного поиска в хранилище при соблюдении условия соблюдения высокой производительности при проведении операции поиска. Качество определяется соответствием и полнотой результатов проведения СКП запросу на ЕЯ.
Реализация и внедрение результатов исследования
Реализованное хранилище является программным решением для персональных компьютеров с операционной системой семейства Windows 2000 и Windows ХР и сервером баз данных MSDE 2000 либо MS SQL 2000.
Модуль интерпретации SONML, языка ФПЗ, реализованный в форме UDF1, работает независимо от выбранного SQL сервера и может быть адаптирован на интерфейсном уровне для других СУБД, с доработкой выражений на языке SQL, поддерживаемого сервером.
Практическое использование системы проведено в ходе организации хранилища знаний на основе содержательной части новостей информационного портала "Металлургическая отрасль России" www.rusmet.ru, на массиве статей
1 UDF - User-Defined Function (англ.), функции, определяемые пользователем. Как правило внешние модули, подключаемые с серверу баз данных, содержащие функции, которые могут быть вызваны из программ, выполняемых сервером. по тематикам металлургии, расположенных в свободном доступе на Web сервере этой системы, а также на основании ряда других источников статей и работ на металлургические темы2.
Апробация системы проведена на массиве научно-исследовательских отчетов по госбюджетной тематике НИЧ МИСиС, а также информационного наполнения системы АКТИН , используемой НИЧ для предоставления отчетной информации вышестоящим организациям.
Апробация системы на предмет возможной эксплуатации, развития и использования, проведена сотрудниками компании "Гмбх САС Институт", российского представительства компании SAS Institute - лидера ПО для разработки хранилищ данных и построения аналитических систем.
На защиту выносятся следующие основные научные результаты
Результаты системного анализа существующих подходов к построению информационных систем накопления и управления знаниями как основы СППР в виде новой модели СХЗ. Результаты декомпозиции исходных целей построения СХЗ, как сложной системы, на локальные цели более простых задач; анализ состояния проблемы и необходимость создания СХЗ на основе ОСС.
Подход к построению СХЗ, реализующего автоматическое накопление документов, выделение из них знаний, предоставление возможности работы со знаниями в СППР и проведение поиска знаний с учетом смысловых связей.
2 В качестве печатных источников статей рассматриваются журналы "Известия высших учебных заведений. Цветная Металлургия", "Известия высших учебных заведений. Черная Металлургия", "Интернет Бизнес Металл", "Наука МИСиС в 2001 году "Наука МИСиС в 2002 году ".
3 Программа АКТИН предназначена для эксплуатации руководителями и исполнителями научно-исследовательских работ (НИР) и научно-исследовательскими управлениями (НИУ) вузов и организаций Министерства образования Российской Федерации (далее Министерства) при подготовке отчетных документов о НИР, финансируемых из средств бюджета и выполняемых по единому заказ-наряду (E3H), а также по отдельным заказ-нарядам
Логическая структура представления знаний в виде динамической структуры и в формате таблиц данных на стороне СУБД. Концептуальный подход к хранению древовидной структуры свойств и алгоритм поиска на множестве покрывающих деревьев.
Алгоритмы СКП на сегментах ОСС хранилища и их реализация.
Конкретизация понятия "знания", разработка новой модели знаний и разработка формального языка описания знаний и операций над ними.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
Международная конференция ДИАЛОГ'2003 «Компьютерная лингвистика и интеллектуальные технологии» (Протвино, ABBYY, 2003);
5-я международная конференция "Интерактивные системы: проблемы человеко-компьютерного взаимодействия" IS-2003 (Ульяновск, УГ-ТУ, 2003);
7-й Российской научно-практической конференции "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" РБП-СУЗ-2004 (Москва, МЭСИ, 2004);
Virtual Forum on Decision Engineering (http://www. virtualconf.com , 2002).
Публикации
По материалам диссертации опубликовано 4 работы:
1. Крапухина Н.В., Кузнецов Д.Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстовых электронных документов на основе объектной семантической сети // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2003» (Протвино, 11-16 июня 2003г.). - М.: Наука, 2003. С.327-336.
2. Krapukhina N.V., Kuznetsov D.Y. Practical Use Of Objective Analysis Of Natural Russian Technical Text. // Interactive Systems: The Problems of Human - Computer Interaction. Proceedings of the International Conference, 23-27 September 2003Г Ulyanovsk: UISTU, 2003. C.211-214.
3. Крапухина H.B., Кузнецов Д.Ю .Возможности системы извлечения и поиска знаний, основанной на использовании объектной семантической сети // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. Сб. докладов (РБП-СУЗ-2004 14-15 апреля) -.М.: МЭСИ,2004. С. 208-212.
4. Крапухина Н.В., Кузнецов Д.Ю. Подход к разработке системы хранилищ знаний // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А.Г. Дьячко. - М.: МИСиС, 2003. С.71-76
Работа над диссертацией соответствует целям и задачам развития приоритетных направлений науки, технологии и техники Российской федерации на 2000 - 2010 год, сформулированным в "Федеральной целевой программе "Электронная Россия" [5].
Структура и объем работы
Диссертационная работа изложена на 150 страницах машинописного текста, иллюстрирована 13 рисунками и 3 таблицами. Она состоит из введения, глоссария, 4 глав, заключения, библиографического списка из 120 наименований и 13 приложений.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Система лингвистического анализа и обработки текста в локальных почтовых системах2001 год, кандидат технических наук Семененко, Анатолий Викторович
Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах2007 год, кандидат филологических наук Николаева, Ирина Викторовна
Информационная технология комплексной обработки информации в рамках логико-аналитической системы на основе расширенных семантических сетей2008 год, кандидат технических наук Рабинович, Борис Ильич
Разработка математических и информационных моделей на основе распределенной вычислительной среды для автоматизации исследований геосистем горного производства1999 год, доктор технических наук Потапов, Вадим Петрович
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Кузнецов, Денис Юрьевич
результаты работы, как правило, собираются в едином хранилище.
Рассмотрим три продукта, реализующие задачи сбора и классификации информации с различными целями и различной степенью содержательной обработки текста.
1.1.5.1 Системы на основе InfoStream
Технология InfoStream, разработка компании "ЭЛВИСТИ", решает задачу контент-мониторинга [41]. Задача системы - организация мониторинга определенных источников информации постоянно, без остановок, с целью получения информации из источников по мере ее поступления. Цель разработки - служить мостом между пользователями и информационными источниками, предоставляя информацию, очищенную от рекламы и прочего информационного мусора.
Документы в разных вариантах исполнения системы, могут целиком выкачиваться из источников, либо индексироваться, как в поисковых системах.
Ядром механизма обработки содержимого документов является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрици-ровать информацию, формировать классификаторы, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени.
1.1.5.2 Семейство продуктов "Экспресс - Досье"
Система конкурентной разведки "Экспресс-Досье " предназначена для организаций, которым необходимо автоматизировать и повысить эффективность сбора, обработки и анализа неструктурированной информации.
Особенностью системы является возможность проводить анализ на основе данных, поступающих как в формальном виде (таблицы, отчеты), так и текстовых данных. Исходные документы, которые служат основой для анализа, хранятся в архиве наряду с результатами анализа.
Система "Экспресс-Досье. Факты" позволяет вести единый внутренний архив, собирая досье на персоны, компании, их взаимоотношения, связанные с ними основные события. Обработка информации проводится путем выделения из нее основных фактов и знаний об объектах мониторинга, регистрации связей объектов друг с другом и происходящих с ними событий.
Источниками информации могут служить печатные материалы, сообщения электронных СМИ, аналитические отчеты, справочные базы данных министерств и ведомств, сведения с сайтов Интернета.
Система требует настройки модели, и, исходя из этого, поставляется вместе с настроенной моделью предметной области, которая включает список объектов, отношений и событий, представляющих интерес для заказчика.
Данная система реализует работу по предварительно разработанным шаблонам. Для автоматизированного регулярного сбора информации из источников Интернет система требует установку так называемых роботов. Источниками информации могут быть различные системы, и для каждого конкретного источника требуются доработка системы - разработка конвертора.
1.1.5.3 Система Galaktika-Zoom
Система Galaktika-Zoom - продукт российской корпорации "Галактика" [42], представляет собой гибрид поискового робота и системы анализа текстов. Основное назначение системы - интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также формирование информационных массивов по конкретным аспектам. Что характерно, семантика самого текста, его смысл, не анализируется, для анализа "Галактика-Zoom" использует исключительно методы математической статистики для решений задач Text mining.
Согласно информации, опубликованной на официальном сайте продукта [42] ". система позволяет: проводить поиск и формирование информационных массивов по конкретным аспектам исследуемой проблематики; анализировать объективные смысловые связи отобранных данных; сравнивать несколько состояний проблемы, выявление закономерностей и тенденций (или частностей и случайностей) динамики развития изучаемой проблемы."
Заявлено, что обрабатываемый объем исходных массивов данных может достигать до сотен гигабайт. А источников этих данных в виде электронных текстовых документов более чем достаточно: сообщения и статьи электронных СМИ, нормативная документация, электронная деловая переписка и материалы внутреннего документооборота предприятия, информация сайтов Интернет и т.д. Для получения текста из распространенных форматов RTF, DOC, HTML разработаны конверторы.
Алгоритм работы основана на [43] ". получении по запросу так называемого «информационного портрета» (текстовых массивов - К.Д.), или упорядоченного по значимости списка «главных тем» выборки. В основе определения главных тем и вычисления их ранга лежит идея о количественном и качественном (лексическом) различии распределения слов в конкретной выборке (документов - К.Д.) по отношению к целой базе (документов - К.Д.). При это результат запроса, набор найденных документов, ранжируется [43] ". по степени соответствия инфопортрета (то же, что и " информационного портрета " - К.Д.) каждого документа инфопортрету выборки в целом."
Как результат - первые из найденных документов, обладающие наибольшим рангом, представляют собой наиболее точное контекстное описание темы, а пользователь может эффективно уточнять запрос даже при поверхностным знакомством с темой, значительно улучшая качество результатов поиска.
Подводя итог рассмотрения систем сбора и классификации информации, необходимо заметить, что, с одной стороны, достигается высокая производительность таких систем за счет использование статистических и частотных методов анализа текста, но, с другой стороны, непосредственное выделение знаний из текста не проводится, проводится только классификация документов. Единицей информации в этих системах является документ небольшого объема, так как в основном это новости электронных СМИ и рекламные публикации.
Необходимо заметить, в этих системах решается задача хранения накапливаемой информации. Накопление и эффективная обработка - это задачи следующей группы информационных систем.
1.1.6 Хранилища данных
Хранилища Данных решают комплекс задач, главная цель которых - получение знаний за счет эффективного использования данных большого объема.
Основываясь на работе классиков исследований и разработки информационных хранилищ Ральфа Кимбела (Ralph Kimball) [44] и Билла Инмона (Bill Inmon) [45], и общей практике построения информационных хранилищ, можно выделить следующие задачи, решаемые при разработке информационного хранилища: установление доступа к разрозненным источникам; преобразование формата хранения данных к формату данных хранилища; очистка данных; организация хранения данных в едином хранилище и предоставления к ним санкционированного доступа; обновление данных хранилища путем регулярной загрузки; подготовка на основе данных информационных витрин;
Главное отличие подхода информационных хранилищ от хранения данных в СУБД является проведение агрегации данных перед их использованием, формирования витрин [46]. Если СУБД являются, как правило, транзакционны-ми системами [47], организующими многопользовательский режим изменения данных, хранилища направлены на многопользовательский режим работы предоставления доступа на чтение данных.
Для подготовки витрин проводится как простая агрегация (суммирование данных, расчет статистик), так и решение задач Data Mining (разработка числовых данных с целью добычи из них знаний) и Text mining (разработка текстовых данных с целью добычи из них знаний), которые будут более детально рассмотрены в разделе «О». Например, разработка витрины прогнозирования каких-либо показателей, включает использование механизма прогнозирования показателей на основе исторических данных.
Как правило, результатом подготовки витрин являются многомерные базы данных, MDDB (Multidimensional Data Base), основа OLAP приложений [48], содержащие данные в агрегированном виде согласно назначению витрины.
Несмотря на различия информационных хранилищ, естественным является наличие ряда характеристик, которые свойственны всем хранилищам. Прежде всего, в хранилище всегда выделяются так называемые зерна, минимальные элементы данных или элементы знаний в хранилищах знаний, и основные тематические предметы, темы хранилища. Архитектура хранилищ предполагает проведение денормализации исходной информации и построение ее в одной из заранее выбранной конструкции - звезда, снежинка и т.п.
Физическое распределение серверов хранилища должно предоставлять различным пользователям возможность доступа к данным согласно привилегиям доступа пользователей. Например, для этого используется технология HOLAP (Hybrid On-line Analytical Processing). Архитектура HOLAP организует единообразный доступ к данным, разделенным по некоторым признакам на различные базы данных, и нередко располагаемых на различных серверах. Как результат, достигается высокая производительность за счет физического разделения данных, при этом логически они составляют часть единого источника.
Примером разработки крупнейших информационных хранилищ в России можно привести информационные хранилища таких организаций, как «МПС России» [49] (ныне ОАО «Российские Железные Дороги») и «Газпром» [50].
Разработка информационного хранилища наукоемка и трудоемка. В связи с этим для построения хранилища всегда используются соответствующие программные средства. Крупнейшими поставщиками ПО для разработки информационных хранилищ из множество компаний можно выделить крупнейших. К ним относятся SAS Institute (www.sas.com), IBM (www.ibm.com), Oracle (www.oracle.com), NCR (www.ncr.com), Microsoft (www.microsoft.com).
Возвращаясь к цели разработки хранилища знаний на основе текста на ЕРЯ, необходимо отметить, что класс информационных хранилищ наиболее близок поставленной в работе цели, архитектуре системы и операциям по обработке исходных данных.
Несмотря на большое количество поставщиков программного обеспечения, решение задач анализа текста сталкивается с проблемой языкового барьера. Разработки ведущих компаний направлены для потребителей европейского либо американского рынка. Как следствие, в их развитии наибольшее внимание уделялось европейским языкам, анализ которых проще, благодаря их более строгой форме изложения. В связи с этим, для построения информационных хранилищ, с целью извлечения знаний из текста на ЕРЯ, необходимы дополнительные лингвистических разработки.
1.1.7 Хранилища знаний и системы выделения смысла из текста
Системы этого класса содержат не информацию, которую люди могут использовать, а знания. Нет единого определение знания, но объединяющим критерием систем хранилищ знаний является выделение смысловых связей, заключенных в тексте, и хранение текста вместе с его семантическим описанием.
Существует множество разработок хранилищ знаний и систем по извлечению смысла из текста, но до промышленного уровня они редко доводятся.
1.1.7.1 Группа продуктов Ontos
Группа продуктов "Ontos Series", разработанных швейцарской компанией "Ontos AG" [51] решают две основные задачи: получение информации из различных гетерогенных источников (базы данных, Интернет, поисковые машины, файловые серверы и т. д.) и ее последующая обработка с использованием оригинальных лингвистических алгоритмов.
Основой продуктов является механизм OntosMiner аналитической обработки текстов, основу которого составляет патентованная технология обработка текста на ЕЯ. Сокращение анализируемых комбинаций слов достигается с изначальным учетом конкретной предметной области текста.
Необходимо отметить, что механизм OntosMiner основан на бесплатно распространяемом продукте GATE (General Architecture for Text Engineering) (http://gate.ac.uk/).
В ходе анализа документов проводится морфологический анализ текста, затем синтаксический, после чего строится семантический образ документа. Построение семантического образа происходит с использованием словарей, разработка которых проводится либо специалистами компании-производителя, либо пользователями системы при локализации ее для конкретной тематической области.
1.1.7.2 Системы TWINS и ConExt
Задачей проект TWINS, инициативной разработкой компании НооЛаб, является разработка системы с элементами искусственного интеллекта, предназначенной для смыслового поиска информации в Интернет.
Авторами проекта сказано следующее. "Основными функциями системы являются: семантический анализ текстов на русском и английском языках, анализ запросов пользователя (на этих же языках), аналитические действия по поиску интересующей пользователя информации" [52].
Заявлено, что продукт проводит анализ текста с выделением смысла, используя синтаксический, грамматический и лексический анализ. В основе смыслового анализа лежит использование нейронной сети.
При семантическом анализе текста строятся так называемые вектора, ".которые описывают каждый объект, встречающийся в текстах, через взаимодействие его с другими объектами." [52]. Форма представления информации в виде векторов получило название "Е-5 структуры". Составляют этот вектор пять элементов: тематические объект и предикат, связка, рематический объект и рематический предикат.
Проведение семантического анализа подразумевает наличие описания знаний и их рекурсивного представления, включая причинно-следственные связи. Сам семантический анализ заключается в выделении новых знаний путем выделения из фраз объектов и отношений между ними. При этом определяется контекст, связи между обнаруженными во фразе объектами, а также отношения их к объектам, имеющимся в системе. Результат семантического анализа встраивается в уже существующую семантическую сеть.
Заявлено, что в системе происходит проверка знаний на непротиворечивость.
Алгоритмически работа системы основана на операциях с множествами упомянутых выше пятикомпонентных векторов. По оценке авторов [52]:
Предложенная рекурсивная сетевая модель (пятимерные вектора и подобная им низкоуровневая структура атомов) является существенным принципиальным развитием классических сетевых и фреймовых моделей, в первую очередь это достигается внесением рекурсивности".
Другая разработка компании под названием ConExT (Content Extracting Technology) является технологией по разработке системы автоматизированного извлечения знаний из текстов на ЕЯ, цель которой заключается в получении знаний из больших массивов текстовых документов без необходимости их про-читывания.
Под знаниями понимается информация об объектах и связях между ними.
Основой работы системы является язык программирования tExp [53], специально созданный для решения задач структурного анализа неформализованных текстов на ЕЯ, который позволяет проводить лексический, синтаксический и семантический анализ текстов на русском языке.
При использовании этой технологии в программных продуктах необходимо на языке tExp онтологически описать предметную область для выделения из текста содержательно-значащие единицы.
Учитывая использование онтологического описания в алгоритмах извлечения смысла из текста, можно сделать заключение, что TWINS является системой, требующей вмешательство человека для 1) выделения специфических знаний из текста определенной тематики, и 2) адаптации уже существующих алгоритмов и систем при изменении целей анализа текста или изменения тематики.
1.1.7.3 Системы класса Semantic Web
Проектов по накоплению знаний непосредственно в Интернет с использованием HTML документов было немало. Смысл подхода "Semantic Web" заключается в дополнении стандартного формата HTML метаданными для хранения семантическое описание смысла, излагаемого в документе.
Из множества проектов, представление знаний в которых основано на HTML с включением информации об онтологии, наиболее известны разработки SHOE [54] и Ontobroker [55].
В проекте SHOE (Simple HTML Ontology Extensions) для описания метаQ данных используется дескриптивная логика . Авторам документов предлагается включать аннотацию содержимого в документе, для последующего автоматического разбора этих знаний агентами при работе с документом. Проблема такого подхода заключается в том, что не существует стандарта описания аннотации документа, а форма изложения аннотации зависит от автора. Как следствие, документы могут быть тяжелы для качественного разбора даже при человеко-машинном режиме, и могут трактоваться неоднозначно при использовании разных онтологий.
В проекте Ontobroker реализована логика, основанная на фреймах. Пользователям предлагается реализация онтологии, также как и в предыдущей рассмотренной системе, с сопровождением текста документов аннотацией в виде семантической информации элементов текста. Но, в отличие от SHOE, в Ontobroker предусмотрен централизованный администратор онтологий. Пользователи могут использовать все термины единой справочной онтологий как основу для формального описания знаний в своих документах. Как следствие наличие единой системы ведения онтологической информации, система Ontobroker включает многофункциональный механизм вывода ответа на запрос.
1.2. Описание новой альтернативной системы
Подводя итог проведенного исследования, учитывая экспертной оценки локальных значения критериев рассмотренных альтернатив, можно сделать следующие выводы.
8 Description Logic - логика, которая на уровне концептов позволяет описывать классы через наборы свойств и наборы логических операторов.
Г™ РОССИЙСКАЯ-1
4i гаШШЗ
Наиболее эффективной и востребованной формой представления знаний для пользователя является текст на ЕЯ. Наилучшей формой представления знаний пользователю обладают системы G,, но извлечение знаний в них не поводит ЛПР. Системы реферирования группы G3 автоматически формируют текст на ЕРЯ [56]. Но, с точки зрения естественности языка изложения и полноты извлеченных знаний, качество результатов работы таких систем, как правило, низкое и требуется доработка результатов с привлечением ЛПР. Более того, при реферировании не учитывается цель реферирования - какие именно знания пользователь хочет извлечь из текста, относительного какого объекта или темы. Производительность систем также не соответствует требованиям.
Системы группы G6 обладают свойством высокой производительность как операции автоматического извлечения знаний из большого объема исходной информации, так и использования знаний. Выделение "витрин" для организации работы пользователя с извлеченными знаниями предоставляет пользователю только ту информацию, которая ему необходима, что является очень удобным при условии наличия очень большого объема информации. Минусом этих систем является использование в качестве источников только массивов численных данных и текста на европейских языках.
Высокой производительностью и качеством также обладают системы G2. Минусом таких систем является то, что носителями знаний остаются люди, система содержит только "метазнания" - кто и какими знаниями обладает. Это
• делает системы такого класса полностью непригодными для решения поставленных в работе целей.
Условию автоматического извлечения знаний из текста отвечают системы G3, но они ограниченны заранее определенной структурой электронного документа и информацией о его жизненном цикле. В системах G3 также реализуется подход на основе семантических сетей, которые стоятся автоматически. Но использование полученных знаний осуществляется при визуальном отображении участков получаемых сетей, режим автоматического поиска знаний не предусматривается. Исходя из исходных целей построения таких семантических сетей, можно предположить, что количество извлекаемой информации недостаточно для качественной автоматической работы. Результатом работы является весь исходный документ. Так как работа осуществляется в человеко-машинном режиме, а элементами сети являются отдельные слова, а не контекстно связанные слова, естественность результатов работы и удобство работы с ними являются низкими.
Поисковые системы группы систем G4 и G5 позволяю искать электронные текстовые документы с высокой производительностью. Данные в распределенных информационных сетях хранятся в неструктурированном текстовом формате, что позволяет их индексировать с помощью поисковых систем без проведения смыслового анализа документов. Элементарные знания систем <?4 имеют много общего с моделью знаний систем управления корпоративными знаниями - они указывают в каком источнике можно найти искомую текстовую информацию, что при условии постоянства доступа к ресурсам Интернет.
Системы поиска направлены на обработку очень большого количества документов с целью их нахождения, а не выделения из них смысла. Они также характеризуются отсутствием учета смысловых связей между словами искомой фразы, чувствительностью к правильности подготовки электронных документов при добавлении в систему (индексации) и отсутствием выделения знаний из исходных документов. Как следствие, пользователь может пользоваться только поиском документов по содержанию слов и фраз в лучшем случае с использованием морфологии русского языка.
Смысловой поиск в текстовых документах реализован в системах группы G7. Это достигается за счет снабжения текстовой информации семантической информацией. Но эти системы требуют описания семантики текста вручную, что не удовлетворяет требованию извлечения знаний в автоматическом режиме. Более того, многие из работ по организации хранилищ знаний не были признаны из-за разночтений в подходах и форматах описания онтологий — элементов описания знаний. Алгоритмы большинства разработок на основе продукционного подхода функционально непригодны для автоматического анализа документов общего содержания, так как их использование требует дополнительной работы по описанию предметных областей и поддержания таких описаний в актуальном состоянии.
Существующие подходы образуют Парето оптимальное множество альтернатив [57] (см. «Таблица 1»). Каждый из рассмотренных подходов обладает серьезными недостатками относительно поставленной цели, но при этом ярко выделяются факторы, максимизирующие значения отдельных критериев.
Анализ показал, за счет каких особенностей подходов достигается максимизация отдельных критериев. Оценка альтернатив позволила выявить факторы, которым должна соответствовать идеальная система. Таким образом, наиболее подходящей системой для достижения поставленной цели является система, модель которой соответствует новой альтернативе Gs особенностями которой является максимизация значений критериев: представление извлеченных знаний в виде найденных контекстных упоминаний (К2), выделенных из текста исходных документов большого объема (Кю). использование текста на ЕРЯ в качестве исходной информации ( К6, К4), без заранее определенной тематики и структуры, подобно поисковым системам, в одном из нескольких наиболее распространенных форматах (Къ); высокая производительность использования и извлечения знаний подобно информационным хранилищам за счет автоматического анализ исходного текста (к7) на стадии добавления электронного документа в систему и снабжением полученных знаний служебной, избыточной информацией, снижающих трудоемкость алгоритмов использования знаний (£8); организация единого хранилища знаний ( ЛГ,) на основе большого количества электронных документов (К10), регулярно пополняемое новыми знаниями (К9У, выделение знаний из хранилища за счет проведения СКП на основе запроса на ЕРЯ ( Къ), подобно поисковым системам, но с учетом смысловых связей между словами; содержание в результатах поиска не только перечня документов, но найденных контекстных упоминаний на ЕРЯ (К2) подобно экспертным системам и системам автоматического реферирования текста, с последующим развитием до синтеза текста на ЕРЯ на основе выделенных знаний.
Множество альтернатив, дополненное Gs, остается Парето - оптимальным (см. таблицу 1). Но при этом G8 позволяет максимизировать значения всех наиболее значимых критериев К1 - Кд, оставляя не оптимальным наименее значимый К10. Учитывая поставленную цель, объем обрабатываемой информации заведомо ограничен, и среднее значение этого критерия является хорошим для достижения цели.
Требование обработки текста на ЕЯ является одним из главных. Определение понятия знания для решения проблемы быстрого смыслового анализа текста на ЕРЯ и описание извлекаемых из текста знаний значительно влияет на структуру и функции разрабатываемой прикладной системы [58], и является другой сложной наукоемкой проблемой, которая требует дополнительного исследования.
ЗАКЛЮЧЕНИЕ
В работе осуществлено решение научной проблемы создания представления знаний на основе текстовых электронных документов на естественном русском языке и организации их использования путем осуществления смыслового контекстного поиска.
В процессе исследований и разработок получены новые научные данные, а именно:
В ходе выполнения диссертационной работы разработан подход к организации хранилища знаний на естественном русском языке, алгоритмические решения задач представления знаний и организации смыслового контекстного поиска. При этом получены следующие научные результаты:
1. Проведен всесторонний анализ с многокритериальной оценкой существующих альтернативных подходов к построению информационных систем, работающих со знаниями, в результате которого была обоснована необходимость разработки информационной системы нового вида и построена новая альтернатива, описывающая модель идеальной СХЗ. Проведен анализ сложной научной проблемы разработки СХЗ согласно полученной модели, проведена декомпозиция целей исходной задачи на локальные цели более простых задач.
2. Предложена новая организация СППР на базе автоматически формируемых массивов текстовой информации, содержащей агрегированные знания по различным аспектам принимаемых решений в виде витрин знаний.
3. На основе анализа подходов к извлечению знаний показано, что существующие подходы к семантическому анализу текста мало эффективны для анализа текста большого количества электронных документов на ЕРЯ, без описания конкретной предметной области. В то же время в данной работе было показано, что для смысловой обработки текста можно эффективно проводить анализ текста на ЕЯ без использования онтологических знаний об окружающем мире, на основе предложенного подхода.
4. На основе математической модели конечного автомата разработан модуль лексического анализа текста.
5. Разработан новый концептуальный подход к разработке систем хранилища знаний на ЕРЯ, конкретизировано новое понятие "знания" и формальное логическое представление знаний в виде сегментов ОСС.
6. Проведен теоретико-множественный и теоретико-информационный анализ модели ФПЗ и возможных конфигураций ОСС, получаемых при проведении поиска из запроса на ЕЯ.
7. Разработаны и реализованы алгоритмы смыслового контекстного поиска, оптимизированные с использованием последовательного усиления критериев отбора, позволяющие решать задачу смыслового поиска с трудоемкостью О(п).
8. Разработано бинарное представление знаний в виде языка ФПЗ и операций над знаниями на основе размеченного текстового электронного документа, также бинарное представление знаний на стороне СУБД.
9. Для решения оптимизации алгоритмов СКП разработанное формальное представление древообразной иерархической структуры множеств свойств позволяет решать задачу поиска покрывающих деревьев с трудоемкостью О(п), за счет хранения дополнительной информации о пути от вершины до корня дерева.
Ю.Предложена и реализована модульная архитектура СХЗ на основе разработанной объектно-ориентированной библиотеки обработки ОСС на язьже -Pascal, для работы которой разработан сетевой протокол высокого уровня передачи данных между клиентским и серверным приложениями, а также удобный визуальный интерфейс для работы ЛПР со знаниями хранилища и его функциями.
11.Проведена апробация прикладной системы, реализующей разработанный подход и разработанные алгоритмы.
Разработанный сетевой протокол высокого уровня позволяет решить задачу передачи информации между клиентским и серверным приложениями в многопользовательском режиме. Разработанная и реализованная архитектура системы эффективно решила задачу реализации разработанного подхода к построению системы хранилища знаний. Разработанный визуальный интерфейс предоставляет удобные средства для проведения анализа сегментов объектной семантической сети, извлекаемых из хранилища знаний.
Задача организации быстрого смыслового контекстного поиска является первой и наиболее демонстративной задачей, решенной с применением модуля АТЕЯ в прикладных системах.
Сформулированный и реализованный подход к витринам знаний является основополагающим для проведения автоматизированного реферирования и аннотирования документов.
Задачи, решаемые с использованием результатов работы
Представление знаний в хранилище организовано, с одной стороны, сегментами ОСС, соответствующими контекстам электронных документов, и единой базой данных с другой стороны.
Учитывая это, с алгоритмической и практической точек зрения представляют интерес следующие задачи: смысловой контекстный поиск с учетом описок и синонимов; нахождение неявных связей между объектами; решение направленного реферирования текста (задача суммариза-ции); синтез текста на естественном языке; развитие подхода к витринам знаний; новые возможности в решении задач Text mining.
Задача организации смыслового контекстного поиска с учетом описок и синонимов является следующей по сложности задачей относительно реализованного смыслового контекстного поиска. Решение задачи требует усложнение модели представления знаний и разработки словаря синонимов и алгоритмов идентификации описок.
Задача идентификации описок, опечаток, арифметических и грамматических ошибок [119] должна решаться еще на этапе морфологического анализа текста. В случае неоднозначного толкования слова, появляется ситуация, схожая с учетом синонимов и омонимией.
Перечень синонимов слова можно использовать как на основе программного заключения о тематике искомого, либо на основе запроса пользователя относительно тематики документа, посредством предоставления пользователю возможности выбора тематики в интерактивном режиме из вариантов, предусмотренных в словаре синонимов.
Организация поиска с учетом синонимов потребует доработку визуального интерфейса системы, алгоритмов поиска и разработку словаря синонимов.
Задача нахождение неявных связей между объектами заключается в выделении связи между заданными объектами, в явном виде не изложенные в источниках. Алгоритмы поиска могут быть различными, приведем два примера.
Первый алгоритм заключается в нахождении цепочки из ссылок и объектов между двумя искомыми объектами. Задача соответствует задаче выделения путей на графе.
Второй алгоритм заключается в анализе соответствия набора связей и свойств различных объектов на выявления их,идентичности с высоким уровнем уверенности.
Задача направленного реферирования текста заключается в выделении из текста одного или более документов информации, запрошенной пользователем.
Термин "направленное реферирование" приведен для подчеркивания того, что результатом работы должен быть текст, выделенный из источников относительно определенной цели, задаваемого в виде сегмента ОСС перед проведением реферирования. Необходимо заметить, что такой сегмент строится на основе анализа запроса на естественном языке, либо искусственно с использованием специального визуального интерфейса.
Алгоритмы реферирования заключаются в решении задачи детерминированного выделения из сегментов ОСС информации, удовлетворяющей запросу с определенным высоким уровнем уверенности, и последующего синтеза текста на естественном русском языке.
Задача синтеза текста на естественном языке заключается в построении текста на естественном русском языке на основе содержимого витрин знаний. Синтез текста требует привлечение дополнительных знаний об окружающем мире, правил построения предложений на русском языке.
Правила синтеза текста должны реализовывать различные стили изложения знаний в виде текста, зависящие от поставленной при синтезе задачи. Это может быть: отчет о выделенных из текста знаниях; литературно изложенный текст на естественном русском языке, описывающий выделенные из хранилища знания; агрегат выделенных знаний, изложенный так же на естественном русском-языке.
Развитие подхода к построению витрин знаний может проводиться в следующих основных направлениях: проведение автоматизированного контекстного поиска среди поступающих в систему документов; проведение вторичного объектного семантического анализа текста с учетом уже полученных сегментов ОСС; решения задач Text mining; представление содержимого витрины в виде синтезированного текста на естественном русском языке.
Новые возможности в решении задач Text mining заключаются в использовании структуры ОСС для выделения последовательностей объектов и связей между ними, типовых сегментов ОСС и наборов свойств элементов сети в отличие от статистических и частотных методов анализа текста.
Список литературы диссертационного исследования кандидат технических наук Кузнецов, Денис Юрьевич, 2004 год
1. Матвеев Л.А., Компьютерная поддержка решений. СПб.: Спец. лит-ра, 1998.-472 с.
2. Информационные ресурсы для принятия решений / Веревченко А. П., Горчаков В. В., Иванов И. В., Голодова О. В. М.: Деловая Книга, Академический Проект, 2002. 560 стр.
3. Цели и задачи ФЦП // "Электронная Россия", Информационный бюллетень 2002. -№1. - с. 11-13.
4. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. -М.: Наука. Физматлит. 1996.
5. Ginzberg M.J., Stohr Е. A. A decision support: Issues and Perspectives // Processes and Tools for Decision Support. Amsterdam: North, Holland Publ. Co, 1983.
6. Трахтенгерц Э.А. Компьютерная система поддержки принятия управленческих решений. М.: Проблемы управления. № 1, 2003, стр.13-27.
7. Berson A., Smith S.J. Data Warehousing, Data Mining, and OLAP (Data Warehousing/Data Management). US.: Computing Mcgraw-Hill, 640 c.
8. Липаев В.В. Системное проектирование сложных программных средств для информационных систем. Серия "Информатизация России на пороге XXI века". М.: СИНТЕГ, 1999. - 224 с.
9. Губанов В.А. Введение в системный анализ: Учеб. пособие / В.А. Губанов, В.В. Захаров, А.Н. Коваленко. JL: Изд-во ЛГУ, 1988. - 232 с.
10. Прангишвили И.В. Системный подход и общесистемные закономерности. — М.: СИНТЕГ, 2000. 528 с.
11. Квейд Э. Анализ сложных систем. — М.: Сов. радио, 1969. 520 с.
12. Качала В.В. Структурный системный анализ. В 2ч. Ч. 1. Функциональное моделирование. Мурманск: Изд-во МГТУ, 2002. - 62
13. Рыков А.С. Методы системного анализа: Многокритериальная и нечеткая оптимизация, моделирование и экспертные оценки. М.: Экономика, 1999.
14. Руководство по экспертным системам: Пер. с англ. Д.Уотермен. М.: Мир, 1989. 388 с.
15. Частиков А., Белов Д., Гаврилова Т. Разработка экспертных систем. Среда CLIPS. СПб.: BHV - Санкт - Петербург, 2003. - 608 с.
16. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.
17. Литвак Б.Г. Экспертная информация. Методы получения и анализа. М.: Радио и связь, 1982. - 184 с.
18. Bishop К. Heads or Tales: Can Tacit Knowledge Really be Managed Электронный ресурс.: статья в ALIAnet, December 15, 2000 Режим доступа:http://conferences.alia.org.au/alia2000/proceedings/karen.bishop.html -свободный.
19. Качала В.В. Концепция управления знаниями в консалтинговой компании : Сб. докл. конф. "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" (РБП-СУЗ-2004). -М.: МЭСИ, 2004, с. 177-182.
20. Робертс-Уитт С. JI. Системы управления знаниями: все знания — на службу фирме // PC Magazine/RE. М.: СК Пресс, 2000, № 10, с. 25-28.
21. ЕВФРАТ-Документооборот Электронный ресурс. : аннотация продукта на сайте компании-производителя "Cognitive technologies" [2004]. -Режим доступа: http://www.cognitive.ru/products/euph-doc.htm, свободный.
22. Продукты Электронный ресурс.: Домашняя страница Торговая марка RCO™ компании "Гарант-Парк-Интернет" - [2004]. - Режим доступа: http://www.rco.ru/product.asp, свободный.
23. Microsoft Office Online домашняя страница Электронный ресурс. //домашняя саница продукта на сайте компании-производителя "Microsoft" : 2004., Режим доступа: http://office.microsoft.com/home/default.aspx , свободный.
24. Exchange Server. Обзор системы Электронный ресурс.: аннотация программного MS Exchange Server на сайте "Microsoft" [2004]. - Режим доступа: http://www.microsoft.com/rus/exchange/default.mspx, свободный.
25. Microsoft SQL Server. Основные факты Электронный ресурс.: аннотация особенностей продукта "SQL Server" на сайте "Microsoft" [2004]. -Режим доступа: http://www.lotus.com/products/discserver.nsf, свободный.
26. Lotus Discovery Server Электронный ресурс.: аннотация продукта на сайте компании-производителя "IBM" [2004]. - Режим доступа: http://www.lotus.com/products/discserver.nsf, свободный.
27. Куроуз Д.Ф., Росс К.В. Компьютерные сети. Многоуровневая архитектура Интернета. СПб.: Питер, второе издание, 2004, 768 с.
28. Грир Т. Сети интранет. М.: "Русская Редакция", 2000. - 368 с.
29. Фарли М. Сети хранения данных. М.: Лори, - 2 издание, 2004., 576 с.
30. Леонтьев В. П. Поиск в Интернет. М.: ОЛМА-Пресс Образование, 2004. - 47 с.
31. Аверченков В. И. Информационный поиск в Интернете : Учеб.пособие. / В.И. Аверченков, С.М. Рощин, Ю.Т. Трифанков; М-во образования Рос. Федерации, Брян. гос. техн. ун-т. Брянск: Изд-во Брян. гос. техн. ун-та, 2002. - 303 с.
32. HTML 4.01 Specification Электронный ресурс.: описание спецификации [2004]. - Режим доступа: http://www.w3.org/TR/REC-html40/, свободный.
33. Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект. // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. Вып. 5. Казань. 17-20 октября. 2000 г. — Казань: Изд-во Сэлэт, 2000.
34. Поисковые механизмы Google Электронный ресурс. публикация на сайте компании Master-IT, май, 2003. - Режим доступа: http.7/hosting.master-it.ru/articles/artiGle.php?aid=l0&acid=28 - свободный.
35. Демьянков В.З., Морфологическая интерпретация текста и ее моделирование. М.: Изд-во МГУ, 1994. - 206 с.
36. Поиск@Ма11.ги научился использовать особенности русского языка Электронный ресурс. // электронный новостной сайт "Компьюлента", апрель, 2004 г., Режим доступа: http://www.compulenta.ni/2004/4/l9/46409/, свободный.
37. Технология мониторинга новостного контента Интернет Электронный ресурс.: домашняя страница технологии InfoStream® [2004]. - Режим доступа: http://infostream.com.ua/, свободный.
38. Антонов А.В., Курзинер Е.С. Новые возможности поисково-аналитической системы «Галактика-ZOOM» (ранжирование документов по значимости) // Труды международной конференции ДИАЛОГ'2003. Сб. ст. М., 2003, с. 326.
39. Kimball R., Reeves L., Ross M., Thornthwaite W. The Data Warehouse Life-cycle Toolkit: Tools and Techniques for Designing, Developing, and Deploying Data Warehouses. US: Wiley, 1998, 771 c.
40. Inmon W.H. Building the Data Warehouse (2nd Edition). NY.: Wiley, 1996, 401 c.
41. Использование витрин данных в учетной системе. Подготовленно: по материалам зарубежных сайтов Электронный ресурс. : Перевод: Inter-soft Lab [2004]. Режим доступа:http://utc.jinr.ru/database/articles/vitrinydannyh/index.htm, свободный.
42. Бэкон Д., Харрис Т. Операционные системы. Параллельные и распределенные системы. СПб.: Питер, Издательская группа BHV, 2004. - 800 с.
43. Архипенков С. Я., Голубев Д. В., Максименко О. Б. Хранилища данных. От концепции до внедрения. М.: Диалог - МИФИ, 2002. - 528 с.
44. Волков Д., Дубова Н. Информатизация МПС // «Открытые системы», 2001, № 10, М. -2001.
45. Информационно-аналитическая система корпорации на основе хранилища данных // "Газовая промышленность" №1, 2002, издательство 'Тазоил пресс", 2002.
46. Ontos Series Overview Электронный ресурс.: аннотация серии продуктов на сайте компании-производителя "Ontos" [2004]. - Режим доступа: http://www.ontosearch.com/overview.php, свободный.
47. Luke S., Heflin J. SHOE 1.01. Proposed Specification Электронный ресурс. : спецификация формата на домашней странице 2004, Режим доступа: http://www.cs.umd.edu/projects/plus/SHOE/spec.html, свободный
48. Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information // Decker S, Erdmann M, Fensel D., Studer R., Semantic Issues in Multimedia Systems. Proceedings of DS-8. Boston: Kluwer Academic Publisher, 1999, c. 351-369.
49. Удо X., Индерджиет M. Системы автоматического реферирования // «Открытые системы», 2000, №12, М. 2000.
50. Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982. - 254 с.
51. Абрамова Н.А. Методология повышения надежности проектирования программно-технических средств на основе формализации знаний. // Автореферат докторской диссертации. М.:, ИПУ РАН. 2002. 52 с.
52. Еремеев В.Е. Чертеж антропокосмоса. М.: АСМ, 1993, 384 с.
53. Huang, К., Lee, Y.W., Wang, R.Y., Quality Information and Knowledge. Upper Saddle River. NJ: Prentice Hall PTR, 1999. - 146 c.
54. McDonough B. Targeting KM solutions to vertical industries // KMWorld, Volume 11, Issue 1. January 2002.
55. Davis R., Shrobe H., Szolovits P. What is a Knowledge Representation? // AI Magazine, 14(1), 1993., с 17-33.
56. Черняк JI. Управление знаниями и информационные технологии // «Открытые системы», 2000, № 12, М. 2000.
57. Боровиков В. П. STATISTICA: искусство анализа данных на компьютере. Для профессионалов. СПб.: Питер, 2001. - 656 с.
58. Adamo J.M. Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. NY.: Springer-Verlag, 2001., 254 c.
59. Зырянов M. Инструментарий для управления знаниями // ComputerWorld Россия, 1999, № 7, с. 15-17.
60. Wright P. Knowledge Discovery In Databases: Tools and Techniques // ACM Crossroads Student Magazine. April 11, 2000.
61. Ландэ Д.В. Добыча знаний // CHIP Ukraine 10'2003, 2003.
62. Волович M., Ашманов И. Что такое спам и как с ним бороться Электронный ресурс.: Дайджест на сайте организаторов конференции "Диалог", выпуск №43, [2002] Режим доступа: http://www.dialog-21.ru/fulldigest.asp?digestid=19298 , свободный.
63. В России публично наказали спамера Электронный ресурс. : публикация на новостном сайте CNews "Интернет-издание о высоких технологиях" от 29 апреля 2004г., [2004], - Режим доступа: http://www.cnews.ru/newtop/index.shtml?2004/04/29/158513 , свободный.
64. Fayyad U., Grinstein G.G., Wierse A. Information Visualization in Data Mining and Knowledge Discovery. US.: Morgan Kaufmann, 1st edition, 2001., 407 c.
65. Intelligent Miner for Text. Overview Электронный ресурс.: Режим доступа: http.7ywww-3.ibm.com/software/data/iminer/fortext/, свободный.
66. Text mining or Text Analysis Software TextAnalysis Электронный ресурс. : домашняя страница продукта TextAnalysis компании - производителя "Мегапутер Интеллидженс" - Режим доступа: http://www.megaputer.com/products/ta/index.php3, свободный.
67. Text mining Software Products Электронный ресурс. : домашняя страница продукта WebAnalysis компании-производителя "Мегапутер Интеллидженс" Режим доступа:http://www.megaputer.com/products/wa/index.php3, свободный.
68. SAS® Text Miner Электронный ресурс.: аннотация продукта SAS Text Miner на сайте компании-производителя "SAS Institute Inc" [2004]. -Ре-жим доступа:http://www.sas.com/technologies/analytics/datamining/textminer/, свободный.
69. Entrieva's SemioMap Электронный ресурс. : аннотация продукта SemioMap на сайте компании-производителя "Entrieva" [2004]. — Режим доступа: свободный.
70. Blumenthal В., Gornostaev Iu. М., Unger С. Human-Computer Interaction: 5th International Conference, EWHCI '95, Moscow, Russia, July 3-7, 1995: Selected Papers. NY.: Springer-Verlag, 1995, 203 c.
71. Oracle Text Электронный ресурс.: аннотация продукта Oracle Text на сайте компании-производителя "Oracle Corporation" [2004]. - Режим доступа: http://otn.oracle.com/products/text/index.html, свободный.
72. Product Overview Электронный ресурс.: обзор продуктов компании "Autonomy" на домашней санице [2004]. - Режим доступа: http://www.autonomy.eom/c/content/Products/, свободный.
73. Комплекс Аналитической Обработки текста Электронный ресурс.: общая информация о продукте [2004]. - Режим доступа: http://www.rco.ru/product.asp?obno=406, свободный.
74. Демонстрация технологий анализа и поиска текстовой информации RCO Электронный ресурс.: страница демонстрационных версий программных продуктов RCO [2004]. - Режим доступа: http://demo.rco.ru/, свободный.
75. Лингвистический процессор для сложных информационных систем / Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. М.: Наука, 1992. - 256 с.
76. Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д. А. Поспелова М.: Радио и связь, 1990. - 304 с.
77. Оливер Д., Глен Ф. Популярные Web-броузеры. Энциклопедия пользователя. М.: ДиаСофт, 1998. - 464 с.
78. Хоуфмен А. Улмен К. Dynamic HTML: справочник. СПб.: Питер Ком., 1999.-512 с.
79. Frank van Harmelen, Fensel D., Fensel D. Practical Knowledge Representation for the Web : IJCAI'99 Workshop on Intelligent Information Integration, 1999.
80. RDF Semantics. W3C Recommendation 10 February 2004 Электронный ресурс.: описание спецификации, [2004]. - Режим доступа: http://www. w3.org/TR/rdf-mt/, свободный.
81. Грабер М. SQL. Справочное руководство. М.: Лори, 2001. - 354 с.
82. Gould L., Zanevsky A., Kline К. Transact-SQL Programming. US.: O'Reilly, 1st Edition, 1999. - 833 c.
83. Урман С. ORACLE 8. Программирование на языке PL/SQL. М.: Лори, 1999.-607 с.
84. Холзнер С. XSLT библиотека программиста. СПб.: Питер, 2002. - 544 с.
85. Демьянков В.З. Теория интерпретации в прикладной лингвистике // Проблемы вычислительной лингвистики и автоматической обработки текста на естественном языке. М.: Изд-во Моск. ун-та, 1980, с.125-158.
86. Трахтенгерц Э.А. Субъективность в компьютерной поддержке управленческих решений. М.: Синтег, 2001. 250 с.
87. Панкова Л.А., Трахтенгерц Э.А. Субъективность в интеллектуальном анализе данных // РАН. Институт проблем управления. М., 1999. - 76 с.
88. Орловский С. А. Проблемы принятия решений при нечеткой исходной информации. М.:Наука, 1981, 208 с.
89. Фейт С. TCP/IP. Архитектура, протоколы, реализация. М.: Лори, 2000. -424 с.
90. Молчанов А.Ю. Системное программное обеспечение: Учебник для вузов. СПб.: Питер, 2003. - 400 с.
91. Вентцель Е.С. Исследование операций. Задачи, принципы, методология // Учеб. пособие для втузов 2-е изд., стереотип. - М.: Высш. шк., 2001. -206 с.
92. Крапухина Н. В., Тригуб Н. А. Особенности модуля морфологического разбора в системе анализа текстов на ЕЯ в задаче извлечения знаний //
93. Научная сессия МИФИ-2004: Сб. тр. В 15 томах. Т.З. Интеллектуальные системы и технологии. М.: МИФИ, 2004. с. 116 - 117.
94. Затуливетер Ю.С., Компьютерная информация в модели исчисления древовидных структур // Труды Второй международной конференции "Идентификация систем и задачи управления", SICPRCT2003, Москва, 29-31 января 2003 г., М.: ИПУ РАН, 2003, с. 790-858.
95. Седжвик Р. Фундаментальные алгоритмы на С.Часть 5. М.: ДиаСофт, 2003.-480 с.
96. Седжвик Р. Фундаментальные алгоритмы на С. Части 1 4. - М.: ДиаСофт, 2003.-672 с.
97. Даль В.И. Толковый словарь живого великорусского языка. Избранные статьи. Совмещенная редакция изданий В. И. Даля и И. А. Бодуэна де Куртенэ. М.: Олма-Пресс, 2004 - 704 с.
98. Майника Э. Алгоритмы оптимизации на сетях и графах. М.: Мир, 1981.-323 с.
99. Васильев Ф.П. Методы оптимизации. М.: Факториал Пресс, 2002, 824 с.
100. Асанов М.О., Баранский В.А., Расин В.В. Дискретная математика: графы, матроиды, алгоритмы. — Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001. — 288 с.
101. Novik A. Transact SQL User Defined Functions. US.: Wordware Publishing, 2003. - 480 c.,
102. Степпа Д. Microsoft ADO. NET. Серия "Фундаментальные знания". -Microsoft Corp., Русская редакция, 2003. 640 с.
103. Грегори К. Использование Visual С++. Специальное издание.: Пер. с англ. М.: СПб.: К.: Издательский дом "Вильяме", 1999. - 864 с.
104. Гарнаев А.Ю. Visual Basic 6.0. Разработка приложений . СПб.: BHV-Санкт-Петербург, 2000. - 448 с.
105. Stevens W.R. TCP/IP Illustrated, Volume 1: The Protocols. US: Addison Wesley Professional, 1994. - 600 c.
106. Celko J. Joe Celko's SQL for Smarties: Advanced SQL Programming. US: Morgan Kaufmann, Expanded 2nd edition, 1999. - 576 c.
107. Шеломовский П.JI. Разработка многоплатформенной системы компрессии словарной информации для карманных персональных компьютеров : Дисс. на соиск. уч. ст. канд. тех. наук. М., 2003. - 141 с.
108. Бек К. Экстремальное программирование. СПб.: Питер, 2002. - 224 с.
109. Кэнту М. "Delphi 7. Для профессионалов". СПб.: Питер, 2004. - 1104 с.
110. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео // Ратушняк А., Юкин В., Ватолин Д., Смирнов М. М.: Диалог-МИФИ, 2002. - 384 с.
111. Лавошникова Э. К. Компьютерная проверка орфографии: вчера, сегодня, завтра// Вестник Московского университета. Сер. 9. Филология. 2003. №5.
112. Трахтенгерц Э.А. Компьютерная поддержка переговоров при согласовании управленческих решений. Серия "Системы и проблемы управления". М.: Синтег, 2003. - 284 с.
113. Схема позиционирования разработанного подхода среди групп существующих подходов и систем, В центре — система на основе новой альтернативы.цу;.цгО.'
114. Системы управления корпоративными знаниямисмысла из текста
115. Хранение знаний о корпоративных знаниях
116. Выделение семантики, представление семантики вместе с текстом■ ■1. Системы докум ентооборотаи автоматизацииработы офиса
117. Обработка документов, извлечение из них знаний1. Хранилища данных
118. Большой объем, избыточность, автоматическая загрузка1. Система хранилищазнании
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.