Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Кожитов, Сергей Львович
- Специальность ВАК РФ05.13.01
- Количество страниц 186
Оглавление диссертации кандидат технических наук Кожитов, Сергей Львович
ВВЕДЕНИЕ.
ГЛАВА 1. АКТУАЛЬНЫЕ ЗАДАЧИ ИНТЕГРАЦИИ, УЛУЧШЕНИЯ КАЧЕСТВА И КООРДИНАЦИИ ДАННЫХ В ИНФОРМАЦИОННЫХ ПОТОКАХ
МЕТАЛЛУРГИЧЕСКОГО ХОЛДИНГА.
1.1. Развитие процессов интеграции в неоднородных информационных системах. Л
1.2. Холдинг как организационно-производственная структура на современном металлургическом рынке.
1.3. Проблемы построения системы управления нормативно-справочной информацией металлургического холдинга.
1.4. Характеристика полнотекстового документооборота на металлургическом пр едприятии.
1.5. Интеграция данных при создании КИС.
1.6. Проблемы интеграции разнородных данных.
1.7. Интеграция данных приложений.;.
1.8. Решение проблем интеграции данных на основе федеративных хранилищ данных.
1.9. Управление неоднородным контентом в системе корпоративного документооборота.
1.10. MDM системы.
1.10.1. Типы MDM-систем.
1.10.2. Зарубежные системы MDM-класса.
1.10.3. Отечественные системы MDM-класса.:.
1.10.4. Сертификация данных на соответствие ISO 8000.
1.11. Корпоративная поисковая система и ее предназначение.
1.12. Современные подходы к автоматической классификации текстов.
1.13. Анализ методов построения мер близости текстовых реквизитов.
1.13.1. Принцип оптимальности в задаче динамического программирования.
1.13.2. Понятие редакционного расстояния между двумя строками.
1.13.3. Метод выравнивания строк vs редакционного предписания.
1.13.4. Алгоритмы анализа строк.
1.14. Модели оптимизации, построенные на эволюционных принципах.
1.15. Генетические алгоритм и его особенности.
1.16. Выводы.
ГЛАВА 2. МЕТОДЫ И МОДЕЛИ ИНТЕГРАЦИИ, УЛУЧШЕНИЯ КАЧЕСТВА И КООРДИНАЦИИ ДАННЫХ В НЕОДНОРОДНЫХ СИСТЕМАХ.
2.1. Выявление двойников в справочных информационных массивах металлургического холдинга.
2.1.1. Проблемная постановка задачи.
2.1.2. Содержательная постановка задачи.
2.1.3. Математическая постановка задачи.
2.1.4. Метод вычисления минимального редакционного расстояния.
2.1.5. Методы решения с использованием N-грамм.
2.1.6. Формальный синтаксический анализ.
2.1.7. Алгоритм построения модели с учетом формального синтаксического анализа.
2.1.8. Задача принятия решений и обучение алгоритма.
2.1.9. Алгоритм определения коэффициентов сходства строк.
2.1.10. Проверка адекватности построенной модели.
2.1.11. Результаты работы программы.
2.2. Задача классификации документов в MDM-системе холдинга.
2.2.1. Проблема классификации текстов в СЭД.
2.2.2. Общая постановка задачи классификации.
2.2.3. Технология классификации по методу Rubryx.
2.2.4. Описание коллекции Reuters-21578.
2.2.5. Поиск оптимальных значений весовых коэффициентов wl, w2, w3. для меры близости по методу Rubryx.
2.3. Решение задачи выбора весовых коэффициентов с использованием генетических алгоритмов.
2.3.1. Исходная постановка.
2.3.2. Описание модификации генетического алгоритма.
2.3.2.1. Методы отбора.
2.3.2.2. Кроссинговер и мутация.
2.3.3. Программное обеспечение.
2.3.4. Описание основных модулей программы.
2.3.5. Пользовательский интерфейс.
2.4. Выводы.
ГЛАВА 3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ РАСЧЕТА СВОДНОГО КОЭФФИЦИЕНТА РЕЛЕВАНТНОСТИ ПРИ РЕШЕНИИ ЗАДАЧ ПОВЫШЕНИЯ
КАЧЕСТВА ОСНОВНЫХ ДАННЫХ В МЕТАЛЛУРГИЧЕСКОМ ХОЛДИНГЕ.
3.1. Описание проблемной ситуации.
3.2. Содержательная постановка задачи.
3.3. Автоматизированное рабочее место «Контроль контрагентов».
3.3.1. Основные функции АРМ «Контроль контрагентов.
3.3.2. Поисковая система АРМ «Контроль контрагентов».
3.3.3. Организация системы поиска.
3.3.4. Варианты поиска.
3.3.4.1. Точный поиск (LIKE-поиск).127.
3.3.4.2. НОМ-поиск.
3.3.4.3. Особенности НОМ-поиска. Ранг и коэффициент релевантности.
3.3.4.4. Особенности НОМ-поиска. Вспомогательные справочники.
3.3.5. Сценарий автоматического поиска двойников в АРМ «Контроль контрагентов».
3.3.6. Ручной поиск двойников в АРМ «Контроль контрагентов».
3.3.7. Методология работы АРМ «Контроль контрагентов».
3.4. Результат доработки АРМ «Контроль контрагентов».
3.5. Программный комплекс «Брэдфорд».
3.6. Выводы.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия2007 год, кандидат технических наук Бодров, Даниил Александрович
Интеграция процессов закупочной логистики в промышленном холдинге: На примере черной металлургии2004 год, кандидат экономических наук Нестеров, Олег Владимирович
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети2004 год, кандидат технических наук Кузнецов, Денис Юрьевич
Интеллектуальные методы организации архивов технической документации научно-производственного объединения2012 год, кандидат технических наук Радионова, Юлия Александровна
Введение диссертации (часть автореферата) на тему «Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга»
В современных условиях успешно координировать бизнес, и управлять бизнес-процессом возможно, лишь проанализировав и структурировав огромное количество информации. Поэтому очень важно максимально автоматизировать операции с данными: ввод, первичную обработку, структурирование и дальнейшее представление в виде удобном для лица, принимающего решение (ЛПР). Этой цели на предприятиях служат корпоративные информационные системы. Функциями КИС являются, в частности, такие важные разделы, как поддержка принятия решений и мониторинг на предприятии. Под мониторингом понимается процесс периодического обследования состояния какой-либо системы, отслеживания изменений этого состояния с течением времени, выявление и ранжирование факторов, обусловливающих эти изменения. Задача не сводится только к принятию решения о внедрении информационной системы на предприятии. Каждому предприятию нужна информационная система, разработанная под его индивидуальную схему функционирования. Например, данные, которые подлежат обработке, накапливаются годами. Из-за отсутствия единой системы они могут быть избыточными или неполными, различными по структуре, представленными в разных форматах. А формы отчётности и представления информации для ЛПР на каждом предприятии свои, зависящие от специфики его деятельности. Поэтому придётся использовать специализированные программные средства, предназначенные для работы с заведомо некачественными данными, позволяющие упорядочивать, согласовывать и выверять данные, прогоняя их через долгую цепочку сложных трудоёмких процедур. Итог как правило заключается в виде потери времени и немалых материальных затратах на дорогостоящее программное обеспечение и оборудование для него.
Острота проблемы возрастает в случае, если КИС внедряется в условиях холдинга, составные части которого являются самостоятельными бизнес-структурами, обладающими собственными стандартами представления и обработки данных.
Актуальность работы обуславливается необходимостью создания методики и инструментальных средств, обеспечивающих интеграцию и взаимную согласованность данных в информационных потоках управления металлургического холдинга (MX).
В последнее время в черной металлургии стали заметны организационные преобразования. Если раньше металлургические комбинаты являлись хозяйственными унитарными субъектами, то за период 1999 по 2002 годы они активно стали преобразовываться в холдинги. Кроме того, современная рыночная конъюнктура демонстрирует успешные примеры интеграции и российских металлургических компаний в глобальный рынок. Выход с IPO1 на ведущие биржевые площадки, консолидация активов в России и за ее пределами на базе крупных металлургических комплексов, происходящие в последние годы, свидетельствует и мощном потенциале российской металлургии. В этих условиях, требования к корпоративной информационной системе поднимаются до уровня наилучших мировых стандартов, что в свою очередь определяет актуальность исследований по направлению диссертационной работы.
Рост холдингов резко нарушил устоявшийся на уровне унитарных предприятий баланс между объемами основных учешо-аналитических операций, совершаемых в приложениях ERP-контура с их жестко контролируемой методологией обработки данных.
Проблему низкой эффективности управления в холдингах пытаются решать не всегда верными способами. Полная автоматизация на базе решений ERP на уровне холдинга будет стоить намного дороже внедрения ERP-системы на отдельном предприятии.
Основные трудности, возникающие при создании информационных систем на крупном промышленном предприятии, связанны с наличием неоднородной среды, включающей различные аппаратные платформы, операционные системы, СУБД и средства разработки приложений.
Одним из перспективных направлений является применение интеграционных технологий для построения гибких, легко адаптируемых информационных систем, а также разрабои<а методов и моделей интеграции, улучшения качества и координации данных в неоднородных системах.
Цель работы. Разработка методики, моделей и алгоритмов интеграции, улучшения качества и координации данных в условиях КИС (корпоративной информационной системы) металлургического холдинга. Разработка технологии, позволяющей быстро и с минимальными затратами устранить дублирование записей в информационных массивах разнородных баз данных.
В соотвегствии с поставленной целью были решены следующие задачи исследования:
• исследование особенностей построения КИС в условиях металлургического холдинга (КИС MX);
• выявление проблематики, связанной с интеграцией, улучшением качества и координацией данных при создании КИС MX;
• разработка методов поиска текстовой информации на основе анализа близости
1IPO - Первичная публичная продажа акций. текстовых строк на основе методов с использованием генетических алгоритмов; • разработка методов автоматической классификации электронных документов и оценка их качества.
Методика исследований. В работе использовались различные методики исследований, основными из которых перечислены ниже.
Метод редакционного расстояния, метод N-грамм, формальный синтаксический анализ -для определения близости текстовых реквизитов в базе данных.
Метод оптимизации, основанный на генетических алгоритмах - для поиска наилучших параметров модели.
Метод оценки качества мер близости, основанных на мерах Pr, Re и F1.
Научная новизна диссертации заключается в следующих положениях.
Разработана методика интеграции разнородных данных в условиях КИС MX (рисунок 27).
Разработана архитектура системы для выверки массивов нормативно-справочной информации (рисунок 49).
Разработана модель расчета сходства текстовых реквизитов разнородных баз данных.
На основе модели расчета сходства текстовых реквизитов разнородных баз данных разработан алгоритм.
Методом Левинсштайна решена задачи поиска оптимальных параметров модели расчета сходства текстовых реквизитов;
Разработана модификация модели классификации Rubryx, основанная на подборе оптимальных коэффициентов учета вклада различных словосочетаний;
Методом перебора решена задача выбора оптимальных коэффициентов в модели
Rubryx.
Практическая ценность работы состоит в том, что разработанная методика нашла свое применение в рамках КИС таких крупных предприятий металлургического комплекса как: ОАО "ГМК "Норильский никель", ОАО «ММК», ОАО «Северсталь», «Евраз-Групп», «Меч ел».
Апробация работы. Основные положения и результаты работы обсуждались на Российско-Японских семинарах "Перспективные технологии и оборудование для материаловедения, микро и наноэлектроники" в 2003, 2004, 2005, 2006, 2007 годах.
Публикации. По теме диссертации опубликовано 12 работ, включая одну работу в издании, рекомендованном ВАК РФ.
1.Калашников Е.А., Дубравина Т.В., Кожитов C.JI. Гибридный генетический алгоритм для решения транспортных задач // Материалы 4-го Российского-Японского семинара "Перспективные технологии и оборудование для материаловедения, микро и наноэлектроники": 22-23 мая 2006 Астрахань. Астраханский государственный университет, 2006 год, с.453-456.
2.Бодров Д.А., Поляков В.Н., C.JI. Кожитов Автоматизация текстового оборота на металлургическом предприятии и новые поисковые технологии // Материалы 4-го Российско-Японского семинара "Перспективные технологии и оборудование для материаловедения, микро и наноэлектроники": 22-23 мая 2006 Астрахань, Астраханский государственный университет, 2006 год, с.487-494.
3. Громов С.В., Кожитов C.J1. Подход к созданию инструментов поддержки принятия решений при разработке технологических процессов. // Материалы Российско-Японского семинара "Материаловедение и металлургия. Перспективные технологии и оборудование" 25 марта 2003 года Москва. Московский государственный институт стали и сплавов, 2003 год, с.361-366.
4.Yu.N. Pronin, S.L. Kozhitov. Wide use of integration tools as the best means of optimization of quality and coordination of information data flows in holding structures/ of 2nd Russian-Japanese Seminar "Perspective Technologies, Materials and Equipments of Solid-State Electronic Components April 6, 2004-Moscow, Moscow State Institute of Steel and Alloys (Technological University), 2004, p. 417-426.
5. S.V. Gromov, S.L. Kozhitov. Development of Tools of an in-line Processing of the Data and Decision Making for the Companies with a Complex Organization Structure on the Basis of Technologies of Web-Services // Proceedings of 2nd Russian-Japanese Seminar "Perspective Technologies, Materials and Equipments of Solid-State Electronic Components ": April 6,2004-Moscow, Moscow State Institute of Steel and Alloys (Technological University), 2004, p. 428-435.
6. Е.А.Калашников, T.B. Дубравина, C.JI. Кожитов. Применение генетического алгоритма для решения модифицированных специальных задач линейного программирования с множеством квазиоптимальпых решений // Металл оборудование инструмент, май-август 2005. Издательский дом "ИКАР", Московский институт стали сплавов с.57-59.
7. S.V. Gromov, S.L. Kozhitov. Development and research of components for the distributed data processing and decision-making for the companies with complex organizational structure/ Труды III Российско-Японского семинара "Оборудование и технологии для производства компонентов твердотельной электроники и наноматериалов", 12 апреля Москва 2005. Московский институт стали и сплавов, 2005 год с. 163-167.
8. Ю.Н. Пронин, A.M. Перепёлкина, C.JI. Кожитов. О построении корпоративных информационных систем // Образование, наука и производство, Межвузовый сборник научных трудов. Т. II. Экономика и Менеджмент. Московский государственный институт стали сплавов 2001 г. с. 134-137//
9. Ю.Н. Пронин, C.JI. Кожитов. Возможности ETL-технологий для построения гибких информационных систем управления холдингами на примере построения системы управления нормативно-справочной информацией //Научно-практический семинар "Научно-техническое обеспечение деятельности предприятий, институтов и фирм" Москва 1 июля 2003г., Москлвский Государственный Институт Стали и Сплавов с. 208218//
10. Бодров Д.А., Кожитов C.JI., Поляков В.Н. Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке. //Известия Саратовского унив. Новая серия. Серия «Математика. Механика. Информатика» - Саратов, 2007, т.7. Вып. 1, стр. 78-83.//
11. Ю.Н. Пронин, Кожитов C.JI., Дорогова JI.B. Использование поисковой системы ПК BRADFORD для организации перевода открытого технического словаря eOTD ЕССМА //Труды V Российско-Японского семинара "Оборудование, технологии и аналитические системы для материаловедения, микро- и наноэлектроники" Том 2, 2007 г., с. 1016-1026//
12. Ю.Н. Пронин, Кожитов C.JI., Давидюк Н.В. Разработка и ведение российской версии открытого тсзнического словаря eOTD ЕССМА при помощи специализированного программного комплекса BRADFORD/ЛГруды V Российско-Японского семинара "Оборудование, технологии и аналитические системы для материаловедения, микро- и наноэлектроники" Том 2, 2007 г., с. 1027-1039//
Структура и объем диссертационно]'! работы. Диссертация состоит из введения, трех глав, заключения и списка литературы, включающего 158 наименований. Общий объём работы занимает 186 страниц, в том числе 54 рисунка и 18 таблиц.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Методы и алгоритмы многомерного моделирования пространства характеристик изображений2011 год, кандидат технических наук Трубаков, Андрей Олегович
Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий2013 год, кандидат наук Кузнецов, Дмитрий Павлович
Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности2006 год, кандидат физико-математических наук Беляев, Дмитрий Владимирович
Разработка системы поддержки принятия решений в условиях неопределённости для управления угольными потоками холдинга2013 год, кандидат технических наук Приступа, Юрий Дмитриевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Кожитов, Сергей Львович
3.6. Выводы
В результате доработки ПК «Брэдфорд» по предложенной модели многопараметрического поиска двойников в настройке параметров НОМ-поиска реализована возможность настройки расчета коэффициентов релевантности по дополнительным полям со степенью их влияния на суммарный коэффициент релевантности по набору параметров. Использование результатов исследования по многопараметрическому методу поиска двойников в подсистеме «Контроль контрагентов» Системы ведения НСИ ОАО «ГМК «Норильский никель» позволило повысить общие показатели эффективности работы информационно-поисковой системы и обеспечить требуемый уровень качества сводного корпоративного справочника контрагентов.
ЗАКЛЮЧЕНИЕ
В настоящей работе произведено исследование методов повышения качества и координации данных в информационных потоках, а также средств интеграции этих данных и создание конкретных решений на безе этих методов.
В ходе выполнения работы выяснилось, что в современных условиях металлургическим холдингам необходимы новые модели построения корпоративного управленческого учёта с использованием мощных математических и программных аппаратов, способных выявлять дублирования записей. А также максимально автоматизировать операции с данными и разработка технологии автоматической классификации архива документов перед запуском системы электронного документооборота. Большинство опубликованных исследований ориентированы на развитие традиционных подходов к созданию КИС, в то же время исследования, ориентированных на использование методик разрешения дублирования и выверки НСИ, или построения поисковых систем практически отсутствуют.
Данная работа, в свою очередь, была направлена на исследование различных методик, основанных на меюде редакционного расстояния, N-грамм, формальном синтаксическом анализе, генетических алгоритмах, методе оценки качества мер близости.
Построенные в результате работы модели позволили убедиться в правильности сделанных предположений о применимости данных методик для повышения качества поиска двойников в системах НСИ металлургических предприятий, построении автоматической классификации архива документов. Созданные приложения продемонстрировали применимость данных моделей для выверки НСИ и удаления дублирования записей в информационных потоках разнородных баз данных металлургического холдинга.
Проделанная работа привела к следующим результатам и выводам:
Была создана поисковая система, которая выявила совпадения строк между собой и вывела результаты в виде коэффициентов релевантности.
После математического описания взятых методов была решена задача принятия решений и обучение алгоритма, а затем и проверка адекватности построенной модели. Рассматривая методы основанные на вычислении редакционного расстояния и N-граммах, получилось, что на коротких и достаточно похожих между собой строках алгоритм вычисления редакционного расстояния даёт более адекватные результаты.
В результате эксперимента была рассчитана оценка качества модели, которая показала эффективность данных алгоритмов.
Были рассмотрены методы генетических алгоритмов для оптимизации весовых коэффициентов слов поискового запроса, после чего был рассчитан суммарный коэффициент релевантности.
Была решена задача поиска весовых коэффициентов при классификации документов по методу Rubryx, с использованием общепринятой для тестирования автоматических классификаторов коллекции текстов Reuters-21578.
Рассмотрена система "Брэдфорд" в которой были воплощены ранее освещенные алгоритмы и методы поиска и идентификации контрагентов с учётом случайных ошибок и расхождений, вызванных разными обычаями написания наименований, адресов и других реквизитов разными операторами, а также для выверки справочников и реестров контрагентов, для их объединения в эталонный сводный массив, для разработки таблиц перекодировки.
Была описана система с автоматизированным рабочим местом для сотрудников службы ведения НСИ.
Результаты исследований применяются в составе систем документооборота металлургических холдингов России, таких как ОАО "ГМК "Норильский никель", Мечел, ММК, Северсталь, Евраз-Холдинг.
Список литературы диссертационного исследования кандидат технических наук Кожитов, Сергей Львович, 2009 год
1. Елена Монахова. Блеск и нищета российских холдингов. PC WEEK/RE. № (239)17'2000.
2. Влад Боркус, Елена Монахова . Интеграция: новое решение старых проблем . PC Week №36/2003.
3. ETL ключ к готовности и корректности данных. Скотт Стейначер, Еженедельник «Computerworld Россия» 20/01/2001 №03.
4. QUOTE.RU: Информация о компаниях: отчеты эмитентов, бухгалтерские балансы, акции, аналитика, http://www.quote.ru/shares/baseemitent.shtml
5. Официальный сайт компании "Ростерминал" http://wvvw.rosterminal.com/
6. Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated Enterprise. TDWI Report, http://wvvw.tdwi.org/
7. Informatica PowerCenter. Любые данные. В любой системе. В любое время. http://www.data-integration.ru/materiali.html
8. Informatica PowerCenter. Доступ к сложным данным. По требованию. http://www.data-integration.ru/materiali.html
9. Интеграция данных и приложений. Byte/Россия. № 6. 2006.
10. Дэвид Уэддингтон (David Waddington). Архитектурный подход к интеграции информации: обзор проблемы федеративных Хранилищ данных. (An Architected Approach to Information Integration Federated Enteiprise Data Warehousing Overview).
11. Хранилища данных: шаги от идеи до внедрения. Cnews. http://www.cnews.ru/reviews/index.shtml72006/08/17/208822l
12. Майкл Дж. Д. Саттон. Корпоративный документооборот: принципы, технологии, методологии внедрения. // Азбука, Б-Микро, 2002
13. Бодров Д. А., Поляков В.Н. Проблемы создания эффективных поисковых машин (обзорная статья) // Обработка текста и когнитивные технологии: Сборник (Вып. 7)
14. Под ред. Соловьева В. Д. — Казань: 2002. Стр. 8-55
15. Van Rijsbergen, С. J. Information Retrieval, 2nd edition— Dept. of Computer Science, University of Glasgow, 1979.
16. Fabrizio Sebastiani, Machine Learning in Automated Text Categorisation, Consiglio Nazionale delle Ricerche, Italy.
17. Joachims, T. 1998. Text categorization with support vector machines: learning with many relevant features. In Proceedings of ECML-98, 10th European Conference on Machine Learning (Chemnitz, DE, 1998), pp. 137-142.
18. Lam, W., Low, K. F., and Ho, C. Y. 1997. Using a Bayesian network induction approach for text categorization. In Proceedings of IJCAI-97, 15th International Joint Conference on Artificial Intelligence (Nagoya, JP, 1997), pp. 745-750.
19. Li, H. and Yamanishi, K. 1999. Text classification using ESC-based stochastic decision lists. In Proceedings of CIKM-99, 8th ACM International Conference on Information and Knowledge Management (Kansas City, US, 1999), pp. 122-130.
20. Yang, Y. and Liu, X. 1999. A re-examination of text categorization methods. In Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, US, 1999), pp. 42-49.
21. Lewis, D. D. and Ringuette, M. 1994. A comparison of two learning algorithms for text categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 81-93.
22. Apt'e, C., Damerau, F. J., and Weiss, S. M. 1994. Automated learning of decisionrules for text categorization. ACM Transactions on Information Systems 12, 3, 233-251.
23. Cohen, W. W. and Singer, Y. 1999. Context-sensitive learning methods for text categorization. ACM Transactions on Information Systems 17, 2, 141-173.
24. Moulinier, I., Ra"skinis, G., and Ganascia, J.-G. 1996. Text categorization: a symbolic approach. In Proceedings of SDAIR-96, 5th Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1996).
25. Yang, Y. 1999. An evaluation of statistical approaches to text categorization. Information Retrieval 1, 1-2, 69-90.
26. Dagan, I., Karov, Y., and Roth, D. 1997. Mistake-driven learning in text categorization. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (Providence, US, 1997), pp. 55-63.
27. Lam, W. and Ho, C. Y. 1998. Using a generalized instance set for automatic text categorization. In Proceedings of S1G1R-98, 21st ACM International Conference on Research and Development in Information Retrieval (Melbourne, AU, 1998), pp. 81-89.
28. Weiss, S. M., Apte, C., Damerau, F. J., Johnson, D. E., Oles, F. J., Goetz, Т., and Hampp, T. 1999. Maximizing text-mining performance. IEEE Intelligent Systems 14, 4, 63-69.
29. Schapire, R. E. and Singer, Y. 2000. BoosTexter: a boosting-based system for text categorization. Machine Learning. Forthcoming.
30. Вентцель E.C. Исследование операций. Задачи, принципы, методология. М.: Высшая школа, 2001.— 208 с.
31. Гасфилд Д. Строки, деревья и последовательности в алгоритмах./Пер. С английского И.В. Романовского. СПб.: Невский Диалект; БХВ-Петербург; 2003.
32. Левенштайн В.И. Двоичные коды с исправлением выпадений, вставок, изамещений символов-Доклады АН СССР. 1965. Т. 163.
33. Magic Quadrant for Master Data Management for Customer Data. 10 July 2008 John Radcliffe. Gartner RAS Core Research Note G00158340. http://mediaproducts.gartner.com/reprints/oracle/article28/article28.html
34. Sunday D.M. (1990) "A very fast substring search algorithm," Communications of the ACM, Vol. 33, No. 8, p. 132-42, August 1990.
35. Pirklbauer K. (1992) "A study of pattern-matching algorithms," Structured Programming, Vol. 13, p. 89-98, Springer Verlag New York.
36. Gonnet G.H., Baeza-Yates R. (1991) "Text algorithms," Chapter 7 (p. 251-88) of Handbook of Algorithms and Data Structures in Pascal and C, 2nd edition, Addison-Wesley, Wokingham UK.
37. Aho A.V. (1980) "Pattern matching in strings," in Book R.V. (ed.) Formal Language Theory, p. 325-47, Academic Press, New York.
38. Aho A.V. (1990) "Algorithms for finding patterns in strings," Chapter 5 (p. 255300) of Leeuwen J. van (ed.) Handbook of Theoretical Computer Science, Elsevier Science Publishers, Amsterdam.
39. Sedgewick R.(1983) "String searching," Chapter 19 (p. 241-55) of Algorithms, Addison-Wesley, Reading MA.
40. Horspool R.N. (1980) "Practical fast searching in strings," Software Practice and Experience, Vol. 10, No. 6, p. 501-6.
41. Smith T.F., Waterman M.S. (1981) "Identification of common molecular subsequences," Journal of Molecular Biology, Vol. 147, p. 195-7.
42. Baeza-Yates R.A. (1989a) "Improved string matching," Software Practice and Experience, Vol. 19, No. 3, p. 257-71, March 1989.
43. Davies G., Bowsher S. (1986) "Algorithms for pattern matching," Software -Practice and Experience, Vol. 16, No. 6, p. 575-601, June 1986.
44. Hume A., Sunday D.(1991) "Fast string searching," Software Practice and Experience, Vol. 21, No. 11, p. 1221-48, November 1991.
45. Knuth D.E., Morris J.H., Pratt V.R. (1977) "Fast pattern matching in strings," SIAM Journal on Computing, Vol. 6, No. 2, p. 323-50, June 1977.
46. Woude J. van der (1989) "Playing with patterns, searching for strings," Science of
47. Computer Programming, Vol. 12, No. 3, p. 177-90, Elsevier Science Publishers.
48. Menico C. (1989) "Faster string searches," Dr. Dobb's Journal, p. 74-5, July 1989.
49. Hamming R. (1982) "Coding and Information Theory," Prentice Hall, Englewood Cliffs NJ.
50. Sankofi D., Kruskall J.B. (eds.) (1983) "Time warps, string edits, and macromolecules: the theory and practice of sequence comparison," Addison-Wesley, Reading MA.
51. Wong C.K., Chandra A.K. (1976) "Bounds for the string editing problem," Journal of the ACM, Vol. 23, No. 1, p. 13-6, January 1976.
52. Aho A.V. Hirschberg D.S., Ullman J.D. (1976) "Bounds on the complexity of the longest common subsequence problem," Journal of the ACM, Vol. 23, No. 1, p. 1-12, January 1976.
53. Hirschberg D.S. (1978) "An information theoretic lower bound for the longest common subsequence problem," Information Processing Letters, Vol. 7, p. 40-1.
54. Lipman D.J., Pearson W.R. (1985) "Rapid and sensitive protein similarity searches," Science, Vol. 227, No. 4693, p. 1435-41, 22 March 1985.
55. Altschul S.F., Gish W„ Miller W., Myers E.W., Lipman D.J. (1990) "Basic local alignment search tool," Journal of Molecular Biology, Vol. 215, p. 403-10.
56. Lowrance R., Wagner R.A. (1975) "An extension of the string-to-string correction problem," Journal of the ACM, Vol. 22, No. 2, p. 177-83.
57. Maier D. (1978) "The complexity of some problems on subsequences and supersequences," Journal of the ACM, Vol. 25, No. 2, p. 322-36, April 1978.
58. Karp R.M. (1972) "Reducibility among combinatorial problems," in Miller R.E., Thatcher J.W. (eds.) Complexity of Computer Computations, p. 85-103, Plenum Press.
59. Baeza-Yates R.A. (1991) "Searching subsequences," Theoretical Computer Science, Vol. 78, No. 2, p. 363-76.
60. Jacobson G., Vo K-P. (1992) "Heaviest increasing/common subsequenceproblems," Proceedings of the Combinatorial Matching Conference, Tucson, Arizona, April 1992.
61. Vo K-P. (1986) "More <curses>: the <screen> library,» Technical Report, AT&T Bell Laboratories.
62. Landau G.M., Vishkin U., Nussinov R.(1985) "An efficient string matching algorithm with к differences for nucleotide and amino acid sequences," Technical Report TR-37/85, Department of Computer Science, Tel Aviv University.
63. Galil Z., Giancarlo R. (1988) "Data structures and algorithms for approximate string matching," Journal of Complexity, Vol. 4, p. 33-72.
64. Landau G.M., Vishkin U. (1985) "Efficient string matching in the presence of errors," Proceedings of the 26th IEEE Symposium on the Foundations of Computer Science, p. 126-36.
65. Landau G.M., Vishkin U. (1986a) "Efficient string matching with к mismatches," Theoretical Computer Science, Vol. 43, p. 239-49.
66. Ivanov A.G. (1984) "Distinguishing an approximate word's inclusion on Turing machine in real time," Izv. Akademii Nauk SSSR Ser. Mat., Vol. 48, p. 520-68 (Russian).
67. Galil Z., Giancarlo R. (1986) "Improved string matching with к mismatches," SigactNews, Vol. 17, p. 52-4.
68. Sellers P.H. (1980) "The theory and computation of evolutionary distances: pattern recognition," Journal of Algorithms, Vol. 1, p. 359-73.
69. Ukkonen E. (1985b) "Finding approximate patterns in strings," Journal of Algorithms, Vol. 6, No. 6, p. 132-7.
70. Ukkonen E. (1983) "On approximate string matching," Proceedings of the International Conference on Foundations of Computer Science, Lecture Notes in Computer Science, Vol. 158, p. 487-95, Springer-Verlag, Berlin.
71. Ukkonen E. (1985a) "Algorithms for approximate string matching," Information and Control, Vol. 64, p. 100-18.
72. Landau G.M., Vishkin U. (1988) "Fast string matching with к differences," Journal of Computer and System Sciences, Vol. 37, No. 1, p. 63-78.
73. Weiner P. (1973) "Linear pattern matching algorithm," Proceedings of the 14th IEEE Symposium on Switching and Automata Theory, p. 1-11.
74. Harel D., Tarjan R.E. (1984) "Fast algorithms for finding nearest common ancestors," SIAM Journal on Computing, Vol. 13, No. 2, p. 338-55.
75. Schieber В., Vishkin U. (1988) "On finding lowest common ancestors: simplification and parallelization," SIAM Journal on Computing, Vol. 17, No. 6, p. 1253-62.
76. Landau G.M., Vishkin U. (1986b) "Introducing efficient parallelism into approximate string matching and a new serial algorithm," Proceedings of the 18th ACM Symposium on the Theory of Computing, p. 220-30.
77. Landau G.M., Vishkin U. (1989) "Fast parallel and serial approximate string matching," Journal of Algorithms, Vol. 10, p. 157-69.
78. Hollaar L.A. (1979) "Text retrieval computers," IEEE Computer, Vol. 12, p. 40-50.
79. Foster M.J., Kung H.T. (1980) "The design of special-purpose VLSI chips," IEEE Computer, Vol. 13, p. 26-40, January 1980.
80. Mukhopadhyay A.(1980) "Hardware algorithms for string processing," Proceedings oflCCC, p. 508-11.
81. Curry Т., Mukhopadhyay A.(1983) "Realization of eflcient non-numeric operations through VLSI," Proceedings of VLSI ^83.
82. Halaas A. (1983) "A systolic VLSI matrix for a family of fundamental search problem," Integration VLSI Journal, Vol. 1, No. 4, p. 269-82, December 1983.
83. Lee K.C., Мак V.W. (1989) "Design and analysis of a parallel VLSI string search algorithm," Lecture Notes in Computer Science, Vol. 368, p. 215-29.
84. Burkowski F.J. (1982) "A hardware hashing scheme in the design of a multiterm string comparator," IEEE Transactions on Computers, Vol. C-31, No. 9, p. 825-34, September 1982.
85. Lee D., Lochovsky F. (1985) "Text retrieval machine," Office Automation -Concepts and Tools, section 14, Springer-Verlag, New York.
86. Haskin R.L. (1981) "Special purpose processors for text retrieval," Database Engineering, Vol. 4, No. 1, p. 16-29, September 1981.
87. Robert D.C. (1982) "A specialized computer architecture for text retrieval," Proceedings of the 4th Workshop on Computer Architecture, p. 51 -9.
88. Haskin R.L., Hollaar L.A (1983) "Operational characteristics of a hardware-based pattern matcher," ACM Transactions on Database Systems, Vol. 8, No. 1, p. 15-40, March 1983.
89. Hall P.A.V., Dovvling G.R. (1980) "Approximate matching," Computing Surveys, Vol. 12, No. 4, p. 381-402, December 1980.
90. Salton G. (1980) "Automatic information retrieval," IEEE Computer, Vol. 13, p. 4155. September 1980.
91. Yianilos P.N. (1983) "A dedicated comparator matches symbol strings fast and intelligently," Electronics, Vol. 56, No. 5, p. 113-7, December 1983.
92. Yamada H., Hirata M., Nagai H., Takahashi K. (1987) "A high-speed string-search engine," IEEE Journal of Solid-State Circuits, Vol. SC-22, No. 5, p. 829-34, October 1987.
93. Hirata M., Yamada H., Nagai H., Takahashi K. (1988) "A versatile data string-search VLSI," IEEE Journal of Solid-State Circuits, Vol. 23, No. 2, p. 329-35, April 1988.
94. Polyakov V.N., Sinitsin V.V. "Rubryx: Technology of Text Classification Using Lexical Meaning Based Approach" in Proc. of International Conference Speech and Computer. SPECOM-2003. Moscow, MSLU, 137-143 (2003).
95. Vintsyuk Т.К. (1968) "Speech discrimination by dynamic programming," Cybernetics. Vol. 4, No. 1, p. 52-7, also (Russian) Kibemetika, Vol. 4, No. 1, p. 81-8.
96. Needleman S.B., Wunsch C.D. (1970) "A general method applicable to the search for similarities in the amino-acid sequence of two proteins," Journal of Molecular Biology, Vol. 48, p. 443-53.
97. Velichko V.M., Zagoruyko N.G. (1970) "Automatic recognition of 200 words," International Journal of Man-Machine Studies, Vol. 2, p. 223-34.
98. Sakoe H., Chiba S. (1970) "A similarity evaluation of speech patterns by dynamic programming," (Japanese) Institute of Electronic Communications Engineering of Japan, p. 136, July 1970.
99. Sakoe H., Chiba S. (1971) "A dynamic programming approach to continuous speech recognition," 1971 Proceedings of the International Congress of Acoustics, Budapest, Hungary, Paper 20 С 13.
100. Sankofi D. (1972) "Matching sequences under deletion-insertion constraints, " Proceedings of the National Academy of Sciences of the USA, Vol. 69, p. 4-6.
101. Reichert T.A., Cohen D.N., Wong A.K.C. (1973) "An application of information theory to genctic mutations and the matching of polypeptide sequences," Journal of Theoretical Biology, Vol. 42, p. 245-61.
102. Haton J.P. (1973) "Contribution a l'analyse, parametrisation et la reconnaissance automatique de la parole," These de doctorat d'etat, Universitfie de Nancy, Nancy France.
103. Wagner R.A., Fischer M.J. (1974) "The string-to-string correction problem," Journal of the ACM, Vol. 21, No. 1, p. 168-73, January 1974.
104. Hirschberg D.S. (1975) "A linear space algorithm for computing maximal common subsequences," Communications of the ACM, Vol. 18, No. 6, p. 341-3, June 1975.
105. Hunt J.W., Mcllroy M.D. (1976) "An algorithm for differential file comparison." Computing Science Technical Report 41, AT&T Bell Laboratories, Murray Hill NJ.
106. Hunt J.W., Szymanski T.G. (1977) "A fast algorithm for computing longest common subsequences," Communications of the ACM, Vol. 20, No. 5, p. 350-3, May 1977.
107. Masek W.J., Paterson M.S. (1980) "A faster algorithm for computing string-edit distances," Journal of Computer and Systems Sciences, Vol. 20, No. 1. p. 18-31.
108. Myers E.W. (1986) "An 0(ND) difierence algorithm and its variations," Algorithmica, Vol. 1, p. 251-66.
109. Apostolico A., Guerra C. (1987) "The longest common subsequence problem revisited," Algorithmica, Vol. 2, p. 315-36.
110. Morrison D.R. (1968) "PATRICIA practical algorithm to retrieve information coded in alphanumeric," Journal of the ACM, Vol. 15, No. 4, p. 514-34.
111. Aho A.V., Hopcroft J.E., Ullman J.D. (1974) "The design and analysis of computer algorithms," Addison-Wesley, Reading, MA.
112. Majster M.E., Reiser A. (1980) "Efficient on-line construction and correction of position trees," SIAM Journal on Computing, Vol. 9, No. 4, p. 785-807, November 1980.
113. McCreight E.M. (1976) "A space-economical suffix tree construction algorithm," Journal of the ACM, Vol. 23, No. 2, p. 262-72, April 1976.
114. Rodeh M., Pratt V.R., Even S. (1981) "Linear algorithm for data compression via string matching," Journal of the ACM, Vol. 28, No. 1. p. 16-24, January 1981.
115. Crochemore M. (1986) "Transducers and repetitions," Theoretical Computer Science, Vol. 45, p. 63-86.
116. Blumer A., Blumer J., Ehrenfeucht A., Haussler D., McConnel R. (1984a) "Building a complete inverted file for a set of text files in linear time," Proceedings of the 16th ACM Symposium on the Theory of Computing, p. 349-58.
117. Blumer A., Blumer J., Ehrenfeucht A., Haussler D., Chen M.T., Seiferas J. (1985) "The smallest automaton recognizing the subwords of a word," Theoretical Computer Science. Vol. 40, No. l,p. 31 -56.
118. Blumer A., Blumer J., Haussler D., McConnel R., Ehrenfeucht A. (1987) "Complete inverted files for efficient text retrieval and analysis," Journal of the ACM, Vol. 34, No. 3, p. 578-95.
119. Apostolico A. (1985) "The myriad virtues of subword trees," in Apostolico A., Galil Z. (eds.) Combinatorial Algorithms on Words, NATO ASI Series, Vol. F12, p. 85-96, Springer-Verlag. Berlin.
120. Chen M.T., Seiferas J. (1985) "Eficient and elegant subword-tree construction," in Apostolico A., Galil Z. (eds.) Combinatorial Algorithms on Words, NATO ASI Series, Vol. F12, p. 97-107, Springer-Verlag, Berlin.
121. Ziv J., Lempel A. (1977) "A universal algorithm for sequential data compression," IEEE Transactions on Information Theory, Vol. IT-23, p. 337-43, May 1977.
122. Cook S.A. (1972) "Linear time simulation of deterministic two-way pushdown automata," Information Processing, Vol. 71, p. 75-80, North-Holland, Amsterdam.
123. Rivest R.L. (1977) "On the worst-case behaviour of string searching algorithms," SIAM Journal on Computing, Vol. 6, No. 4, p. 669-74.
124. Boyer R.S., Moore J.S. (1977) "A fast string searching algorithm," Communications of the ACM, Vol. 20, No. 10, p. 762-72, October 1977.
125. Galil Z. (1979) "On improving the worst case running time of the Boyer-Moore string searching algorithm," Communications of the ACM, Vol. 22, No. 9, p. 505-8.
126. Schaback R.(1988) "On the expected sublinearity of the Boyer-Moore algorithm," SIAM Journal on Computing, Vol. 17, No. 4, p. 648-58.
127. Smith P.D. (1991) "Experiments with a very fast substring search algorithm," Software Practice and Experience, Vol. 21, No. 10, p. 1065-74, October 1991.
128. Harrison M.C. (1971) "Implementation of the substring test by hashing," Communications of the ACM, Vol. 14, No. 12, p. 777-9, December 1971.
129. Karp R.M., Rabin M.O. (1987) "Efficient randomized pattern-matching algorithms," IBM Journal of Research and Development, Vol. 31, No. 2, p. 249-60, March 1987.
130. Что такое генетические алгоритмы Тимофей Струнков, PC Week RE, 19/99 http://www.neuroproiect.ru/gene.htm
131. Rudolph, G., "Convergence properties of canonical genetic algorithms," IEEE Trans, on Neural Networks, Vol. 5, N. I, 1994.
132. Grefenstette, J.J., "Optimization of control parameters for genetic algorithm"," IEEE Trans. Sys., Man and Cybem., Vol. 16, N. I, pp. 122-128, 1986.
133. Elben, A.E., Aarts, B;H., and Van Нее, K.M., "Global convergence of genetic algorithms: An Infinite Markov chain analysis," Parallel Problem Solving from Nature, H.-P. Schwefel and R. Manner, Eds. Heidelberg, Berlin: Springer-Verlag, pp. 4-12, 1991.
134. Fogel, D.B., "Asymptotic convergence properties of genetic algorithms and evolutionary programming: Analysis and experiments," Cybernetics and Systems, 1994.
135. Rudolph, G., "Convergence properties of canonical genetic algorithms," IEEE Trans, on Neural Networks, Vol. 5, N. I, 1994.
136. Holland, J.H., Adaptation in Natural and Artificial Systems.
137. Ann Arbor: Univ. of Michigan Press, 1975.
138. Xiaofeng Q., and Palmiet-i, F., "Theoretical analysis of evolutionary algorithms ijAlth an infinite population size in continuous space. Parts 1,11", IEEE Trans, on Neural Networks, Vol.5, No. 1, 102-130, 1994.
139. Ю.Н. Пронин, A.M. Перепёлкина, C.JI. Кожитов. О построении корпоративных ' информационных систем // Образование, наука и производство, Межвузовый сборник научных трудов. Т. II. Московский государственный институт стали сплавов 2001г. с. 134-137//
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.