Методы, алгоритмы и программные средства интеграции атрибутивных данных информационных объектов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Съедин Дмитрий Юрьевич
- Специальность ВАК РФ05.13.11
- Количество страниц 147
Оглавление диссертации кандидат наук Съедин Дмитрий Юрьевич
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И АЛГОРИТМОВ ИНТЕГРАЦИИ АТРИБУТИВНЫХ ДАННЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ
1.1 Современное состояние предметной области функционирования библиотечно-информационных органов Российской Федерации
1.2 Технологические процессы учета, анализа и предоставления научному сообществу сведений о РНТД
1.3 Базовая структурная схема государственной информационной системы ЕГИСУ НИОКТР
1.4 Анализ алгоритмов решения задачи интеграции данных
1.4.1 Алгоритмы решения задачи связывания данных
1.4.2 Алгоритмы решения задачи автоматической текстовой классификации
1.5 Постановка цели и задач исследования
Выводы по первой главе
ГЛАВА 2. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ ИНТЕГРАЦИИ АТРИБУТИВНЫХ ДАННЫХ И ИХ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
2.1 Алгоритм связывания данных
2.1.1 Адаптивная мера подобия записей, как основа алгоритма связывания данных
2.1.2 Гибридный стохастический алгоритм глобальной оптимизации на основе алгоритма М-РСА
2.1.2.1 Стохастический алгоритм глобальной оптимизации РСА
2.1.2.2 Построение гибридного алгоритма
2.1.2.3 Проверка эффективности гибридного алгоритма
2.1.3 Метод параллельной реализации гибридного стохастического алгоритма глобальной оптимизации
2.1.3.1 Разработка метода параллельной реализации гибридного алгоритма оптимизации
2.1.3.2 Проверка работоспособности метода параллельной реализации
2.1.4 Модификация статистической метрики для оценки адекватности адаптивной меры подобия записей
2.1.5 Программная реализация алгоритма связывания данных
2.1.6 Пример оценки эффективности алгоритма связывания данных
2.2 Алгоритм автоматической текстовой классификации
2.3 Методические рекомендации по использованию предлагаемых методов и алгоритмов интеграции и порядку их применения
Выводы по второй главе
ГЛАВА 3. АПРОБАЦИЯ РАЗРАБОТАННЫХ МЕТОДОВ, АЛГОРИТМОВ И ПРОГРАММНЫХ СРЕДСТВ ИНТЕГРАЦИИ АТРИБУТИВНЫХ ДАННЫХ В ГОСУДАРСТВЕННОМ ИНФОРМАЦИОННОМ ФОНДЕ НЕПУБЛИКУЕМЫХ РНТД
3.1 Статистические данные по произведенной интеграции ретроспективных сведений о непубликуемых РНТД
3.2 Получение глобальных показателей непубликуемых РНТД
3.3 Получение сведений о непубликуемых РНТД в базе данных фонда на основе пользовательских запросов
3.4 Пример оценки эффективности научных коллективов на основе наукометрических показателей непубликуемых РНТД
Выводы по третьей главе
ЗАКЛЮЧЕНИЕ
Список сокращений и условных обозначений
Список литературы
Приложение
Приложение
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Алгоритмы и программные средства идентификации парето-оптимальных нечетких систем на основе метаэвристических методов2014 год, кандидат наук Горбунов, Иван Викторович
Самонастраивающиеся эволюционные алгоритмы формирования систем на нечеткой логике2016 год, кандидат наук Становов, Владимир Вадимович
Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович
Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели2014 год, кандидат наук Бармин, Александр Александрович
Введение диссертации (часть автореферата) на тему «Методы, алгоритмы и программные средства интеграции атрибутивных данных информационных объектов»
ВВЕДЕНИЕ
Актуальность темы исследования. Стремительный и неуклонный рост объемов порождаемой информации требует использования современных технологий для эффективного хранения, контроля и управления данными. Большое развитие получила концепция создания автоматизированных информационных ресурсов и систем, позволяющих учитывать и агрегировать большие наборы данных по обширным сферам знаний с целью обеспечения надежного, постоянного и полнофункционального доступа к актуальным сведениям по исследуемой проблематике.
Вместе с тем, сдерживающим фактором на пути создания и организации взаимодействия таких информационных ресурсов, систем и баз данных является проблема качества данных. Разнородность интегрируемой из различных источников информации, ненормализованное ее хранение, возможное дублирование вызывают большие сложности обеспечения достоверного согласования и консолидации данных при создании банков знаний и информационных систем поддержки принятия решений. В этой связи, необходимость разработки и развития эффективных программных инструментов, организующих взаимодействие программных систем в части решения задачи интеграции данных и обеспечивающих структурное единство поступающих и хранящихся в них сведений является, безусловно, актуальной и важной задачей.
Одним из примеров, иллюстрирующих необходимость создания указанных программных инструментов, является проблема создания единого фонда непубликуемых научных исследований и разработок. Стратегия инновационного развития Российской Федерации в соответствии с Государственной программой «Информационное общество» [1] опирается на построение четкой системы целей, приоритетов и инструментов государственной инновационной политики. Имеющийся в стране задел научно-исследовательских, опытно-конструкторских и технологических работ (НИОКТР), научных отчетов, диссертаций, результатов интеллектуальной деятельности (РИД) и его дальнейшее развитие является основой стратегии, необходимой для проведения селективной научно-технической
политики с целью оказания государственной поддержки прежде всего тем направлениям исследований, научным, инженерным и конструкторским школам, которые могут обеспечить перспективную конкурентоспособность отечественных разработок.
Поскольку в настоящее время информационные ресурсы, относящиеся к различным аспектам учета непубликуемых сведений о результатах научно-технической деятельности (РНТД) обособлены и разрознены, затруднено получение непротиворечивой и полной информации обо всех этапах жизненного цикла научно-технического результата от момента формирования научного замысла до его практической реализации и использования. Преодолением сложившейся ситуации может быть создание единого открытого информационного фонда, учитывающего непубликуемые научные исследования и разработки.
При этом, как было сказано ранее, создание подобного фонда сопряжено с проблемой интеграции данных, получаемых при взаимодействии с различными источниками. Отсутствие взаимосвязи между атрибутами учитываемых объектов, сложности согласования имеющихся сведений с компонентами нормативно-справочной информации (НСИ) вызывают необходимость разработки и реализации методов, алгоритмов и программных средств, повышающих эффективность процессов нечеткого связывания данных и их классификации для структурирования информационных объектов и их дальнейшего координирования, обеспечивая при этом максимальную достоверность получаемых результатов.
Актуальность проблемы создания математического и программного обеспечения вычислительных машин и комплексов для решения задачи интеграции данных подтверждают исследования широкого круга как отечественных авторов, например — А.М. Федотова, В.Б. Барахнина, А.Б. Антопольского, В.А. Серебрякова, А.Е. Пинжина, В.А. Зелепухиной и пр., так и зарубежных, например — Ivan P. Feleggi, Alan B. Sunter, William Е. Winkler, Alvaro
E. Monge, Charles P. Elkan, Jeremy A. Hylton, William W. Cohen, Stephen E. Fienberg, Mikhail Y Bilenko, Raymond J. Mooney и др.
Таким образом, важным и актуальным является решение новой научной задачи, а именно разработки методов, алгоритмов и программных средств интеграции атрибутивных данных информационных объектов.
Целью диссертационной работы является повышение качества обработки и структурирования атрибутивных данных информационных объектов путем создания и применения математического и программного обеспечения программно-вычислительного комплекса для решения задачи интеграции данных.
Достижение указанной цели предполагает решение следующего ряда задач:
1. Проведение анализа существующих методов и алгоритмов интеграции данных и формулирование требований к разрабатываемым алгоритмам для достижения вышеуказанной цели.
2. Выполнение исследования предметной области функционирования библиотечно-информационных органов Российской Федерации в части государственной регистрации, учета, анализа и предоставления научному сообществу сведений о непубликуемых результатах научно-технической деятельности.
3. Разработку алгоритма связывания данных, как инструмента эффективной интеграции атрибутивных данных, накопленных в разрозненных информационных системах, фондах и базах данных.
4. Разработку алгоритма автоматической текстовой классификации, обеспечивающего классификацию текстовых документов, поддерживая возможную вложенность классов принадлежности последних, создавая, таким образом, иерархическую структуру классификаторов.
5. Разработку программных средств, обеспечивающих функционирование указанных алгоритмов и реализующих математическое и программное
обеспечение программно-вычислительного комплекса, повышающего эффективность процессов нечеткого связывания данных и текстовой классификации при организации взаимодействия программных систем.
6. Апробирование разработанных алгоритмов для решения задачи интеграции сведений об объектах учета непубликуемых результатов научно-технической деятельности в государственном информационном фонде непубликуемых РНТД.
Объектом исследования настоящей работы являются программно-вычислительные комплексы, как средство решения задачи интеграции атрибутивных данных информационных объектов.
Предмет исследования работы определен паспортом специальности 05.13.11, областями исследований: №3 — «Модели, методы, алгоритмы, языки и программные инструменты для организации взаимодействия программ и программных систем», и №9 — «Модели, методы, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных», а также перечнем задач, решаемых в диссертации.
Методы исследования настоящей работы включают в себя принципы нечеткого связывания данных и классификации, а также теории алгоритмов оптимизации, эволюционного моделирования и параллельных вычислений.
Научная новизна заключается в том, что:
1. Разработан алгоритм связывания данных, как инструмент эффективной интеграции атрибутивных данных, накопленных в разрозненных информационных системах, фондах и базах данных. При реализации алгоритма были впервые получены:
1.1 адаптивная мера подобия записей (АМПЗ), представляющая собой вариант меры подобия записей, дающая количественную оценку близости пары текстовых записей;
1.2 новый гибридный стохастический алгоритм глобальной оптимизации функций многих переменных на основе алгоритма M-PCA, обеспечивающий приближенное нахождение глобального экстремума, а также применение первого в качестве алгоритма машинного обучения для оптимизации АМПЗ;
1.3 метод параллельной реализации гибридного стохастического алгоритма глобальной оптимизации, обеспечивающий рост производительности за счет выполнения алгоритма в масштабируемой распределенной вычислительной среде.
2. Разработан алгоритм автоматической классификации текстовых документов, поддерживающий возможную вложенность классов принадлежности последних. Предложенная реализация подразумевает выполнение указанного алгоритма в распределенной вычислительной среде, что обеспечивает эффективное использование вычислительных ресурсов при реализации процессов обработки текстовой информации, обучения и классификации.
Практическая значимость заключается в том, что:
1. Разработанные методы и алгоритмы не зависят от предметной области и могут быть использованы в составе разработанного программно-вычислительного комплекса как средства повышения эффективности процессов обработки информации в части решения задачи интеграции атрибутивных данных информационных объектов при организации взаимодействия программных систем.
2. Программно-вычислительный комплекс был использован с целью повышения качества структурирования сведений об объектах учета непубликуемых результатов научно-технической деятельности в государственном информационном фонде.
3. Практическая значимость выполненных работ подтверждена правом на интеллектуальную собственность полученных результатов свидетельствами о госрегистрации в Роспатенте №2013621434 от 15 ноября 2013 г., №2013621439 от 18 ноября 2013 г., №2013621469 от 27 ноября 2013 г., №2018665831 от 11 декабря 2018 г., а также Актом о внедрении результатов диссертации во ФГАНУ ЦИТиС от 05 марта 2019 г., применение которых позволило повысить качество структурирования сведений о непубликуемых РНТД.
Положения, выносимые на защиту:
1. Алгоритм связывания данных, как инструмент эффективной интеграции атрибутивных данных, накопленных в разрозненных информационных системах, фондах и базах данных.
2. Новый гибридный стохастический алгоритм глобальной оптимизации функций многих переменных на основе алгоритма М-РСА для настройки эвристического решающего правила алгоритма связывания данных.
3. Метод параллельной реализации гибридного стохастического алгоритма глобальной оптимизации, обеспечивающий рост производительности за счет выполнения последнего в распределенной вычислительной среде.
4. Алгоритм автоматической текстовой классификации, подразумевающий свое выполнение в распределенной вычислительной среде и обеспечивающий классификацию текстовых документов, поддерживая возможную вложенность классов принадлежности последних, создавая, таким образом, иерархическую структуру классификаторов.
5. Программные средства, обеспечивающие функционирование выносимых на защиту методов и алгоритмов.
Степень достоверности исследования обеспечивается корректностью применения существующих подходов к разработке новых методов и алгоритмов интеграции данных, доказанностью полученных в работе теоретических выводов и их подтверждением экспериментальными данными, а также наличием акта о внедрении результатов диссертационного исследования, предоставленным
ФГАНУ ЦИТиС и свидетельствами о госрегистрации баз данных и программы для ЭВМ.
Апробация результатов
Теоретические и практические результаты, полученные в настоящей работе, докладывались и обсуждались на семинарах по контролю над учетом сведений о непубликуемых РНТД. Семинары проводились 17 и 19 октября 2017 года на площадке ФГАНУ ЦИТиС (Письма Министерства образования и науки РФ №141687 от 28 сентября 2017 г. и №ГТ-1255/14 от 2 октября 2017 г.). В них приняли участие около 300 представителей из 106 подведомственных организаций Министерства образования и науки Российской Федерации и 71 федерального органа исполнительной власти и их подведомственных организаций.
Апробация результатов диссертационной работы была проведена на заседании Ученого совета ФГАНУ ЦИТиС (Протокол Ц-56/15.18 от 15.11.2018).
Публикации
По материалам диссертационной работы были опубликованы 12 работ. Из них 8 в изданиях, рекомендованных ВАК РФ, одна из которых входит в перечень индексируемых Web of Science, 3 свидетельства о регистрации базы данных и 1 свидетельство о регистрации программы для ЭВМ.
Личный вклад автора
Вклад состоит в проектировании, разработке и программной реализации методов, алгоритмов и программных средств интеграции атрибутивных данных информационных объектов.
Структура и объем работы
Диссертационная работа состоит из введения, трех глав, заключения, отиска сокращений и условных обозначений, списка литературы, включающего 107 наименований, и двух приложений. Общий объем работы составил 147 страниц текста, в том числе 36 рисунков и 17 таблиц.
В первой главе «Анализ предметной области и алгоритмов интеграции атрибутивных данных информационных объектов» проведен анализ современного состояния предметной области функционирования библиотечно-информационных органов Российской Федерации в части государственной регистрации, учета, анализа и предоставления научному сообществу открытых непубликуемых источников научной и технической информации; показаны объекты учета непубликуемых РНТД, как пример информационных объектов, а также основные технологические процессы, регламентирующие этапы их жизненного цикла. Анализ показал, что в настоящий момент данные о непубликуемых РНТД хранятся в разрозненных и морально устаревших информационных ресурсах, поступающие и хранящиеся сведения зачастую дублируются вследствие необходимости поставщикам информации заполнять близкие по смыслу учетные формы, отсутствуют или устарели компоненты НСИ для структурирования данных.
Показана структурная схема информационной системы ЕГИСУ НИОКТР — системы, призванной консолидировать в рамках единого информационного пространства все сведения фонда непубликуемых РНТД и предоставлять инструментарий для получения актуальных аналитических данных об аккумулируемой информации.
Показана необходимость и актуальность разработки математического и программного обеспечения программно-вычислительного комплекса, организующего взаимодействие программных систем в части решения задачи интеграции атрибутивных данных информационных объектов.
Проведен анализ существующих подходов и алгоритмов для решения задачи интеграции атрибутивных данных с целью повышения качества обработки и структурирования интегрируемых сведений, минимизации их возможного дублирования, повышения степени согласованности данных с компонентами НСИ, улучшения качества рубрицирования. Из анализа следует, что указанные алгоритмы обладают недостатками, использование их для решения указанной задачи интеграции данных без внесения существенных изменений
затруднительно. В этой связи, разработка и реализация методов, алгоритмов и программных средств интеграции атрибутивных данных, а также их развитие и совершенствование является актуальной и важной задачей.
Вторая глава «Разработка методов и алгоритмов интеграции атрибутивных данных и их программная реализация» посвящена проблеме разработки методов, алгоритмов и программных средств, являющихся основой программно-вычислительного комплекса для решения задачи интеграции атрибутивных данных информационных объектов.
Разработан и апробирован алгоритм связывания данных, в основе которого лежит вариант адаптивной меры подобия записей (АМПЗ). Оптимизация АМПЗ для решения задачи связывания данных осуществляется алгоритмом машинного обучения. Подход по оценке адекватности АМПЗ при связывании данных производится за счет введения и автоматизированного подбора алгоритмом машинного обучения значений пороговых величин. Последнее достигается за счет введенной в работе функции приспособленности, представляющей собой модификацию статистической метрики. Предложенный алгоритм связывания данных продемонстрировал свою эффективность при интеграции архивной информации и может быть использован как одно из средств нечеткого сопоставления данных.
Разработан новый гибридный алгоритм глобальной оптимизации, основанный на стохастическом алгоритме M-PCA. Указанный алгоритм был использован в качестве алгоритма машинного обучения для настройки АМПЗ. Проведенная на ряде функций многих переменных проверка эффективности полученного гибридного алгоритма показала большую универсальность последнего по сравнению с каноническим алгоритмом M-PCA, а также с двумя другими широко известными алгоритмами глобальной оптимизации — алгоритмом роя частиц и алгоритмом дифференциальной эволюции.
Разработан метод параллельной реализации гибридного стохастического алгоритма глобальной оптимизации для обеспечения гибкого масштабирования на имеющиеся вычислительные ресурсы. Его программный вариант основан на
модели MapReduce, обеспечиваемой фреймворком распределенных вычислений Apache Spark. Проанализированы зависимости времени исполнения алгоритма от количества субпопуляций его поисковых агентов, а также времени исполнения алгоритма от количества задействованных в кластере ядер при фиксированном количестве субпопуляций. Экспериментально показано, что для эффективного использования вычислительных ресурсов количество субпопуляций алгоритма оптимизации должно быть кратно числу ядер кластера.
Разработан алгоритм автоматической текстовой классификации. Алгоритм обеспечивает классификацию текстовых документов, поддерживая возможную вложенность классов принадлежности последних, создавая, таким образом, иерархическую структуру классификаторов. В качестве классификатора использовался вероятностный наивный байесовский классификатор. Для обеспечения эффективного использования вычислительных ресурсов программная реализация указанного алгоритма также выполнена с использованием механизмов фреймворка распределенных вычислений Apache Spark.
Для обеспечения функционирования представленных методов и алгоритмов были разработаны программные средства, совокупность которых реализует математическое и программное обеспечение единого программно-вычислительного комплекса, повышающего эффективность процессов нечеткого связывания данных и текстовой классификации при организации взаимодействия программных систем.
В третьей главе «Апробация разработанных методов, алгоритмов и программных средств интеграции атрибутивных данных в государственном информационном фонде непубликуемых РНТД» показаны результаты апробации разработанных методов и алгоритмов как основы программно-вычислительного комплекса на примере решения задачи интеграции атрибутивных данных объектов учета непубликуемых РНТД из различных информационных ресурсов. Приведены статистические данные по произведенной интеграции ретроспективных сведений с помощью указанного программно-
вычислительного комплекса. Показано функционирование некоторых интерактивных сервисов информационной системы ЕГИСУ НИОКТР для обеспечения мониторинга сведений в фонде непубликуемых РНТД. Кроме того, демонстрируется возможность получения специфических показателей РНТД в различных разрезах в базе данных фонда непубликуемых РНТД на основе пользовательских запросов. Приведенные в терминах реляционной алгебры возможные запросы реализуются функционалом системы посредством СУБД и наглядно визуализируются для экспертов и аналитиков, осуществляющих изучение ситуаций в области РНТД для принятия дальнейших управленческих решений. Реализация указанных сервисов стала возможной благодаря применению указанного программно-вычислительного комплекса, позволившего повысить качество структурирования сведений об объектах учета непубликуемых РНТД, обеспечить полноту и непротиворечивость аккумулируемой информации.
Благодарности
Настоящая работа выполнена в Федеральном государственном автономном научном учреждении «Центр информационных технологий и систем органов исполнительной власти» (ФГАНУ ЦИТиС). Автор выражает глубокую благодарность Президенту ФГАНУ ЦИТиС — Заслуженному деятелю науки и техники РФ, доктору технических наук, профессору А.В. Старовойтову и Директору ФГАНУ ЦИТиС П.П. Старикову за предоставленную возможность выполнения работы, заместителю Директора по научной работе ФГАНУ ЦИТиС — доктору физико-математических наук В.М. Симонову за помощь в организации научной работы, Заслуженному деятелю науки и техники РФ, доктору технических наук, профессору, главному научному сотруднику ФГАНУ ЦИТиС Ю.Б. Михайлову и доктору экономических наук, профессору, главному научному сотруднику ФГАНУ ЦИТиС О.М. Юню за ценные рекомендации при подготовке работы, и своему научному руководителю, Лауреату Премии Правительства РФ в области науки и техники, кандидату технических наук О.Н. Пошатаеву за большую помощь и поддержку.
ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И АЛГОРИТМОВ ИНТЕГРАЦИИ АТРИБУТИВНЫХ ДАННЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ
1.1 Современное состояние предметной области функционирования библиотечно-информационных органов Российской Федерации
В настоящее время, в век стремительного развития технологий, все большую ценность представляет возможность получения и грамотного использования информации. Очевидно, что только на основе имеющихся достоверных и актуальных данных возможно эффективное управление человеческими, материальными и другими ресурсами для принятия оптимальных и своевременных решений в областях стратегического значения, будь то образование, медицина или промышленность. Действительно, любому эксперту для принятия решения необходимо опираться на многоаспектные данные по исследуемой проблематике. Качество информации напрямую зависит от организации хранения данных [2]; от того как сведения соотносятся со справочниками и классификаторами, предоставленными экспертным сообществом. Структурированные данные, в свою очередь, дают возможность эксперту исследовать проблематику с разных сторон, в зависимости от множества факторов, выделять наиболее важные области, строить прогнозы развития той или иной ситуации, реализовывать предложения по корректировке необходимых параметров.
В то же время, понятно, что поставщикам информации, а также экспертам, занимающимся исследованием некоторой проблематики, совсем необязательно быть специалистами в области информационных технологий и, в этой связи, помимо грамотного структурирования аккумулируемых сведений для осуществления эффективной работы очень важно предоставлять инструменты, которые можно использовать интуитивно, без применения специальных знаний. Таким образом, повышение эффективности принятия решений во многом также зависит от удобства инструментов, применяемых для решения проблемы.
Актуальным и важным примером необходимости реализации вышесказанного является сфера научных исследований и разработок. Нельзя не отметить, что учет, структурированное представление, мониторинг и анализ знаний, сосредоточенных в информационных научных материалах, является основой для создания и развития предметных областей, а также для принятия управленческих решений в различных родах человеческой деятельности. При этом, говоря о научных материалах, необходимо сразу указать на их разделение по принципу публикуемости и непубликуемости. Под публикуемыми научными материалами понимаются научные издания, материалы научных конференций, симпозиумов, семинаров, а также монографии и сборники. К непубликуемым материалам относятся отчеты по НИОКТР, диссертации, депонированные рукописи, описания алгоритмов и программ, патенты, отчетная научно-техническая документация, репринты, архивные документы и т д.
В последние годы активное развитие получило создание и развитие информационных ресурсов, учитывающих и предоставляющих сообществу публикуемые научные материалы. Например, широко известна электронная библиотека ELibrary.ru, содержащая около 14 млн. научных статей более чем из 2500 тыс. журналов. Библиотека имеет собственный индекс цитирования (РИНЦ) — библиографическую базу данных, с помощью которой есть возможность получения информации о цитируемости статей и журналов. Доступ к материалам предоставляется, в основном, по подписке. Альтернативным ресурсом является КиберЛенинка, построенная на концепции «Открытой науки», согласно которой распространение знаний осуществляется по модели открытого доступа, обеспечивая бесплатный оперативный полнотекстовый доступ к научным публикациям, которые в зависимости от договорённостей с правообладателем размещаются по открытой лицензии Creative Commons Attribution (CC BY). Важной особенностью КиберЛенинки является ее интеграция с системой GoogleScholar, что значительно повышает популярность размещаемых в КиберЛенинке научных статей [3]. Также нельзя не упомянуть масштабный проект Министерства культуры РФ, получивший название Национальной
Электронной Библиотеки (НЭБ), построенный на основе Российской Государственной Библиотеки (РГБ).
Необходимо отметить, что поставщики информации сами заинтересованы в размещении публикуемых материалов, поскольку количество научных работ, их качество, определяемое, например, цитируемостью, позволяет поставщикам информации фиксировать научный приоритет и повышать востребованность публикуемых работ. Говоря о непубликуемых материалах, заинтересованной стороной в их учете, анализе и оценке качества является государство. Государственное финансирование научных и конструкторских школ порождает обязательность контроля качества появляющихся результатов исследований и разработок, а также возможность их дальнейшего применения и коммерциализации. В этой связи, возникает необходимость в возможности не просто агрегировать и предоставлять сведения о непубликуемых РНТД, но и обеспечивать контроль за осуществлением полного жизненного цикла исследований и разработок, начиная от возникновения научного замысла и заканчивая конкретными случаями использования полученных результатов. Таким образом, для обеспечения вышесказанного актуальной и важной задачей является создание единого информационного фонда, и, как следствие, информационной системы, на базе которой появилась бы возможность построения сервисов анализа, мониторинга и прогнозирования в сфере непубликуемых РНТД для обеспечения поддержки принятия управленческих решений.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Эволюционные алгоритмы моделирования и оптимизации сложных систем2004 год, кандидат технических наук Сопов, Евгений Александрович
Модель и алгоритмы интегрированной обработки и анализа пространственной и атрибутивной информации в муниципальных ГИС для поддержки принятия управленческих решений2012 год, кандидат технических наук Соколов, Михаил Сергеевич
Параллельная система тематической текстовой классификации на основе метода опорных векторов2012 год, кандидат технических наук Пескишева, Татьяна Анатольевна
Синтез и анализ непараметрических коллективов решающих правил2004 год, доктор технических наук Лапко, Василий Александрович
Моделирование движения объекта по сложной траектории с обнаружением изменения и идентификацией режимов движения2022 год, кандидат наук Голубков Алексей Владимирович
Список литературы диссертационного исследования кандидат наук Съедин Дмитрий Юрьевич, 2019 год
Список литературы
1. Минкомсвязь России. Государственная программа «Информационное общество» (2011-2020 годы). [Электронный ресурс]. - 2017. - Режим доступа: http://mmsvyaz.m/rn/activity/programs/1/ [Дата обращения: 07.05.2018].
2. Липунцов Ю.П. Технологии организации хранения открытых связанных данных и использование их в образовании. [Электронный ресурс]. - 2012. -Режим доступа: https://cyberleninka.ru/article/v/tehnologii-organizatsii-hraneniya-otkrytyh-svyazannyh-dannyh-i-ispolzovanie-ih-v-obrazovanii [Дата обращения: 12.03.2017].
3. Семячкин Д.А., Кисляк Е.В., Сергеев М.А. Научные электронные библиотеки: актуальные задачи и современные пути их решения. // Научная периодика: проблемы и решения. - 2013. - Т.3, №2. - С.20-29.
4. АСИНИТ - Автоматизированная система информации по науке и технике по непубликуемым источникам. - М.: ВНТИЦентр, 1977. - 2c.
5. Бастрыкин А.М., Павлов Л.П. Системы организации управления информационными ресурсами в сфере научной и технической информации: российский и зарубежный опыт. // Информатизация и связь. - 2009. - №1. - С.74-80.
6. Борзых А.Н. Развитие единой государственной информационной системы учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения (ЕГИСУ НИОКТР). // Информатизация и связь. - 2011. - №6. - С.40-41.
7. Пошатаев О.Н., Съедин Д.Ю. Особенности подходов к реализации современных экспертно-аналитических систем. // Информатизация и связь. - 2013. - №3. - С.82-83.
8. Tina Lee Y. Information modeling: from design to implementation. [Электронный ресурс]. - 1999. - Режим доступа:
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=73D0A7F36B3DB33DA361F 2604EB8DBE2?doi=10.1.1.115.4007&rep=rep1&type=pdf [Дата обращения: 15.03.2018].
9. Павлов Л.П. Серая литература как источник научной и технической информации. [Электронный ресурс]. - 2016. - Режим доступа: http://www.gpntb.ru/libcom15/tezis/001.pdf [Дата обращения: 13.03.2018].
10. Постановление Правительства Российской Федерации от 12.04.2013 №327 «О единой государственной информационной системе учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения».
11. Федеральный закон от 27.09.2013 N 253-ФЗ «О Российской академии наук, реорганизации государственных академий наук и внесении изменений в отдельные законодательные акты Российской Федерации».
12. Федеральный закон от 13.07.2015 N 270-ФЗ «О внесении изменений в Федеральный закон «О науке и государственной научно-технической политике» в части совершенствования финансовых инструментов и механизмов поддержки научной и научно-технической деятельности в Российской Федерации».
13. Федеральный закон от 29.12.1994 N 77-ФЗ «Об обязательном экземпляре документов».
14. Приказ Минобрнауки Российской Федерации от 21.10.2013 N 1168 «Об утверждении форм направления сведений о научно-исследовательских, опытно-конструкторских и технологических работах гражданского назначения в целях их учета в единой государственной информационной системе учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения и требований к заполнению указанных форм, а также порядка подтверждения главными распорядителями бюджетных средств, осуществляющими финансовое обеспечение научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения и
выполняющими функции заказчика таких работ, соответствия сведений об указанных работах, внесенных в единую государственную информационную систему учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения, условиям государственных контрактов на выполнение научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения».
15. Приказ Минобрнауки Российской Федерации от 31.03.2016 N 341 «Об утверждении форм направления сведений о научно-исследовательских, опытно-конструкторских и технологических работах гражданского назначения в целях их учета в единой государственной информационной системе учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения, требований к заполнению указанных форм, порядка подтверждения главными распорядителями бюджетных средств, осуществляющими финансовое обеспечение научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения, условиям государственных контрактов на выполнение научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения».
16. Задорожный К.А., Дубицкий К.А., Съедин Д.Ю. Архивные материалы по непубликуемым документам РФ. М.: Роспатент, 2013. Госрегистрация №2013621469 от 27.11.2013.
17. Задорожный К.А., Дубицкий К.А., Съедин Д.Ю. Реестр непубликуемых документов РФ, экспортируемых для международного сообщества. М.: Роспатент, 2013. Госрегистрация №2013621439 от 18.11.2013.
18. Задорожный К.А., Дубицкий К.А., Съедин Д.Ю. Метаданные непубликуемых документов РФ. М.: Роспатент, 2013. Госрегистрация №2013621434 от 15.11.2013.
19. Буч Г., Якобсон А., Рамбо Дж. ЦМ^ Классика CS.— СПб.: Питер, 2006. — 736 с.
20. Государственный рубрикатор научно-технической информации ГРНТИ. [Электронный ресурс]. - Режим доступа: http : //research.ifmo .ru/fîle/stat/106/go sudarstvennyy_rubrikator_nauchno-tehnichenskoy_informacii.pdf [Дата обращения: 07.05.2018].
21. Жижимов О.Л. Корпоративный каталог СО РАН. / Жижимов О.Л., Турпанов А.А., Федотов A.M. // Труды Восьмой всероссийской научной конференции «Электронные библиотеки: перспективные алгоритмы и технологии, электронные коллекции». - Ярославль. - 2006. - С.226-230.
22. Бездушный А.А. Предложения по наборам метаданных для научных информационных ресурсов ЕНИП РАН. / Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Калёнов Н.Е., Кулагин М.В., Серебряков В.А. // Труды Шестой всероссийской научной конференции «Электронные библиотеки: перспективные алгоритмы и технологии, электронные коллекции». - Пущино. - 2004. - С.277-284.
23. Рубцов Д. Н., Барахнин В. Б. Выявление дубликатов в разнородных библиографических источниках. // Вестник НГУ Серия: Информационные технологии. - 2009. - Т. 7., Вып. 3. - С.86-93.
24. Андреев А.М. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. / Андреев А.М., Березкин Д.В., Морозов В.В., Симаков К.В. // Труды пятой всероссийской научной конференции «Электронные библиотеки: перспективные алгоритмы и технологии, электронные коллекции» (RCDL'2003) - Санкт-Петербург. - 2003. -С.140-149.
25. Newcombe H., Kennedy J., Axford S.J., James A.P. Automatic linkage of vital records. // Science. - 1959. - Vol. 130, №3381. - Pp.954-959.
26. Fellegi I.P., Sunter A.B. A theory for record linkage. // Journal of the American Statistical Association. - 1969. - Vol. 64, №328. - Pp.1183-1210.
27. Шорин О.Н. Методы и алгоритмы интеграции большого объема библиографических записей в открытое семантическое пространство. : дис. ... канд.тех.наук : 05.13.11 / Шорин Олег Николаевич. — М., 2017. — 48 с.
28. Mark P.J. van der Loo. The stringdist package for approximate string matching. // The R Journal. - 2014. - Vol. 6, №1. - Pp.111-122.
29. Monge A.E. The field matching problem: Algorithms and applications. / Monge A.E., Elkan C.R. // Proc. 2nd Int. conf. on knowledge discovery and data mining (KDD-96). - Portland, USA. - 1996. - Pp.267-270.
30. Deepjot K., Navjot K. A Review: An Efficient Review of Phonetics Algorithms. // International Journal of Computer Science & Engineering Technology (IJCSET). - 2013. - Vol. 4, №5. - Pp.506-508.
31. Recchia G., Louwerse M. A Comparison of String Similarity Measures for Toponym Matching. [Электронный ресурс]. - 2013. - Режим доступа: http://stko.geog.ucsb.edu/comp2013/comp2013_submission_2.pdf [Дата обращения: 15.03.2018].
32. Cohen W. A comparison of string distance metrics for name-matching tasks. / Cohen W., Ravikumar P., Fienberg S. // Proceedings of IJCAI-03 Workshop on Information Integration. - 2003. - Pp.73-78.
33. Kessler B. Phonetic comparison algorithms. // Transactions of the Philological Society. - 2005. - Vol. 103, №2. - Pp.243-260.
34. Camacho D., Huerta R., Elkan C. An Evolutionary Hybrid Distance for Duplicate String Matching. [Электронный ресурс]. - 2008. - Режим доступа: http: //arantxa.ii .uam. es/~dcamacho/StringDistance/hybrid-distance.pdf. [Дата обращения: 15.03.2018].
35. Bilenko M. Learnable similarity functions and their application to record linkage and clustering: dissertation for the degree of DPh / Mikhail Yuryevich Bilenko;
Univ. of Texas. - Austin, 2006. - 136 p. - The electronic version of print, publ. - Access from ProQuest Dissertations and Theses. - Title from the screen.
36. Volz J. Silk. A link discovery framework for the web of data. [Электронный ресурс]. - 2009. - Режим доступа: http://events.linkeddata.org/ldow2009/papers/ldow2009_paper13.pdf. [Дата обращения: 21.02.2018].
37. Talburt J. Entity resolution and information quality.- San Francisco : Elsevier, 2011. - 256 p.
38. Bachteler Т. Merge ToolBox - MTB. Getting Started. [Электронный ресурс]. - 2012. - Режим доступа: https://www.uni-due.de/~hq0215/documents/mtb_gettingstarted.pdf. [Дата обращения: 02.03.2018].
39. Christen P. Febrl - Freely extensible biomedical record linkage. [Электронный ресурс]. - 2003. - Режим доступа: http://users.cecs.anu.edu.au/~Peter.Christen/Febrl/febrl-0.2.2/febrldoc-0.2.2.pdf. [Дата обращения: 02.03.2018].
40. Jurczyk P. FRIL: A Tool for Comparative Record Linkage. [Электронный ресурс]. - 2008. - Режим доступа: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656092/. [Дата обращения: 03.03.2018].
41. Князева А.А. Автоматическое связывание документов. / Князева А.А., Турчановский И.Ю., Колобов О.С. // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные алгоритмы и технологии, электронные коллекции» (RCDL-2012). - Переславль-Залесский. - 2012. - С.360-369.
42. Goutte C. A Probabilistic Interpretation of Precision, Recall and F-score, with Implication for Evaluation. / Goutte C., Gaussier E // Proceedings of the European Colloquium on IR Resarch (ECIR'05). - 2005. - Vol. 3408. - Pp.345-359.
43. Sebastiani F. Machine learning in automated text categorization / Sebastiani F. // ACM Computing Surveys. - 2002. - 34(1). - Pp.1-47.
44. Korenius T. Stemming and Lemmatization in the Clustering of Finnish Text Documents. / Korenius T., Laurikkala J. // International Conference on Information and Knowledge Management. - Tampere, Finland. - 2004. - Pp.625-633.
45. Dolamic L., Savoy J. Stemming Approaches for East European Languages. // Lecture Notes in Computer Science. - 2007. - Vol. 5152. - Pp.37-44.
46. Епрев А.С. Автоматическая классификация текстовых документов. // Математические структуры и моделирование. - 2010. - Вып. 21. - С.65-81.
47. Ramos J. Using TF-IDF to Determine Word Relevance in Document Queries. [Электронный ресурс]. - 2003. - Режим доступа: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=p df. [Дата обращения: 10.09.2017].
48. Батура Т.В. Алгоритмы автоматической классификации текстов. // Программные продукты и системы. - 2017. - T.30, №1. - C.85-99.
49. Mozina M. Nomograms for Visualization of Naive Bayesian Classifier. / Mozina M., Demsar J., Kattan M., Zupan B. // Proceedings of 8th European Conference on Principles and Practice of Knowledge Discovery in Databases. - Pisa, Italy. - 2004. - Pp.337-348.
50. Domingos P., Pazzani M. Beyond independence: conditions for the optimality of the simple Bayesian classifier. / Domingos P., Pazzani M. // Proceedings of the 13th International Conference on Machine Learning. - Bari, Italy. - 1996. - Pp.105-112.
51. Kataria A., Singh M.D. A review of data classification using k-nearest neighbour algorithm. // Int. J. Emerg. Technol. Adv. Eng. - 2013. - Vol.3, №6. -Pp.354-360.
52. Cortes C., Vapnik V. Support Vector networks. // Machine Learning. - 1995. -Vol.20. - Pp.273-297.
53. Пескишева Т.А., Котельников Е.В. Параллельная реализация алгоритма обучения системы текстовой классификации. // Вестник УГАТУ Серия управление, вычислительная техника и информатика. - 2011. - №5 (45). - C.130-136.
54. Федотов Д.В., Семенкин Е.С. О прогнозировании экономических показателей с помощью нейроэволюционных моделей // Вестник СибГАУ Вып. 5(57). 2014. С.284-290.
55. Tarasov D.S. Deep recurrent neural networks for multiple language aspect-based sentiment analysis. / Tarasov D.S. // Computational Linguistics and Intellectual Technologies. In Proc. Annual Intern. Conf. «Dialogue-2015». - Moscow. - 2015. -Pp.65-74.
56. Пошатаев О.Н., Съедин Д.Ю. Информационная система ЕГИСУ НИОКТР, как инструмент мониторинга и анализа работ в научно-технической сфере. // Информатизация и связь. - 2016. - №4. - С.46-52.
57. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. // Докл. Академии Наук СССР. - 1965. - Т. 163, № 4. - С. 845-848.
58. Winkler W. The state of record linkage and current research problems. / Winkler W. // Statistical Society of Canada, Proceedings of the Section on Survey Methods. - Regina, Canada. - 1999. - Pp.73-79.
59. Niwattanakul S. Using of Jaccard Coefficient for Keywords Similarity / Niwattanakul S., Singthongchai J., Naenudorn E., Wanapu S. // Proceedings of the International MultiConference of Engineers and Computer Scientists, Vol I. - Hong Kong, China. - 2013. - Pp.13-15.
60. Jimenez S. Generalized Mongue-Elkan Method for Approximate Text String Comparison. / Jimenez S., Becerra C., Gelbukh A., Gonzalez F. // Proceedings of 10th International Conference on Intelligent Text Processing and Computational Linguistics.
- Mexico City, Mexico. - 2009. - Pp.559-570.
61. Съедин Д.Ю. Разработка и реализация алгоритма связывания данных в государственной информационной системе гражданского назначения. // Научно-техническая информация. Серия 2. Информационные процессы и системы. - 2018.
- №7. - С.32-39.
62. Старовойтов А.В., Бетин В.Н., Лукьянов С.Э., Супрун А.П. Извлечение новых знаний в интеллектуальной системе поддержки принятия решений ситуационного центра, построенной на базе сетей функциональных нейронов. // Информатизация и связь. - 2014. - № 4. - С.6-11.
63. Бетин В.Н., Лукьянов С.Э., Супрун А.П. Оптимизация алгоритмов поиска решения в системах поддержки принятия решений, реализованных в формализме функциональных нейронных сетей. // Информатизация и связь. -2016. - № 4. - C.37-45.
64. Sacco W.F. A new stochastic optimization algorithm based on particle collisions. / Sacco W.F., de Oliveira C.R.E. // Proceedings of the 2005 ANS Annual Meeting. Transactions of the American Nuclear Society. - San Diego, USA. - 2005. -Pp.657-659.
65. da Luz E.F.P., Beccener J.C. A new multi-particle collision algorithm for optimization in a high performance environment. // Journal of Computational Interdisciplinary Sciences. - 2008. - Pp.3-10.
66. Сулимов В.Д., Шкапов П.М. Применение гибридных алгоритмов глобальной оптимизации к экстремальным задачам для гидромеханических систем. // Наука и образование (МГТУ им. Н.Э. Баумана). - 2013. - №11. - С. 141158.
67. Metropolis E., Rosenbluth A.W., Rosenbluth M.N., Teller A.H. Equation of State Calculations by Fast Computing Machines. // The Journal of chemical physics. -1953. - Vol. 21, №6. - Pp.1087-1092.
68. Сулимов В.Д., Шкапов П.М., Носачёв С.К. Локальный поиск алгоритмом Хука-Дживса в гибридном алгоритме глобальной оптимизации. // Наука и образование (МГТУ им. Н.Э. Баумана). - 2014. - №5. - С.107-123.
69. Курейчик В.В., Курейчик В.М., Родзин С.И. Теория эволюционных вычислений.- М.: Физматлит, 2012.- 260 с.
70. Смирнов А.В., Хабибулин Р.Ш., Тараканов Д.В. Применение многоагентного подхода для поддержки управления безопасностью в техносфере // Вестник Иркутского государственного технического университета. - 2018. - Т. 22, № 1. - С. 118-133.
71. Kennedy, J. Particle Swarm Optimization. / Kennedy, J.; Eberhart, R. // Proceedings of IEEE International Conference on Neural Networks, Vol. IV. - Perth, Australia. - 1995. - Pp.1942-1948.
72. Clerc M. Standard Particle Swarm Optimisation. From 2006 to 2011 [Электронный ресурс]. - 2011. - Режим доступа: http://clerc.maurice.free.fr/pso/SPSO_descriptions.pdf. [Дата обращения 24.08.2017].
73. Карпенко А.П., Селиверстов Е.Ю. Обзор алгоритмов роя частиц для задачи глобальной оптимизации (Particle Swarm Optimization). [Электронный ресурс]. - 2009. - Режим доступа: http://technomag.edu.ru/doc/116072.html. [Дата обращения 02.03.2015].
74. Gong Y Small-world particle swarm optimization with topology adaptation. / Gong Y, Zhang J. // Proceedings of the 15th annual conference on Genetic and evolutionary computation. - Amsterdam, Netherlands. - 2013. - Pp.25-32.
75. Storn R. Differential Evolution - A Simple and Efficient Heuristic for Global Optimization over Continuous Spaces. // Journal of Global Optimization. - 1997. - Vol. 11. - Pp.341-359.
76. Reid D.J. Genetic algorithms in constrained optimization. // Math. Comput. Modelling. - 1996. - Vol. 23, №5. - Pp.87-111.
77. Tvrdik J. Сompetitive differential evolution and genetic algorithm in GA-DS Toolbox [Электронный ресурс]. - 2006. - Режим доступа: http://dsp.vscht.cz/konference_matlab/MATLAB06/prispevky/tvrdik/tvrdik.pdf. [Дата обращения 22.08.2017].
78. Raidl G.R. A unified view on hybrid metaheuristics. // Lecture Notes in Computer Science. - 2006. - Vol. 4030. - Pp.1-12.
79. Съедин Д.Ю. Новый стохастический гибридный алгоритм глобальной оптимизации на основе алгоритма M-PCA. // Информатизация и связь. - 2017. -№1. - С.143-148.
80. Pirlot M. General local search methods. // European Journal of Operational Research. - 1996. - Vol. 92(3). - Pp.493-511.
81. Rosenbrock H.H. An automatic method for finding the greatest or least value of a function. // Computer Journal. - 1960. - №3. - Pp.175-184.
82. Растригин Л.А. Системы экстремального управления. - М.: Наука, 1974. - 632 с.
83. Yao X., Liu Y, Lin G. Evolutionary Programming Made Faster. // Transactions on Evolutionary Computation. - 1999. - Vol. 3(2). - Pp.82-102.
84. Ackley D. An empirical study of bit vector function optimization. // Genetic Algorithms and Simulated Annealing. - 1987. - Pp.170-204.
85. Laguna M., Marti R. Experimental testing of advanced scatter search designs for global optimization of multimodal functions. [Электронный ресурс]. - 2002. -
Режим доступа: https://www.uv.es/rmarti/paper/docs/global1.pdf. [Дата обращения 14.06.2017].
86. Torres R.H. Rotation-Based Multi-Particle Collision Algorithm with Hooke Jeeves / Torres R.H., de Campos H.F. // Proceeding Series of the Brazilian Society of Computational and Applied Mathematics. - 2017. - Pp.1-7.
87. Карпенко А.П. Параллельные популяционные алгоритмы одно- и многоцелевой оптимизации. / Карпенко А.П. // Труды Международной суперкомпьютерной конференции Российская академия наук Суперкомпьютерный консорциум университетов России. - 2014. - C.240-244.
88. Съедин Д.Ю. Параллельная реализация гибридного стохастического алгоритма глобальной оптимизации, основанного на алгоритме M-PCA. // Информатизация и связь. - 2018. - №1. - С.150-156.
89. Съедин Д.Ю. Программная реализация гибридного стохастического алгоритма глобальной оптимизации функций многих переменных, основанного на алгоритме M-PCA. М.: Роспатент, 2018. Госрегистрация №2018665831 от 11.12.2018.
90. Apache Spark - a fast and general-purpose cluster computing system [Электронный ресурс]. - Режим доступа: https://spark.apache.org/docs/latest/tuning.html. [Дата обращения: 22.10.2017].
91. Fu J., Huang C., Lee S. A Multi-Class SVM Classification System Based on Methods of Self-Learning and Error Filtering. // Expert Systems with Applications: An International Journal. - 2012. - №39. - Pp.3127-3134.
92. Colas F., Brazdil P. Comparison of SVM and Some Older Classification Algorithms in Text Classification Tasks. // Artificial Intelligence in Theory and Practice. IFIP International Federation for Information Processing. - 2006. - Vol. 217. - Pp.169178.
93. Съедин Д.Ю. Разработка механизма автоматической текстовой классификации и алгоритма его реализации. // Информатизация и связь. - 2015. -№4. - С.31-34.
94. Kibriya A.M. Multinomial naive Bayes for text categorization revisited. / Kibriya A.M., Frank E., Pfahringer B., Holmes G. // Proceedings of 17th Australian Joint Conference on Artificial Intelligence. - Cairns, Australia. - 2004. - Pp.488-499.
95. Вентцель Е.С. Теория вероятностей: Учеб. для вузов. - 6-е изд. стер. -М.: Высш. шк., 1999. - 56 с.
96. Oosterhoff J. The likelihood ratio test for the multinomial distribution. / Oosterhoff J., van Zwet W.R. // Proceedings of the 6th Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1: Theory of Statistics. - Berkeley, USA. -1972. - Pp.31-49.
97. Kikuchi M., Yoshida M., Okabe M., Umemura K. Confidence Interval of Probability Estimator of Laplace Smoothing. [Электронный ресурс]. - 2017. - Режим доступа: https://arxiv.org/ftp/arxiv/papers/1709/1709.08314.pdf. [Дата обращения 20.10.2017].
98. Айвазян С.А., Мхитарян В.С. Теория вероятностей и прикладная статистика. Том 1. - М.: Юнити, 2001. - 67с.
99. Съедин Д.Ю. Иерархический механизм автоматической текстовой классификации научных материалов по тематическим рубрикам ГРНТИ в кластерной вычислительной среде. // Информатизация и связь. - 2015. - №4. -С.99-103.
100. Koha R. A Study of CrossValidation and Bootstrap for Accuracy Estimation and Model Selection. / Koha R. // Proceedings of the 14th international joint conference on Artificial intelligence,Vol. 2. - Quebec, Canada. - 1995. - Pp.1137-1143.
101. Указ Президента Российской Федерации от 07.07.2011 N899 «Об утверждении приоритетных направлений развития науки, технологий и техники в
Российской Федерации и перечня критических технологий Российской Федерации».
102. Пошатаев О.Н., Съедин Д.Ю. Модель оценки эффективности научно-исследовательских и опытно-конструкторских работ в государственной информационной системе ЕГИСУ НИОКТР. // Информатизация и связь. - 2014. -№4. - C.6-11.
103. Старовойтов А.В., Бетин В.Н., Лукьянов С.Э., Супрун А.П. Извлечение новых знаний в интеллектуальной системе поддержки принятия решений ситуационного центра, построенной на базе сетей функциональных нейронов // Информатизация и связь. - 2014. - №4. - C.6-11.
104. Бетин В.Н., Лукьянов С.Э., Супрун А.П. Обработка и обобщение знаний в интеллектуальной системе поддержки принятия решений ситуационного центра, построенной на базе сетей функциональных нейронов // Информатизация и связь. - 2013. - №3. - C.10-15.
105. Платформа Сириус - средство программирования на новых принципах. [Электронный ресурс]. - 2012. - Режим доступа: http://old.citis.ru/citis2/projects4.php [Дата обращения: 19.08.2017].
106. Codd E.F. Extending the database relational model to capture more meaning. // ACM Transactions on Database Systems. - 1979. - Vol. 4, №4. - Pp.397-434.
107. Огородова Л.М. Какие условия созданы для использования результатов науки в производстве, и что ещё предстоит сделать в этой области в ближайшее время. [Электронный ресурс]. - 2015. - Режим доступа: https://минобранауки.рф/пресс-центр/7079 [Дата обращения: 13.02.2018].
Приложение 1
Приложение 2
ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ОБРАЗОВАНИЯ И НАУКИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ НАУЧНОЕ УЧРЕЖДЕНИЕ
"Центр информационных технологий и систем органов исполнительной власти" (ФГАНУ ЦИТиС)
ул. Пресненский вал. д 19, стр. 1, Москва, 123557 Тел : +7 (499) 702-81 -20 Факс: +7 (499) 702-82-45 e-mail: crtisWnevni.ru. http://www.citis.ru ОГРН 5087746697528; ИНН/КПП 7703682920/770301001
Г
_ №.
на №
Г
УТВЕРЖДАЮ ЦИТиС, Стариков П.П. 20 г.
АКТ
о внедрении результатов кандидатской диссертационной работы «Методы, алгоритмы и программные средства интеграции атрибутивных данных информационных объектов» Съедина Дмитрия Юрьевича
Результаты диссертационной работы «Методы, алгоритмы и программные средства интеграции атрибутивных данных информационных объектов» Съедина Д.Ю. внедрены в Федеральном государственном автономном научном учреждении «Центр информационных технологий и систем органов исполнительной власти» (ФГАНУ ЦИТиС). Разработанное автором математическое и программное обеспечение программно-вычислительного комплекса позволяет повысить эффективность процессов нечеткого связывания данных и текстовой классификации и может быть использовано как средство интеграции атрибутивных данных при создании информационных систем и баз данных. Апробация полученных методов, алгоритмов и программных средств была успешно проведена при интеграции атрибутивных данных объектов учета непубликуемых результатов научно-
технической деятельности в государственной информационной системе ЕГИСУ НИОКТР.
Результаты, полученные в диссертационной работе Съединым Д.Ю., подтверждаются свидетельствами о государственной регистрации в Роспатенте, а также приказом Министерства образования и науки Российской Федерации №30 от 22 января 2014 г. о вводе государственной информационной системы ЕГИСУ НИОКТР в промышленную эксплуатацию.
Начальник Управления внедрения и адаптации систем управления фондами
научно-технической з
информации (ФНТИ) '/у-''_Задорожный К.А.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.