Модели и методы интеллектуальной обработки математических знаний в информационных системах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Хайдаров Шамиль Махмутович

  • Хайдаров Шамиль Махмутович
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Казанский (Приволжский) федеральный университет»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 141
Хайдаров Шамиль Махмутович. Модели и методы интеллектуальной обработки математических знаний в информационных системах: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Казанский (Приволжский) федеральный университет». 2020. 141 с.

Оглавление диссертации кандидат наук Хайдаров Шамиль Махмутович

Введение

Глава 1. Цифровизация процессов жизненного цикла научных

публикаций

1.1 Модель издательского процесса

1.2 Информационные системы поддержки издательской деятельности

1.3 Open Journal Systems

Выводы по главе

Глава 2. Методы управления математическим контентом

2.1 Форматы представления и хранения математических документов

2.1.1 Особенности представления математического контента

в информационных системах

2.1.2 Метод конвертации математических документов

Выводы по главе

Глава 3. Семантический анализ цифровых научных документов

3.1 Выделение метаданных на основе структурного анализа

3.2 Организация электронного хранилища

3.2.1 Формирование файлов импорта для библиографических и реферативных баз цитирования

3.2.2 Описание структуры документа с использованием онтологий

Выводы по главе

Стр.

Глава 4. Рекомендательные системы классификации

физико-математических документов

4.1 Методы информационного поиска

4.2 Классификация научных документов

4.3 Рекомендательная система подбора индексов УДК для физико-математических документов

4.4 Рекомендательная система подбора рецензентов для научных документов в информационных системах поддержки издательской деятельности

4.4.1 Проблемы организации научного рецензирования

4.4.2 Автоматизация процедуры подбора рецензентов

4.4.3 Алгоритм формирования рекомендаций по подбору рецензентов

Выводы по главе

Заключение

Список литературы

Список рисунков

Приложение А. Свидетельства о регистрации программ для ЭВМ

Приложение Б. Фрагменты кода выделения метаданных

из документов в формате OpenXML

Б.1 Фрагмент PHP-класса предварительной обработки документа

OpenXML

Б.2 Фрагмент PHP-класса выделения основных блоков метаданных

Стр.

Приложение В. Фрагменты кода рекомендательной системы автоматизированного подбора рецензентов в информационной системе OJS

В.1 PHP-класс подключения OJS плагина

В.2 Фрагмент PHP-класса вычисления рекомендаций

В.3 Фрагмент PHP-класса получения MSC кодов из базы данных

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и методы интеллектуальной обработки математических знаний в информационных системах»

Введение

С каждым днем объемы электронных данных возрастают с колоссальной скоростью, а информационно-коммуникационные технологии (ИКТ) используются практически на каждом этапе научно-образовательной деятельности. Повсеместный переход к цифровым технологиям привел к отказу от бумажных носителей как основы документооборота в пользу оцифрованных видов хранения. Происходит переориентация в сторону цифровизации всех типов коммуникации, в том числе, научной. На современном этапе невозможно представить развитие научной мысли без использования информационно-коммуникационных технологий. Электронное представление научных документов стало нормой научной жизни, многие журналы перешли на электронный способ приема материалов, практически все журналы выставляют опубликованные работы в открытый доступ в интернет (см., например, [1—7]).

Таким образом, формируется новая система научной коммуникации, которая, совершенствуя сетевую инфраструктуру, налаживают новую систему сервисов интеграции научной информации. Большинство электронных научных ресурсов также доступно через интернет, благодаря чему эффективность работы с научным материалом имеет более высокий, недоступный ранее, качественный уровень.

При проведении новых исследований стало возможным использование всего корпуса накопленных научных знаний. Последнее предполагает создание комплекса технологий, обеспечивающих оптимальное управление имеющимися знаниями, организацию эффективного доступа к ним, а также совместное и многократное использование новых видов структур знаний. Формируются электронные библиотеки, осуществляется перевод редакционных процессов на всех этапах издания научных журналов в электронную форму (начиная с этапа рецен-

зирования научных статей и заканчивая этапом верстки выпусков журналов и их публикации). Перевод редакционных процессов в электронную форму и размещение журналов в интернете нацелены не только на облегчение/удешевление работ по изданию научных журналов, но и на расширение целевой аудитории, повышение доступности журналов для научного сообщества.

Как известно, большинство современных электронных коллекций научных документов (научные журналы, сборники научных трудов, диссертации, научные отчеты, архивы и др.) представляет собой наборы неструктурированных документов, на базе которых трудно организовать семантический поиск, извлечение метаинформации и различные информационные сервисы. Кроме того, в настоящее время наблюдается значительное увеличение объема данных, включаемых в электронные коллекции, что в свою очередь создает дополнительные трудности при обработке информации. Поэтому в условиях непрерывного роста объёмов, а также многообразия информации сейчас активно развиваются новые подходы, инструменты и методы обработки огромных объёмов данных.

При управлении электронными научными коллекциями больших данных в полной мере остаются актуальными названные, а также появляются новые задачи, в их числе: семантическая разметка, организация поиска, выделение метаданных, формирование тематических кластеров документов, сбор наукометрической информации, подготовка сборников материалов и др. Насущными становятся проблемы анализа и управления данными в различных областях с интенсивным использованием данных. Часть описанных теоретических проблем решена в рамках настоящей работы.

Целями настоящей работы являются исследование, разработка и практическая реализация методов, моделей и комплекса программных инструментов интеллектуальной обработки математических знаний в информационных системах поддержки издательской деятельности, а также развитие программных сред,

обеспечивающих поддержку научной деятельности и её интеграцию в мировое информационное пространство.

Основная задача, решаемая в рамках настоящей работы, состоит в создании комплекса информационных систем, обеспечивающего реализацию спектра семантических сервисов управления цифровыми коллекциями, научными изданиями и информационную поддержку научно-исследовательской деятельности в области математики. Эта задача разбивается на следующее множество подзадач:

1. трансформация цифровых коллекций математических научных документов в цифровые форматы, допускающие применение методов текстовой аналитики, в частности, выделение метаданных (после соответствующей семантической обработки текстовых массивов) электронных версий сборников трудов математических научных изданий;

2. создание методов консолидации и семантического управления разнородными цифровыми математическими коллекциями, а также их интеграции в мировое научно-образовательное пространство;

3. создание для описания семантики связей информационных объектов соответствующих словарей и использование существующих онтологий связей (SPAR, SKOS, CERIF, DoCO и др.);

4. разработка алгоритмов классификации физико-математических документов, а также расширение функциональных возможностей управления данными в рамках издательской информационной системы Open Journal Systems, включающих технологию подбора индексов научно-тематических классификаторов (например, УДК, MSC) и методы автоматизации экспертной оценки научного рецензирования;

5. демонстрация возможностей программной реализации предложенных моделей, методов и алгоритмов.

Объектом исследования диссертации являются информационные издательские системы в аспекте автоматизации происходящих в них процессов.

В качестве предмета исследования в работе выступают формирование комплекса методов и моделей интеллектуальной обработки математических знаний, а также их программная реализация.

Методология и методы исследования. В работе применяются методы анализа текстов на естественном языке, методы классификации, методы программной инженерии и методы объектно-ориентированного программирования.

Теоретической и методологической основой диссертационной работы являются разработки отечественных и зарубежных ученых в области информационных технологий, интеграции данных, анализа естественного языка, информационного поиска и машинного обучения, которые представлены в исследовательских работах отечественных и зарубежных ученых: M. Kohlhase, C. D. Manning, G. S. Ingersoll, S. Peroni, М. Р. Когаловский, А. М. Елизаров, Е. К. Липачёв, Д. Д. Голомазов, J. Chen, F. Ricci, И. А. Резников и многих других.

Научная новизна работы связана с развитием методов обработки математических знаний и подходов к управлению большими коллекциями цифровых математических документов, основанных на семантических методах, а также созданием новых программных решений и методов построения и систематизации рекомендательных систем. Создание моделей управления математическим содержимым позволит реализовать их на практике, с учетом всех требований, предъявляемых к нему. Исследованные алгоритмы работы с цифровыми физико-математическими документами позволяют применять их как при реализации поставленных задач в издательской информационной системы OJS, так и при развертывании других систем.

Практическая значимость исследования заключается в том, что оно вносит вклад в дальнейшее развитие моделей и методов управления математическим контентом. Полученные в ходе исследования результаты могут быть применены в информационных системах поддержки издательской деятельности. Материалы исследования или отдельные его части найдут применение разра-

ботчиками программного обеспечения при создании собственных программных инструментов для построения сервисов анализа и интеграции научных документов.

Основные положения, выносимые на защиту:

1. метод конвертации математических документов в формате OpenXML в TEX-нотацию;

2. методы семантического анализа цифровых научных документов;

3. прототип программного комплекса обработки больших коллекций физико-математических документов;

4. рекомендательная система автоматизированного подбора индексов Универсальной десятичной классификации (УДК) для физико-математических документов;

5. рекомендательная система подбора рецензентов для научных документов в информационных системах.

Соответствие научной специальности. Содержание работы соответствует паспорту научной специальности 05.13.11 — «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», пункты 2, 3, 4 и 9. Сопоставление приведено в таблице 1.

Апробация работы. Модели и алгоритмы, предложенные в диссертационной работе, обоснованы корректным применением указанных выше методов исследования. Практическая апробация результатов работы подтвердила эффективность предложенных моделей и алгоритмов.

Результаты работы докладывались на международных и всероссийских конференциях: Международная научная конференция «Аналитика и управление данными в областях с интенсивным использованием данных» DAMDID-2016 (Москва, 2016), XIV и XV Международная конференция по компьютерной и когнитивной лингвистике TEL (Казань, 2016, 2018), Всероссийская научная конференция «Интернет и современное общество» (IMS-2016, Санкт-Петер-

Таблица 1 — Сопоставление направлению и результаты исследований, предусмотренных специальностью 05.13.11

Направление

Результат работы

2. Языки программирования и системы программирования, семантика программ

Разработана семантическая модель организации хранения знаний.

3. Модели, методы, алгоритмы, языки и программные инструменты для организации взаимодействия программ и программных систем

Разработан инструмент конвертации документов в формате OpenXML в TeX. Разработаны инструменты интеграции метаданных научных публикаций в информационные системы, такие как OJS и eLibrary. Разработана рекомендательная система подбора рецензентов для научных документов в информационных издательских системах.

4. Системы управления базами данных и знаний

Разработана система хранения обучающей выборки для рекомендательных систем подбора индексов УДК и экспертов.

9. Модели, методы, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных.

Разработан программный комплекс семантической обработки физико-математических документов.

бург, 2016), VIII и IX Международные научно-практические конференции «Электронная Казань» (Казань, 2016, 2017), Вторая Российско-Тихоокеанская Конференция по Компьютерным Технологиям и Приложениям ЯРС-2017 (Владивосток, 2017), XX и XXI Всероссийские научные конференции «Научный сервис в сети Интернет» (Новороссийск, 2018, 2019), VI и VII международные научно-практические конференции «Информационные технологии в образовании и науке» (ИТОН, Казань, 2017, 2018), Научно-техническая конференция по итогам совместного конкурса фундаментальных исследований РФФИ-РТ в 2018

году (Казань, 2018), а также на различных городских научных семинарах, итоговых конференциях Казанского федерального университета (Казань, 2015-2019).

Личный вклад. Все выносимые на защиту результаты получены соискателем лично. В опубликованных совместных работах постановка задачи осуществлялась совместными усилиями соавторов при непосредственном участии соискателя.

Публикации. Основные результаты по теме диссертации изложены в 27 печатных изданиях, 5 из которых изданы в периодических научных журналах и сборниках, индексируемых Web of Science и Scopus, 6 — свидетельства о регистрации программ ЭВМ.

Объем и структура работы. Диссертация состоит из введения, 4 глав, заключения и 3 приложений. Полный объём диссертации составляет 141 страницу, включая 31 рисунок и 2 таблицы. Список литературы содержит 119 наименований.

Первая глава посвящена обзору и исследованию существующих информационных систем поддержки издательской деятельности, описана модель цифрового издательского процесса.

Во второй главе рассмотрены методы управления математическими знаниями, среди которых - методы представления физико-математического контента. Также представлен разработанный автором метод конвертации математических документов в формате OpenXML в T^X.

Семантическому анализу цифровых научных документов посвящена тре-

т-ч VJ VJ

тья глава. В ней рассматрены модели и методы выделения метаданных статей на основе структурного анализа, а также варианты организации электронного хранилища, в том числе, с использованием форматов библиографических и реферативных баз цитирования, а также описания структуры документа на основе онтологий. Все эти методы были использованы автором и получили свою программную реализацию при работе в редакции журналов «Lobachevskii Journal

of Mathematics» и «Электронные библиотеки» (Казанский (Приволжский) федеральный университет), а также при проведении XI Всероссийского съезда по фундаментальным проблемам теоретической и прикладной механики (Казань, 20-24 августа 2015 г.). Полученные результаты отображены в разделе 3.3.

Четвертая глава посвящена исследованию существующих методов классификации научных документов и классических методов информационного поиска. Автором предаставлена программная реализация двух рекомендательных систем для математических документов: система подбора индексов научно-тематических классификаторов и система автоматизации подбора рецензента для экспертной оценки научных документов в издательских информационных системах.

В заключении перечислены основные результаты проделанной работы.

Благодарности. Автор выражает глубокую признательность научному руководителю, доктору физико-математических наук, профессору, заслуженному деятелю науки Республики Татарстан (РТ) Елизарову Александру Михайловичу и кандидату физико-математических наук, доценту Липачёву Евгению Константиновичу за содействие и помощь в работе, ценные консультации и плодотворные совместные обсуждения, способствовавшие реализации идей и выполнению данной работы.

Глава 1. Цифровизация процессов жизненного цикла научных публикаций

В настоящей главе рассмотрены методы управления математическим контентом. Как известно, управление контентом включает обработку, хранение, отображение и поиск информации. Особенность управления математическими данными, прежде всего, заключается в структурированности как текста (определения, теоремы, доказательства и т. д.), так и самих формул (вложенности и др.).

1.1 Модель издательского процесса

Повсеместный переход к цифровым технологиям привел к перемещению основных видов научной деятельности в интернет, что позволило существенно увеличить объем и качество выполняемых научных исследований. Этот переход изменяет традиционные формы создания и распространения знаний в современном обществе - печатное слово перестает быть главным средством производства и распространения знаний. Сегодня без информационных сервисов и специализированных программ невозможно подготовить научную работу к публикации, а без сетевых коммуникаций - опубликовать ее. Цифровая форма публикаций качественно изменила контент научной статьи, появились новые виды содержимого: гипертекстовые ссылки, мультимедийный контент, схемы для работы с большими массивами данных и т.д. Информационные технологии действительно ускорили эффективность научно-публикационной деятельности, но не сильно изменилась сама последовательность действий участников редакционного процесса. Так, с приходом ИКТ роли авторов, издателей, дистрибьюторов, посредников и читателей превращаются в условную систему. Читатель может легко выступить в роли автора и издателя через веб-сайты, блоги, социальные

сети и т. д. Поэтому электронную публикацию сегодня можно рассматривать как электронный документ (информационный продукт), для работы с которым необходимы соответствующие программные средства [8].

Использование в научно-издательской деятельности информационных технологий позволило передовым современным издательствам наладить опережающий выпуск электронных версий научных публикаций, а также предоставить авторам, читателям и редакционным коллегиям новые сервисы для работы с информацией. На основе наукометрических данных, представленных в современных информационных системах, производится анализ публикационной активности научных сотрудников и определяются наиболее перспективные направления развития исследований. Тем временем крупнейшие международные издательства активно внедряют информационные технологии и постоянно развивают собственные системы. Примерами служат информационная система издательства Springer (www.springer.com), платформа Science Direct (http://www.sciencedirect.com) издательства Elsevier (www.elsevier.com), а также система электронных публикаций научного архива arXiv.org (http://arxiv.org/). В российском сегменте лидерами направления являются крупнейшая в России электронная библиотека научных публикаций eLIBRARY.ru (http://elibrary.ru), а также общероссийский математический портал, предоставляющий различные возможности в поиске информации о развитии математических исследований в России - Math-Net.Ru (www.mathnet.ru) [9; 10].

Перевод редакционных процессов в цифровую форму и размещение научных журналов в интернете осуществляются путем внедрения информационных систем управления бизнес-процессами. Одним из ключевых компонентов информационных систем поддержки издательской деятельности являются средства для осуществления процесса рецензирования, обеспечивающие коллективное редактирование электронных документов. Системы такого типа должны предоставлять такие редакционные сервисы, как классификация, аннотирование,

выделение метаданных, публикация, долгосрочное хранение, конвертирование, распространение, синдикация, статистика использования, харвестинг, объединение в коллекцию, взаимодействие с институциональными репозиториями, контроль доступа, подписка, рассылка уведомлений, новые поступления. Помимо удаленного представления статей в научный журнал и их дальнейшей обработки для окончательной публикации информационные журнальные системы обеспечивают доступ к сформированному контенту и расширенный поиск (например, по автору, названию статьи, ключевым словам и др.) в соответствующих электронных коллекциях, т. е. в полном объеме реализуют функциональные возможности, присущие электронным библиотекам. С этой точки зрения, электронный научный журнал можно рассматривать как научную электронную библиотеку (ЭБ), оперирующую статьями журнала как информационными объектами [3; 11]. Следовательно, при создании информационных систем управления электронными научными публикациями могут быть использованы хорошо развитые технологии ЭБ, а при анализе существующих систем такого типа - подходы, разработанные при формировании концептуальных моделей, обобщающих накопленный опыт в сфере создания и использования ЭБ.

1.2 Информационные системы поддержки издательской деятельности

Существуют различные информационные системы поддержки издательской деятельности, рассмотрим некоторые из них.

ePublishing Toolkit1 (ePubTK) - это набор программных инструмента-риев для поддержки издетальских процессов, разрабатанный обществом Max Planck Society для управления электронными журналами научного издательства

1https://dev.livingreviews.org/projects/epubtk

Living Reviews 2. Исходные коды программного комплекса доступны в онлайн-репозитории разработчиков, однако отдельного законченного дистрибутива нет. Отсутствие версионности не позволяет судить о периодичности обновлений и реальных планах дальнейшего развития системы [8].

Система ePubTK включает в себя набор журналов одного издателя, который в свою очередь распределяется на отдельные журналы. Каждый журнал представляет собой контейнер для публикаций, при этом практически все основные функциональные возможности ePubTK определяются именно ими. При этом EPubTK имеет модульную структуру, а основные функции системы реализуются в виде общих библиотек. Управление жизненным циклом издательского процесса реализовано отдельным компонентом EIMS (Editorial Information Management System). Система ePubTK также имеет ролевую модель пользователей с разными правами доступа и многоуровневый процесс публикации ресурсов, адаптированный под процессы LivingReviews.

Программный продукт соответствует открытым стандартам, таким как OpenSeacrh, OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) и unAPI, для авторизации можно использовать OpenID.

EPubTK может быть установлена как в операционных системах как Microsoft Windows, так и в Linux. Для работы с программным комплексом необходимо установить Python (версия 2.3 или выше), а также ряд пакетов Python (см. https://dev.livingreviews.org/projects/epubtk/wiki/Requirements). Все настройки осуществляются вручную, что делает процесс установки довольно трудоемким. Для настройки системы необходима достаточно высокая квалификация персонала [12].

Digital Publishing System3 (DPubS) - это информационная система для публикации электронных академических научных и образовательных журналов, материалов конференций и монографий. Разработана в США Корнель-

2http://www.livingreviews.org

3http://dpubs.org/about.html

ским и Пенсильванским университетами в 2004-2008 годах. Проект Euclid (www.projecteuclid.org) реализуется на базе этой системы библиотекой Корнель-ского университета. С 2008 года никаких дальнейших обновлений системы не проводилось. В настоящее время на базе DPubS реализовано более 10 проектов, которые так или иначе связаны с организациями, разработавшими эту систему. Программный комплекс имеет свободно распространяемую лицензию.

Система DPubs была разработана для решения задач электронных библиотек, с учетом проблем обеспечения сохранности данных и отказоустойчивости, остро стоящих перед всеми электронными библиотеками. Заявлена поддержка репозиториев цифровых объектов, в частности, DSpace и Fedora.

Система DPubS представляет собой набор взаимосвязанных сервисов и имеет модульную архитектуру. Функционально DPubS включает в себя модуль объединения в коллекции, редакционную службу, службу индексирования, медиатора поиска, модуль обратной связи, репозиторий, службы подписки, а также модули пользовательского интерфейса и администрирования.

Редакционная служба осуществляет первоначальную загрузку статей и передачу их рецензентам, дальнейшую подготовку и публикацию выпусков журнала и их окончательную загрузку в репозиторий DPubS. Система также реализует ролевую модель для пользователей с различными правами доступа к ресурсам (как платным, так и бесплатным).

Документация системы не соответствует фактически выпущенной версии системы, функциональность ряда модулей полностью не описана, а руководство пользователя недоступно.

При установке DPubS необходимо учитывать архитектуру и внутренние взаимосвязи элементов системы. Отсутствие обновлений с 2008 года и соответствующей документации делают установку и внедрение этой системы очень нетривиальной задачей.

Система может принимать метаданные в любом формате. Издатели также могут установить контроль доступа для подписок, открыть доступ или ввести плату за просмотр. Существует алгоритм взаимодействия между DPubS и ре-позиториями, такими как Fedora. DPubS написан на Perl. Для работы системы необходимо установить Apache и Java. Архитектура системы DPubS показана на рисунке 1.1 [8].

Рисунок 1.1 — Архитектура системы DPubS

GAPWorks4 - электронная издательская система, разработаная в рамках проекта German Academic Publishers (GAP), который финансировался немецким научно-исследовательским фондом (DFG). GARWorks предоставляет компоненты для электронной публикации (с поддержкой процесса рецензирования), управления пользователями, ролями и т. д.

Система GAPWorks реализована с использованием PHP и PostgreSQL и обеспечивает процесс рецензирования, функции управления пользователями, поддержку OAI-PMH и настраиваемый набор шаблонов. Дистрибутив GAPWorks доступен для скачивания, однако информации о развитии системы с 2006 года не имеется, также нет данных о реализованных проектах.

4http://gapworks.berlios.de/

Ambra Publishing System5 (Ambra) - это платформа с открытым исходным кодом для публикации исследовательских статей в открытом доступе. Она предоставляет функции для обсуждения статей после публикации и позволяет загружать версии статей, что делает статьи «живыми», вокруг них могут быть сделаны дальнейшие научные открытия. Система разработана некоммерческой организацией Topaz (www.topazproject.org), основана на одноименной платформе и связана с Публичной научной библиотекой (Public Library of Science, PLOS, http://www.plos.org). Система Ambra также используется в качестве платформы для размещения ряда журналов Public Library of Science.

В 2012 году PLOS начал проект по перестройке Ambra как сервис-ориентированного многокомпонентного приложения. PLOS активно использует, тестирует и улучшает эти новые компоненты в своей журнальной платформе с 2013 года. PLOS, наконец, полностью заменил устаревшее веб-приложение Ambra в начале 2016 года и переиздал код с открытым исходным кодом в начале 2017 года.

Особенностью работы системы Ambra являются применение технологии объектно-реляционного отображения при разработке системы, а также нереляционной СУБД (NoSQL) - в качестве накопительной части информационных объектов. Взаимодействие между отдельными модулями системы Ambra осуществляется по протоколу TCP. Процесс загрузки публикаций упрощен и состоит всего из двух этапов (загрузка пользователем и подтверждение администратором), для редакторов и рецензентов не существует специальных ролей. Поскольку все статьи хранятся в репозитории FEDORA, фактически все функции FEDORA API становятся доступными для материалов системы Ambra, в частности, обеспечивается поддержка протокола OAI-PMH [8].

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Хайдаров Шамиль Махмутович, 2020 год

Список литературы

1. Елизаров, А. М. Семантические методы структурирования математического контента, обеспечивающие расширенную поисковую функциональность / А. М. Елизаров, Е. К. Липачев, Ю. Е. Хохлов // Информационное общество. - 2013. - Т. 1/2. - С. 83-92.

2. Щур, Л. Н. Роль инфокоммуникационных технологий в развитии процесса глобализации научных исследований / Л. Н. Щур // Информационное общество. - 2012. - Т. 5. - С. 16-24.

3. Елизаров, А. М. Свободно распространяемые системы управления электронными научными журналами и технологии электронных библиотек / А. М. Елизаров, Д. С. Зуев, Е. К. Липачёв // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL'2013. - Ярославль : ЯрГУ, 2013. - С. 227-236.

4. Хокинс, К. Научная библиотека как издательство: опыт Мичиганского университета (США) / К. Хокинс // Вестник Пермского университета. Серия История. - 2009. - Т. 3, № 10. - С. 119-122.

5. Армс, В. Электронные библиотеки / пер. с англ / В. Армс. - М : ПИК ВИНИТИ, 2001. - С. 276.

6. Current Digital Library Systems: User Requirements vs Provided Functionality / L. Candela, D. Castelli, N. Fuhr, Y. E. Ioannidis, C.-P. Klas, P. Pagano, S. Ross, C. Saidis, H.-J. Schek, H. Schuldt, M. Springmann. -2013.

7. Тютляева, Е. О. Анализ основных тенденций в области хранения данных / Е. О. Тютляева, А. А. Московский // Информационные технологии и вычислительные системы. — 2012.— №2. — С. 64—75.

8. Елизаров, А. М. Информационные системы управления электронными научными журналами / А. М. Елизаров, Д. С. Зуев, Е. К. Липачёв // Научно-Техническая информация. Серия 1: Организация и методика информационной работы. — 2014. — № 3. — С. 31—38.

9. Жижченко, А. Б. Информационная система Math-Net.Ru. Применение современных технологий в научной работе математика / А. Б. Жижченко, А. Д. Изаак // Успехи матем. наук. — 2007. — Т. 5, № 377. — С. 107—132.

10. Жижченко, А. Б. Информационная система Math-Net.Ru. Современное состояние и перспективы развития. Импакт-факторы российских математических журналов / А. Б. Жижченко, А. Д. Изаак // Успехи матем. наук. — 2009. — Т. 64, 4 (388). — С. 195—204.

11. Сервисы поддержки жизненного цикла электронных научных публикаций / А. М. Елизаров, Д. С. Зуев, Е. К. Липачёв, М. А. Малахальцев // Научный сервис в сети Интернет: многообразие суперкомпьютерных миров: Труды Международной суперкомпьютерной конференции (22-27 сентября 2014 г., г. Новороссийск). — М. : Изд-во МГУ, 2014. — С. 436—438. — URL: http://agora.guru.ru/abrau2014/pdf/436.pdf.

12. Ахметов, Д. Ю. Информационные системы и сервисы комплексной поддержки периодических научных изданий / Д. Ю. Ахметов, А. М. Елизаров, Е. К. Липачёв // Научный сервис в сети Интернет: труды XVII Всероссийской научной конференции (21-26 сентября 2015 г., г. Новороссийск). — М : ИПМ им. М. В.Келдыша, 2015. — С. 16—25.

13. Ambra Project. — URL: https://plos.github.io/ambraproject/index.html.

14. Open Journal Systems | Public Knowledge Project. — URL: http://pkp.sfu.ca/ ojs/.

15. Облачная платформа поддержки электронных научных изданий / Д. Ю. Ахметов, А. Н. Герасимов, А. О. Грачев, А. М. Елизаров, Е. К. Ли-пачёв // Учёные записки института социальных и гуманитарных знаний. -2014. - Т. 1, 12, ч. 1. - С. 13-19.

16. Электронные научные издания: переход на технологии Семантического веба / В. А. Глухов, А. М. Елизаров, Е. К. Липачев, М. А. Малахальцев // Электронные библиотеки. - 2007. - Т. 10, вып. 1. - URL: http://www. elbib.ru/index.phtml?page%20=elbib/rus/journal/2007/part1/GELM.

17. Krasner, G. E. A cookbook for using the model-view controller user interface paradigm in Smalltalk-80 / G. E. Krasner, S. T. Pope // J. Object Oriented Program. — 1988. — Vol. 1, 3. — P. 26—49. — URL: https://www.ics.uci. edu/~redmiles/ics227- SQ04/papers/KrasnerPope88.pdf.

18. Smarty Template Engine. — URL: https://www.smarty.net/docsv2/ru/.

19. Mathematical Markup Language (MathML) Version 3.0 / R. Ausbrooks, S. Buswell, D. Carlisle, G. Chavchanidze, etc. — 2014. — URL: http: //www.w3.org/TR/MathML/mathml.pdf ; W3C Recommendation 10 April 2014. // World Wide Web Consortium (W3C).

20. Елизаров, А. М. Веб-технологии для математика. Основы MathML / А. М. Елизаров, Е. К. Липачёв, М. А. Малахальцев. - Москва : Физматлит, 2010. - С. 194.

21. Хайдаров, Ш. М. Семантический анализ документов в системе управления цифровыми научными коллекциями / Ш. М. Хайдаров // Электронные библиотеки. - 2015. - Т. 18, № 1/2. - С. 61-85. - URL: https://elbib.kpfu. ru/ru/article/369.

22. Воутер, В. В. Open XML - Кратко и доступно / В. В. Воутер. — Open XML Technical Evangelist, Microsoft, 2007. — С. 101.

23. ECMA-376, S. Office Open XML File Formats / S. ECMA-376. — URL: https://www.ecma-international.org/publications/standards/Ecma-376.htm.

24. MathJax. Beautiful math in all browsers / MathJax. — URL: https://www. mathjax.org/.

25. Cervone, D. P. MathJax: A platform for Mathematics on the Web / D. P. Cer-vone // Notices AMS. — 2012. — P. 312—316.

26. Липачёв, Е. К. Система сервисов преобразования электронных математических документов на основе облачных технологий / Е. К. Липачёв, Ш. М. Хайдаров // Тр. Матем. центра им. Н.И. Лобачевского. Лобачевские чтения - 2013: материалы 12-й молодежной школы-конференции (Казань, 24-29 октября 2013 г.) Т. 47. — Казань : Изд-во Казан. матем. об-ва, 2013. — С. 139—140.

27. Хайдаров, Ш. М. Методы управления математическим контентом в информационных издательских системах / Ш. М. Хайдаров // Тр. Матем. центра им. Н.И. Лобачевского. Лобачевские чтения - 2015: материалы 14-й молодежной научной школы-конференции. Т. 52. — Казань : Изд-во Казан. матем. об-ва, 2015. — С. 162—165.

28. Tidwell, D. XSLT / D. Tidwell. - Sebastopol : O'Reilly, 2008. - P. 988.

29. Валиков, А. Н. Технология XSLT / А. Н. Валиков. — СПб : БХВ-Петербург, 2002. — С. 544.

30. Когаловский, М. Р. Метаданные в компьютерных системах / М. Р. Кога-ловский // Программирование. — 2013. — Т. 39, № 4. — С. 28—46.

31. Когаловский, М. Р. Метаданные, их свойства, функции, классификация и средства представления / М. Р. Когаловский // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научн. конф. RCDL-2012 (Переславль-Залесский, 15-18 октября 2012 г.) — Переславль-Залесский, 2012. — С. 3—14. — URL: http: //rcdl.ru/doc/2012/paper3.pdf.

32. Извлечение метаинформации и библиографических ссылок из текстов русскоязычных научных статей / А. Васильев, Д. Козлов, С. Самусев, Ш. О // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды VIII Всероссийской научн. конф. RCDL-2007 (Переславль-Залесский, 15-18 октября 2007 г.) — Переславль-Залесский, 2012. — С. 175—184. — URL: http://rcdl.ru/doc/2012/paper3.pdf.

33. Сервисы структурирования математического контента и интеграция электронных математических коллекций в научное информационное пространство / А. М. Елизаров, Д. С. Зуев, Е. К. Липачёв, М. А. Мала-хальцев // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научн. конф. RCDL-2012 (Переславль-Залесский, 15-18 октября 2012 г.) — Переславль-Залесский, 2012. — С. 309—312. — URL: http://rcdl.ru/doc/2012/paper47.pdf.

34. Методы анализа семантических данных математических электронных коллекций / Е. В. Биряльцев, А. М. Елизаров, H. Г. Жильцов, Е. К. Липачёв, О. А. Невзорова, В. Д. Соловьев // Научно-Техническая информация. Серия 2: Информационные процессы и системы. — 2014. — № 4. — С. 12—17.

35. Методы и средства семантического структурирования электронных математических документов / А. М. Елизаров, Е. К. Липачев, О. А. Невзорова,

B. Д. Соловьев // Доклады РАН. — Москва, 2014. — Т. 457, № 6. —

C. 642—645. — DOI: 10.7868/S0869565214240049.

36. Герасимов, А. Н. Формирование метаданных для международных баз цитирования в системе управления электронными научными журналами / А. Н. Герасимов, А. М. Елизаров, Е. К. Липачев // Электронные библиотеки. - 2015. - Т. 18, № 1/2. - С. 6-31. - URL: https://elbib.ru/article/view/ 356.

37. Хайдаров, Ш. М. Методы извлечения метаданных научных публикаций на основе структурного и семантического анализа документов / Ш. М. Хайдаров // Материалы XVII Всероссийской конф. молодых учёных по мат моделированию. г. Новосибирск, Россия, 30 октября - 3 ноября 2016 г. -Новосибирск : ИВТ СО РАН, 2016. - С. 110-111.

38. Elizarov, A. M. Automated system of services for processing of large collections of scientific documents / A. M. Elizarov, S. M. Khaydarov, E. K. Lipachev // 18th International Conference on Data Analytics and Management in Data Intensive Domains, (DAMDID/RCDL 2016). Vol. 1752. — CEUR Workshop Proceedings, 2016. — P. 58—64. — URL: http://ceur-ws.org/Vol-1752/paper10.pdf.

39. Elizarov, A. M. Scientific documents ontologies for semantic representation of digital libraries / A. M. Elizarov, S. M. Khaydarov, E. K. Lipachev // Proceedings of the 2nd Russia and Pacific Conference on Computer Technology and Applications (RPC 2017). - IEEE, 2017. - P. 1-5. - DOI: 10.1109/ RPC.2017.8168064. - URL: http://ieeexplore.ieee.org/document/8168064/.

40. Елизаров, А. М. Семантический анализ больших коллекций научных документов / А. М. Елизаров, Е. К. Липачёв, Ш. М. Хайдаров // Труды международной конференции по компьютерной и когнитивной лингвистике TEL-2016. - Казань : Изд-во Казан. ун-та, 2016. - С. 21-25.

41. Елизаров, А. М. Автоматизированная система структурной и семантической обработки физико-математического контента / А. М. Елизаров,

Е. К. Липачёв, Ш. М. Хайдаров // Ученые записки ИСГЗ. - 2016. - Т. 1, № 14. - С. 210-215.

42. Giles, L. Automatic Document Metadata Extraction using Support Vector Machines / L. Giles. — JCDL, 2003.

43. Automatic document metadata extraction using support vector machines / Hui Han, C. L. Giles, E. Manavoglu, Hongyuan Zha, Zhenyue Zhang, E. A. Fox // 2003 Joint Conference on Digital Libraries, 2003. Proceedings. — Houston, TX, USA : IEEE, 2003. - P. 37-48. - DOI: 10.1109/JCDL.2003.1204842.

44. Lafferty, J. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data / J. Lafferty, A. Mccallum, F. Pereira //. — 01/2001. - P. 282-289. - DOI: 10.5555/645530.655813.

45. Lawrence, S. Indexing and Retrieval of Scientific Literature / S. Lawrence, K. Bollacker, C. L. Giles // Proceedings of the Eighth International Conference on Information and Knowledge Management. — Kansas City, Missouri, USA : Association for Computing Machinery, 1999. — P. 139—146. — (CIKM '99). - DOI: 10.1145/319950.319970. - URL: https://doi.org/10.1145/ 319950.319970.

46. Хайдаров, Ш. М. Методы формирования метаданных научных коллекций / Ш. М. Хайдаров // Тр. Матем. центра им. Н.И. Лобачевского. Лобачевские чтения - 2016: материалы 15-й молодежной научной школы-конференции. Т. 53. - Казань : Изд-во Казан. матем. об-ва, Изд-во Академии наук РТ, 2016. - С. 161-162.

47. Недильченко, О. С. Этапы и методы автоматического извлечения ключевых слов / О. С. Недильченко // Молодой ученый. - 2017. - 22 (156). -С. 60-62.

48. Резников, И. А. Обзор алгоритмов извлечения ключевых слов из текста / И. А. Резников // 58-я научная конференция Московского физико-технического института (23-28 ноября 2015 г., г. Долгопрудный). — 2015. — URL: http://conf58.mipt.ru/static/reports%5C_pdf/499.pdf.

49. Нокель, М. А. Тематические модели в извлечении однословных терминов / М. А. Нокель, Н. В. Лукашевич // Программная инженерия. — Москва, 2015. — № 3. — С. 34—40.

50. A metadata generation system for scanned scientific volumes / X. Lu, B. Kahle, J. Z. Wang, C. L. Giles // Joint Conference on Digital Libraries, June 16-20, 2008. — Pittsburgh, Pennsylvania, 2008. — P. 167-176. — DOI: 10.1145/1378889.1378918.

51. Chen, J. A structured information extraction algorithm for scientific papers based on feature rules learning / J. Chen, H. Chen // Journal of Software. — 2013. - Vol. 8, no. 1. - P. 55-62. - DOI: 10.4304/jsw.8.1.55-62. - URL: http://www.jsoftware.us/vol8/jsw0801-08.pdf.

52. Tkaczyk, D. Structured Affiliations Extraction from Scientific Literature / D. Tkaczyk, B. Tarnawski,. Bolikowski // D-Lib Magazine. — 2015. — Vol. 21, no. 11/12. — DOI: 10.1045/november2015-tkaczyk.

53. PHP: Hypertext Preprocessor. — URL: https://www.php.net.

54. Методы автоматизированного извлечения метаданных научных публикаций для библиографических и реферативных баз цитирования / А. Н. Герасимов, А. М. Елизаров, Е. К. Липачёв, Ш. М. Хайдаров // Информационное общество: образование, наука, культура и технологии будущего: сборн. научных статей. Тр. XIX Объед. конф. «Интернет и современное общество» (IMS-2016), СПб, 22-24 июня 2016 г. — СПб : Ун-т ИТМО, 2016. — С. 41—48.

55. Кириллова, О. В. О системе включения журналов в БД Scopus: основные требования и порядок представления / О. В. Кириллова. — URL: http: //www.webcitation.org/68vOlqztg.

56. Кириллова, О. В. Критерии отбора и рекомендации по подготовке журнала в индекс цитирования Scopus / О. В. Кириллова. — URL: http://fano.gov.ru/ common/upload/library/2014/12/main/kriterii%5C_journals.pdf.

57. Мбого, И. А. Комплексная интеграция цифровых коллекций в информационное пространство научных исследований / И. А. Мбого, Д. Е. Прокудин, А. В. Чугунов // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Материалы XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014), Санкт-Петербург, 19 - 20 ноября 2014 г. — СПб. : НИУ ИТМО. — С. 48—53.

58. Интеллектуальная система тематического исследования научно-технической информации («ИСТИНА») / В. А. Садовничий, С. А. Афонин, А. В. Бахтин, В. Ю. Бухонов, В. А. Васенин, Г. М. Ганкин, А. Э. Гаспарянц, Д. Д. Голомазов, А. А. Иткес, А. С. Козицын, И. Н. Тумайкин, К. А. Шап-ченко. — Издательство Московского университета Москва, 2014. — 262 с.

59. Онтологии математического знания и рекомендательная система для коллекций физико-математических документов / А. М. Елизаров, А. Б. Жиж-ченко, Н. Г. Жильцов, A. В. Кириллович, Е. К. Липачёв // Доклады РАН. — Москва, 2016. — Т. 467, № 4. — С. 392—395. — DOI: 10.7868/ S0869565216100042.

60. Елизаров, А. М. Семантические методы и инструменты электронной математической библиотеки Lobachevskii-DML / А. М. Елизаров, Е. К. Ли-пачёв // Научный сервис в сети Интернет: труды XIX Всероссийской научной конференции (18-23 сентября 2017 г., г. Новороссийск). — М :

ИПМ им. М. В. Келдыша, 2017. - С. 130-136. - DOI: 10.20948/abrau-2017-73. - URL: http://keldysh.ru/abrau/2017/73.pdf.

61. Council, N. R. Developing a 21st Century Global Library for Mathematics Research / N. R. Council. — Washington, DC : The National Academies Press, 2014. - DOI: 10.17226/18619. - URL: https://www.nap.edu/catalog/18619/ developing-a-21st-century-global-library-for-mathematics-research.

62. Elizarov, A. M. Digital Mathematical Libraries: Overview of Implementations and Content Management Services / A. M. Elizarov, E. K. Lipachev,

D. S. Zuev. — 2017. — URL: http://ceur-ws.org/Vol-2022/paper49.pdf.

63. P.Ion, D. F. The Global Digital Mathematics Library and the International Mathematical Knowledge Trust / D. F. P.Ion, S. M. Watt // Intelligent Computer Mathematics. CICM 2017. Lecture Notes in Computer Science. Vol. 10383 / ed. by H. Geuvers, M. England, O. Hasan, F. Rabe, O. Teschke. - Springer, Cham, 2017. - P. 56-69. - DOI: 10.1007/978-3-319-62075-6\_5.

64. Services for formation of digital documents metadata in the formats of international science-based databases / A. M. Elizarov, S. M. Khaydarov,

E. K. Lipachev, N. V. Zaitseva, D. S. Zuev // 20th Conference Scientific Services and Internet (SSI 2018). Vol. 2260. — CEUR Workshop Proceedings, 2018. - P. 175-185. - URL: http://ceur-ws.org/Vol-2260/53_175-185.pdf.

65. Глухов, В. А. Книжная коллекция. О размещении книг, сборников и материалов конференций в Российском индексе научного цитирования: Научная электронная библиотека / В. А. Глухов. - URL: http://www. library.spbu.ru/blog/wp-content/uploads/2014/12/books%5C_Glukhov.pdf.

66. Kogalovsky, M. R. Scholarly Communication in a Semantically Enrichable Research Information System with Embedded Taxonomy of Scientific Relationships / M. R. Kogalovsky, S. I. Parinov // Knowledge Engineering and

Semantic Web / ed. by P. Klinov, D. Mouromtsev. — Cham : Springer International Publishing, 2015. - P. 87-101. - DOI: 10.1007/978-3-319-24543-0_7.

67. Shotton, D. Semantic annotation of publication entities using the SPAR (Semantic Publishing and Referencing) Ontologies /Beyond the PDF Workshop, La Jolla, 19 January 2011. / D. Shotton, P. S. — URL: http://imageweb. zoo. ox. ac. uk/pub /2010 /Publications / Shotton & Peroni % 5C _ semantic % 5C _ annotation%5C_of%5C_publication%5C_entities.pdf.

68. DCMI Home: Dublin Core® Metadata Initiative (DCMI). — URL: http: //dublincore.org/.

69. PRISM. — URL: http://nurture.nature.com/rss/modules/mod%5C_prism.html.

70. Crofts N., Doerr M., Gill T., Stead S., Stiff M. (editors), Definition of the CIDOC Conceptual Reference Model, November 2018. Version 6.2.4. — URL: http: / / www. cidoc - crm. org / sites / default / files / 2018 -10 - 26 % 23CIDOC % 20CRM_v6.2.4_esIP.pdf.

71. Зайцева, Н. В. Плагин автоматизированного формирования метаданных документов цифровой математической библиотеки Lobachevskii DML / Н. В. Зайцева, Ш. М. Хайдаров // Международная школа «Математическое моделирование фундаментальных объектов и явлений в системах компьютерной математики» - «KAZCAS-2018»: лекции и материалы школы. — Казань : Изд-во Академии наук РТ, 2018. — С. 129.

72. Journal Article Tag Suite. — URL: http://jats.nlm.nih.gov/.

73. SWAN (Semantic Web Applications in Neuromedicine) - Scientific Discourse Relationships Ontology Specification. — URL: http://swan.mindinformatics. org/spec/1.2/discourserelationships.html.

74. Паринов, С. И. Технология семантического структурирования контента научных электронных библиотек / С. И. Паринов, М. Р. Когаловский // Труды XIII Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции -RCDL-2011. — 2011.

75. Костин, В. В. Обзор семантических моделей, описывающих научные публикации и научно-исследовательскую деятельность / В. В. Костин // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. — 2014.

76. Semantic Web Applications in Neuromedicine (SWAN) Ontology. W3C Interest Group Note, 20 October 2009. — URL: http://www.w3.org/TR/ 2009/N0TE-hcls-swan-20091020/.

77. The SWAN biomedical discourse ontology / P. Ciccarese, E. Wu, G. Wong, M. Ocana, J. Kinoshita, A. Ruttenberg, T. Clark // Journal of Biomedical Informatics. — 2008. - Vol. 41, no. 5. - P. 739—751. — DOI: 10.1016/j. jbi.2008.04.010. — URL: http://www.sciencedirect.com/science/article/pii/ S1532046408000580 ; Semantic Mashup of Biomedical Data.

78. Когаловский, Р. М. Семантическое структурирование контента научных электронных библиотек на основе онтологий / Р. М. Когаловский, П. С. И // В сб. «Современные технологии интеграции информационных ресурсов: сборник научных трудов». — 2011. — С. 1—13. — URL: https: //lib.nsu.ru/xmlui/bitstream/handle/nsu/8931/kogalov11 -04.pdf?sequence=1 & isAllowed=y.

79. SKOS Simple Knowledge Organization System Reference. — URL: http: //www.w3.org/TR/skos-reference/.

80. SKOS Core: Simple knowledge organisation for the Web / A. Miles, B. Matthews, M. Wilson, D. Brickley //. - 2005. - С. 3-10. - URL: https: //dcpapers.dublincore.org/pubs/article/view/798.

81. Хайдаров, Ш. М. Метод автоматического описания структуры документов математической коллекции на основе онтологий / Ш. М. Хайдаров // Тр. Матем. центра им. Н.И. Лобачевского. Лобачевские чтения - 2017: материалы 16-й молодежной научной школы-конференции. Т. 55. — Казань : Изд-во Казан. ун-та, 2017. — С. 150—153.

82. Shotton, D. Introduction the Semantic Publishing and Referencing (SPAR) Ontologies / D. Shotton. — URL: http://opencitations.wordpress.com/2010/ 10/14/introducing-the-semantic-publishing-and-referencing-spar-ontologies/.

83. Peroni, S. The SPAR Ontologies / S. Peroni, D. Shotton // The Semantic Web - ISWC 2018 / ed. by D. Vrandecic, K. Bontcheva, M. C. Suarez-Figueroa, V. Presutti, I. Celino, M. Sabou, L.-A. Kaffee, E. Simperl. — Cham : Springer International Publishing, 2018. - P. 119-136. - DOI: 10.1007/978-3-030-00668-6\_8.

84. Semantic Publishing and Referencing Ontologies. — URL: http://www. sparontologies.net/ontologies.

85. Peroni, S. Document Components Ontology (DoCO) / S. Peroni. — 2015. — URL: http://www.sparontologies.net/ontologies/doco.

86. The Document Components Ontology (DoCO) / A. Constantin, S. Peroni, S. Pettifer, D. Shotton, F. Vitali // Semantic Web. — 2016. — Vol. 7, no. 2. — P. 167-181. - DOI: 10.3233/SW-150177.

87. Ингерсолл, С. Г. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Пер. с англ. Слинкин А.А / С. Г. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. - М : ДМК Пресс, 2015. - С. 414.

88. Маннинг, К. Д. Введение в информационный поиск: Пер. с англ / К. Д. Маннинг, П. Рагхаван, Х. Шютце. — М : ООО «И. Д. Вильямс», 2014. — С. 528.

89. Резников, И. А. Обзор алгоритмов извлечения ключевых слов из текста / И. А. Резников // 58-я научная конференция Московского физико-технического института (23-28 ноября 2015 г., г. Долгопрудный). — 2015. — URL: http://conf58.mipt.ru/static/reports_pdf/499.pdf.

90. Lovins, J. B. Development of a stemming algorithm / J. B. Lovins // Mech. Transl. Comput. Linguistics. — 1968. — Vol. 11, 1 and 2. — P. 22—31.

91. Елизаров, А. М. Управление жизненным циклом электронных публикаций в информационной системе научного журнала / А. М. Елизаров, Д. С. Зуев, Е. К. Липачёв // Вестник Воронеж. гос. ун-та. Сер. Систем. анализ и информ. технологии. — 2014. — № 4. — С. 81—88.

92. Библиотечно-библиографическая классификация. — URL: http : //roslavl. library67.ru/files/382/bbk.pdf.

93. Государственный рубрикатор научно-технической информации. — URL: http://grnti.ru.

94. Классификатор математических сущностей MSC2010. — URL: http://www. ams.org/mathscinet/msc/msc2010.html.

95. UDC Summary Linked Data. — URL: http://udcdata.info/.

96. Универсальная десятичная классификация. — URL: http://www.naukapro. ru/metod.htm.

97. Elizarov, A. M. Digital Mathematical Libraries: Overview of Implementations and Content Management Services / A. M. Elizarov, E. K. Lipachev, D. S. Zuev //. Vol. 2022. - CEUR Workshop Proceedings, 2017. -P. 317—325. — URL: http://ceur-ws.org/Vol-2022/paper49.pdf.

98. Bringing Mathematics to the Web of Data: The Case of the Mathematics Subject Classification / C. Lange, P. Ion, A. Dimou, B. Bratsas, W. Sperber, M. Kohlhase, I. Antoniou // The Semantic Web: Research and Applications. ESWC 2012. Lecture Notes in Computer Science. Vol. 7295 / ed. by E. Sim-perl, P. Cimiano, A. Polleres, O. Corcho, V. Presutti. — Berlin, Heidelberg : Springer, 2012. - P. 763-777. - DOI: 10.1007/978-3-642-30284-8\_58.

99. Rehurek, R. Automated Classification and Categorization of Mathematical Knowledge / R. Rehurek, P. Sojka // Intelligent Computer Mathematics, 9th International Conference, AISC 2008, 15th Symposium, Calculemus 2008, 7th International Conference, MKM 2008, Birmingham, UK, July 28 - August 1, 2008. Proceedings. - 2008. - P. 1-15. - DOI: 10.1007/978-3-540-85110-3\_44.

100. Recommender Systems Handbook / F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. - Springer-Verlag New York, 2011. — P. 842. - DOI: 10.1007/978-0387-85820-3.

101. Recommender Systems Handbook / F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. - Springer-Verlag New York, 2015. - P. 1003. - DOI: 10.1007/978-14899-7637-6.

102. IBM's Top Storage Predictions for 2011. — 01/2011.

103. Терминологическое аннотирование и рекомендательный сервис в системе управления физико-математическим контентом / А. М. Елизаров, Н. Г. Жильцов, А. В. Кириллович, Е. К. Липачёв // Труды XVII Межд. конф. DAMDID / RCDL'2015 «Аналитика и управление данными в областях с интенсивным использованием данных». — Обнинск : ИАТЭ НИЯУ МИФИ, 2015. — С. 347—350.

104. Новиков, О. В. Методы ускорения работы рекомендательных систем для высоконагруженных веб-сайтов / О. В. Новиков. — 2013.

105. Adomavicius, G. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions / G. Adomavicius, A. Tuzhilin // IEEE Transactions on Knowledge and Data Engineering. — 2005. - Vol. 17, no. 6. - P. 734-749.

106. Чепикова, Е. Д. Исследование алгоритмов рекомендательных систем / Е. Д. Чепикова, Е. О. Савкова, М. В. Привалов // Информатика и кибернетика. - 2016. - 2(4). - С. 57-61.

107. Гомзин, А. Г. Системы рекомендаций: обзор современных подходов / А. Г. Гомзин, А. В. Коршунов // Труды Института системного программирования РАН. - 2012. - С. 401-417.

108. Recommender Systems for Learning / N. Manouselis, H. Drachsler, K. Verbert, E. Duval. - VerlagNewYork, 2013. - С. 84.

109. Общероссийский математический портал Math-Net.Ru. - URL: http:// www.mathnet.ru/.

110. Хайдаров, Ш. М. Алгоритм формирования словарей рекомендующей системы подбора классификаторов научной информации / Ш. М. Хайдаров, Г. Ш. Ямалутдинова // Ученые записки ИСГЗ. - 2017. - 1 (15). -С. 552-557.

111. Khaydarov, S. M. Recommender system of physical and mathematical documents classification / S. M. Khaydarov, G. S. Yamalutdinova // 20th Conference Scientific Services and Internet (SSI 2018). Vol. 2260. — CEUR Workshop Proceedings, 2018. — P. 480—486. — URL: http://ceur-ws.org/Vol-2260/57_480-486.pdf.

112. M., B. Excellence by Nonsense: The Competition for Publications in Modern Science / B. M. // Opening Science. The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing / ed. by

S. Bartling, S. Friesike. — Springer International Publishing, 2014. — P. 49-72. - DOI: 10.1007/978-3-319-00026-8\_3.

113. Binfield, P. Novel Scholarly Journal Concepts / P. Binfield // Opening Science. The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing / ed. by S. Bartling, S. Friesike. — Springer International Publishing, 2014. - P. 155-163. - DOI: 10.1007/978-3-319-00026-8\_10.

114. Ахметов, Д. Ю. Автоматизация редакционных процессов в информационной системе управления электронными научными журналами / Д. Ю. Ахметов, А. М. Елизаров, Е. К. Липачев // Электронные библиотеки. - 2015. - Т. 18, № 1/2. - С. 32-45. - URL: https://elbib.ru/article/ view/357.

115. Binswanger, M. Excellence by Nonsense: The Competition for Publications in Modern Science / M. Binswanger // Opening Science: The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing / ed. by S. Bartling, S. Friesike. — Cham : Springer International Publishing, 2014. - P. 49-72. - DOI: 10.1007/978-3-319-00026-8\_3. -URL: https://doi.org/10.1007/978-3-319-00026-8%5C_3.

116. Horbach, S. P. J. M. The ability of different peer review procedures to flag problematic publications / S. P. J. M. Horbach, W. Halffman // Scientomet-rics. -2019. - Vol. 118. - P. 339-377. - DOI: 10.1007/s11192-018-2969-2.

117. Елизаров, А. М. Технологии в работе электронного математического журнала Lobachevskii Journal of Mathematics / А. М. Елизаров, Е. К. Липачев, М. А. Малахальцев // Научный сервис в сети Интернет: многоядерный компьютерный мир. 15 лет РФФИ Труды Всероссийской научной

конференции. - Московский государственный университет им. М.В. Ломоносова, Южный федеральный университет, Институт вычислительной математики РАН, 2007. - С. 355-356.

118. Программный комплекс формирования рекомендаций по подбору рецензентов для научных документов в информационных издательских системах: свидетельство о государственной регистрации программы для ЭВМ №2018611617 Российская Федерация, 02.02.2018 / Д. Ю. Ахметов, А. М. Елизаров, Е. К. Липачёв, Ш. М. Хайдаров. - заявитель и правообладатель ФГАОУ ВО КФУ; заявка №2017662838 от 11.12.2017.

119. Table of conversions between the 2000 and 2010 versions of the Mathematics Subject Classification (MSC). — URL: http://msc2010.org/2000to2010.html.

Список рисунков

1.1 Архитектура системы DPubS................................................18

1.2 Архитектура издательского процесса системы OJS [14].........22

1.3 Карта распределения OJS-журналов по континентам и странам .... 23

2.1 Структура документа WordprocessingML [22]...............28

2.2 Схема работы XSLT-преобразования....................32

2.3 Алгоритм конвертации OpenXML в TjeX .................32

3.1 Характерные признаки метаданных в статье, по которым их можно извлечь....................................36

3.2 Фрагмент ТеХ-нотации статьи из журнала «Lobachevskii Journal of Mathematics».................................38

3.3 Общий вид документа в формате OpenXML...............39

3.4 Фрагмент файла document.xml до и после предварительной обработки (символом нижнего подчеркивания отмечены места без разрыва)....................................41

3.5 XPath выражение выделения аффилиации авторов............42

3.6 Архитектура программного комплекса обработки документов в формате OpenXML ............................................................43

3.7 Фрагмент документа до обработки модулем...............45

3.8 Фрагмент документа после обработки модулем (создан колонтитул с выходными данными) ........................................................45

3.9 Пример автоматически сгенерированного содержания сборника

трудов Съезда................................46

3.10 Пример автоматически сгенерированного авторского указателя сборника трудов Съезда...........................47

3.11 Сформированный файл импорта статей или выпуска в OJS.......48

3.12 Архитектура онтологии SPAR и ее отношения с другими модулями

[84]......................................54

3.13 Онтология DoCO и ее компоненты [85]..................55

3.14 Иллюстрация описания документа в терминах онтологии DoCO . ... 56

3.15 Иллюстрация описания документа в терминах онтологии DoCO . ... 57

4.1 Фрагмент кода нормализации текста....................67

4.2 Фрагмент семантического представления обучающих данных.....68

4.3 Иллюстрация работы прототипа рекомендательной системы......69

4.4 Модель издательского процесса......................72

4.5 Измененный пользовательский интерфейс менеджера журнала.....75

4.6 Коды классификаторов в статьях эксперта................75

4.7 Фрагмент файла 'schema.xml' для редактирования таблицы 'user_interests'................................76

4.8 Учёт профессиональных интересов рецензента с помощью системы весовых коэффициентов ......................................................77

4.9 Набор классификаторов MSC2010 в профиле рецензента........78

4.10 Рекомендации по подбору рецензентов для выбранной статьи.....80

Приложение А Свидетельства о регистрации программ для ЭВМ

Приложение Б

Фрагменты кода выделения метаданных из документов в формате OpenXML

Б.1 Фрагмент PHP-класса предварительной обработки документа

OpenXML

10

15

20

<?php /**

* Russian Digital Libraries Journal issues formation program (Elbib Parser).

*

* @class DocxParser.php

*

* @link https://github.com/hsh01/elbib_parser

* @copyright Copyright (c) Kazan Federal University 2020.

* @author Shamil K.

* @file DocxParser.php */

namespace hsh01;

use DOMDocument; use DOMElement; use DOMNamedNodeMap; use DOMNode; use DOMNodeList; use DOMXpath; use ZipArchive;

require_once 'Parser.php';

abstract class DocxParser extends Parser { static $temp_dir = 'tmp';

5

35

40

45

50

55

protected $xpath; /**

* Constructor.

* Extract required xml files from the document.

* @param string $filename

* @uses DocxParser::mergeStyles(), DocxParser::clearTrailWhitespace () •

*/

public function _construct($filename) {

parent::_construct($filename);

$zip = new ZipArchive;

$res = $zip->open($filename);

if ($res === TRUE) {

$zip->extractTo(self::$temp_dir, [

'word/document.xml', 'docProps/app.xml', 'word/header1.xml', 'word/styles.xml'

]);

$zip->close(); //обрабатываем document.xml $this->document = new DOMDocument;

$this->document->load(self::$temp_dir . '/word/document.xml'

);

$this->mergeStyles(self::$temp_dir . '/word/styles.xml'); $this->removeRPrInPPr(); $this->mergeRangeSiblingStyleEquals(); $this->xpath = new DOMXpath($this->document); $this->document->save('document.xml'); } else {

trigger_error("$filename failed to extract.", E_USER_ERROR);

}

}

/**

70

75

80

85

* The function is merge document.xml with all provided styles in document.

* It will be insert all styles settings to properties nodes in document.xml.

* This is need because of i.e. Bold may be set as built-in document .xml and

* as custom style.

* @param string $filename [optional] 'styles.xml' path, default unzip dir.

*/

function mergeStyles($filename = '/word/styles.xml') { $this->document->preserveWhiteSpace = false; $this->document->formatOutput = true;

$xpath = new DOMXPath($this->document);

$query = "//*[self::w:pStyle or self::w:rStyle]/@w:val"; $entries = $xpath->evaluate($query);

$pStyleList = [];

$pStyleIdsList = [];

foreach ($entries as $entry) {

$pStyleIdsList[] = $entry->value; $pStyleList[] = $entry->parentNode;

}

unset($entries);

// styles $styles = [];

$styles_xml = simplexml_load_file($filename, "SimpleXMLElement", 0, "w", TRUE);

$styles_xml->registerXPathNamespace('w', 'http://schemas. openxmlformats.org/wordprocessingml/2006/main');

foreach ($styles_xml->style as $style) {

if (in_array((string)$style['styleId'], $pStyleIdsList) && isset($style->rPr))

$styles [(string)$style['styleId']] = $style->rPr;

}

100

105

unset($styles_xml);

foreach ($pStyleList as $pStyle) {

if ($pStyle->nodeName == 'w:rStyle') continue; if (key_exists($pStyle->getAttribute('w:val'), $styles) && $styles[$pStyle->getAttribute('w:val')]) {

$new_rPr = dom_import_simplexml($styles[$pStyle-> getAttribute('w:val')]);

$new_rPr = $this->document->importNode($new_rPr, true); $pStyle->parentNode->appendChild($new_rPr); } else {

continue;

}

$pStyle;

){

$w_rs = $xpath->query("parent::w:pPr/parent::w:p/w:r",

foreach ($w_rs as $w_r) {

/** @var $w_r DOMNode */

$w_rPrs = $xpath->query("w:rPr", $w_r);

/** @var $w_rPrs DOMNodeList */

if ($w_rPrs->length >0) {

foreach ($new_rPr->childNodes as $new_rPr_child_node

/** @var $new_rPr_child_node DOMNode */ if ($xpath->query($new_rPr_child_node->nodeName, $w_rPrs[0])->length == 0 && isset(

$w_rPrs[0])) {

->cloneNode(true)

$w_rPrs[0]->appendChild($new_rPr_child_node

}

} else { // if rPr not exists

$w_r->insertBefore($new_rPr->cloneNode(true), $w_r->

firstChild)

}

$this->document->preserveWhiteSpace = false; $this->document->formatOutput = true;

}

}

130

135

140

145

150

foreach ($this->document->getElementsByTagName('rStyle') as $rStyle) {

/** @var $rStyle DOMElement */

if (array_key_exists($rStyle->getAttribute('w:val'), $styles

)) {

$new_rPr = dom_import_simplexml($styles[$rStyle-> getAttribute('w:val')]);

$new_rPr = $this->document->importNode($new_rPr, true); } else {

continue;

}

$rPrItems = $rStyle->parentNode->childNodes; for ($i = $rPrItems->length; —$i >= 0;) {

foreach ($new_ rPr->childNodes as $key => $new_item) {

if ($rPrItems->item($i) !== null && $rPrItems->item( $i)->nodeName == $new_item->nodeName) {

$rPrItems->item($i)->parentNode->removeChild(

$rPrItems->item($i));

}

}

}

$new_items = $new_rPr->childNodes;

for ($i = $new_items->length; —$i >= 0;) {

$rStyle->parentNode->appendChild($new_items->item($i));

}

$rStyle->parentNode->removeChild($rStyle);

}

$this->document->save(self::$temp_dir . '/word/document.xml');

}

function removeRPrInPPr() { $query = "//w:pPr/w:rPr"; $xpath = new DOMXPath($this->document); $entries = $xpath->evaluate($query);

foreach ($entries as $entry) {

$entry->parentNode->removeChild($entry);

165

170

175

180

/**

* The function merge sibling ranges, which styles are equal. */

function mergeRangeSiblingStyleEquals() {

$ns_uri = 'http://schemas.openxmlformats.org/wordprocessingml /2006/main';

foreach ($this->document->getElementsByTagNameNS($ns_uri, 'p') as $par) { /* @var $par DOMElement */

for ($i = 0; $i < $par->childNodes->length; $i++) { /* @var $range DOMElement */ $range = $par->childNodes->item($i); $rangeNextSibling = $range->nextSibling; if ($range->localName == 'r' && isset($rangeNextSibling) && $rangeNextSibling->localName == 'r') {

$rPr = $range->getElementsByTagNameNS($ns_uri, "rPr"

)[0];

$rPrNext = $rangeNextSibling->getElementsByTagNameNS ($ns_uri, "rPr")[0];

if (isset($rPr) && isset($rPrNext)) {

$text = $range->getElementsByTagNameNS($ns_uri, "t")[0] ?? $range->getElementsByTagName(

"w:t")[0];

if (isset($text)) {

/* check is next range include only whitespace, if so join them */

if (preg_match('/A([\r\n\t ]|\xC2\xA0|&nbsp ;)+$/', $rangeNextSibling->textContent)) {

$text->textContent .= $rangeNextSibling

->textContent;

$par->removeChild($rangeNextSibling); $i —;

/* check current and next range styles

equals, if so join them */

195

200

205

210

$rPrNext)) {

->textContent;

} elseif ($this->isNodesEquals($rPr,

/* @var $text DOMElement */ $text->textContent .= $rangeNextSibling

$par->removeChild($rangeNextSibling); $i — ;

}

/* if range text value ends with whitespace, add attribute, commonly useless */

if (preg_match('/A([\r\n\t ]|\xC2\xA0|&nbsp ;)+.*|.*([\r\n\t ]|\xC2\xA0|&nbsp;)+$/',

$text->textContent)) { $text->setAttribute('xml:space', "

preserve");

}

}

$this->document->save('document.xml');

/**

* @param DOMElement $node1

* @param DOMElement $node2

* @return bool */

function isNodesEquals(DOMElement &$node1, DOMElement &$node2): bool {

if ($node1->nodeName !== $node2->nodeName || count($node1-> childNodes) !== count($node2->childNodes)

|| $node1->attributes->length !== $node2->attributes->length ) return false;

$nodes1 = $node1->getElementsByTagName("*"); $nodes2 = $node2->getElementsByTagName("*"); for ($i = 0; $i < count($nodes1); $i++) {

}

}

}

}

}

225

230

235

240

245

if ($nodes1[$i]->nodeName !== $nodes2[$i]->nodeName || $nodes1[$i]->nodeValue !== $nodes2[$i]->nodeValue) { return false;

}

$attributes1 = $nodes1[$i]->attributes; /** @var $attributes1 DOMNamedNodeMap */ $attributes2 = $nodes2[$i]->attributes; /** @var $attributes2 DOMNamedNodeMap */ if ($attributes1->length !== $attributes2->length) { return false;

}

for ($j = 0; $j < $attributes1->length; $j++) {

if ($attributes1->item($j)->nodeName !== $attributes2-> item($j)->nodeName ||

$attributes1->item($j)->nodeValue !== $attributes2-> item($j)->nodeValue) {

return false;

}

}

}

for ($i = 0; $i < $node1->attributes->length; $i++) {

if ($node1->attributes->item($i) === $node2->attributes-> item($i)) {

return false;

}

}

return true;

}

public function close() { // for debug

$this->document->save('document.xml'); if (file_exists(self::$temp_dir . '/word')) {

foreach (glob(self::$temp_dir . '/word/*') as $file) { chmod($file, 0600); unlink($file);

}

rmdir(self::$temp_dir . '/word');

260

265

270

275

280

if (file_exists(self::$temp_dir . '/docProps')) {

foreach (glob(self::$temp_dir . '/docProps/*') as $file) { chmod($file, 0600); unlink($file);

}

rmdir(self::$temp_dir . '/docProps'

}

if (file_exists(self::$temp_dir)) { foreach (glob(self::$temp_dir . chmod($file, 0600); unlink($file);

}

rmdir(self::$temp_dir);

/*') as $file) {

/**

* The method removes the space, which stands as a separate range, and may have a style.

* The value of the node is written to the previous element.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.