Семантические методы и инструменты фабрики метаданных цифровой математической библиотеки тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Гафурова Полина Олеговна
- Специальность ВАК РФ00.00.00
- Количество страниц 148
Оглавление диссертации кандидат наук Гафурова Полина Олеговна
ВВЕДЕНИЕ
Глава 1. СОВРЕМЕННЫЕ МЕТОДЫ И ТЕХНОЛОГИИ ПРЕДСТАВЛЕНИЯ НАУЧНОГО КОНТЕНТА
1.1 Цифровые математические библиотеки в системе научных коммуникаций
1.1.1 Методы управления научным контентом
1.1.2 Современные проекты управления научным контентом
1.1.3. Методы и инструменты математической библиотеки ЕиОМЬ
1.1.4. Управление научным знанием в локальных цифровых библиотеках
1.1.5. Методы взаимодействия с наукометрическими базами данных в сети Интернет
1.2. Современные технологии формирования метаданных цифровых научных коллекций
1.2.1. Интеграция метаданных математических исследований
1.2.2. Метаданные цифровых коллекций научных документов
1.2.3. Стек семантического веба
1.2.4. Форматы представления метаданных цифровых библиотек
1.2.5. Особенности формирования метаданных различных коллекций .. 40 Выводы по главе
Глава 2. МОДЕЛЬ ФАБРИКИ МЕТАДАННЫХ
2.1 Разработка архитектуры фабрики метаданных цифровой математической библиотеки
2.1.1 Фабрика метаданных цифровой библиотеки ЬоЬаоЬеУБкп- БМЬ и ее задачи
2.2. Основные методы работы фабрики метаданных
2.2.1. Методы предобработки документов: работа с печатными документами
2.2.2. Формирование метаданных цифровых документов: работа с pdf-документами и работа с метаданными
2.2.3. Постобработка и загрузка в цифровую библиотеку
2.2.4. Приведение метаданных коллекций в форматы других библиотек
Выводы по главе
Глава 3. МЕТОДЫ ФАБРИКИ МЕТАДАННЫХ
3.1 Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML
3.1.1 Методы формирования метаданных математических ретро-коллекций
3.2. Дополнение метаданных документа средствами семантической сети Wikidata
3.3. Дополнение метаданных документа средствами платформы Реестра исследовательских организаций ROR
3.4. Метод нормализации метаданных в формат Journal Archiving and Interchange NISO JATS
3.5. Загрузка метаданных цифровых коллекций в Lobachevskii-DML
3.7. Метод формирования метаданных статей для загрузки в DSpace
3.8. Метод нормализации метаданных в формат библиотеки dblp
Выводы по главе
ЗАКЛЮЧЕНИЕ
ВЫВОДЫ
94
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ 1:
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ПРИЛОЖЕНИЕ
ВВЕДЕНИЕ
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Модели и методы интеллектуальной обработки математических знаний в информационных системах2020 год, кандидат наук Хайдаров Шамиль Махмутович
Методы и алгоритмы обработки математического контента на основе технологий семантического веба2024 год, кандидат наук Николаев Константин Сергеевич
Модели и методы построения многоязычного облака лингвистических открытых связанных данных2019 год, кандидат наук Кириллович Александр Витальевич
Разработка и реализация семантической цифровой библиотеки как основы для построения пространства научных знаний2020 год, кандидат наук Атаева Ольга Муратовна
Интеграция цифровых информационных ресурсов в электронные библиотеки2021 год, кандидат наук Сулейманов Руслан Сулейманович
Введение диссертации (часть автореферата) на тему «Семантические методы и инструменты фабрики метаданных цифровой математической библиотеки»
Актуальность исследования
В настоящее время усовершенствование алгоритмов поиска информации в сети Интернет является одной из актуальных задач информационных технологий. Объем накопленной информации в сети Интернет с каждым годом многократно увеличивается [60, 114]. По этой причине возникает необходимость усовершенствования методов поиска и систематизации накопленных данных. Данное направление особенно актуально в научной среде, поскольку появление новых исследований напрямую связано с доступом к исследованиям предыдущих поколений ученых и зачастую определяет актуальность научной работы [75]. Вместе с тем, появление новых работ приводит к увеличению временных затрат на поиск необходимой информации для конкретного исследования. Таким образом, возникает задача поиска новых подходов для систематизирования и структурирования документов в сети Интернет для более рационального использования времени в ходе исследований.
Одним из подходов к решению данной задачи является создание специализированных ресурсов - цифровых научных библиотек. Цифровая библиотека представляет собой онлайн-базу данных цифровых объектов, которая может включать в себя текст, изображения, аудио, видео, цифровые документы и другие формы цифрового контента [75, 162]. Объекты могут состоять как из изначально цифрового содержимого, так и из информации, полученной в процессе последующей цифровой обработки исходного материала. В дополнение к хранению информации цифровые библиотеки предоставляют средства для организации, поиска и извлечения контента, содержащегося в коллекциях цифровых научных документов. Кроме того, одной из особенностей цифровых библиотек как информационно-поисковых систем является способность обмениваться информацией друг с другом благодаря разработке совместимых форматов данных, которые в
совокупности с цифровыми данными принято называть метаданными [б7, 84, 137].
Инновационный проект создания цифровой математической библиотеки World Digital Mathematical Library (WDML), предложил основную схему Всемирной цифровой библиотеки в виде совокупности локальных цифровых библиотек, основным содержанием которых являются семантически размеченные метаданные цифровых математических документов [б0].
Проблематика создания единого информационного научного пространства научных знаний и решение задач, связанных с этим процессом, отражены в исследованиях Атаевой О.М., Афонина С.А., Горбунова-Посадова М.М., Елизарова А.М., Жижченко А.Б., Загорулько Ю.А., Изаака А.Д., Каленова Н.Е., Липачёва Е.К., Невзоровой О.А., Печникова А.А., Полиловой Т.А., Савина Г.И, Серебрякова В.А, Сотникова А.Н, Тучковой Н.П., Чебукова Д.Е., Borwein J.M., Carette J., Farmer W.M., Kohlhase M., Nwohiri A., Rabe F., Rocha E. M., Rodrigues J. F.
Подходы к созданию цифровых математических библиотек представлены в работах: Елизарова А.М., Жижченко А.Б., Изаака А.Д., Липачёва Е.К., Серебрякова В.А, Чебукова Д.Е., Bartosek M., Bolikowski L., Borbinha J., Bouche T., Buchberger B., Ion P.D.F., Kováf P., Krejcíf V., Labbe O., Nowinski A., Nwohiri A., Olver P., Rákosník J., Sárfy M., Sojka P., Sylwestrzak W., Tarnawski B., Tkaczyk D., Watt S. M.
Для обеспечения отлаженного и непрерывного добавления данных в цифровую библиотеку необходимо создание новых машинных методов извлечения метаданных из коллекций документов, включаемых в такую библиотеку. Осложняют названную процедуру разнородность метаданных документов коллекций, использование специальных символов в научных документах, представление метаданных в документах на различных языках. Отдельным случаем являются так называемые «ретро-коллекции», представляющие собой сборники научных документов, выпущенных в «доцифровую эпоху» и существующих только на бумажных носителях. Для
формирования метаданных ретро-коллекций в фабрику метаданных включены программные инструменты, учитывающие стилевые и орфографические особенности научных текстов «доцифрового» периода [99].
Объектом исследования в работе являются подходы к формированию электронных коллекций научных документов на русском языке (включая дореформенную орфографию), методы формирования метаданных цифровых коллекций, способы дополнения и размещения метаданных документов в цифровых библиотеках и агрегирующих базах знаний.
Предметом исследования являются модели представления метаданных цифровых документов, организация структуры метаданных в соответствии с хт1-схемами агрегирующих библиотек, модели преобразования метаданных, модели распространения метаданных в информационном научном пространстве глобальной сети.
Цели и задачи исследования. Целями исследования являются разработка методов управления метаданными научных документов и создание на их основе комплекса программных инструментов, взаимодействующих между собой и обеспечивающих в автоматическом режиме экстракцию из документов метаданных, их дополнение, уточнение и нормализацию в соответствии со схемами основных агрегирующих инфометрических систем.
Основная задача, решаемая в данной работе, заключается в создании модели набора сервисов цифровой математической библиотеки, обозначенных термином «фабрика метаданных цифровой библиотеки» и направленных на автоматизацию извлечения, обработки, нормализации и повышение качества метаданных цифровых научных документов в цифровых библиотеках. Данная задача разбивается на следующее множество подзадач:
- Анализ современных подходов к управлению метаданными цифровых коллекций и их сервисов.
- Создание модели программного комплекса «Фабрика метаданных» -приложения, главной целью которого является формирование метаданных
цифровых документов и электронных коллекций цифровой математической библиотеки.
- Разработка методов управления метаданными, включающих экстракцию, дополнение, уточнение и нормализацию метаданных документов цифровых математических коллекций.
- Разработка программных инструментов экстракции, дополнения и нормализации метаданных документов цифровых математических коллекций.
- Интеграция сформированных метаданных с коллекциями документов цифровой библиотеки ЬоЬасЬеУБкп-ОМЬ.
Методология и методы исследования. При выполнении работы использовались семантические технологии и семантические сети, методы и технологии обработки естественного языка, современные программные технологии и библиотеки, объектно-ориентированный анализ.
Для реализации методов, предложенных в диссертации, использованы современные инструментальные среды и методы моделирования. Научная новизна работы состоит в следующем:
- Разработана модель «Фабрика метаданных цифровой математической библиотеки», учитывающая особенности электронных коллекций научных документов на русском языке и специфику математических текстов.
- Разработаны новые методы создания, нормализации и дополнения метаданных цифровых математических документов с учетом особенностей русскоязычных текстов.
- Разработаны новые методы обработки ретро-документов, на основе которых созданы программные инструменты формирования электронных ретро-коллекций.
- Разработаны новые методы формирования метаданных научных документов, оформленных по различным стилевым правилам, на основе анализа их структурных особенностей.
- Предложены методы уточнения и дополнения метаданных с помощью разработанной системы запросов к открытым семантическим ресурсам и графам знаний.
Теоретическая и практическая значимость работы. Разработаны сервисы автоматической обработки математических документов и формирования метаданных документов электронных научных коллекций. Разработанные сервисы могут быть использованы в качестве модулей в составе цифровых математических библиотек при создании новых коллекций документов. Программные инструменты, представленные в работе, использовались при создании ряда электронных коллекций, включенных в цифровую математическую библиотеку Lobachevskii-DML.
Основные положения, выносимые на защиту:
1. Построена модель фабрики метаданных цифровой математической библиотеки для обработки метаданных научных документов на русском языке.
2. Предложены новые методы автоматического дополнения метаданных цифровых документов с помощью интернет-источников.
3. Реализованы программные инструменты автоматического дополнения метаданных цифровых документов с помощью разработанной системы запросов к открытым базам и графам знаний.
4. Предложены новые методы автоматической нормализации метаданных научных документов в форматы агрегирующих баз научных знаний.
5. Реализованы программные инструменты автоматической нормализации метаданных научных документов по схемам EuDML, DBLP, Dub1inCore, eLibrary.ru.
Соответствие паспорту специальности. Работа выполнена в рамках направления области исследований «2. Техническое обеспечение информационных систем и процессов, в том числе новые технические средства сбора, хранения, передачи и представления информации. Комплексы
технических средств, обеспечивающих функционирование информационных систем и процессов, накопления и оптимального использования информационных ресурсов» паспорта научной специальности 2.3.8 «Информатика и информационные процессы».
Достоверность. Степень достоверности результатов, полученных в работе обеспечивается строгостью постановки задач и методов их решения, соответствием разработанных программных средств установленным требованиям, использованием системного подхода к построению программного комплекса, оценками верификации разработанных программных продуктов и проведенными экспериментами.
Программные инструменты фабрики метаданных нашли практическое применение при формировании электронных коллекций цифровой математической библиотеки Lobachevskii-DML, в частности, ретро-коллекции «Известия физико-математического общества при Казанском университете» серия 2 (1891-1923 гг.) и серия 3 (1923-1949 гг.), коллекции «Труды математического центра им. Н.И. Лобачевского» (1998-2020 гг.), коллекции статей журнала «Электронные библиотеки» (1999-2022 гг.).
Апробация результатов работы.
Результаты выполненной работы были представлены на следующих конференциях и семинарах:
1. «Ломоносов-2019». Международная научная конференция студентов, аспирантов и молодых ученых; секция «Вычислительная математика и кибернетика» (Россия, Москва, 2019).
2. Международная научная конференция «Электронная Казань-2019» (Россия, Казань, 2019).
3. XXI Всероссийская научная конференция «Научный сервис в сети Интернет» (Россия, Новороссийск, 2019).
4. XXII Всероссийская научная конференция «Научный сервис в сети Интернет» (Россия, онлайн, 2020).
5. Международный форум по математическому образованию - IFME, Казань, 2021.
6. XXIII Всероссийская научная конференция «Научный сервис в сети Интернет» (Россия, онлайн, 2021).
7. II International Workshop «Digital Technologies for Teaching and Learning (DTTL)» (Россия, Казань, 2022).
8. XXIV Всероссийская научная конференция «Научный сервис в сети Интернет» (Россия, онлайн, 2022).
9. XXV Всероссийская научная конференция «Научный сервис в сети Интернет» (Россия, онлайн, 2023).
10. XXII Всероссийская молодежная школа-конференция «Лобачевские чтения-2023».
11. IV Международный научный семинар «Digital Technologies for Teaching and Learning (DTTL) » (Россия, онлайн, 2024).
Публикации.
Основные результаты по теме работы изложены в 19 печатных изданиях, 3 публикации - в журналах, индексируемых Scopus, 1 публикация - в журнале, входящем в Перечень ВАК РФ, 13 публикаций - в изданиях, индексируемых РИНЦ. Также по результатам работы получено 3 свидетельства Роспатента РФ о государственной регистрации программ для ЭВМ и 1 свидетельство о регистрации базы данных.
Конкурсная поддержка работы.
Работа выполнена при поддержке грантов Российского научного фонда проект № 21-11-00105, а также проектов FNEF-2022-0014, FNEF-2024-0014.
Основные публикации.
В изданиях, входящих в международные базы цитирования WoS и Scopus:
1. Elizarov A.M. Wikidata in metadata formation methods for documents of digital mathematical library / A.M. Elizarov, P.O. Gafurova, E.K. Lipachev // CEUR Workshop Proceedings. - 2021. - Vol. 3066 - P. 23-33.
2. Gafurova P.O. Algorithms for integration of unstructured mathematical documents into the common digital space of scientific knowledge / P.O. Gafurova, A.M. Elizarov, E.K. Lipachev // CEUR Workshop Proceedings, CDSSK 2020 -Proceedings of the International Conference "Common Digital Space of Scientific Knowledge: Problems and Solutions" - 2021. - P. 39-49.
3. Gafurova P.O. Metadata normalization methods in the digital mathematical library / P.O. Gafurova, A.M. Elizarov, E.K. Lipachev, D.M. Khammatova // CEUR Workshop Proceedings, SSI 2019 - 2020. - P. 136-148.
Научные статьи, опубликованные в изданиях, входящих в Перечень ВАК РФ:
4. Гафурова П.О. Метод автоматического пополнения метаданных электронных коллекций цифровой математической библиотеки // Электронные библиотеки. - 2024. - Т. 27, № 2. - С. 164-186.
Свидетельства на программы для электронных вычислительных машин:
5. Гафурова П.О. Программа нормализации метаданных в форматах инфометрических баз данных: свидетельство о государственной регистрации программы для ЭВМ RU №2020667794 от 29.12.2020 / П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв, Ш.М. Хайдаров; правообладатель: ФГАОУВО «Казанский (Приволжский) федеральный университет. Заявка № 2020666918 от 16.12.2020.
6. Галиаскарова К.Р. Программа управления базой данных «Труды Математического центра им. Н.И. Лобачевского»: свидетельство о государственной регистрации программы для ЭВМ RU № 2021681486 от 22.12.2021 / К.Р. Галиаскарова, П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв, Ш.М. Хайдаров; правообладатель: ФГАОУВО «Казанский (Приволжский) федеральный университет. Заявка № 202168090 от 15.12.2021.
7. Гафурова П.О. Программа формирования списка близких статей цифровой математической библиотеки на основе статистических метрик: свидетельство о государственной регистрации программы для ЭВМ RU №2023684278 от 15.11.2023 / П.О. Гафурова, В.А. Кривцова; правообладатель:
ФГАОУВО «Казанский (Приволжский) федеральный университет. Заявка № 2023685645 от 29.11.2023.
Свидетельства о регистрации баз данных:
8. Галиаскарова К.Р. База данных «Труды Математического центра имени Н.И. Лобачевского»: свидетельство о государственной регистрации базы данных RU № 2021620318 от 24.02.2021/ К.Р. Галиаскарова, П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв, Ш.М. Хайдаров; правообладатель: ФГАОУВО «Казанский (Приволжский) федеральный университет. Заявка № 202168090 от 15.12.2021.
Статьи, проиндексированные в БД РИНЦ:
9. Гафурова П.О. Метод управления учебными и научными документами на основе онтологического подхода // Материалы Международного форума по математическому образованию. - IFME"2024, C. 377-381.
10. Гафурова П.О. Автоматическое пополнение метаданных цифровых публикаций с использованием семантических сервисов сети Интернет // Научный сервис в сети Интернет. - 2023. - № 25. - С. 84-93. - DOI 10.20948/abrau-2023-27.
11. Гафурова П.О. Гармонизация метаданных цифровых математических коллекций // Информационные технологии в образовании и науке (ИТОН-2023): материалы IX Международной научно-практической конференции в рамках IV Международного форума по математическому образованию (27 марта - 1 апреля 2023 г.) / отв. ред. А.А. Агафонов. - Казань: Изд-во Академии наук РТ - 2023. - С. 46-50. URL: https://kpfu.ru/portal/docs/F357733059/ITON_2023.pdf
12. Гафурова П.О. Метод уточнения аффилиации авторов научных документов на основе запросов к семантической сети / П.О. Гафурова, Е.К. Липачёв // Научный сервис в сети Интернет. - 2022. - № 24. - С. 115-127.
13. Гафурова П.О. Архитектура сервисов фабрики метаданных цифровой математической библиотеки // В сборнике: Информационные технологии в образовании и науке (ИТОН - 2022) и II International Workshop "Digital Technologies for Teaching and Learning (DTTL)". Материалы III Международного форума по математическому образованию: Международной научно-практической конференции и II Международного научного семинара. Отв. редакторы А.А. Агафонов, О.А. Невзорова. Казань - 2022. - С. 143-149.
14. Гафурова П.О. Извлечение знаний из Wikidata для формирования метаданных документов электронных математических коллекций / П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв // Электронные библиотеки. - 2021. - Т. 24, № 6. - С. 1023-1059. https://doi.org/10.26907/1562-5419-2021-24-6-1023-1059.
15. Гафурова П.О. Методы формирования метаданных в форматах агрегирующих математических библиотек // Информационные технологии в образовании и науке (ИТОН-2021): материалы VII Международной научно-практической конференции, Казань, 22-28 марта 2021 года. - Казань: Казанский (Приволжский) федеральный университет, 2021. - С. 32-36.
16. Андреичев М.Д. Пополнение метаданных документов математических цифровых ретро-коллекций методом семантических сетей / М.Д. Андреичев, П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв // Научный сервис в сети Интернет. - 2021.
- № 23. - С. 22-33. https://doi.org/10.20948/abrau-2021-22.
17. Гафурова П.О. Алгоритмы формирования метаданных математических ретро-коллекций на основе анализа структурных особенностей документов / П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв // Электронные библиотеки. - 2021. - Т. 24, № 2. - С. 238-271. https://doi.org/10.26907/1562-5419-2021-24-2-238-270.
18. Гафурова П.О. Lobachevskii-DML: формирование архивных математических коллекций / П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв // Научный сервис в сети Интернет. - 2020. - № 22. - С. 171-183. https://doi.org/10.20948/abrau-2020-23.
19. Гафурова П.О. Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML / П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв // Электронные библиотеки. - 2020. - Т. 23, № 3. - С. 336-381. https://doi.org/10.26907/1562-5419-2020-23-3-336-381.
20. Гафурова П.О. Методы формирования и нормализации метаданных в цифровой математической библиотеке/ П.О. Гафурова, А.М. Елизаров, Е.К. Липачёв, Д.М. Хамматова // Научный сервис в сети Интернет. - 2019. - № 21. -С. 234-244. URL: https://doi.org/10.20948/abrau-2019-28.
21. Гафурова П.О. Методы нормализации метаданных электронных математических коллекций / П.О. Гафурова, Е.К. Липачёв // Ученые записки ИСГЗ.
- 2019. - Т. 17, № 1. - С. 141-148.
22. Гафурова П.О. Методы нормализации метаданных цифровых математических библиотек // Ломоносов - 2019: Секция «Вычислительная математика и кибернетика», Москва, 08-12 апреля 2019 года. - Москва: ООО «МАКС Пресс», 2019. - С. 162-164.
23. Гафурова П.О. Методы семантического представления математических коллекций цифровой библиотеки Lobachevskii-DML/ П.О. Гафурова, Е.К. Липачёв // Труды Математического центра имени Н. И. Лобачевского. - 2018. - Т. 56. - С. 90.
Объем и структура работы.
Диссертация изложена на 114 страницах машинописного текста и состоит из списка сокращений, введения, обзора литературы, описания методик исследования, обсуждения результатов, заключения, выводов, списка литературы (включающего 162 источников) и 9 приложений. Диссертация проиллюстрирована 30 рисунками, 8 алгоритмами и 4 таблицами.
Глава 1. СОВРЕМЕННЫЕ МЕТОДЫ И ТЕХНОЛОГИИ ПРЕДСТАВЛЕНИЯ НАУЧНОГО КОНТЕНТА
1.1 Цифровые математические библиотеки в системе научных
коммуникаций
В этой главе приводится обзор методов управления математическим контентом с помощью цифровых математических библиотек.
1.1.1 Методы управления научным контентом
В процессе возникновения и развития цифровых технологий практически сразу возникла проблема управления научным контентом. В дальнейшем это направление было значительно усовершенствовано с помощью семантических технологий [51].
С постепенной цифровизацией информационного пространства были созданы методы описания цифровых документов, а также форматы метаданных, направленные на решение задач по структуризации оцифрованных печатных документов (к таким форматам относятся TEI, MODS, METS и другие) [162]. С развитием цифровых технологий подходы к описанию документов менялись от описания документов в текстовом виде к способам описания документа в машиночитаемом и распознаваемом виде.
В настоящее время на основе технологий Всемирной сети создается Единое цифровое научное пространство. Цели построения такого пространства - формирование и поддержка цифровой информационной среды, необходимой для решения комплекса задач развития общества, обеспечивающих информационное сопровождение научных исследований, поддержку образовательных процессов, популяризацию науки, сохранность научных знаний, процессы мониторинга и управления научным процессом. Используемые для этого методы и технологии, а также точные определения используемых в научных дискуссиях терминов приведены в [3, 38].
Для работы с математическими документами были разработаны проекты управления математическим контентом World Digital Mathematics Library
(WDML), Global Digital Mathematics Library (GDML). В рамках этих инициатив были предложены способы управления научным математическим контентом и дальнейшее развитие данных проектов [25, 26, 47, 69, 70, 77, 111, 115, 131, 134, 155].
1.1.2 Современные проекты управления научным контентом
Проблемы интеграции знаний, полученных в области математики за весь «печатный» период развития этой науки, рассматривались в целом ряде проектов [38, 51]. Даже если эти проекты носили локальный характер, методы и инструменты, разрабатываемые в ходе их выполнения, были ориентированы на всеобъемлющую интеграцию математических знаний, а достигнутый уровень развития позволил поставить задачу создания ресурсов, позволяющих управлять математическим контентом. К таким проектам относятся: World Digital Mathematics Library (WDML), European Digital Math Library (EuDML), MathSciNet: Moving forward by moving backward, AMS Digital Mathematics Registry, Global Digital Mathematics Library (GDML) [54, 85, 86, 106, 127, 128, 161].
Основной целью WDML является объединение оцифрованных версий массива научных математических документов в систему распределенных взаимосвязанных репозиториев. Термин WDML был введен в 2006 году на Генеральной ассамблее Международного математического союза (см. [54, 85, 86, 106, 127, 128, 161]). Дальнейшим развитием этой идеи была разработка глобальной цифровой математической библиотеки GDML в 2012 году. GDML является одной из реализаций инициативы WDML. Обсуждение проекта GDML проводилось на Интернациональных конгрессах математиков 2014 и 2018 годов [73, 115].
Цифровая математическая библиотека (Digital Mathematics Library, DML) [86] содержит в своем составе ссылки на различные цифровые репозитории источников, в том числе локальных цифровых библиотек, что подтверждает основную цель данных проектов: создавать методы объединения и поиска данных в локальных цифровых библиотеках. Под
термином «локальная цифровая библиотека» понимается библиотека, которая предоставляет электронные коллекции документов определенного университета, региона или страны и использует методы обработки документов с учетом локальных особенностей [99]. DML включает такие проекты, как Google Books, Czech Digital Mathematics Library, The European Digital Library, NumDam и другие проекты. Полный список проектов DML указан в приложении 1. Одним из существенных минусов является то, что страница проекта DML не обновлялась с 2013 года, хотя обсуждение инициативы проходило в 2014 и 2018 годах.
Подробный обзор специализированных цифровых математических библиотек приведен в [85, 99].
Цифровым математическим библиотекам, как отмечено в [25, 26, 47, 70, 77, 111, 115, 131, 134, 155], отводится роль основного интегратора математического знания, представленного в опубликованных когда-либо научных документах.
Создание цифровой библиотеки и последующее расширение её функциональных возможностей предполагает решение целого ряда трудоемких задач, связанных с управлением научным контентом (см., например, [4-8, 29, 39, 57-59, 63, 95, 98]).
Одновременно с этим разрабатываются методы информационной поддержки цифровых библиотек и методы обработки документов, основанные на семантических связях объектов, выделенных из контента цифровых библиотек [12, 26, 47, 54, 69, 70, 77, 85, 86, 106, 111, 127, 134, 138, 150, 151, 161].
1.1.3. Методы и инструменты математической библиотеки EuDML
Одним из проектов, наиболее близким к концепции WDML, является проект Европейской цифровой математической библиотеки (The European Digital Library, EuDML) [106]. Этот проект направлен на интеграцию и агрегацию математических ресурсов европейских цифровых библиотек [68, 72, 104, 144, 146].
ЕиОМЬ включает в себя более 270 тысяч документов из 14 коллекций, из которых более 220 тысяч - полнотекстовые. Портал включает в себя документы с конца XVI века и до нашего времени. На рис. 1 приведена диаграмма, иллюстрирующая распределение количества документов в цифровой библиотеке ЕиЭМЬ по годам.
Рисунок 1. Диаграмма распределения количества документов в EuDML по годам
(http s://initiative.eudml. org/).
По рисунку можно отследить динамику скорости роста количества публикаций, которая с появлением цифровых технологий увеличилась многократно.
На портале этого проекта размещены демоверсии инструментов навигации и расширенного поиска по математическому контенту, а также указаны возможности организации системы связей с международными библиографическими базами данных [152].
Приведем часть функционала EuDML, предназначенного для формирование метаданных документов [78-80]:
• PDF Text Extractor - распознавание текста PDF-документа и экстракция элементов метаданных.
• Maxtract - извлечение из PDF-документа математических конструкций и их представление формате MathML.
• TeX2NLM - перевод текста из ТеХ-представления в документ MathML в соответствии со структурой описания данных EuDML.
• Enhance NLMTeXwMathML - обновление метаданных документов, а также преобразование текста из формата TeX в формат XML+MathML.
• Plain Text Reference Segmenter - формирование библиографических ссылок из текста.
• Bibliographic Reference Parser - разделение библиографических ссылок на составные части, такие как имена и фамилии авторов, названия публикации, год публикации и т. д.
• Find similar articles via Gensim - поиск сходства между статьями из коллекции arXiv.org с использованием библиотеки Gensim.
• MIaS4gensim demo - формирование списков терминов и математических формул из текста статьи.
Более подробно назначение и функциональные возможности приведенных программных инструментов описаны в [25, 131].
Отметим, что инструменты, приведенные выше, представлены на сайте в виде демонстрационных версий, и имеют ограниченный функционал. Вместе с тем, в настоящий момент пополнение коллекции документов EuDML ведется не так активно, что можно отследить на рис. 1 в строке, обозначающей 20112020 годы [20].
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Электронные коллекции учебно-методических материалов как составляющая информационно-образовательной среды вуза2013 год, кандидат педагогических наук Халиков, Ленар Ильдарович
Электронная коллекция периодической печати2006 год, кандидат педагогических наук Абросимов, Андрей Георгиевич
Цифровые технологии культурного наследования в современном обществе2021 год, кандидат наук Кижнер Инна Александровна
Социальные медиа в системе медиакоммуникаций академических библиотек (на примере университетов Хошимина)2022 год, кандидат наук Зыонг Тхи Фыонг Чи
Архитектура и программная инфраструктура систем управления контентом и модели описания их функционирования2018 год, кандидат наук Иванов Алексей Владимирович
Список литературы диссертационного исследования кандидат наук Гафурова Полина Олеговна, 2024 год
внешних источников
В рамках фабрики метаданных цифровой библиотеки ЬоЬасИеувкп-ВМЬ разработаны методы и реализованы программные инструменты извлечения знаний с помощью запросов к семантическим сетям и dbpedia.
Указанные семантические сети используют технологию БРАРДЬ для доступа к данным.
С помощью можно пополнить метаданные об авторе и об
организации, в которой он работает. В таблице 3 приведены свойства с помощью которых может быть произведено дополнение метаданных в документе, его Wikidata id, и их описание [93, 97, 129].
Таблица 3. Свойства семантических сетей Wikidata, ID и их описание.
Свойство Описание Wikidata EntitylD
Для организаций
official name Наименования организации (включая предыдущие названия) P1448
native label Наименования организации на языке страны расположения P1705
short name Короткие наименования P1813
Country Страна расположения организации P17
located in the administrative territorial entity Территориальное расположение (город, адрес) P131
headquarters location Расположение главного здания (адрес) P159
Replaces Ссылки на филиалы организации (на сторонних сайтах) P1365
official website Официальный web-сайт P856
Для страниц персоналий
family name Фамилия P734
given name Имя P735
name in native language Имя на «родном языке» P1559
birth name Имя при рождении P1477
date of birth Дата рождения P569
date of death Дата смерти P570
occupation Деятельность P106
employer Работодатель P108
member of Участник P463
academic degree Академическая степень P512
field of work Область научных интересов P101
notable work Заметные работы P800
Эти свойства являются основополагающими при дополнении метаданных в цифровой библиотеке. В главе 3 представлен метод дополнения, основанный на использовании данных, полученных из Wikidata.
2.2.2.5. Формирование набора метаданных для цифровой библиотеки
На данном этапе работы фабрики метаданных формируется хт1-файл, содержащий описание сборника статей.
Выбор формата метаописания важен при формировании цифровой библиотеки, но он может не совпадать с форматом, принятым в фабрике метаданных. Так, в фабрике метаданных цифровой библиотеки ЬоЬасИеувкп-
DML используется формат метаданных, основанный на схеме JATS. Причинами выбора этого формата является большое количество описательных тегов и возможность его расширения. При этом, сама цифровая библиотека Lobachevskii-DML использует для хранения метаданных MySQL-таблицы. Однако, реляционная структура баз данных MySQL не оптимизирована под описание статей, что приводит к излишне усложненной форме хранения метаданных. Также, выбор формата по схеме JATS, существенно упростил процесс нормирования метаданных файлов в форматы других наукометрических баз, которые в большинстве своем построены на языке xml.
В таблице 4 представлены свойства Wikidata, и теги JATS, которые могут быть поставлены в соответствие к этим свойствам [117]. Таблица 4. Соответствие идентификаторов Wikidata EntitylD, их описания с
тегами JATS.
Wikidata EntitylD Описания свойства Wikidata Тег JATS
P1448 Наименования организации (включая предыдущие названия) <institution content-type= "uni">
P1705 Наименования организации на языке страны расположения <institution content-type= "uni" lang="">
P1813 Короткие наименования; <institution content-type= "uni_short">
P17 Страна расположения организации <country>
P131 Территориальное расположение (город, адрес) <city>, <addr-line>
P159 Расположение главного здания (адрес) <addr-line>
P1365 Ссылки на филиалы организации (на сторонних сайтах) <url>
P856 Официальный web-сайт <url>
Р734 Фамилия <surname>
Р735 Имя <given-names>
Р1559 Имя на «родном языке» <string-name>
Р1477 Имя при рождении <string-name>
Р569 Дата рождения
Р570 Дата смерти
Р106 Деятельность
Р108 Работодатель <а£Е>
Р463 Участник <aff-a1ternatives>
Р512 Академическая степень <degrees>
Р101 Область научных интересов
Р800 Заметные работы
Из таблицы 4 можно отметить, что некоторые свойства Wikidata дублируются. Этот факт можно объяснить тем, что в зависимости от источника метаданных электронной коллекции в Wikidata разметка может различаться.
Несмотря на то, что в таблице 4 приведенные теги 1АТБ повторяются, это не уменьшает семантического значения этих параметров. 1АТБ по своей структуре имеет циклы - что позволяет совершать автоматическую обработку однотипного текста, не теряя при этом семантики метаданных. Подробнее об этом написано в главе 3.
2.2.3. Постобработка и загрузка в цифровую библиотеку
В постобработку документов цифровой коллекции включены следующие действия:
• Нормализация метаданных в формат цифровой библиотеки Lobachevskii-DML.
• Нормализация метаданных в формат других семантических проектов.
• Упаковка файлов с метаданными и pdf-файлами.
Система цифровой библиотеки Lobachevskii-DML построена на языке PHP с использованием MySQL. Таким образом, включение метаданных новых коллекций с помощью методов фабрики метаданных представляет собой некоторую проблему по причине различия форматов метаданных. На рис. 14. представлены пример таблиц, которые описывают статью в библиотеке Lobachevskii-DML.
Рисунок 14. Пример таблиц, описывающих статьи в базе данных Lobachevskii-DML. Для загрузки новых коллекций в цифровую библиотеку используются методы формирования SQL-таблиц из xml-представления метаданных статей. 2.2.4. Приведение метаданных коллекций в форматы других библиотек
Одной из функций цифровых библиотек является распространение метаданных цифровых коллекций в другие цифровые семантические сервисы.
Для этого необходимо производить операцию нормализации метаданных. Для обеспечения нормализации метаданных по схемам наукометрических баз данных разработаны инструменты, позволяющие уточнить и пополнить недостающие или некорректные элементы метаданных [14, 15, 18-24]. Эти операции выполняются с помощью методов обработки естественного языка (например, извлечения ключевых слов), а также разработанной системы запросов к базам ORCID, ROR, Wikidata и др..
Создание методов нормализации зависит от формата, в который нужно преобразовать метаданные и формата хранения метаданных коллекций. Реляционные форматы метаданных легче переводятся в реляционные, чем в иерархические.
Специфика формирования нормализованного метаописания заключается в том, что набор метаданных коллекции может не совпадать с набором метаданных в том формате, в который необходимо нормализовать метаданные. И в том случае, когда набор метаданных должен быть расширен, необходимо использовать методы дополнения метаданных.
Также отметим, что в некоторых случаях метаданные приводятся вместе с файлами документов, что также требует дополнительных методов обработки данных [13, 18, 50, 109, 129].
Методы нормализации метаданных приведены в главе 3.
Выводы по главе 2
В данной главе представлена разработанная модель фабрики метаданных цифровой математической библиотеки, описаны основные рабочие процессы, реализуемые фабрикой метаданных.
Описаны основные этапы применения инструментов фабрики метаданных в процессе интеграции электронных коллекций математических документов в цифровую математическую библиотеку Lobachevskii-DML.
Предложены методы нормализации метаданных в форматы основных агрегирующих баз знаний. Приведены подходы к решению ряда проблем, связанных с особенностью нормализации метаданных цифровых
математических документов в форматы семантических проектов интернета, позволившие разработать программные инструменты нормализации метаданных цифровой математической библиотеки Lobachevskii-DML.
Глава 3. МЕТОДЫ ФАБРИКИ МЕТАДАННЫХ 3.1 Базовые сервисы фабрики метаданных цифровой математической
библиотеки ЬоЬасЬеузкп-БМЬ
В этой главе описаны базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML и применение их к различным коллекциям научных документов. Результаты, полученные в этом направлении, реализованы в виде прототипов программных инструментов, апробированных в процессе формирования метаданных электронных коллекций цифровой математической библиотеки Lobachevskii-DML [42-44]. Основная часть этих результатов по мере их получения была подробно представлена на международных и Всероссийских научных конференциях и опубликована в статьях [37, 103, 109, 150].
3.1.1 Методы формирования метаданных математических ретро-
коллекций
В этом разделе приведен процесс формирования метаданных математических ретро-коллекций. Основные этапы формирования ретро-коллекции:
Этап 1. Организация оцифровки архива указанного журнала. Оцифровка включает в себя сканирование, распознавание и формирование pdf-документов коллекции.
Этап 2. Создание метаописания архива статей журнала в форматах, допускающих машинную обработку. Метаописание должно включат в себя библиографическую запись всех статей указанного журнала.
Этап 3. Формирование цифровой ретро-коллекции, включающей полные тексты статей указанного журнала, снабженные наборами метаданных в форматах Lobachevskii-DML, MathNet.ru, EuDML.
Этап 4. Включение сформированной цифровой коллекции в Lobachevskii-DML с набором метаданных и полными текстами статей.
3.1.1.1. Методы формирования коллекции «Известия физико-математического общества при Казанском университете»
Для решения задач по подготовке метаданных ретро-коллекций был разработан формат описания архивных статей, основанный на схеме [15, 16, 116-118]. Хт1-схема JATS расширена элементами, обеспечивающими представление метаданных на нескольких языках. Фрагмент метаданных коллекции приведен на рис. 15.
19
20
<front>
<jo
«journal-id "journal-id-type "panc">izfacK/journal-id> «journal-title-group xml:lang="run>
<journal-title?K»»*eTiwi фиэико-катехитичаского общества при Казахском Императорегок ухи»ерсит»те</journal-title> </journal-titit =group> <tran$-titie-group xml:lang-"fr">
<trans-tic lei-Bulletin de la scciete physico-mathfenatique dt Каяап-:./trans-title > </trans-t itle-g roup>
<journal-id "journal-id-type "publisher ":>Xazan</journal-id> <publi sher>
<publishe г-пате>Жл1«нь</publi sher-name> </publi$her> <!journal-meta> <article-meta>
«article-id>2-15-4-l</article-id> <ti tle-group>
<article-title т1:1аг.д="ги''>Распрострахение аахска болнюс чисел ка величию:, амисявдее друг от jjpyra.'*/article-title> <alt-title xml:lang="ru-о">Раедроczpaxaxie аахока Sojabvci чисел« xa i№Vi№, амисящ!я дрyn on друга.</alt-title> <alt title xml :ldngs"£r":>Extension de la loi de grands norsbres а их événements dependants les uns des autre з. </alt-title> </ti tle-group> <contrib-group>
<COntrit> COntrib= types"author"> <nane-altemat i ves> <name>
<зихлате xml:lany="iru ;-Карков<s'ji£kdjne> <given names шп1:1илд="ги">А. A.</given rmmC'S> <strinq-name icnl: "iancpTu-o">A. А. Маркова <st.rinq-name> <string-name xrnl:iang="£r">A. warfcof </string-name> </хяж> </name-a ite mat i ves> </contrib> </contrib-group> <pub-date>
<yea r>190 fri /yea r> </pub-date> <volume>15</volumfi> <vo 1 ume-seri es >2</vol lime-ser i es> <issue>4</issue> <i$$ue part >ic/i«ue part> </ar tide-meta> ■| </front> </article> </article>
Рисунок 15. Фрагмент метаданных электронной ретро-коллекции. На рис. 15 можно заметить, что информация об авторе содержит в себе только фамилию автора. Следовательно, при формировании метаданных статьи необходимо дополнить метаданные автора инициалами или именем и отчеством.
Ниже приведен разработанный алгоритм экстракции и нормализации метаданных статей второй и третьей серии «Известий физико-математического общества при Казанском университете» подробно описывает основные этапы работы по извлечению и нормализации метаданных статей.
Алгоритм 1. Экстракция и нормализация метаданных статей журнала «Известия физико-математического общества при Казанском
университете».
1. с читать файл номера журнала в формате pdf
2. загрузить шаблон, определяющий структурные особенности номера
3. в ычислить диапазоны страниц статей номера
4. р азделить файл номера на файлы статей
5. выделить первую страницу статьи
6. о существить поиск строки с названием статьи
7. о пределить основной язык статьи
8. выделить название статьи по шрифтовому шаблону
9. п реобразовать название статьи в метаданные
10. в ыделить последнюю страницу статьи
11. о существить поиск строки, содержащей список авторов
12. в ыделить авторов статьи по шаблонам регулярных выражений
13. о существить поиск и извлечение блока аннотации
14. о существить поиск и извлечение списка литературы
15. с формировать набор метаданных в соответствии со схемой нормализации
Результатом работы реализованного метода является оцифрованная коллекция «Известия физико-математического общества при Казанском университете», семантически размеченная и загруженная на сайт электронной библиотеки Lobachevskii-DML (рис. 16), которая, в общей сложности, содержит около тысячи статей в двадцать одном томе [64].
A Inbachwilrii dml.fUi']irjiirrwl/i7fmoiJ
Lobachevskii Digital Ma!hematics Library
Главная Архив коллекций
Известия физико-математического общества 2 серия
Издатель: Кэтань-Мооиа
Описание журнала; Данный журнал выпускался с 1891-1916 и 1926-1949 года Выпуск журнала состоит из 2 частой. В парной научные статьи физикимятема1нч«схой наП5кадие*вкх:ТИ Во второй - допппнитнмьныв мнгнриипы. которые публиковались в журнале отчеты о работе физико математического общее=ва переводы статей западных ученых, задачи конспекты публичных лекций, некоторые документы, например документы относящийся к присуждении промин Лобачевского и тд Журнал и Известия физико-математического общества Казиноохо университета» публиковался на различных языках 'дореформенном" н современном русском французском аялийском, немецком и итальянском После 1949 года был включен в журнал "Ученые записки"
Выпуски:
I лавиая Архив коллекций
Гом б Том 6
Гом 8 Том 9
ом 11 ом 12 *13 «14 ом 16 ом 16 ом 17 ОМ 18 ом 19 л 20
Lobachevskii Oigital Mathematics Library
Главная Архив коллекций Журналы Известия физикомагематкческога с^яцества 3 серии
Известия физико-математического общества 3 серия
Издатель: Казань-Москва
Описание журнала: Данный журнал выпускался с 1Й01-1916 и 19Ж1М9 года Выпуск журила состоит из? частей 6 первой научные статьи физико-математической направленности. Eto второй - дополнительные материалы. которые пурлиадча/мсь в журнале. отчеты о работе фнуико-маюмнтичсското общества, переводы статей западных ученых задачи, конспекты публичных лекций. некоторые документы, например документы относящиеся к присуждении премии Лобечевсяого н тд Журнал «Известия фшико математического обгцветня Казанского университета» публиковался на различных языках 'дореформенном* и современном русском французском английское »»мецком и ятальткком Поело 1SM3 года был включен о журнал "Ученые
записи*"
Выпуски:
1926 1927 1926
Том 1 Том 2 Том 3
1929 1931 1932
Том 4 Том S Том 6
1934 1936 1937
Том 7 Том в Том 9
1938 1940 1945
Том 10 Том 12 Том 13
Том 11
1949
ТОМ 14
Рисунок 16. Ретро-коллекция «Известия физико-математического общества при Казанском университете», размещенная на сайте Lobachevskii-DML.
3.1.1.2. Коллекция «Труды Математического центра им. Н. И. Лобачевского»
Часть этой коллекции была издана только в печатном виде, что осложняет ее обработку. Одной из главных особенностей цифровой коллекции «Трудов математического центра» является отсутствие информации, важной для формирования наборов метаданных, нестабильность состава метаданных сборника, а также периодически меняющаяся структура самих сборников, что показано на рис. 17. Указанные причины осложняют ппроцесс экстракции метаданных.
ПОСТУПАТЕЛЬНОЕ ДВИЖЕНИЕ КРУГОВОГО ЦИЛИНДРА В ОТКРЫТОМ КАНАЛЕ С ДВУХСЛОЙНОЙ ЖИДКОСТЬЮ
А.М, Елизаров, А,О, Карамышева, С.И. Филиппов
НИИ математики и механики им. Н.Г. Чеботарева Казанского государственного университета е-та± $ег2е1.Р111рро\1@к.чи ги
Ф.Г. Авхадиев, Л.А. Аксентьев, A.M. Елизаров, С.Р. Насыров (Казань)
НАУЧНЫЙ СЕМИНАР ПО ГЕОМЕТРИЧЕСКОЙ ТЕОРИИ ФУНКЦИЙ: ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДВУХ ПОСЛЕДНИХ ДЕСЯТИЛЕТИЙ
__Е.К. Липачёв
О КРАЕВЫХ ЗАДАЧАХ ДЛЯ УРАВНЕНИЯ ГЕЛЬМГОЛЬЦА В ОБЛАСТЯХ С "НЕРОВНОЙ" ГРАНИЦЕЙ 1
Е.К. Липачсв (Казань)
Рисунок 17. Особенности оформления статей из сборников 2002 года (12, 14, 17 тома). Как видно из рис. 17, каждая статья имеет разный формат метаданных. Таким образом, было необходимо создать алгоритм формирования метаописаний документов. При создании нами этого алгоритма были учтены стилевые особенности форматов ранних и поздних сборников коллекции. Алгоритм 2. Экстракция и нормализация метаданных статей коллекции «Труды физико-математического центра им. Н. И. Лобачевского».
1. с читать файл номера журнала в формате pdf
2. загрузить шаблон, определяющий структурные особенности номера
3. о пределить диапазоны страниц статей номера
4. р азделить файл номера на файлы статей
5. для каждой статьи
6. осуществить поиск строки с названием статьи
7. выделить название статьи по шрифтовому шаблону
8. выделить список авторов по шрифтовому шаблону
9. выделить афилиации авторов по шрифтовому шаблону
10. выделить электронные почты по шрифтовому шаблону
11. выделить ключевые слова и аннотацию по шрифтовому шаблону
12. выделить последнюю страницу статьи
13. осуществить поиск строк, содержащих метаданные на английском языке
14. если такие строки были найдены:
15. выделить название статьи по шрифтовому шаблону
16. выделить список авторов по шрифтовому шаблону
17. выделить афилиации авторов по шрифтовому шаблону
18. выделить электронные почты по шрифтовому шаблону
19. выделить ключевые слова и аннотацию по шрифтовому шаблону
20. записать выделенные данные в метаданные
21. осуществить поиск и извлечение списка литературы
22. сф ормировать набор метаданных в соответствии со схемой нормализации
В результате работы данного алгоритма было сформировано метаописание 58 сборников коллекции «Труды физико-математического центра им. Н. И. Лобачевского». Метаданные были нормализованы в формат, подходящий для загрузки в Lobachevskii-DML. Промежуточные метаданные этой подготовки представлены на рис. 18, загруженные в библиотеку метаданные представлены на рис. 19.
<end page>21</end paqe </paper:
1-;<рдрег id="4" >B3fB <author>H.В. Байдакова</duLhur> <ti11e-papeг>ОВ ОДНОМ ИНТЕРПОЛЯЦИОННОМ МНОГОЧЛЕНЕ ТРЕТЬЕЙ СТЕПЕНИ</Г-Ше-рарег>| <аП11а1±оп>Институт .математики и меха.иики УрО РАН, г. EKaTepKii6ypr</dfilidtii <oina i 1 >baidakova@ imm. uran. ru< /emai 1 ШЯ5 Otart paqe>21</ytdrt paqe^B <end-page >22</cnd-page>E
cntt 0K04tmn*tcwx ^sfxv.'fi II. f.'ftfiimpfl,4i4Ma сикюм ча вы-eiLwefiwr// Матем, сб. - 1972. - Т. - N 1. - С- 3-30. 3. Себастьян-й-Сяльва Ж. О кекишгрых классах .юкяллно-ям-пуздш дроеяумнслto, ddjcuu в пргиожгши,г// Математика. -11)57. Т, 1. N 1. С. <Ю 77.
ОБ ОДНОМ ИНТЕРПОЛЯЦИОННОМ МНОГОЧЛЕНЕ ТРЕТЬЕЙ СТЕПЕНИ Н.В. Байдахоаа
Институт лителащ!/*» и ытоникъ УрО РАН, fieатгрь\>бург id="5">l
е-тикМЖ>с«в[1пт-игап.г11 <author>P,r. Барыки11сккй</author >1__
Ctitle pape^ОТНОСИТЕЛЬНЫЙ КОНУС ПОЛОЖИТЕЛЬНОСТИ</title paper>
Задачасюшс «кгодо« конечны* Вмдаи обоэва- <af Ша1:1оп>Московский государственный университет им, М,В, ЛоианосоБа</аШ1а«£0П
m; / е W*Mi Г с R1 - тюлек с перепиши а,, в3| (ц. <имi l>baryJcinsJcii_r 0mai 1. ru< /emai 1
г1р - глшшчиый 8вкт!)р, «»правленный вдоль T, грвнь. <start-page>22</start-pagoi
с содержащая точку а,; и, = - першая при qyvn»« угле <end-page>23</end-paqe>l
треугольника 2}; ■ и ^ = ij(T() - едимичиые se*TCj>M: </paperv|
к41фанлш1гы& вгйль сторон тр^угольмка Г,, o6paiy»ujwx сред- [_ .,'рарГ'Г ^ Р| g,,^
Рисунок 18. Пример статьи из цифровой коллекции «Труды математического центра им. Н. И. Лобачевского» и извлеченных инструментами «Фабрики» метаданных. Отметим, что из текста статьи возможно извлечь лишь название статьи, фамилию и аффилиацию
автора.
■ lobaehevskii 'dmljTj,l}ournal/tmt
Lobachevskii Digifal Mathematics Library гma«a «илецр»
Гюлкои Apxwii капПмцнй Журннлы Труда мШоигпичоаио щш'рп Швм II И Яо6гнаигиэт>
Труды математического центра имени Н И. Лобачевского
Выпуски:
1998 1999 2000
1 234 567
2001 2002 2003
В 9 10 11 12 13 1314 1616 17 IS 19 20 21
3004 3005 год 6
22 23 24 26 26 27 28 29 30 31 32 33 34
3007 2008 2009
36 м 57 38 39
ЗОЮ 3011 3012
4041 43 43 44 46
2013 2014 2015
4в47 44 43 5а 61 62
2016 2017 2018
БЗ 64 65 66
Рисунок 19. Представление коллекции «Труды физико-математического центра им. Н. И.
Лобачевского» на сайте LoЬachevskii-DML. 3.2. Дополнение метаданных документа средствами семантической
сети Wikidata
Метаданные цифровых коллекций не всегда могут быть дополнены из самой статьи. Следовательно, необходимо использовать внешние источники метаданных. Одним из таких ресурсов является Метаданные,
которые могут быть извлечены из представлены в таблице 3.
С помощью Wikidata можно дополнять такие метаданные как аффилиация, а также информация об авторе статьи. Нами был разработан алгоритм дополнения метаданных авторов с помощью семантической сети Wikidata.
Алгоритм 3. Дополнение метаданных авторов средствами семантической
сети.
1. l oad M={Au0,.. ,,Aun} //список из фамилий, имен и отчеств авторов
2. for each Au in M:
//Разбор ФИО на составляющие:
3. SN=ParseSecName(Au);
//Сформировать SPARQL запрос поиска сущности фамилии:
4. req="Select ?item where {?item rdfs:label\""+SN+"\"@en.?item wdt:P31 wd:Q101352.}"
//создаем запрос
5. request = (HttpWebRequest)WebRequest.Create(req); //получаем ответ и переводим его в строку
6. responseString = (HttpWebResponse)request.GetResponse().ReadToEnd();
7. SNQ=responseString.Parse();// получаем ответ в формате Q*****. //Далее формируем запрос поиска по фамилии (для примера, тут
указана сущность Q170790 - "математик")
8. req=" select *{ ?statement0 (ps:P734/(wdt:P279*)) "+SNQ+ ". ?item p:P106 ?statement1. ?statement1 (ps:P106/(wdt:P279*)) wd:Q170790.}"
//создаем запрос
9. request = (HttpWebRequest)WebRequest.Create(req); //получаем ответ и переводим его в строку
responseString =
10. (HttpWebResponse)request.GetResponse().ReadToEnd();
SNEnts=responseString.Parse();// получаем список страниц
11. сущностей
72
for each Ent in SNEnts:
12. //Сформировать SPARQL запрос поиска автора по фамилии:
req=" select * where { OPTIONAL {wd:"+SNEnt+" wdt:P734
13. ?family name id. ?family name id rdfs:label ?family name
filter(lang(?family name) = 'en')} .... }" // получение необходимых
метаданных об авторе
request = (HttpWebRequest)WebRequest.Create(req);
14. //получаем ответ и переводим его в строку
responseString =
15. (HttpWebResponse)request.GetResponse().ReadToEnd();
//разбор полученных метаданных
meta[]=responseString.Parse();
16. FN=ParseF irstName(Au);
17. //проверка по инициалам, приведенным в коллекции
if (meta.Include(FN)—true)
18. open file Au.xml
19. write meta;
20. close file;
21. break;
22. end if
23. end for
24. end for
25.
Запрос со строки 13 в алгоритме 3 приведен в сокращенном виде. Рис. 20 включает в себя полный запрос получения метаданных из статьи.
В данном алгоритме это такие метаданные, как: фамилия на русском языке, имя, отчество, имя при рождении, имя на родном языке автора, дата рождения и смерти, организации и должность, степень и основные работы автора.
select * where {
wd:Q570859 wdt:P734 ?family_name_id. ?family_name_id rdfs:label ?family_name filter(lang(?family_name) = 'en') wd:Q570859 wdt:P735 ?given_name_id.
?given_name_id rdfs:label ?given_name filter(lang(?given_name) = 'en') wd:Q570859 wdt:P1559 ?name_in_native_language. wd:Q570859 wdt:P1477 ?birth_name. wd:Q570859 wdt:P569 ?date_of_birth. wd:Q570859 wdt:P570 ?date_of_death. wd:Q570859 wdt:P106 ?occupation_id.
?occupation_id rdfs:label ?occupation filter(lang(?occupation) = 'en') wd:Q570859 wdt:P108 ?employer_id.
?employer_id rdfs:label ?employer filter(lang(?employer) = 'en') wd:Q570859 wdt:P463 ?member_of_id.
?member_of_id rdfs:label ?member_of filter(lang(?member_of) = 'en') wd:Q570859 wdt:P512 ?academic_degree_id.
?academic_degree_id rdfs:label ?academic_degree
filter(lang(?academic_degree) = 'en') wd:Q570859 wdt:P101 ?field_of_work_id.
?field_of_work_id rdfs:label ?field_of_work filter(lang(?field_of_work) = 'en') wd:Q570859 wdt:P800 ?notable_work_id.
?notable_work_id rdfs:label ?notable_work filter(lang(?notable_work) = 'en')
}
Рисунок 20. Полный запрос из строки 13 алгоритма 3. Далее на рис. 21 приведен нормализованный результат запроса в Wikidata по запросу «Чеботарёв Н. Г.». Отметим, что результат работы алгоритма зависит от размера коллекции. Так, если в коллекции значительное количество ученых, информация о которых представлена в Википедии, как, например, в коллекции «Известия физико-математического общества при Казанском университете», то верно определятся около 65% ученых. Однако,
при применении алгоритма на коллекции «Труды математического центра им. Н. И. Лобачевского» результаты оказались несущественны. Это связано с объемом коллекции, с наличием в сборниках студенческих работ, а также неполным объемом данных
<contгib-group>
<contrib contrib-type="author"> <name-alternatives> <name>
<surname id="Q21493235" ml;lang-"ru": Чеботарев 'surname> Our name id="Q21493235" ml: 1 an g=" en "Chebo tary ov- 7 3 urname > <given-name3 id^^QSieSlSS" ml:lang*"ru" Николай /given-пашеs> <given-names Id=M(}548G1691' ml:lang="en"->Hikolai</given-names> <string-name id="P1559" ш 1:1an g="ru"Никол аи Григорьевич Чеботарев</3tring-name <string-name id""PH77" ml: lang="ru"/Николаи Григорьевич Чеботарев</string-name </name> </name-alternatives> <bio>
cdef-list id-"P569">
<def-item>3 June 1894 Julian</def-item> <def-item>15 June 1694 Gregorian, </def-itera> <def-item>lB94</def-item> <def-list>
<def-list id="P570">
<def-item>2 July 1947</def-itera> <def-item>1947</def-item> <def-list>
<def-liat id="E10£">
<def-item id»"Ql70790" ¡mathematician'. /def-item> <def-item id="Q1622272">nniversity teacher-/def-item> <def-list>
<def-list id-"P101">
<def-item id="Q12479" -number theory-;/def-item> <def-iteni id="Q3968" -algebra</de£-item> <def-item id="Q4455174">function theory</def-item> <def-list>
<def-list id="PBO0">
<def-item M="Q1425529" -Chebotarev's density theorem-C/def-item> <def-item id="Q17007435" Chebotarev theorem on roots of wiity</def-item>
<def-list> </bio>
<aff id="$113188">Kazan Federal University</aff>
<aff-alternatives id="Q2370801"-Academy of Sciences of the USSR </aff-alternatives> <degrees id="Q17281097">Doctor of Sciences in Physics and Mathematics </degrees> </contrib> </contrib-group>
Рисунок 21. Фрагмент 1ЛТ8-представдения документа с метаописанием данных автора статьи по информации, полученной из '^к1ёа!а.
3.3. Дополнение метаданных документа средствами платформы Реестра исследовательских организаций ROR
Одной из главных проблем при дополнении аффилиации через семантические сети является сама структура сети и тот факт, что результаты запросов скорее рассчитаны на получение множества результатов. Однако,
метаданные аффилиации научных организаций можно дополнять и другими способами.
Одним из таких способов является дополнение средствами такой платформы как ROR (The Research Organization Registry).
Дополнение метаданных цифровых коллекций с помощью ROR может сопровождаться некоторыми особенностями. Перечислим основные метаданные, которые можно получить из ROR:
• id - идентификатор и ссылка в системе ROR;
• name - официальное название организации;
• aliases - альтернативные названия (в случае Казанского федерального университета - «Казанский университет», «Kazan State University»);
• acronyms - сокращения (в случае Казанского федерального университета - «KFU»);
• label - название на региональном языке, а также язык на котором приведено название;
• wikipedia_url - страница в Wikipedia;
• addresses, country, city - адрес, страна, город;
• links - ссылка на сайт организации;
• Wikidata - идентификатор в Wikidata.
Одна из главных особенностей ROR - это поисковое программное обеспечение, которое позволяет достаточно точно находить по названию научной организации ее профиль. Это дает преимущество в поиске в сравнении с поиском по семантической сети. В работе [73] отмечено, что поиск страницы информации по Wikidata - это ограничение множества всех информации Wikidata с помощью, например, города, что не всегда возможно. Существование в ROR Wikidata id помогает дополнить метаданные аффилиации информацией из Wikidata. В качестве ограничений использования ROR можно указать неполноту коллекции метаданных (особенно научных организаций - некоторые научные организации меняют
названия, что усложняет поиск), неполноту сокращений и альтернативных названий организаций.
Необходимость использования такого ресурса как ROR обусловлена тем, что в более ранних коллекциях аффилиация Lobachevskii-DML и журнала «Электронные библиотеки» была неполной, что не соответствует набору основных метаданных цифровых коллекций (набор основных метаданных приведен в [78, 105]). Наличие поискового программного обеспечения, связь с семантическими сетями позволяет использовать ROR в качестве валидного источника метаданных для дополнения цифровых коллекций.
Далее представлен разработанный алгоритм обращения к ROR. Доступ к ROR осуществляется посредством REST API (https://ror.readme.io/docs/rest-api). Ограничение сервиса составляет 2000 запросов в 5 минут, что вполне подходит к размеру коллекции документов журнала «Электронные библиотеки». Также, в данный момент REST API приводит только активные организации, что ограничивает набор коллекций, к которым мы можем применять алгоритм.
Доступ к REST API получен с помощью средства cURL (https://curl.se/). Данное средство используется при работе с командными строками.
Приведем основные этапы доступа к ROR:
1) формирование cURL запроса к REST API;
2) получение JSON ответа на запрос для университета;
3) разбор JSON файлов;
3.1) отбор результатов запроса;
3.2) перевод результатов запроса в XML.
Приведем алгоритм получения информации об организации средствами REST API и дополнение метаданных цифровой коллекции статей журнала «Электронные библиотеки».
Алгоритм 4. Получение информации об организации средствами REST API и дополнение метаданных цифровой коллекции статей журнала «Электронные библиотеки».
1. l oad XDocument EB_xml EB_Articulus.xml //формируем список организаций
2. S et Uni;// Множество организаций
3. for each issue in EB_xml:
4. ° °°for each article in issue:
5 000000Г» 1 и • , • 1
. for each author in article:
6. ° °°°°° ° °°Uni.Add(author.orgName);// добавление организации в множество организаций
7 000000 1 г»
. end for
8. ° °°end for
9. end for
10. if (Uni.Length >= 1)
11. °°° System.Diagnostics.Process.Start("cmd.exe", @"/C cd ""C:\Users\ °°°LJM\vcpkg\......); //запуск командной строки
12. °°°for each U in Uni:
13. °°° °°° System.Diagnostics.Process.Start(Mcmd.exe", @"/C curl
°°°°°°https://api.ror.org/organizations?query.advanced=name:" +
°°°°°°UNorm(U) + " > C:\\lin \\ROR\\res\\" + U + ".txt"); //запрос к °°°°°°rEst API и сохранение файла с ответом в папку. UNorm -
о о о о о о л
функция, которая представляет нормированное название
о о о о о о
университета
14. string[] dirs = Directory.GetFiles(path, "*.txt"); //получаем все файлы из папки с запросами
15. list Nodes;// список xml узлов с нормализованными метаданными
16. for each name in dirs:
17. °°°jsonValue = sr.ReadLine(); //считываем файл JSON
18. °°°jsonValueN = Normal(jsonValue);//отбор организации из JSON
OOOI w
файла
19. °°° XmlDocument element = °°°JsonConvert.DeserializeXmlNode(jsonValueN);// переводим из °°°JSON в xml с помощью Newtonsoft.Json;
20. °°°XmlNode node = Normalization(element);// функция отбора °°°необходимых метаданных из xml файла, формирование узла °°°для вставки в xml документ.
21. °°°Nodes.Add(node);
22. end for;
23. fo r each issue in EB_xml:
24. °°° for each article in issue:
25. °°° °°° for each author in article:
26. °°° °°° ° °°author.Add(FindOrg(Nodes));// добавление дополнительных °°°°°°°°°метаданных организации в xml файл
/-\ Г-! оооооо 1 г»
27. end for
28. °°°end for
29. end for
30. write EB_xml in EB_Articulus_Sup.xml
31. save EB_Articulus_Sup.xml
Для реализации данного алгоритма используются средства языка С#, расширение Newtonsoft.Json (https://www.newtonsoft.com/json) для работы с JSON, а также System.Xml, System.Xml.Linq для работы с хт1-документами. В метаданных статей приведены полные названия организаций на русском и английском языке, однако не приведены адреса - обязательная часть набора метаданных. Метаданные сформированы в формате АгйсШш - формате, принятом для загрузки метаданных в научную электронную библиотеку
eLibrary.ru [96]. Формирование метаописания сборников статей в формате Articulus было описано в статьях [119, 120].
На рис. 22 приведен фрагмент результата запроса «Казанский приволжский университет» с помощью REST API.
' |{ "members": [ВИНИ {НШЭ
"id":"https://ror.org/05256ym39". MjftM "name" : "Kazan Federal University", ВШЩЭ "email_address" : "", ЯЭ1Д "ipaddresses": [ ] , НЭВШ "established":1804, НЭП® "types": ["Education"] ;ЕШ "relationships" : [] , НЗПИ "name": "Molecule Мап",ЯЭПШ "addresses": [{НШЭ
"lat":55 .78874,НЗПШ "lng":49 .12214,НЗПШ "state":null,ВНИИ "state_code": null, BS "city":"Kazan'". ИЛИЙ "qeonamescity":{ЯЭЯЗ "id": 551487,HFBS "city": "Kazan' ",НШЭ "georiames_admir.il": ] ВЗЯЗ
"name": "Tatarstan Republic",ШПШ "id":484048,HFO@
"ascii_name":"Tatarstan Republic", ЯЭ1Д "code" : "RU.73") "geonames_admin2": {НДИ
"name": "Gorod Kazan'", НЭШЗ "id": 862913, ШПШ
"ascii_name":"Gorod Kazan'", ЯЭЯЗ "code" : "RU.73. 862 913") , Hli "license": |ШШ
"attribution":"Data from geonames.org under a CC-BY 3.0 license", НЭЯЭ "license" : "http: / / creative commons . org/licenses/bv/3 . 0/" ), НЗИ "nuts_levell": (МШ "name": null, НЭП0 "code": null "nuts_level2": (МШ "name": null, ШИЭ "code": null
Рисунок 22. Фрагмент результата запроса к ROR.
Отметим, что, получая Wikidata id, мы можем использовать алгоритм, приведенный в работах [1, 9, 10, 16, 55, 148], что позволяет дополнять метаданные еще большим набором метаданных средствами семантической сети Wikidata. Приложение можно подключить в функции NormaHzatюn(element) (строка 20 алгоритма 4).
Приведенный выше алгоритм был протестирован на коллекции журнала «Электронные библиотеки» за 2021-2022 годы. В ходе тестирования процент найденных в ROR аффилиаций научных организаций из данной коллекции составил 82%.
В процессе подготовки журнала в системе OJS авторы вводят свою аффилиацию, однако она может быть неполной: может отсутствовать город, страна, или аффилиация может быть написана в сокращенном виде. Набор
метаданных OJS версии 3.0 не подразумевает ROR-идентификатора. Таким образом, мы можем хранить его в внутренних форматах (например, при формировании метаописания Lobachevskii-DML).
В дальнейшем предполагается с помощью разработанного инструмента произвести пополнение и уточнение метаданных к другим электронным коллекциям, входящим в состав Lobachevskii-DML. К ограничениям метода можно отнести: неполноту информации в ROR и отсутствие архивных организаций, что ограничивает использование метода при работе с ретро-коллекциями.
3.4. Метод нормализации метаданных в формат Journal Archiving and Interchange NISO JATS
Как было отмечено в главе 2, в качестве промежуточного формата хранения метаданных было решено использовать такую схему метаданных, как Journal Archiving and Interchange. В этом разделе представлен разработанный метод формирования и нормализации метаданных в соответствии с xml-схемой Journal Archiving and Interchange JATS.
Алгоритм 5 приводит основные шаги по формированию метаданных аффилиаций авторов в документе цифровой коллекции в формате Journal Archiving and Interchange NISO JATS.
Алгоритм 5. Формирование метаданных аффилиаций авторов в документе цифровой коллекции в формате Journal Archiving and
Interchange NISO JATS.
1. ArPaper = Load() // загрузка файлов электронной коллекции
2. Base_Org=Load() // загрузка базы данных
3. for each Paper in ArPaper
4. Affiliations[] = Find_Affiliation(Paper)
5. Authors[] = Find_Authors(Paper)
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.