Многозначная классификация и распознавание именованных сущностей на основе переноса обучения по зашумленным меткам для малоресурсных языков тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Шахин Зейн
- Специальность ВАК РФ00.00.00
- Количество страниц 253
Оглавление диссертации кандидат наук Шахин Зейн
Реферат
Synopsis
Introduction
CHAPTER 1. Legal Text Classification for Low-Resource
Languages: Challenges and approaches
1.1 Natural Language Processing
1.2 Natural Language Processing in Legal domain
1.3 Legal domain knowledge, terminology and language
1.4 Annotation Process Life Cycle for Legal Datasets
1.5 Natural language processing for Low resources languages
1.6 Challenges and Approaches in Natural Language Processing for the Legal Domain
1.7 Transfer Learning
1.8 Text Generation and Language Modeling
1.8.1 Overview of text generation approaches
1.8.2 Machine learning approaches of text generation
1.8.3 Evaluation of text generation systems
1.9 Legal Multi-label Text Classification
1.9.1 Multi-label text classification approaches
1.9.2 Evaluation of multi-label text classification system
1.9.3 Applications
1.9.4 Challenges and limitations of multi-label text classification
in legal domain
1.10 Legal Named entity recognition
1.10.1 Approaches of Named Entity Recognition
1.10.2 Evaluation of Named Entity Recognition
1.10.3 Applications of NER in legal domain
1.10.4 Challenges and limitations of NER
1.11 Cross-Lingual Transfer Learning
1.11.1 Motivation
1.11.2 Approaches
1.11.3 Challenges and limitations
1.12 Automatic Annotation of dataset for NER
1.12.1 Motivation
1.12.2 Approaches
1.12.3 Limitations
1.13 Training with noisy labels
1.13.1 Approaches to deal with noisy labels
1.13.2 Evaluating the performance of a system trained with noisy labels
1.13.3 limitations and challenges
1.14 Ethics and social impacts of natural language processing in the legal domain
1.15 Summary
CHAPTER 2. Noisy Labeled Datasets, Resources, and Methods for Legal Text Classification in Low Resource Languages
2.1 Legal Datasets for European languages and EuroVoc Vocabulary
2.1.1 EuroVoc
2.1.2 Legal Text Datasets
2.1.3 Dataset Splitting
2.2 Cross-lingual Datasets
2.2.1 JRC-Acquis multilingual
2.2.2 EURLEX57K multilingual
2.3 An automatically created dataset for Russian Legal Named Entity Recogntion
2.4 Text Generation and language modeling
2.4.1 AWD-LSTM
2.4.2 Transformer-based Architectures
2.4.3 Multi-lingual Transformers
2.4.4 Language Model finetuning and domain adaptation
2.5 Multi-label Text Classification
2.5.1 General Training Strategy and Implementation
2.5.2 Tricks for Performance Improvement (within FastAI)
2.5.3 Baseline Model
2.5.4 Transformer Models
2.5.5 Multilingual Training
2.5.6 Multi-Label Text Classification Loss Function
2.5.7 Evaluation
2.6 Cross-lingual Multi-label text classification
2.6.1 Multilingual Transformer Based Models
2.6.2 Zero Shot and Joint Multilingual Training
2.6.3 Training Strategies
2.6.4 Baseline
2.6.5 Evaluation
2.7 Named Entity Recognition
2.7.1 Conditional Random Fields with Transformers
2.7.2 Adapters with Transforer for effective Transfer Learning
2.7.3 RuBERT
2.7.4 RuBERT-NER
2.7.5 RuBERT-NER-CRF
2.7.6 RuBERT-NER-Adapter
2.7.7 BiLSTM-CRF
2.7.8 Loss Function for Named Entity Recognition
2.7.9 Evaluation
2.8 Summary
CHAPTER 3. Evaluation, Analysis, and Discussion of the
Effectiveness of Presented Methods
3.1 Large-scale Multi-label Text Classification for Legal Documents
3.1.1 Evaluation Results on Large Scale Multi-Label Text Classification
3.1.2 Results Discussion
3.2 Cross-lingual Text Classification
3.2.1 Results of Zero-Shot Cross-Lingal Transfer for Multi-Label
Text Classification
3.2.2 Results of Joint-Training for Multi-Lingual Multi-Label Text Classification
3.2.3 Ablation Studies
3.2.4 Results Discussion
3.3 Named Entity Recognition Results
3.3.1 Comparison Results between Various NER Models
3.3.2 Ablation Study: Number of Frozen Layers
3.3.3 Ablation Study: Amount of Training Data
3.3.4 Results Discussion
3.4 Summary
Conclusion
Bibliography
Publications
Реферат
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Методы и алгоритмы информационного поиска в текстах на арабском языке для наполнения баз знаний2023 год, кандидат наук Шакер Алаа
Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц2022 год, кандидат наук Зено Бассель
Контекстно-зависимое распознавание эмоций на основе многомодальных данных2020 год, кандидат наук Федотов Дмитрий Валерьевич
Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания2021 год, кандидат наук Верхоляк Оксана Владимировна
Введение диссертации (часть автореферата) на тему «Многозначная классификация и распознавание именованных сущностей на основе переноса обучения по зашумленным меткам для малоресурсных языков»
Общая характеристика диссертации Актуальность темы
Для задач обработки естественного языка (Natural Language Processing, NLP) в последние годы создано множество высокоэффективных методов и средств. Однако их результативность может существенно снижаться, если обрабатываемые документы относятся к какой-либо специальной предметной области, а язык текстовых данных относятся к категории малоресурсных. Одной из таких областеи является юридическая сфера, где, с одной стороны, приемы NLP могут быть применены для извлечения ценнои информации из юридических текстов и сделать юридические процессы более эффективными, но с другой стороны широкое использование специализированнои юридическои терминологии, необходимость адаптации используемых методов к домену и недостаток обучающих данных для целевого языка документов существенно снижают точность и полноту существующих решений.
Одной из значимых проблем в области NLP для юридической сферы является разметка именованных сущностей, особенно в случаях, когда эти сущности относится к нескольким классам. Аннотирование юридических данных может быть достаточно трудоемким и подверженным ошибкам, что может привести к неполному или смещенному (bias) соотнесению размечаемых элементов и соответствующим им классам. Известны различные методы для решения этих проблем. Например, методы обучения с зашумленными метками классов показали свою эффективность и рассматривалась как многообещающее решение. Перенос обучения, при котором предварительно обученные модели дообчают-ся на доменных данных, также оказался эффективным для снижения числа
ошибок при разметке и улучшении производительности моделей[1]. Методы Loss-gated потерь включают в себя введение дополнительных функций потерь для приоритетного учета более надежных меток классов в процессе обучения модели и были использованы во разных исследованиях в задаче верификации диктора'2'''3'. Метод регуляризации Label smoothing, позволяющий снизить влияние неправильной разметки, был применен в исследованиях по обнаружению объектов'4'.
Перенос обучения'5' показал свою эффективность при использовании моделей из из ресурсоемких областей (resource-rich) для юридическую сферы, что делает возможным дообучение модели NLP даже в условиях наличия ограниченных размеченных данных. Межъязыковой перенос обучения'6' также оказался достаточно эффективным при использовании размеченных данных из родственных языков с целью улучшения производительности моделей NLP в условиях ограниченных обучающих выборок. Обучение на основе автоматически размеченных наборов данных, созданных с использованием приемов, основанных на правилах'7' или Weak Supervision'8', также предоставляет хорошую альтернативу в случае ограниченности размеченных данных. Алгоритмы активного обучения (Active Learning) позволяют выбирать наиболее инфор-
[1]Giorgi, J. M., Bader, G. D. Transfer learning for biomedical named entity recognition with neural networks // Bioinformatics. — 2018. — Т. 34, No 23. — С. 4087—4094.
[2]Tao, R. et al. Self-supervised speaker recognition with loss-gated learning // ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE. 2022. — С. 6142—6146.
И Han, B., Chen, Z., Qian, Y. Self-Supervised Speaker Verification Using Dynamic Loss-Gate and Label Correction // arXiv preprint arXiv:2208.01928. — 2022.
[4]Wei, J. et al. Understanding generalized label smoothing when learning with noisy labels // arXiv preprint arXiv:2106.04149. — 2021.
[5]peng, d. et al. TL-NER: A transfer learning model for Chinese named entity recognition // Information Systems Frontiers. — 2020. — Т. 22. — С. 1291—1304.
[6]Chen, X. et al. Multi-source cross-lingual model transfer: Learning what to share // arXiv preprint arXiv:1810.03552. — 2018.
[7]Leitner, E., Rehm, G., Schneider, J. A Dataset of German Legal Documents for Named Entity Recognition. CoRR abs/2003.13016 (2020) // URL: https://arxiv. org/abs/2003.13016. — 2003.
[8]Lison, P. et al. Named entity recognition without labelled data: A weak supervision approach // arXiv preprint arXiv:2004.14723. — 2020.
мативные примеры для разметки, повышая эффективность использования ограниченных размеченных ресурсов[9].
Несмотря на значительные достижения в области обработки естественного языка, все еще существуют значительные пробелы и нерешенные задачи. Существующие исследования сосредотачивались на таких задачах, как классификация юридических текстов и распознавание именованных сущностей. Однако существует необходимость в дальнейшем изучении возможностей переноса обучения для случаем, когда возникает необходимость соотнесения сущностей с несколькими классами при классификации текстов в условиях отсутствия разметки. Кроме того, метод межъязыкового переноса обучения для малоресурсных языков в юридической сфере требуют большего внимания с целью достижения более высокого качества и понимания того, как получить максимальную выгоду от межъязыкового переноса обучения, при отсутствии обучающих данных для данных языков. Следует отметить, что, насколько нам известно, в существующих исследованиях не рассматривалось обучение с использованием автоматически размеченных наборов данных в юридической сфере, особенно при работе с зашумленными метками для малоресурсных языков.
Исследование, проведенное в данной диссертации, направлено на заполнение пробелов в научной литературе в части методов для многозначной классификации текстов в условиях отсутствия размеченных наборов данных, межъязыкового переноса обучения для поддержки малоресурсных языков и обучения распознаванию именованных сущностей на автоматически размеченных наборах данных с зашумленными метками для малоресурсных языков. Эти методы и модели используют архитектуры на основе трансформеров, такие как BERT и RoBERTa, а также адаптеры, условные случайные поля и дообчение, для улучшения производительности NLP. На основе полученных результатов этого исследования возможно создание более эффективных и точных систем NLP для юридических текстов. Полученные результаты также имеют потенци-
MErdmann, A. et al. Practical, efficient, and customizable active learning for named entity recognition in the digital humanities //. — Association for Computational Linguistics. 2019.
ал расширение на другие предметные области, требующие работы систем КЬР с малоресурсными языками или зашумленными данными.
Кроме того, предложенные решения и результаты данной диссертации имеют практические применения для юристов, исследователей и разработчиков, работающих в области КЬР. Полученные в ходе исследования знания могут улучшить эффективность подготовки наборов данных в юридической сфере и классификацию юридических именованных сущностей.
Цель
Целью даннои работы является повышение производительности много-значнои классификации юридических текстов и распознавания юридических именованных сущностеи в малоресурсных языках с использованием передачи обучения и обучения на автоматически размеченных наборах данных с зашум-ленными метками с использованием трансформаров.
Задачи
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Проведение аналитического обзора существующих алгоритмов, методов и моделеи обработки естественного языка, а также открытых наборов данных для в юридическои сферы.
2. Классификация методов переноса обучения, генерации текста, многознач-нои классификации текстов и распознавания именованных сущностеи по решаемым задачам и областям применения.
3. Разработка метода и алгоритма для многозначнои классификации юридических текстов для случая отсутствующих меток.
4. Исследование и разработка методов межъязыковогои переноса обучения для классификации юридических документов на малоресурсных языках в отсутствие обучающих данных на этих языках.
5. Разработка и обучение модели распознавания именованных сущностеи с использованием автоматически размеченного набора данных с зашумлен-ными метками для малоресурсных языков.
6. Создание нового набора данных для распознавания именованных сущностеи в юридическои области на русском языке.
7. Экспериментальное и абляционные исследования эффективности предложенных методов с использованием различных метрик оценки.
8. Выявление областеи улучшения и перспектив развития предложенных методов, разработка рекомендаций по практическом применению полученных результатов.
Объект исследования
Автоматический анализ текстов в юридическои сфере. Предмет исследования
Методы и алгоритмы для многозначнои классификации текстов, межъ-языковои передачи обучения и предварительно обученные модели на основе трансформеров для распознавания именованных сущностеи в условиях недостаточных обучающих данных с отсутствующими или зашумленными метками.
Методы исследования
Методологическую базу диссертации составляют методы машинного обучения, включая перенос обучения с использованием предварительно обученных моделей и дообучение языковои модели с использованием архитектур на основе трансформеров, методы адаптации к домену, постепенную разморозку (Gradual Unfreezing), условные случаиные поля (Conditional Random Field), а также методика абляционных исследований.
Основные положения, выносимые на защиту
1. Адаптируемый к заданной доменной области метод на основе трансформе-ров для многозначнои классификации текстов с отсутствующими метками классов.
2. Метод межъязыкового переноса обучения для классификации юридических текстов на малоресурсных языках в отсутствие обучающих данных на целевом языке.
3. Модель распознавания именованных сущностеи в русскоязычных юридических текстах с зашумленными метками классов.
Научная новизна
Научная новизна диссертации состоит в том, что:
1. Обеспечено повышение точности многозначнои классификации текстов в заданной доменной области с помощью метода на основе трансфор-меров за счет применения стратегии постепенной разморозки (Gradual
Unfreezing) в процессе адаптации моделей к новому домену путем дообучения на наборах данных с отсутствующими метками классов.
2. Обеспечена возможность выполнения классификации юридических документов на малоресурсных языках в отсутствие обучающих данных на этих языках за счет метода межъязыковоиго переноса обучения, отличающийся возможностью донастройки предварительно обученных многозязычных моделей с использованием данных обучения на исходном языке и не требующий обучающих и тестовых данных на целевом языке.
3. Улучшена точность распознавания именованных сущностеи на русском языке для набора данных с зашумленными метками с помощью модели глубокого обучения, отличающейся тем, что повышение точности распознавания достигается за счет комбинирования моделей условных случайных полей и адаптеров в виде дополнительных слоев интегрируемых в нейронные сетей, такие как BERT или RoBERTa, с целью настройки этих моделей на новые задачи или наборы данных без необходимости изменения основных весов исходной модели.
Теоретическая значимость
результатов диссертационной работы состоит в развитии моделей и методов многозначной классификации и извлечения именованных сущностей для текстов узкоспециальной тематики с зашумленными или отсутствующими метками путем межъязыковоиго переноса обучения и адаптации к домену моделей на основе трансформеров. Предложенные методы являются универсальными и позволяют повышать производительность систем NLP для текстов на малоресурсных языках.
Практическая значимость
Практическая значимость результатов диссертационной работы определяется набором обученных моделей, обеспечивающих для решения ряда задач обработки текстов на малоресурсных языках в юридическои сфере:
1. повышение эффективности и точности многозначнои классификации юридических текстов с отсутствующими метками, на различные категории, такие, например, как уголовное право, гражданское право и международное право и т.д.,
2. улучшение качества и производительности моделей распознавания именованных сущностеи в юридических текстах задач.
Кроме того, разработанные классификатор и модели были использованы при создании нового размеченного набора текстовых данных на русском языке для классификации именованных сущностеи в юридическои сфере.
Достоверность
Достоверность полученных результатов, полученных в рамках диссертационной работы, подтверждается корректным использованием методов, детальным и последовательным обоснованием постановки цели и задач диссертационного исследования, воспроизводимыми экспериментальными и абляционными исследованиями на нескольких наборах данных и метрик оценки, что гарантиру-ет, что результаты не являются специфичными для конкретного набора данных или метрики оценки. Полученные результаты были были сравнены с SOTA методами и признаны научным сообществом, что подтверждено публикацией научных статей и докладами, представленными на конференциях.
Внедрение результатов работы
Полученные результаты исследования были внедрены в практическую деятельность ООО «ТАГ-Консалтинг» в ходе работ по проекту «Автоматизация обработки запросов госорганов» в части оценки оценки производительности моделей распознавания именованных сущностей, обученных с использованием наборовтекстовых данных в юридической сфере, что подтверждено актом о внедрении.
Апробация результатов работы
Основные результаты работы докладывались на следущих конференциях:
1. 8th Annual Conf. on Computational Science Computational Intelligence (CSCI 21) - Las Vegas, USA;
2. IX Конгресс молодых ученых (КМУ) - Россия, Санкт-Петербург;
3. Международная конференция по компьютернои лингвистике «Диа-лог-2020» - Россия, Москва;
4. The Fourteenth International Conference on Advances in Semantic Processing SEMAPRO 2020 - Nice, France.
Личныи вклад автора
Личныи вклад автора в работах, выполненных в соавторстве, заключается в проведении обзора существующеи литературы и подходов, связанных с многозначнои классификациеи текстов, межъязыковоиго переноса обучения и распознаванием именованных сущностеи с зашумленными метками в юри-дическои сфере. Автор предложил, разработал и исследовал новые методы,
основанные на существующих подходах, таких как передаточное обучение, условные случаиные поля и адаптеры, а также RuBERT, для выполнения поставленных задач. Втором выполнена программная реализация разработанных методов, подготовлены необходимые наборы данных и произведено обучение моделей. Автор также самостоятельно создал новый набор данных в сотрудничестве с компаниеи "Tag-Consulting"для данного исследования. Автор провел все эксперименты и анализ и лично представил результаты исследования на конференциях. Важно отметить, что соавторы в статьях вносили различные вклады в зависимости от конкретной статьи. Некоторые соавторы предоставили руководство и помощь в организации идей, а также подготовке статей к публикации, в то время как другие внесли конкретные вклады на основе своего экспертного опыта.
1. Муромцев Дмитри Ильич: Научный руководитель.
2. Герхард Вольгенант: Со-руководитель (2019-2021г.).
3. Пак Вадим Геннадьевич: Научный руководитель в магистратуре. Часть работы по генерации текстов была выполнена под его руководством.
4. Басель Зайти: Помочь в реализации подходов для генерации текстов (seqGAN).
5. Флитз Эрвин: Внес вклад в раздел о EuroVoc в статье "Large scale legal text classification using transformer models".
6. Постный Игнат: Генеральный директор компании Tag-Consulting. Разработка ruLegalNER была выполнена в сотрудничестве с ними.
Структура и объем диссертации
Диссертационная работа состоит из введения, трех глав, заключения и списка литературы. Материал изложен на 127 страницах, включает 23 таблицы, 13 рисунок и схем. В список использованных источников входит 115 наименований.
Содержание диссертации
Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, приводится обзор научной литературы по изучаемой проблеме, формулируется цель, ставятся задачи работы, излагается научная новизна и практическая значимость представляемой работы.
Первая глава представляет собой всестороннее исследование обработки естественного языка и ее разнообразных применений в юридической сфере. Раздел 1.3 подробно рассматривает конкретные перспективы обработки естественного языка в юридической сфере, описывая, как обработка естественного языка может автоматизировать задачи, традиционно выполняемые юристами. Тем не менее, применение обработки естественного языка в юридическом контексте сопровождается определенными вызовами, такими как сложности юридического языка и необходимость в областной специфичной экспертизе для полного понимания значения и контекста юридических документов. Раздел 1.4 более подробно рассматривает жизненный цикл процесса аннотации юридических наборов данных, подчеркивая его важную роль в создании точных и надежных моделей машинного обучения для юридических приложений. Этот процесс сопровождается несколькими вызовами, включая модификации рекомендаций, субъективность аннотаторов, текстовую неоднозначность и человеческие ошибки. В результате аннотации могут содержать ошибки, неполные данные и субъективные суждения. Пример, поясняющий эти вызовы, представлен на рисунке 1. Кроме того, Раздел 1.5 рассматривает проблему применения КЬР для языков с ограниченными ресурсами, для которых обычно доступно ограниченное количество данных и ресурсов для обучения моделей КЬР. Обзор вызовов и методов в исследованиях по смягчению этих проблем представлен в разделе 1.6 и на рисунке 2.
Раздел 1.7 представляет введение в концепцию передачи обучения, которая включает в себя использование знаний, полученных в результате обучения в широкой области, и их применение к конкретному контексту юридической сферы. Раздел 1.8 предоставляет обзор обучения генерации текста и языкового моделирования. Эти легко обучаемые модели служат надежным фундаментом и
ORIGINAL TAGS:
- Environmental regulations
- Fisheries
- European Union
DOCID: 789012
TITLE: EU Directive on Fishing Quotas
TEXT The EU Directive on Fishing Quotas aims to regulate fishing in European waters in order to ensure sustainable fish populations and protect the marine ecosystem.
Legal Domain Terminology
- EU Directive.
- FishingQuotas.
- Sustainablefish population.
- Marine ecosystem.
Annotator A
- Environmental regulations
- Fisheries
- Marine conservation -
Missed tag: European Union
Annotator В
- Fisheries
- European Union
Bias of annotator: the annotator has a personal interest or bias towards marine conservation.
Missed tag:
Environmental regulations
Figure 1 — Вызовы и ошибки в многозначной аннотации юридических текстов
для классификационных наборов данных. На данной иллюстрации представлен образец юридического текста с исходными метками, выделенными зеленым цветом. Предоставлены аннотации от двух аннотаторов, A и B. Аннотатор A упустил одну метку и добавил дополнительную метку, под влиянием личных предвзятых мнений и интересов. Аннотатор B также упустил одну метку. Терминология юридической области выделена цветовыми метками внутри юридического текста и заголовка.
отлично подходят для передачи обучения, расширяя свои возможности на различные задачи и специализированные области, включая юридическую сферу.
Далее, Раздел 1.9 рассматривает задачу многозначной классификации в юридической области, включая обзор существующих методов и связанных вызовов. Можно применять несколько подходов, включая методы на основе информационного поиска (Retrieval-based method), методы с опорными векторами (Support vector machines), рекуррентные и сверточные нейронные сети, а также передовые методы передачи обучения с использованием моделей Transformer. Тем не менее, необходимо решить такие вызовы, как ограниченное количество размеченных данных, сложные зависимости между классами, дисбаланс классов и необходимость использования специализированных метрик оценки производительности модели в юридическом контексте. Раздел 1.10 рассматри-
Domain specific terminology
Domain Adaptation
Figure 2 — Категоризация вызовов и подходов в обработке естественного языка для юридической сферы. Основные вызовы, рассматриваемые в данной работе, представлены оранжевыми прямоугольниками, в то время как зеленые прямоугольники указывают на методы, используемые в данном исследовании для решения соответствующих вызовов. Серые прямоугольники обозначают дополнительные методы, которые не были использованы.
вает задачу распознавания именованных сущностей. В юридической сфере NER играет ключевую роль в извлечении и структурировании информации из юридических документов. В разработке используются различные подходы к NER, включая правила, словари и методы машинного обучения. Последние достижения в NLP, особенно применение моделей на основе Transformer, значительно улучшили производительность NER в юридическом контексте, предоставляя SOTA результаты.
В этой главе также обсуждаются два метода, подходящих для языков с ограниченными ресурсами: Межъязыковая передача обучения (Раздел 1.11)
и обучение с автоматической аннотацией наборов данных (Раздел 1.12). Межъязыковая передача обучения играет важную роль в машинном обучении, используя знания из одного языка для улучшения производительности моделей в другом языке, особенно в юридической области. Этот подход также обеспечивает экономию времени и ресурсов, используя языковую экспертизу, и доказывает свою высокую эффективность, особенно когда языки имеют общие характеристики. Автоматическая аннотация наборов данных для распознавания именованных сущностей - это процесс, который использует существующие методы для создания наборов данных для обучения и оценки систем распознавания именованных сущностей, даже если метки для именованных сущностей в наборе данных неполные или неверные. Этот метод имеет особую ценность в юридической области, где ручная аннотация большого набора данных с высококачественными метками может быть вызовом. Мотивацией для внедрения автоматической аннотации в юридической сфере является экономия времени и ресурсов, обеспечение согласованности аннотации, повышение операционной эффективности и потенциальное достижение более высокой точности. Для автоматизации процесса аннотации используются разнообразные подходы, такие как правила, граф знаний (Knowledge Graph), обучение с учителем, обучение без учителя и гибридные методологии. Тем не менее, автоматизация аннотации имеет свои ограничения, включая вопросы, связанные с точностью, сложностью, необходимостью контекстного понимания и качеством обучающих данных.
Глава завершается рассмотрением стратегий по работе с шумными метками (noisy labels) в наборах данных в Разделе 1.13. Обучение систем обработки естественного языка, включая модели распознавания именованных сущностей или модели классификации текста, с использованием шумных меток может значительно снизить производительность моделей, особенно в юридической сфере, где precision и accuracy имеют первостепенное значение. Шумные метки могут ухудшить точность модели, уменьшить ее способность к обобщению на невидимые данные и усложнить процесс коррекции ошибок, особенно при работе с сложным юридическим языком и терминологией. Существует ряд подходов для
смягчения вредного влияния шумных меток, включая очистку данных, коррекцию функции потери (loss correction), увеличение данных (Data Augmentation), ансамблирование (Wnsembling), активное обучение (Active Learning) и передачу обучения (Transfer Learning). Для оценки производительности систем, обученных с использованием шумных меток, необходимо включить чистые наборы данных для валидации и тестирования, аннотированные экспертами. Более того, субъективные метрики, такие как человеческое суждение и удовлетворенность пользователя, предоставляют ценные инсайты в реальную эффективность, особенно в случаях, когда системы обработки естественного языка поддерживают процессы принятия решений или взаимодействия с пользователями.
Вторая глава предоставляет обзор наборов данных, используемых в исследовании и работе по многозначной классификации текстов для европейских языков и распознаванию именованных сущностей в юридических текстах на русском языке. Она тоже представляет методы и метрики, использованные в разработке техник для малоресурсных задач и обучения с шумными метками в области многозначной классификации текстов и распознавания именованных сущностей.
Описывается тезаурус EuroVoc (Раздел 2.1.1), обширный ресурс, содержащий дескрипторы для аннотации юридических документов.
Раздел 2.1.2 представляет наборы данных EURLEX75k и JRC-Acquis V3, созданные для многозначной классификации юридических текстов на европейских языках. Раздел 2.1.3 подчеркивает важность стратификации при разделении набора данных на тренировочные, валидационные и тестовые наборы для обеспечения обобщаемости модели. Кроме того, введены мультиязычные наборы данных для межъязыковой передачи обучения в Разделе 2.2. Мы собрали параллельные документы на немецком и французском языках к документам в наборе данных EURLEX57K. Мы используем идентификатор CELEX из исходного набора данных EURLEX57K для разделения данных на тренировочный, валидационный и тестовый наборы. Документы из параллельных корпусов получают те же разделы, что и в исходном монолингвальном наборе
данных EURLEX57K. Следовательно, наш окончательный набор данных содержит параллельные тексты на трех языках. Статистика по этому набору данных представлена в таблице 1.
Table 1 — Мультиязычный набор данных EURLEX57K на английском (EN), французском (Fr) и немецком (DE) языках. Количество документов в тренировочном, валидационном и тестовом наборах, а также количество документов без разделения и общее количество документов.
Language train development test no split total
EN 44428 5929 5921 24004 80282
FR 44427 5929 5921 24452 80729
DE 43749 5842 5820 23942 79353
Раздел 2.3 представляет новый набор данных, автоматически аннотированный набор данных для распознавания именованных сущностей в юридических текстах на русском языке, включая создание валидационного и тестового наборов для оценки обобщения к невидимым именованным сущностям. Для изучения способности модели распознавания именованных сущностей, обученной на автоматически аннотированном наборе данных, к обобщению на новые, невидимые именованные сущности, был создан набор данных RuLegalNER, содержащий юридические документы на русском языке с аннотациями более чем 20 классов именованных сущностей. Для данного исследования было отобрано только 5 классов. Документы в этом наборе данных были полностью аннотированы с использованием правил, предоставленных компанией Tag-Consulting. Мы выбрали 100 000 документов для этого набора данных и включили низкочастотные сущности в качестве невидимых сущностей во время обучения, оставляя их только для валидации и тестирования. В наборе данных содержится всего 860 именованных сущностей, из них 289 появляются только в тестовом наборе, всего 777 вхождений невидимых сущностей в тестовом наборе. Таблица 2 показывает статистику по именованным сущностям в каждом разделе набора данных.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Применение машинного обучения на основе типа личности пользователя для задач профилирования пользователей социальных сетей и рекомендации контента2023 год, кандидат наук Ян Ци
Методы машинного обучения для сквозных систем автоматического распознавания речи2023 год, кандидат наук Лаптев Александр Алексеевич
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Методы и алгоритмы распознавания и связывания сущностей для построения систем автоматического извлечения информации из научных текстов2022 год, кандидат наук Бручес Елена Павловна
Методы оценивания языковых моделей в задачах понимания естественного языка2023 год, кандидат наук Тихонова Мария Ивановна
Список литературы диссертационного исследования кандидат наук Шахин Зейн, 2023 год
Литература
1. Weston L., Tshitoyan V., Dagdelen J., Kononova O., Trewartha A., Persson K.A., Ceder G., Jain A.. Named entity recognition and normalization applied to large-scale information extraction from the materials science literature // Journal of Chemical Information and Modeling. 2019. V. 59. N 9. P. 3692-3702. https://doi.org/10.1021/ acs.jcim.9b00470
2. Angelidis I., Chalkidis I., Koubarakis M. Named entity recognition, linking and generation for greek legislation // Legal Knowledge and Information Systems. 2018. V. 313. P. 1-10.
3. Zhu Y., Ye Y., Li M., Zhang J., Wu O. Investigating annotation noise for named entity recognition // Neural Computing and Applications. 2023. V. 35. N 1. P. 993-1007. https://doi.org/10.1007/s00521-022-07733-0
4. Vlasova N.A., Suleymanova E.A., Trofimov I.V. Report on Russian corpus for personal name retrieval // Proceedings of Computational and Cognitive Linguistics, TEL. 2014. P. 36-40.
5. Starostin A.S., Bocharov V.V., Alexeeva S.V., Bodrova A.A., Chuchunkov A.S., Dzhumaev S.S., Efimenko I.V., Granovsky D.V., Khoroshevsky V.F., Krylova I.V., Nikolaeva M.A., Smurov I.M., Toldova S.Y. Factrueval 2016: evaluation of named entity recognition and fact extraction systems for Russian. Proc. of the International Conference "Dialogue 2016", 2016, pp. 702-720.
6. Gareev R., Tkachenko M., Solovyev V., Simanovsky A., Ivanov V. Introducing baselines for russian named entity recognition. Lecture Notes in Computer Science, 2013, vol. 7816, pp. 329-342. https:// doi.org/10.1007/978-3-642-37247-6_27
7. Loukachevitch N., Artemova E., Batura T., Braslavski P., Denisov I., Ivanov V., Manandhar S., Pugachev A., Tutubalina E. Nerel: A Russian dataset with nested named entities, relations and events. Proc. of the Recent Advances in Natural Language Processing, 2021, pp. 876-885 https://doi.org/10.26615/978-954-452-072-4_100
8. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019", 2019.
9. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., De Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-efficient transfer learning for NLP. Proc. of the 36th International Conference on Machine Learning, 2019, pp. 2790-2799.
10. Panchendrarajan R., Amaresan A. Bidirectional LSTM-CRF for named entity recognition. Proc. of the 32nd Pacific Asia Conference on Language, Information and Computation, 2018, pp. 531-540.
Authors
Zein Shaheen — PhD Student, ITMO University, Saint Petersburg, 197101, Russian Federation, sc 57209279132, https://orcid.org/0000-0001-6802-2896, shaheen@itmo.ru
Dmitry I. Mouromtsev — PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, sc 55575780100, https:// orcid.org/0000-0002-0644-9242, mouromtsev@itmo.ru
Ignat Postny — Director, T.A.G. Consulting, Moscow, 119119, Russian Federation, https://orcid.org/0009-0005-9249-4160, ipostny@gmail.com
Received 19.06.2023
Approved after reviewing 23.06.2023
Accepted 30.07.2023
5. Starostin A.S., Bocharov V.V., Alexeeva S.V., Bodrova A.A., Chuchunkov A.S., Dzhumaev S.S., Efimenko I.V., Granovsky D.V., Khoroshevsky V.F., Krylova I.V., Nikolaeva M.A., Smurov I.M., Toldova S.Y. Factrueval 2016: evaluation of named entity recognition and fact extraction systems for Russian // Proc. of the International Conference "Dialogue 2016". 2016. P. 702-720.
6. Gareev R., Tkachenko M., Solovyev V., Simanovsky A., Ivanov V. Introducing baselines for russian named entity recognition // Lecture Notes in Computer Science. 2013. V. 7816. P. 329-342. https://doi. org/10.1007/978-3-642-37247-6_27
7. Loukachevitch N., Artemova E., Batura T., Braslavski P., Denisov I., Ivanov V., Manandhar S., Pugachev A., Tutubalina E. Nerel: A Russian dataset with nested named entities, relations and events // Proc. of Recent Advances in Natural Language Processing. 2021. P. 876-885 https://doi.org/10.26615/978-954-452-072-4_100
8. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019". 2019.
9. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., De Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-efficient transfer learning for NLP // Proc. of the 36th International Conference on Machine Learning. 2019. P. 2790-2799.
10. Panchendrarajan R., Amaresan A. Bidirectional LSTM-CRF for named entity recognition // Proc. of the 32nd Pacific Asia Conference on Language, Information and Computation. 2018. P. 531-540.
Авторы
Шахин Зейн — аспирант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, sc 57209279132, https://orcid.org/0000-0001-6802-2896, shaheen@itmo.ru
Муромцев Дмитрий Ильич — кандидат технических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, sc 55575780100, https://orcid.org/0000-0002-0644-9242, mouromtsev@itmo.ru
Постный Игнат — директор, T.A.G. Consulting, Москва, 119119, Российская Федерация, https://orcid.org/0009-0005-9249-4160, ipostny@gmail.com
Статья поступила в редакцию 19.06.2023 Одобрена после рецензирования 23.06.2023 Принята к печати 30.07.2023
Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.