Методы и алгоритмы интеллектуального анализа медицинских текстов на арабском языке тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Хаммуд Жаафар
- Специальность ВАК РФ00.00.00
- Количество страниц 179
Оглавление диссертации кандидат наук Хаммуд Жаафар
Содержание
Реферат Synopsis
Глава 1. Обзор предметной области.
7
37
1.1. Арабский язык и его специфика как объекта автоматизированной 73 обработки средствами NLP
1.2. Обзор и анализ существующих средств NLP для обработки арабского 75 языка
Глава 2. Разработка метода учета специфики семантико- 82 синтаксических отношений в ходе построения графа зависимостей арабского языка.
2.1. Формирование узлов графа зависимостей арабского языка как объекта 82 для использования в задачах NLP
2.2. Формирование связей графа зависимостей арабского языка как объекта 84 для использования в задачах NLP
2.3. Формирование матрицы смежности для описания текста на арабском 85 языке как объекта для использования в задачах NLP
Выводы по главе
Глава 3. Разработка методики построения и использования графовой 88 нейронной сети для автоматизированного построения графа связей арабского языка.
3.1. Выбор и имплементация графовой нейронной сети для решения задач 88 NLP на арабском языке.
3.2. Экспериментальные исследования текстового анализатора на основе 91 графовой нейронной сети.
1.3. Постановка цели и задач диссертации Выводы по главе
79
79
3.3. Реализация средств объяснимого искусственного интеллекта для 93 текстового анализатора на основе графовой нейронной сети Выводы по главе
Глава 4. Разработка метода ускорения процесса настройки нейронных 100 сетей типа трансформеров для обработки языковых моделей
4.1. Выбор языковой модели для построения текстового анализатора на 100 арабском языке
4.2. Разработка нелинейного градиентного метода ускорения работы 105 текстовых анализаторов
4.3 Экспериментальная оценка эффективности нелинейного градиентного 113 метода ускорения работы текстовых анализаторов
Выводы по главе
Глава 5. Решение практических задач обработки специализированных 117 текстов на арабском языке с применением разработанных методов и методик.
5.1. Формирование проблемно-ориентированного набора данных 117 медицинских текстов на арабском языке.
5.2. Разработка фреймворка для решения практических задач обработки 122 специализированных текстов на арабском языке на основе MLOps.
Выводы по главе
Заключение
Список литературы
Приложение А. Публикации автора по теме диссертации
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы автоматизированного пополнения графов знаний на основе векторных представлений2022 год, кандидат наук Тихомиров Михаил Михайлович
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Нейросетевой механизм кросс-внимания в задачах извлечения информации из текстов на примере биомедицинских данных2021 год, кандидат наук Алимова Ильсеяр Салимовна
Разработка алгоритмов оценивания характеристик диалоговой системы на основе применения нечеткого вывода с нейросетевой настройкой2023 год, кандидат наук Игитян Елена Владимировна
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы интеллектуального анализа медицинских текстов на арабском языке»
РЕФЕРАТ Общая характеристика работы
Актуальность темы. Арабский язык является одним из самых широко распространенных языков в мире, и автоматизация средств его обработки очевидным образом служит увеличению доступности информационного контента как для самих носителей арабского языка, так и для представителей других языковых групп. Однако, как показывает практика, ему уделяется значительно меньше внимания в части инструментов и ресурсов обработки естественного языка (NLP), что и другим языкам. Такое положение связано в значительной степени с уникальными грамматическими структурами и особенностями арабского языка, что усложняет задачу обработки с использованием стандартных методов NLP.
В связи с этим исследования в области обработки естественного языка применительно к арабскому языку (ANLP) имеют важное значение для решения существующих проблем и увеличения доступности и эффективности обработки арабского языка. Разработка новых алгоритмов и моделей, специально создаваемых учета семантико-синтаксических особенностей арабского языка, является неотъемлемой частью этого процесса.
Как показывает анализ, на сегодняшний день доминирующим средством реализации задач NLP вне зависимости от конкретного языка в мировой практике являются нейронные сети типа трансформеров, в первую очередь BERT и его аналоги. С другой стороны, графовые нейронные сети (GNN) выделились как мощный инструмент для моделирования сложных структур данных, таких как графы и сети. Как показывают наши исследования (см. главу 3), GNN как графовые конструкции являются значительно более органичными, по сравнению с BERT, средствами для учета естественной структуры арабского языка. Поэтому
критически важно использовать преимущества GNN при обработке арабского языка для дополнительного усовершенствования этой области NLP.
Высокая (по сравнению с другими языковыми группами) семантико-синтаксическая сложность арабского языка делает актуальной задачу ускорения процесса обработки компонентов текста, что в первую очередь связано с ускорением сходимости обучающих алгоритмов. Этот вопрос применительно к арабскому языку также остается вне поля зрения исследователей.
Степень разработанности проблемы. Вопросы NLP применительно к арабскому языку рассматривались в литературе в первую очередь применительно к задаче распознавания именованных сущностей (NER) [4-8]. Здесь известны применения таких подходов, как условные случайные поля, машины опорных векторов, глубокое совместное обучение и др. [4-8]. Однако большинство работ сосредоточено на политических и экономических доменах с преобладанием подхода, основанного на правилах. Применение NER к арабским медицинским документам значительно более ограничено [17], а публикаций о полномасштабном решении задач NLP на арабском языке применительно к медицинскому домену в доступной литературе не выявлено. Отсутствуют также публично доступные датасеты медицинских текстов на арабском языке.
Применение нейронных сетей различного типа для решения задач NLP широко представлено в литературе [122-128], причем наилучшие (SOTA) результаты достигнуты с применением BERT-подобных методов [132-139]. Разработана модификация этого метода для арабского языка - AraBert [153]. Однако эффективность BERT-подобных методов, в первую очередь в аспекте быстродействия, а также полноценного учета семантико-синтаксических связей, падает с усложнением структуры языка, что в полной мере относится к арабскому языку. С другой стороны, GNN умеют фиксировать более сложные отношения и взаимодействия между словами в тексте с помощью графовых представлений [101].
Однако использование GNN для анализа арабских текстов в литературе не представлено.
Методы и методы оптимизации играют решающую роль в обучении нейронных сетей, поскольку они позволяют минимизировать потери путем настройки таких атрибутов, как веса и скорость обучения. Широко используемые платформы машинного и глубокого обучения, в том числе BERT-подобные, используют типовые алгоритмы, такие как ADAM [96], SGD с импульсом [97] и RMSprop [98]. Однако их эффективность при работе с предобученными нейронными сетями падает. В [77-79] представлено несколько методов, использующих нелинейные сопряженные градиенты для решения проблем выпуклой нелинейной оптимизации, однако их применение к решению NLP-задач на предобученных нейронных сетях до сих пор остается неисследованным. Цель работы
Цель исследования заключается в повышении эффективности интеллектуальной обработки текстов на арабском языке путем учета специфики семантико-синтаксических отношений в ходе автоматизированного построения графа связей языка.
Эта цель достигается путем решения нескольких научных задач, включая:
1. Разработать метод учета специфики семантико-синтаксических взаимоотношений в ходе построения графа связей арабского языка.
2. Разработать методику построения и использования графовой нейронной сети как органичного средства для автоматизированного построения графа связей арабского языка.
3. Разработать метод ускорения процесса настройки нейронных сетей типа трансформеров для обработки языковых моделей, провести его теоретическое обоснование и экспериментальное подтверждение его эффективности в различных языковых доменах (на примере арабского языка).
4. Создать проблемно-ориентированный медицинский набор данных, учитывающий специализированные связи, характерные для медицинских текстов на арабском языке.
5. Разработать и программно реализовать фреймворк для решения практических задач обработки специализированных текстов на арабском языке в различных доменах, включая медицинский и индустриальный, через интеграцию практик MLOps.
Методы исследования включают в себя методы машинного обучения, методы построения графовых нейронных сетей, методы поиска решения для выпуклых целевых функций.
На защиту выносятся следующие основные положения, обладающие научной новизной:
1. Метод построения графа связей арабского языка, отличающийся тем, что с целью учета специфики семантико-синтаксических взаимоотношений между сущностями языка используется несимметричная матрица смежностей, которая позволяет учесть направленные связи между словами и (или) токенами внутри предложения.
2. Методика построения и использования графовой нейронной сети для анализа текстов на арабском языке, отличающаяся тем, что с целью учета лингвистической специфики арабского языка структура сети и ее программная реализация базируются на автоматизированном построении графа связей по методу п.1.
3. Метод ускорения процесса настройки в нейронных сетях типа трансформеров для обработки языковых моделей, отличающийся тем, что с целью улучшения сходимости выполняется объединение сопряженных коэффициентов для выявления направления градиентного поиска.
Достоверность научных достижений. Степень достоверности научных достижений подтверждается корректным использованием методов, обоснованием
постановки задач, экспериментальными исследованиями, покрывающими разработанные технологии и алгоритмы. Полученные результаты признаны научным сообществом: опубликованы в статьях и представлены на конференциях.
Соответствие паспорту специальности. В соответствии с паспортом специальности 1.2.1 - «Искусственный интеллект и машинное обучение» диссертация относится к области исследований «4. Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных».
Теоретическое значение работы состоит в следующем.
- Разработанный метод построения графа связей арабского языка является универсальным, т.е. может быть реализован с применением различных алгоритмов обработки естественного языка.
- Разработанный гибридный градиентный метод ускорения процесса настройки нейронных сетей типа трансформеров для обработки языковых моделей на 19% превосходит SOTA-метод оптимизации (Adam) по скорости при сохранении уровня точности. Метод может быть применен для повышения сходимости процесса оптимизации в различных задачах с выпуклыми целевыми функциями.
Практическое значение работы состоит в следующем.
- Разработанный текстовый анализатор на основе графовых нейронных сетей потребляет в 3,27 раза меньше ресурсов памяти, чем SOTA-модель (текстовый анализатор AraBERT).
- Разработанный гибридный градиентный метод ускорения процесса настройки нейронных сетей типа трансформеров для обработки языковых моделей позволяет резко ускорить время обработки больших текстовых массивов, что актуально, например, при создании систем ИИ типа ChatGPT.
- Впервые для домена арабского языка создан свободно распространяемый проблемно-ориентированный медицинский набор текстовых данных, что позволяет распространить сферу применения технологий NLP на этот домен.
- На основе предложенных метода и методик создан фреймворк для обработки текстов на арабском языке, интегрирующий практики MLOps. Фреймворк может быть использован не только для создания совместных датасетов для улучшения обработки текстов медицинской проблематики на арабском языке, но и в целом для обмена медицинской информации любой модальности между различными медицинскими учреждениями, ведущими документацию на арабском языке.
Тем самым продемонстрирована универсальность результатов работы для решения широкого круга практических задач обработки специализированных текстов на арабском языке в различных доменах, включая медицинский и индустриальный. Практическая ценность результатов диссертационного исследования подтверждается актами о внедрении результатов исследования.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:
1. XII Конгресс молодых ученых ИТМО (03.04.2023 - 06.04.2023)
2. LII научная и учебно-методическая конференция Университета ИТМО (31.01.2023 - 03.02.2023)
3. XI Конгресс молодых ученых ИТМО (04.04.2023 - 08.04.2023)
4. LI научная и учебно-методическая конференция Университета ИТМО (02.02.2022- 05.02.2022)
5. International Conference on Intelligent Data Engineering and Automated Learning
(25.11.2021 - 27.11.2021)
6. International Conference of Information and Communication Technologies for Ageing Well and e-Health (22.10.2021)
7. X Конгресс молодых ученых ИТМО (14.04.2021 - 17.04.2021)
8. LI научная и учебно-методическая конференция Университета ИТМО (01.02.2021- 04.02.2021)
9. 12th International Conference on e-Health (21.07.2020 - 23.07.2020)
10.13th International Conference on ICT, Society and Human Beings (21.07.2020 -23.07.2020)
11.XLIX научная и учебно-методическая конференция Университета ИТМО (29.01.2020 - 01.02.2020)
Личный вклад автора в работах, выполненных в соавторстве, заключается в построении моделей, разработке и реализации алгоритмов и методов, написании обзоров литературы.
Внедрение результатов работы. Результаты исследования использовались при выполнении следующих НИОКР: Российский научный фонд, РНФ 10078.
Публикации. Основные результаты по теме диссертации изложены в 3 публикациях, индексируемых в базе цитирования Scopus.
Структура и объем диссертации. Во введении сформулированы цель и задачи исследования, обоснованы актуальность и научная новизна работы. Кроме того, во введении перечислены основные выносимые на защиту положения диссертационной работы и представлена научная значимость работы.
В первой главе проведен анализ арабского языка и его специфика как объекта автоматизированной обработки средствами NLP. На основании литературных источников выполнен обзор и проанализированы существующие средства NLP для обработки арабского языка. Выявлены их ограничения, такие как недостаточность выразительных средств для учета сложной семантико-синтаксической структуры арабского языка и недостаточная эффективность используемых оптимизаторов. Сформулированы цель и задачи диссертации.
Во второй главе представлен разработанный метод учета специфики семантико-синтаксических отношений в ходе построения графа связей арабского языка. Метод позволяет в явном виде учесть такие ключевые особенности арабского
языка, как направленность (несимметричность) межсловных и межтокенных связей и синтаксическую значимость порядка слов в предложении.
В третьей главе предложенный метод реализован и апробирован в ходе построения графовой нейронной сети (GNN), решающей задачи NLP на арабском языке. Специфическими особенностями разработанной модели GNN являются использование несимметричной матрицы смежности, а также возможность назначения весов на ребра графа. Приведены результаты успешной апробации разработанной GNN на нескольких датасетах, принадлежащих медицинскому и индустриальному доменам. Кроме того, для дополнительной верификации эффективности использованы два средства объяснимого искусственного интеллекта (XAI), а именно SHAP и GNNExplainer.
В четвертой главе представлена разработанная методика ускорения процесса настройки нейронных сетей типа трансформеров для обработки языковых моделей. Методика базируется на новом подходе к решению выпуклых функций с использованием метода нелинейного градиента, который предполагает объединение сопряженных коэффициентов HRM и NHS для определения направления градиентного поиска. Выполнено теоретическое обоснование разработанной методики, экспериментально показаны ее преимущества по сравнению с SOTA-методами при решении стандартных проблем оптимизации. Выполнено приложение методики для решения NLP проблем арабского языка с применением трансформеров BERT-типа, экспериментально подтвержден достигаемый выигрыш во времени обработки и в Fl-мере.
В пятой главе описан процесс и результат формирования проблемно-ориентированного набора данных медицинских текстов на арабском языке, который выложен в открытый доступ и доступен по ссылке (https://github.com/JaafarHammoud/Arabic Medical Datasets).
В шестой главе представлен разработанный фреймворк для решения практических задач обработки специализированных текстов на арабском языке на
основе MLOps. Фрймворк поддерживает сбор наборов данных из нескольких медицинских центров под наблюдением авторитетной организации. Для обучения соответствующих моделей и их доступности для всех медицинских центров используются ML-пайплайны и инструменты DevOps. Экспериментальное исследование подхода показало преимущества обучения на объединенном и постоянно пополняемом наборе данных на примере такого средства NLP, как AraBERT.
Содержание работы Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, и их научная новизна, представлен краткий обзор научной литературы по способам решения задач NLP применительно к арабскому языку и их ограничениям, формулируется цель исследования, ставятся задачи работы, указывается теоретическая и практическая значимость представляемой работы, описывается апробация и внедрение полученных результатов.
В первой главе проведен анализ арабского языка и его специфика как объекта автоматизированной обработки средствами ^^Р.
В разделе 1.1 рассматривается специфика арабского языка как объекта автоматизированной обработки средствами ^^Р. Выделены такие специфические особенности арабского языка, как:
- морфологическая сложность - отдельные слова свободно конструируются из корневых токенов и разнообразных аффиксов, при этом значение конкретного корневого токена может изменяться в зависимости от окружающих аффиксов;
- сложная синтаксическая структура - преобладает гибкий порядок слов, синтаксические правила являются во многом контекстно-зависимыми;
- сильная диалектная вариативность по отдельным регионам;
- вариации транслитерации и синтаксического оформления при написании именованных сущностей;
- скудость доступных лингвистических ресурсов, особенно в узкоспециализированных доменах;
- совместное использование различных кодировок (не только арабской, но и английской и французской) в одном тексте;
- разреженность канонического словаря - в бытовой и профессиональной сфере широко используется лексика, конструируемая отдельными пользователями непосредственно в процессе формирования контента.
В разделе 1.2 проведен обзор и анализ существующих средств NLP для обработки арабского языка. Показано, что вопросы NLP применительно к арабскому языку рассматривались в литературе в первую очередь применительно к задаче распознавания именованных сущностей (NER) [4-8]. Здесь известны применения таких подходов, как условные случайные поля, машины опорных векторов, глубокое совместное обучение и др. [10-16]. Однако большинство работ сосредоточено на политических и экономических доменах с преобладанием подхода, основанного на правилах. Применение NER к арабским медицинским документам значительно более ограничено [17], а публикаций о полномасштабном решении задач NLP на арабском языке применительно к медицинскому домену в доступной литературе не выявлено. Отсутствуют также публично доступные датасеты медицинских текстов на арабском языке.
Применение нейронных сетей различного типа для решения задач NLP широко представлено в литературе [122-128], причем наилучшие (SOTA) результаты достигнуты с применением BERT-подобных методов [132-139]. Разработана модификация этого метода для арабского языка - AraBert [153]. Однако эффективность BERT-подобных методов, в первую очередь в аспекте быстродействия, а также полноценного учета семантико-синтаксических связей,
падает с усложнением структуры языка, что в полной мере относится к арабскому языку. С другой стороны, выявлены преимущества графовых нейронных сетей (GNN), которые позволяют фиксировать более сложные отношения и взаимодействия между словами в тексте [101]. Однако использование GNN для анализа арабских текстов в литературе не представлено.
В разделе 1.3 сформулированы цель и задачи диссертации.
Во второй главе представлен разработанный метод учета специфики семантико-синтаксических отношений в ходе построения графа зависимостей арабского языка.
В разделе 2.1 предложен метод формирования узлов графа зависимостей арабского языка как объекта для использования в задачах NLP. Так как, согласно результатам раздела 1.1, симметричная матрица зависимостей не может отразить сложную морфологическую структуру арабского языка, для формирования узлов графа зависимостей арабского языка разработана специализированная иерархическая процедура:
- Для построения узла, соответствующего отдельному слову (рис. 1), производится сегментация слов на три компонента (префикс, корень, суффикс) с использованием типовой процедуры стемминга и интеграция полученной морфологической информации в слой токенизации предварительно обученной многоязычной модели типа BERT.
Рис. 1. Пример разделения арабского слова на три компонента
- Для построения узла, соответствующего отдельному документу, вес узла рассчитывается как среднее значение векторов всех входящих в него токенов. Это отличает предложенную процедуру от традиционных для английского языка, таких как использование вектора TF-IDF или последнего скрытого состояния в LSTM.
- Кроме того, в работе впервые введен дополнительный уровень обработки узлов графа зависимостей, специфичный для конкретного документа, под названием Parser Document Node, который играет ключевую роль в установлении связей между узлами графа, что подробнее поясняется в разделе 2.2.
В разделе 2.2 рассмотрено формирование связей графа зависимостей арабского языка как объекта использования в задачах NLP. Для оценки неструктурных свойств ребер графа в работе используются два типа метрик:
- метрика PMI, оцениваемая посредством скользящего окна: PMI(i,j) = log- p(i,j)
р(ОРО')'
где p(i,j) = и p(i) = #^т, #W - общее число окон, #W(i) - число окон,
содержащих слово i, and # W(i,j) - число окон, содержащих одновременно слова i и j;
- метрика TF-IDF как вес ребер между узлами документов и узлами слов. Тем самым для каждой пары узлов слова вводятся два гипотетических ребра, несущих эмбеддинги, полученные при обработке документа синтаксическим анализатором. Процесс поясняется на рис. 2.
Рис. 2. Формирование графа зависимостей для арабского языка
В разделе 2.3 рассматривается формирование матрицы смежности для описания текста на арабском языке как объекта для использования в задачах NLP. В соответствии с двумя типами метрик, введенных в разделе 2.2, возможны два сценария формирования такой матрицы:
(а). После вычисления скалярного произведения по метрике TF-IDF формируется симметричная матрица смежности:
(IPPjj, i,j are words, i Ф i 1, i=j
где IPPij рассчитывается следующим образом: IPPi or IPPu = eih
ву - эмбеддинг ребра между узлами слов / и у , получаемый из парсера документа. Этот подход позволяет получить более компактный граф зависимостей, но не учитывает полную информацию, получаемую от синтаксического анализатора.
(б). Альтернативно, если оба мнимых ребра сохраняются, формируется несимметричная матрица смежности, содержащая полную информацию синтаксического анализатора, но приводящая к увеличению размера графа:
' TF — IDFij i is document,j is word.
Предложенный подход к формированию матрицы зависимостей позволяет решить многие из проблем на арабском языке, перечисленные в разделе 1.1, в том числе обеспечивает учет направленных связей, сохранение порядка слов, обработку синтаксических зависимостей.
В третьей главе предложенный метод реализован и апробирован в ходе построения графовой нейронной сети ^ЫЫ), решающей задачи на арабском языке.
В разделе 3.1 рассмотрены вопросы выбора и имплементации графовой нейронной сети для построения текстового анализатора на арабском языке на основе построенной в разделе 2 матрицы зависимостей. В работе использована двухслойная сверточная графовая сеть ^СЫ) [147], для которой процесс прямого распространения можно выразить следующим образом:
Здесь А - преобразованная матрица смежности, подробно описанная в разделе 2.3, Н - матрица, описывающая информацию, содержащуюся в каждом из узлов сети, W(0) и W(1) - настраиваемые параметры сети. Для настройки сети с использованием разработанной в разделе 2.3 матрицы смежности использованы следующие параметры: размер первого сверточного слоя - 200, размер окна - 20, скорость обучения - 0,02, процент дропаута - 0,5 и вес потери Ь2 - 0.
0
i, j arc words
г = j
otherwise
Z = softmax (A (ReLU(AHW(0)) W(1))
В разделе 3.2 приведены результаты экспериментальных исследований построенного текстового анализатора на основе графовой нейронной сети. Для экспериментов использованы два набора данных - специально разработанный в рамках диссертационного исследования (Arabic medical dataset) и общедоступный набор данных на арабском языке SANAD, из которого были использованы четыре раздела: AlArabiya news, Akhbarona Alnaba, Alkhaleej news, Hotels review. В качестве бейзлайнов использованы такие классификаторы, как LSTM, fastText, and fastText на основе биграмм, AraBert. Для оценки эффективности классификации документов использовалась традиционная Fl-мера.
Результаты экспериментов представлены в таблице 1.
Таблица 1.
Model AlArabiya Akhbarona Alkhaleej Arabic Hotels
news Alnaba news medical dataset review
LSTM 0.9612 0.9543 0.9581 0.8233 0.9624
fastText 0.9733 0.9728 0.9673 0.8445 0.9710
fastText (bigrams) 0.9745 0.9648 0.9701 0.8495 0.9755
AraBert 0.9812 0.9745 0.9726 0.8853 0.9817
GNN (симметричная 0.9852 0.9841 0.9720 0.9115 0.9811
матрица смежности )
GNN (несимметричная 0.9913 0.9855 0.9825 0.9220 0.9832
матрица смежности )
Анализ полученных результатов показывает, что даже традиционное использование GNN (с симметричной матрицей смежности) для арабского языка показывает результаты, превосходящие SOTA-вариант, а именно классификатор на основе BERT, адаптированный для арабского языка. В свою очередь, переход к использованию несимметричной матрицы смежности, которая лучше отражает специфику арабского языка, дает существенный прирост эффективности
классификации текстовых документов (последняя строка в таблице 1, выделенная жирным шрифтом).
Дополнительным экспериментально выявленным преимуществом разработанного текстового анализатора на основе GNN являются его относительно небольшие размеры. А именно, использованная версия AraBert занимает 1.38 GB, в то время как разработанный анализатор - 422 MB.
В разделе 3.3 представлена реализация средств объяснимого искусственного интеллекта для текстового анализатора на основе графовой нейронной сети. С этой целью использованы два инструмента - GNNExplainer [154], специализированный для работы с графовыми нейронными сетями, и SHAP [155]. Результаты применения GNNExplainer проиллюстрированы на рис. 4 на примере фрагмента арабского текста медицинской проблематики:
Arabic Text:
"p^Sj (jbj¿J ^l^j jO^li jLa. ^ll Alíc
Перевод на английский язык: "He is experiencing severe chest pain, shortness of breath, nausea, and vomiting."
- Верная классификация: Heart Attack
- Неверная классификация: Stomach Disease
Фиолетовый цвет на рис. 4 указывает на повышенную концентрацию внимания на определенных симптомах, таких как тошнота и рвота, а розовый цвет указывает на меньшую концентрацию внимания на боли в груди и одышке. Таким образом, применение GNNExplainer подтверждает правильность работы разработанного текстового классификатора.
Сравнительная оценка эффективности использования средств объяснимого искусственного интеллекта для текстового анализатора на основе графовой нейронной сети была проведена с привлечением трех врачей-экспертов. В качестве метрики использовано совпадение числа элементов (ребер и узлов - для
GNNExplamer, терминов в узлах - для SHAP), которое выделяло соответствующее средство и врачи-эксперты. Степень совпадения составила: для GNNExplainer -0,92, для SHAP - 0, 81, т.е. оказалась достаточно высокой в обоих случаях. В то же время сопоставление полученных метрик еще раз подтверждает органичность графового подхода для анализа текстов на арабском языке.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Специализация языковых моделей для применения к задачам обработки естественного языка2020 год, кандидат наук Куратов Юрий Михайлович
Теоретико-графовые модели, методы и программные средства интеллектуального анализа текстовой информации на примере фольклорных и литературных произведений2022 год, доктор наук Москин Николай Дмитриевич
Методы переноса знаний для нейросетевых моделей обработки естественного языка2022 год, кандидат наук Коновалов Василий Павлович
Нейросетевые методы работы с базами знаний для ответа на вопросы, ведения диалога и обработки текста2023 год, кандидат наук Евсеев Дмитрий Андреевич
Объектно-ориентированное описание графового представления программ и моделей2006 год, кандидат физико-математических наук Демаков, Алексей Васильевич
Список литературы диссертационного исследования кандидат наук Хаммуд Жаафар, 2023 год
Источники Класс N W S
altibbi.com Blood disease 215 1251.7 25.3
Bone diseases 211 1325.3 26.8
webteb.com Cardiovascular diseases 195 1749.5 27.1
mayoclinic.org Ear diseases 180 1307.5 23.9
dailymedicalinfo. com Endocrine diseases 204 1184.6 22.4
Eye diseases 190 1456.1 26.8
arabency.com.sy/medical/ Gastrointestinal diseases 218 1381.6 25.9
Immune diseases 203 1253.2 24.1
Liver diseases 198 1386.7 27.3
Nephrological diseases 186 1078.1 22.9
Отметим, что в датасет были намеренно включены примеры текстов с характерными для арабского языка грамматическими и морфологическими сложностями, упомянутыми в разделе 1.1, в том числе такими, как наличие синтаксических взаимозависимостей между членами разных предложений и
вариативность длины предложения (в последнем случае не представляется возможным формально установить границы конкретного предложения).
Созданный датасет выложен в открытый доступ по ссылке https://github.com/JaafarHammoud/Arabic Medical Datasets.
В разделе 5.2 представлен разработанный фреймворк для решения практических задач обработки специализированных текстов на арабском языке на основе базового фреймворка MLOps. В ходе выполнения работы выявилась целесообразность расширения номенклатуры и объема специализированных датасетов медицинского домена на арабском языке. В связи с этим разработанный фреймворк направлен на организацию совместной работы по сбору и обработке данных в различных медицинских центрах, работающих на арабском языке.
Структура фреймворка представлена на рис. 9.
Для оценки эффективности созданного фреймворка был проведен эксперимент. Были извлечены тексты из трех независимых веб-сайтов медицинской тематики на арабском языке и проведено обучение классификатора AraBert на текстовых материалах каждого из веб-сайтов по отдельности (средняя колонка) и на объединенном текстовом материале с дополнительным дообучением по каждому из веб-сайтов (правая колонка). Результаты оценки эффективности в виде Fl-меры, выраженные в процентах, представлены в таблице 8.
Таблица 8.
Источник Обучение по текстам отдельного веб-сайта Обучение по обобщенному датасету с донастройкой текстам отдельного вебсайта
Altibbi.com 83.21 87.81
Webteb.com 84.71 88.12
Mayoclinic.com 86.19 88.04
Рис. 9. Структура фреймворка для совместной обработки медицинской информации на арабском языке
Отметим, что разработанный фреймворк может быть использован не только для создания совместных датасетов для улучшения обработки текстов медицинской проблематики на арабском языке, но и в целом для обмена медицинской информации любой модальности между различными медицинскими учреждениями, ведущими документацию на арабском языке.
Заключение
В рамках проведенного диссертационного исследования были получены следующие результаты, обладающие научной и практической значимостью:
1. Разработан метод построения графа связей арабского языка, отличающийся тем, что с целью учета специфики семантико-синтаксических взаимоотношений между сущностями языка используется несимметричная матрица смежностей. Метод дает принципиальное решение таких проблем ^ЫЬР на арабском языке, как наличие наличие направленных связей между словами и (или) токенами внутри предложения, межсловных и межтокенных синтаксических зависимостей, синтаксическую значимость порядка слов в предложении.
2. Разработана методика построения и использования графовой нейронной сети для анализа текстов на арабском языке, базирующаяся на автоматизированном построении графа связей с использованием несимметричной матрицы смежности. Использование методики не только более органично отражает специфику арабского языка, но и дает существенный прирост точности классификации текстовых документов: получены значения F1-меры, равные 0,9220-0,9913, что на 2% превышает SOTA-значения для текстов общей лексики и на 11% - для текстов специальной (медицинской) лексики. Реализованный на базе методики текстовый анализатор потребляет в 3,27 раза меньше ресурсов памяти, чем SOTA-модель (текстовый анализатор AraBERT).
3. Разработан гибридный градиентный метод ускорения процесса настройки нейронных сетей типа трансформеров для обработки языковых моделей, который позволяет решить проблему увеличенного времени настройки текстовых анализаторов применительно к сложным и (или) объемным текстам. Теоретически доказана сходимость метода. Экспериментальная оценка сходимости метода, выполненная на стандартных задачах оптимизации без ограничений, составила 0,991. На примере настройки языковой модели на медицинских арабских текстах
показано, что предложенный метод на 19% превосходит SOTA-метод оптимизации (Adam) по скорости при сохранении уровня точности. Метод обладает общностью, т.е. может быть применен для повышения сходимости процесса оптимизации в различных задачах с выпуклыми целевыми функциями.
4. Впервые для домена арабского языка создан свободно распространяемый проблемно-ориентированный медицинский набор текстовых данных, что позволяет распространить сферу применения технологий NLP на этот домен.
5. На основе предложенных методов и методики создан фреймворк для обработки текстов на арабском языке, интегрирующий практики MLOps. Фреймворк может быть использован не только для создания совместных датасетов для улучшения обработки текстов медицинской проблематики на арабском языке, но и в целом для обмена медицинской информации любой модальности между различными медицинскими учреждениями, ведущими документацию на арабском языке.
Публикации автора по теме диссертации
Публикации автора в научных изданиях, входящие в международные реферативные базы данных и системы цитирования
1. Hammoud J., Vatian A., Dobrenko N., Vedernikov N., Shalyto A., Gusarova N. (2021) New Arabic Medical Dataset for Diseases Classification. In: Yin H. et al. (eds) Intelligent Data Engineering and Automated Learning - IDEAL 2021. IDEAL 2021. Lecture Notes in Computer Science, vol 13113. Springer, Cham. https://doi.org/10.1007/978-3-030-91608-4_20 (Q2)
2. Hammoud J., Dobrenko N., Gusarova N. "Named Entity Recognition and Information Extraction for Arabic Medical Text" // Proceedings of the 12th IADIS International Conference e-Health 2020, EH 2020.
3. Suzdaltseva, M., Shamakhova, A., Dobrenko, N. V., Alekseeva, O., Hammoud, J., Gusarova, N. F., ... & Shalyto, A. (2021). De-identification of Medical Information for Forming Multimodal Datasets to Train Neural Networks. In ICT4AWE (pp. 163-170).
SYNOPSIS
General description of work Relevance of the topic. Arabic is one of the most widely spoken languages in the world, and automation of its processing obviously serves to increase the accessibility of information content both for native speakers of Arabic and for representatives of other language groups. However, as practice shows, it receives significantly less attention in terms of natural language processing (NLP) tools and resources than other languages. This situation is largely due to the unique grammatical structures and features of the Arabic language, which complicates the processing task using standard NLP methods.
In this regard, research in the field of natural language processing applied to Arabic language (ANLP) is essential to address existing problems and increase the accessibility and efficiency of Arabic language processing. The development of new algorithms and models, specially created to take into account the semantic and syntactic features of the Arabic language, is an integral part of this process.
As the analysis shows, today the dominant means of implementing NLP tasks, regardless of the specific language in world practice, are transformer-type neural networks, primarily BERT and its analogues. On the other hand, graph neural networks (GNNs) have emerged as a powerful tool for modeling complex data structures such as graphs and networks. As our research shows (see Chapter 3), GNNs as graph constructions are much more organic, compared to BERT, means for taking into account the natural structure of the Arabic language. Therefore, it is critical to take advantage of GNNs in Arabic processing to further improve this area of NLP.
The high (compared to other language groups) semantic-syntactic complexity of the Arabic language makes it urgent to accelerate the process of processing text components, which is primarily associated with accelerating the convergence of learning algorithms. This issue in relation to the Arabic language also remains beyond the attention of researchers.
The degree of development of the problem. NLP issues in relation to the Arabic language have been considered in the literature primarily in relation to the problem of named entity recognition (NER) [4-8]. There are known applications of such approaches as conditional random fields, support vector machines, deep collaborative learning, etc. [4-8]. However, most works focus on political and economic domains, with a predominant rule-based approach. The application of NER to Arabic medical documents is much more limited [17], and no publications on full-scale NLP problem solving in Arabic applied to the medical domain have been identified in the available literature. There are also no publicly available datasets of medical texts in Arabic.
The use of neural networks of various types for solving NLP problems is widely presented in the literature [122-128], and the best (SOTA) results were achieved using BERT-like methods [132-139]. A modification of this method has been developed for the Arabic language - AraBert [153]. However, the effectiveness of BERT-like methods, primarily in terms of speed, as well as full consideration of semantic-syntactic connections, decreases with the complication of the language structure, which fully applies to the Arabic language. On the other hand, GNNs are able to capture more complex relationships and interactions between words in text using graph representations [101]. However, the use of GNN for Arabic text analysis has not been presented in the literature.
Optimization techniques and methods play a crucial role in training neural networks as they minimize losses by tuning attributes such as weights and learning rates. Widely used machine learning and deep learning platforms, including BERT-like ones, use typical algorithms such as ADAM [96], SGD with momentum [97], and RMSprop [98]. However, their effectiveness decreases when working with pretrained neural networks. Several methods using nonlinear conjugate gradients to solve convex nonlinear optimization problems are presented in [77-79], but their application to solving NLP problems on pretrained neural networks still remains unexplored.
Goal of the study
The goal of the study is to increase the efficiency of intellectual text processing in Arabic by taking into account the specifics of semantic-syntactic relationships during the automated construction of a language connection graph.
This goal is achieved by solving several scientific problems, including:
1. Develop a method for taking into account the specifics of semantic-syntactic relationships during the construction of a graph of connections in the Arabic language.
2. Develop a methodology for constructing and using a graph neural network as an organic tool for the automated construction of a graph of connections in the Arabic language.
3. Develop a method for accelerating the process of setting up transformer-type neural networks for processing language models, carry out a theoretical justification and experimental confirmation of its effectiveness in various language domains (using the example of the Arabic language).
4. Create a problem-oriented medical data set that takes into account specialized connections characteristic of medical texts in Arabic.
5. Develop and programmatically implement a framework for solving practical problems of processing specialized texts in Arabic in various domains, including medical and industrial, through the integration of MLOps practices.
Research methods include machine learning methods, methods for constructing graph neural networks, methods for finding solutions for convex objective functions.
The following main provisions of scientific novelty are submitted for defense:
1. A method for constructing a connection graph of the Arabic language, characterized in that in order to take into account the specifics of semantic-syntactic relationships between language entities, an asymmetrical adjacency matrix is used, which allows taking into account directional connections between words and (or) tokens within a sentence.
2. A technique for constructing and using a graph neural network for analyzing texts in Arabic, characterized in that, in order to take into account the linguistic specifics of the
Arabic language, the structure of the network and its software implementation are based on the automated construction of a connection graph using the method of step 1.
3. A method for accelerating the tuning process in transformer-type neural networks for processing language models, characterized in that in order to improve convergence, the conjugate coefficients are combined to identify the direction of the gradient search.
Reliability of scientific achievements. The degree of reliability of scientific achievements is confirmed by the correct use of methods, justification for setting tasks, and experimental studies covering the developed technologies and algorithms. The results obtained are recognized by the scientific community: published in articles and presented at conferences.
Compliance with the specialty passport. In accordance with the passport of specialty 1.2.1 - "Artificial intelligence and machine learning", the dissertation relates to the field of research "4. Development of methods, algorithms and creation of artificial intelligence and machine learning systems for processing and analyzing texts in natural language, for images, speech, biomedicine and other special types of data."
The theoretical significance of the work is as follows.
- The developed method for constructing a graph of connections in the Arabic language is universal, i.e. can be implemented using various natural language processing algorithms.
- The developed hybrid gradient method for accelerating the process of setting up transformer-type neural networks for processing language models is 19% faster than the SOTA optimization method (Adam) in speed while maintaining the level of accuracy. The method can be applied to increase the convergence of the optimization process in various problems with convex objective functions.
The practical significance of the work is as follows.
- The developed text analyzer based on graph neural networks consumes 3.27 times less memory resources than the SOTA model (AraBERT text analyzer).
- The developed hybrid gradient method for accelerating the process of setting up transformer-type neural networks for processing language models can dramatically speed up the processing time of large text arrays, which is important, for example, when creating AI systems like ChatGPT.
- For the first time, a freely distributed problem-oriented medical text data set has been created for the Arabic language domain, which makes it possible to extend the scope of application of NLP technologies to this domain.
- Based on the proposed method and techniques, a framework for processing texts in Arabic was created, integrating MLOps practices. The framework can be used not only to create joint datasets to improve the processing of medical texts in Arabic, but also in general to exchange medical information of any modality between various medical institutions that maintain documentation in Arabic.
This demonstrates the universality of the results of the work for solving a wide range of practical problems of processing specialized texts in Arabic in various domains, including medical and industrial. The practical value of the results of the dissertation research is confirmed by acts on the implementation of the research results.
Approbation of work. The main results of the work were reported and discussed at the following conferences:
1. XII ITMO Young Scientists Congress (03.04.2023 - 06.04.2023)
2. LII Scientific and Educational-Methodological Conference of ITMO University (31.01.2023 - 03.02.2023)
3. XI ITMO Young Scientists Congress (04.04.2023 - 08.04.2023)
4. LI Scientific and Educational-Methodological Conference of ITMO University (02.02.2022- 05.02.2022)
5. International Conference on Intelligent Data Engineering and Automated Learning (25.11.2021 - 27.11.2021)
6. International Conference of Information and Communication Technologies for Ageing Well and e-Health (22.10.2021)
7. X ITMO Young Scientists Congress (14.04.2021 - 17.04.2021)
8. LI Scientific and Educational-Methodological Conference of ITMO University (01.02.2021- 04.02.2021)
9. 12th International Conference on e-Health (21.07.2020 - 23.07.2020)
10.13th International Conference on ICT, Society and Human Beings (21.07.2020 - 23.07.2020)
11.XLIX Scientific and Educational-Methodological Conference of ITMO University (29.01.2020 - 01.02.2020) The author's personal contribution to works carried out in collaboration is the construction of models, the development and implementation of algorithms and methods, and the writing of literature reviews.
Implementation of work results. The research results were used in the following R&D projects: Russian Science Foundation, RSF 10078.
Publications. The main results on the topic of the dissertation are presented in 3 publications indexed in the Scopus citation database.
structure and scope of the dissertation. The introduction formulates the purpose and objectives of the research and substantiates the relevance and scientific novelty of the work. In addition, the introduction lists the main provisions of the dissertation work to be defended and presents the scientific significance of the work.
The first chapter contains an analysis of the Arabic language and its specificity as an object of automated processing using NLP. Based on the literature, a review was carried out and existing NLP tools for processing Arabic were analyzed. Their limitations are identified, such as the insufficiency of expressive means to take into account the complex semantic-syntactic structure of the Arabic language and the insufficient efficiency of the optimizers used. The purpose and objectives of the dissertation are formulated.
The second chapter presents the developed method for taking into account the specifics of semantic-syntactic relations during the construction of a graph of connections in the Arabic language. The method allows us to explicitly take into account such key
features of the Arabic language as the direction (asymmetry) of interword and intertoken connections and the syntactic significance of word order in a sentence.
In the third chapter, the proposed method is implemented and tested during the construction of a graph neural network (GNN) that solves NLP problems in Arabic. Specific features of the developed GNN model are the use of an asymmetric adjacency matrix, as well as the ability to assign weights to the edges of the graph. The results of successful testing of the developed GNN on several datasets belonging to the medical and industrial domains are presented. In addition, two explainable artificial intelligence (XAI) tools, namely SHAP and GNNExplainer, are used to further verify the effectiveness.
The fourth chapter presents a developed method for accelerating the process of setting up transformer-type neural networks for processing language models. The technique is based on a new approach to solving convex functions using the nonlinear gradient method, which involves combining the conjugate HRM and NHS coefficients to determine the direction of the gradient search. A theoretical substantiation of the developed methodology has been carried out, and its advantages over SOTA methods in solving standard optimization problems have been experimentally demonstrated. The application of the methodology for solving NLP problems of the Arabic language using BERT-type transformers has been carried out, and the achieved gain in processing time and Fl-measure has been experimentally confirmed.
The fifth chapter describes the process and result of the formation of a problem-oriented dataset of medical texts in Arabic, which is publicly available and available at the link (https: //github .com/JaafarHammoud/Arabic_Medical_Datasets).
The sixth chapter presents the developed framework for solving practical problems of processing specialized texts in Arabic based on MLOps. The framework supports the collection of datasets from multiple medical centers under the supervision of a reputable organization. ML pipelines and DevOps tools are used to train appropriate models and make them available to all medical centers. An experimental study of the approach showed
the advantages of training on a combined and constantly updated data set using the example of an NLP tool such as AraBERT.
The content of the work The introduction substantiates the relevance of the research carried out within the framework of this dissertation work and its scientific novelty, presents a brief overview of the scientific literature on methods for solving NLP problems in relation to the Arabic language and their limitations, formulates the purpose of the research, sets the objectives of the work, and indicates the theoretical and practical significance of the presented work. work, describes the testing and implementation of the results obtained.
The first chapter contains an analysis of the Arabic language and its specificity as an object of automated processing using NLP.
Paragraph 1.1 discusses the specifics of the Arabic language as an object of automated processing using NLP. The following specific features of the Arabic language are highlighted:
- morphological complexity - individual words are freely constructed from root tokens and various affixes, while the meaning of a particular root token can change depending on surrounding affixes.
- complex syntactic structure - flexible word order predominates; syntactic rules are largely context-dependent.
- strong dialect variability in individual regions.
- variations in transliteration and syntactic design when writing named entities.
- paucity of available linguistic resources, especially in highly specialized domains.
- sharing different encodings (not only Arabic, but also English and French) in one text.
- sparseness of the canonical vocabulary - in the everyday and professional sphere, vocabulary is widely used, constructed by individual users directly in the process of creating content.
Paragraph 1.2 provides a review and analysis of existing NLP tools for Arabic language processing. It is shown that NLP issues in relation to the Arabic language were considered in the literature primarily in relation to the named entity recognition (NER) task [4-8]. There are known applications of such approaches as conditional random fields, support vector machines, deep collaborative learning, etc. [10-16]. However, most works focus on political and economic domains, with a predominant rule-based approach. The application of NER to Arabic medical documents is much more limited [17], and no publications on full-scale NLP problem solving in Arabic applied to the medical domain have been identified in the available literature. There are also no publicly available datasets of medical texts in Arabic.
The use of neural networks of various types for solving NLP problems is widely presented in the literature [122-128], and the best (SOTA) results were achieved using BERT-like methods [132-139]. A modification of this method has been developed for the Arabic language - AraBert [153]. However, the effectiveness of BERT-like methods, primarily in terms of speed, as well as full consideration of semantic-syntactic connections, decreases with the complication of the language structure, which fully applies to the Arabic language. On the other hand, the advantages of graph neural networks (GNNs) have been identified, which make it possible to capture more complex relationships and interactions between words in text [101]. However, the use of GNN for Arabic text analysis has not been presented in the literature.
Paragraph 1.3 formulates the goal and objectives of the dissertation.
The second chapter presents the developed method for taking into account the specifics of semantic-syntactic relations during the construction of a dependency graph of the Arabic language.
Paragraph 2.1 proposes a method for generating Arabic dependency graph nodes as an object for use in NLP tasks. Since, according to the results of Section 1.1, a symmetric dependency matrix cannot reflect the complex morphological structure of the Arabic
language, a specialized hierarchical procedure has been developed to form nodes of the dependency graph of the Arabic language:
- To build a node corresponding to a single word (Fig. 1), words are segmented into three components (prefix, root, suffix) using a standard stemming procedure and the resulting morphological information is integrated into the tokenization layer of a pre-trained multilingual BERT-type model.
Fig. 1. An example of dividing an Arabic word into three components
- To build a node corresponding to a separate document, the weight of the node is calculated as the average value of the vectors of all tokens included in it. This distinguishes the proposed procedure from traditional English ones, such as using the TF-IDF vector or the last hidden state in LSTM.
- In addition, the work introduces for the first time an additional layer of document-specific processing of dependency graph nodes, called Parser Document Node, which plays a key role in establishing connections between graph nodes, which is explained in more detail in section 2.2.
Paragraph 2.2 discusses the formation of connections in the Arabic language dependency graph as an object of use in NLP tasks. To assess the non-structural properties of graph edges, two types of metrics are used in the work:
- PMI metric assessed using a sliding window:
P(i,j)
PMI(i,j) = log
p(i)p(jy
where p(i,j) = #w(l,J'-> and v(i) = #w(l\ #W is total words number, #W(Q is number of
windows containing word i, and #W(i,y) is number of windows containing words i and j simultaneously.
- TF-IDF metric as the weight of edges between document nodes and word nodes.
Thus, for each pair of word nodes, two hypothetical edges are introduced that carry embeddings obtained when processing the document with a parser. The process is explained in Fig. 2.
Fig. 2. Formation of a dependency graph for the Arabic language Paragraph 2.3 discusses the formation of an adjacency matrix to describe Arabic text as an object for use in NLP tasks. In accordance with the two types of metrics introduced in Section 2.2, two scenarios for the formation of such a matrix are possible:
(a). After calculating the scalar product using the TF-IDF metric, a symmetric adjacency matrix is formed:
i
*V =
IPPij,
i,j are words, 1, i=j
where IPPij is calculated as follows:
jpp _ = (eij ■ eji)
or IPPij = eij,
lJ 2
eij - edge embedding between word nodes i and j, obtained from the document parser.
This approach produces a more compact dependency graph, but does not take into account the full information received from the parser.
(b). Alternatively, if both imaginary edges are preserved, a non-symmetric adjacency matrix is formed, containing full parser information but resulting in an increased graph size:
The proposed approach to forming a dependency matrix allows us to solve many of the problems of NLP in Arabic listed in section 1.1, including taking into account directed connections, preserving word order, and processing syntactic dependencies.
In the third chapter, the proposed method is implemented and tested during the construction of a graph neural network (GNN) that solves NLP problems in Arabic.
Paragraph 3.1 discusses the selection and implementation of a graph neural network for constructing a text analyzer in Arabic based on the dependency matrix constructed in Section 2. The work uses a two-layer graph convolutional network (GCN) [147], for which the forward propagation process can be expressed as follows:
Z = softmax (A (ReLU(AHW(0))) W(1))
Here A is the transformed adjacency matrix, described in detail in section 2.3, H is a matrix describing the information contained in each of the network nodes, W(0) and W(1) are configurable network parameters. To set up the network using the adjacency matrix developed in Section 2.3, the following parameters were used: the size of the first convolutional layer is 200, the window size is 20, the learning rate is 0.02, the dropout percentage is 0.5 and the L2 loss weight is 0.
Paragraph 3.2 presents the results of experimental studies of the constructed text analyzer based on a graph neural network. For the experiments, two data sets were used -a specially developed one as part of the dissertation research (Arabic medical dataset) and a publicly available data set in Arabic SANAD, from which four sections were used: AlArabiya news, Akhbarona Alnaba, Alkhaleej news, Hotels review. Classifiers such as
LSTM, fastText, and bigram-based fastText, AraBert were used as baselines. To evaluate the efficiency of document classification, the traditional Fl-measure was used. The experimental results are presented in Table 1.
Table 1.
Model AlArabiya news Akhbarona Alnaba Alkhaleej news Arabic medical dataset Hotels review
LSTM 0.9612 0.9543 0.9581 0.8233 0.9624
fastText 0.9733 0.9728 0.9673 0.8445 0.9710
fastText (bigrams) 0.9745 0.9648 0.9701 0.8495 0.9755
AraBert 0.9812 0.9745 0.9726 0.8853 0.9817
GNN (symmetric adjacent matrix ) 0.9852 0.9841 0.9720 0.9115 0.9811
GNN (non-symmetric adjacent matrix) 0.9913 0.9855 0.9825 0.9220 0.9832
Analysis of the results shows that even the traditional use of GNN (with a symmetric adjacency matrix) for Arabic shows results superior to the SOTA version, namely a BERT-based classifier adapted for Arabic. In turn, the transition to using an asymmetrical adjacency matrix, which better reflects the specifics of the Arabic language, gives a significant increase in the efficiency of classifying text documents (the last row in Table 1, highlighted in bold).
An additional experimentally revealed advantage of the developed GNN-based text analyzer is its relatively small size. Namely, the used version of AraBert occupies 1.38 GB, while the developed analyzer occupies 422 MB.
Paragraph 3.3 presents the implementation of explainable artificial intelligence tools for a text analyzer based on a graph neural network. For this purpose, two tools were used: GNNExplainer [154], specialized for working with graph neural networks, and SHAP [155]. The results of using GNNExplainer are illustrated in Fig. 4 using an example of a fragment of an Arabic text on medical issues: Arabic Text:
English translation: "He is experiencing severe chest pain, shortness of breath, nausea, and vomiting."
- Correct classification: Heart Attack
- Incorrect classification: Stomach Disease
jL. HJI dJ-t
V
jjjiJ1
w
AfJUAl
Fig. 4. Attention distribution of the developed text classifier, built using GNNExplainer
Purple color in fig. 4 indicates increased focus on certain symptoms such as nausea and vomiting, while pink indicates less focus on chest pain and shortness of breath. Thus, the use of GNNExplainer confirms the correct operation of the developed text classifier.
A comparative assessment of the effectiveness of using explainable artificial intelligence tools for a text analyzer based on a graph neural network was carried out with the involvement of three medical experts. The metric used was the coincidence of the number of elements (edges and nodes for GNNExplainer, terms in nodes for SHAP), which was identified by the corresponding tool and medical experts. The degree of agreement was: for GNNExplainer - 0.92, for SHAP - 0.81, i.e. turned out to be quite high in both cases. At the same time, a comparison of the obtained metrics once again confirms the organic nature of the graph approach for analyzing texts in Arabic.
Chapter 4 presents a developed method for accelerating the process of setting up transformer-type neural networks for processing language models, based on the Hybrid or combined conjugate gradient methods.
Paragraph 4.1 discusses the issues of choosing a language model for building a text analyzer in Arabic based on the considered dataset of medical documents.
Experiments were conducted on the use of existing text analyzer models in relation to specialized Arabic medical texts. The work examines such text analyzer models as BERT, Arabert, ABioNER, as well as such classical models as SVM and Naive Bayes (NB).
During the experiment, the dataset was divided into three parts: training, validation and test in proportions of 80%, 10% and 10% of the original data. During the fine-tuning process, the Adam optimizer was used with a learning rate of 1e-4 for all three models. The custom part consisted of two fully connected layers with sizes of 1024 and 10, respectively. The ReLU activation function was used on the first layer, and softmax on the second layer. The training lasted 4 epochs with a batch size of 16.
Efficiency was assessed based on the f1 -score metric. During the fine-tuning process, parameters such as batch size, maximum sequence length and maximum number of input tokens were optimized.
Table 2. Comparison of the accuracy of various text analyzers when processing
Arabic
BERT Arabert v2 ABioNER SVM NB
F1. Validation 94.13 96.43 97.43 89.13 87.61
F1. Testing 92.29 94.54 95.91 87.34 85.69
It is shown that for this type of dataset the ABioNER model showed the best results. However, during the experiment it was revealed that all the considered neural network text analyzers have a fairly long setup time compared to their use for other language groups.
Paragraph 4.2 presents the development of a nonlinear gradient method to solve the problem posed based on the hybridization of two conjugate coefficients HRM and NHS. The method is based on the following formula:
P* = (1 - ek)PNkHS + ekPZRM,
where p- are the coefficients of the corresponding methods, and 0k is the hybridization coefficient, updated according to the formula
gnew _
tsk dk+1 + 3k+i yk - Pic dk yk
(£5™ - PDd! yk
It is theoretically shown that the presented optimizer has convergence within the framework of three assumptions common to gradient optimization methods:
1) f(x) is bounded below on the set fi = {x£ Mn|f (x) < f(x0)}, where x0is the starting point.
2) In some neighborhood N of the set Q, the objective function is continuously differentiable, and its gradient also satisfies the Lipschitz condition.
3) Vx 6 H y^(x)y < r, r > 0- the gradient is bounded on the set r.
For this purpose, the following theorems have been proven to guarantee convergence:
Theorem 1:
Let the sequences [gk] and {dk} be obtained by the presented method. Then the sequence {dk} satisfies the sufficient descent condition
9ldk<c\\gk\\2 Vk>0,c>0
Theorem 2:
When assumptions 1-3 are met, the proposed method, by virtue of Theorem 1, satisfies the condition of global convergence. In other words, the following relationship is satisfied:
1
If —72 = then lim(mf\\0k+i\\) = 0
Section 4.3 provides an experimental evaluation of the presented gradient method. The following methods were used for this:
1) A typical verification technique, which consists in solving 110 standard optimization problems without restrictions, including many synthetic objective functions with a known global minimum, having different degrees of monotonicity, different numbers, density and uniformity of local minima, as well as variability in other technically important parameters. The solution condition is to find a point at which the value of the objective function is sufficiently close (the specific closeness value may vary between problems) to that at the global minimum point.
2) Comparison of the hybrid method with each of the original ones separately (HRM and NHS) in terms of convergence speed on 110 standard optimization problems without restrictions from the previous paragraph.
3) Comparison of the hybrid method with the Adam method in terms of achieved accuracy and convergence time.
As a result, the following results were obtained:
1) The method achieved the required accuracy in 109 out of 110 standard problems.
2) The hybrid method significantly surpasses both original ones in terms of the average speed of convergence for 110 tasks, both in the number of steps (Fig. 5) and in execution time (Fig. 6).
Fig. 5. Comparison of the proposed method with two basic methods HRM and NHS in terms of the number of iterations.
Fig. 6. Comparison of the proposed method with two basic methods HRM and NHS in terms of execution time
3) The proposed method achieves accuracy comparable to Adam in terms of the F1-score metric (Table 3) in relation to BERT, and also exceeds it in convergence speed by 19% (Table 4)
Table 3. Fl-score value for each class
Model Name Disease Name Organ Name Disease Symptoms Drug Name
BERT with Adam 87.71 86.30 69.85 77.49
BERT with new optimizer 87.90 85.93 68.41 78.91
Table 4. Comparison of execution time of the proposed optimization method with Adam
Model Name Epochs Train Time
BERT with Adam 4 9.25 hours
BERT with new optimizer 4 7.5 hours
Thus, Chapter 4 addresses the problem of selecting and tuning text analyzer models for processing specialized medical Arabic texts. Based on the results obtained, the identified problem of increased setup time of existing models of text analyzers in relation to specialized Arabic medical texts is considered. To solve the problem, a hybrid gradient method was proposed and theoretically justified. An experimental evaluation of the proposed method was carried out on 110 standard optimization problems without restrictions, as well as on the example of tuning a language model in comparison with Adam. As a result, the required accuracy was achieved in 109 out of 110 standard tasks. When applied to setting up a language model on medical Arabic texts, it was shown that the proposed method achieves approximately the same accuracy results as compared to Adam, but exceeds it in convergence speed by 19%.
Chapter 5 discusses the solution of practical problems of processing specialized texts in Arabic using the developed methods and techniques.
Section 5.1 describes the process and result of generating problem-oriented datasets of medical texts in Arabic. Namely, a dataset was generated to solve the problem of identifying named entities and a dataset to solve the problem of text classification.
As a source of texts for the first dataset, articles from the Arabic Encyclopedia, localized for the Syrian Arab Republic, related to the following topics were used: diseases of the respiratory system, cardiovascular diseases, skin diseases. The process of annotating entities, including names of diseases, organs, drugs and disease symptoms, was performed manually by recruited students from Syrian medical universities. The annotation process is illustrated in Fig. 5.
select radomly another annonator who will check the annonations and select one of them
Fig. 5. Scheme of the text annotation process An example of text markup is shown in Fig. 6. Statistical data on the constructed dataset for identifying named entities is given in Table 2.
Table 2.
Named Entity Class Number of Entities Number of Tokens
Disease Name 253 881
Disease Symptoms 117 432
Organ Name 97 311
Drug Name 211 690
Total 678 2314
B-DISEASE
¿JL> O
¿üj Lg_J 1 O
O
O
B-ORGAN
finilQ i l l 1 l-ORGAN
O
oJLc- O
UUJI B-ORGAN
fljjjji l-ORGAN
i O
o Lxj O
LjiSujbJI O
O LJLQJJ I3 O
D-Xi LUULOJI O
1—IUJLLI 0
oik 0
<dbJI 0
0
B-SYMPTOM
ÖJLjuluiI l-SYMPTOM
l-SYMPTOM
JJJI^ÄJ 0
0
0
0
>J B-SYMPTOM
yjji l-SYMPTOM
B-SYMPTOM
l-SYMPTOM
JLUJJ5 B-SYMPTOM
0 jls\ 0
0
Fig. 6. An example of text markup To form the second dataset, sources from the Arabic Encyclopedia, localized for the Syrian Arab Republic, as well as various websites in Arabic dedicated to medical topics were used. A fragment of the characteristics of the sources is given in Table 3, and detailed statistics of the constructed dataset are given in Table 4.
Table 3
Number of articles analyzed Number of sentences extracted
respiratory system diseases 28 6691
cardiovascular diseases 33 9464
skin diseases 22 5921
Table 4
Sources Class N W S
altibbi.com Blood disease 215 1251.7 25.3
Bone diseases 211 1325.3 26.8
webteb.com Cardiovascular diseases 195 1749.5 27.1
mayoclinic.org Ear diseases 180 1307.5 23.9
dailymedicalinfo. com Endocrine diseases 204 1184.6 22.4
Eye diseases 190 1456.1 26.8
arabency.com.sy/medical/ Gastrointestinal diseases 218 1381.6 25.9
Immune diseases 203 1253.2 24.1
Liver diseases 198 1386.7 27.3
Nephrological diseases 186 1078.1 22.9
Table 4 uses the following notations: N is the total number of documents in the dataset, W and S are the average number of words and sentences per document, respectively.
Note that the dataset intentionally included examples of texts with grammatical and morphological complexities characteristic of the Arabic language, mentioned in section 1.1, including such as the presence of syntactic interdependencies between members of different sentences and variability in sentence length (in the latter case it is not possible formally set the boundaries of a specific proposal).
The created dataset is publicly available at the link https: //github .com/JaafarHammoud/Arabic_Medical_Datasets.
Paragraph 5.2 presents the developed framework for solving practical problems of processing specialized texts in Arabic based on the basic MLOps framework. During the work, the feasibility of expanding the range and volume of specialized medical domain datasets in Arabic was revealed. In this regard, the developed framework is aimed at organizing joint work on collecting and processing data in various medical centers working in Arabic.
The structure of the framework is shown in Fig. 6.
Fig. 6. Structure of a framework for collaborative processing of medical information in Arabic
An experiment was conducted to evaluate the effectiveness of the created framework. Texts were extracted from three independent medical websites in Arabic and the AraBert classifier was trained on text materials from each website separately (middle column) and on combined text material with additional additional training for each website (right
column ). The results of the effectiveness assessment in the form of F1-measures, expressed as percentages, are presented in Table 5.
Table 5.
Source Training based on texts from a separate website Training using a generalized dataset with additional fine-tuning to the texts of a separate website
Altibbi.com 83.21 87.81
Webteb.com 84.71 88.12
Mayoclinic.com 86.19 88.04
Note that the developed framework can be used not only to create joint datasets to improve the processing of medical texts in Arabic, but also in general for the exchange of medical information of any modality between various medical institutions that maintain documentation in Arabic.
Conclusion
Based on the dissertation research, the following results of scientific and practical significance were obtained:
1. A method has been developed for constructing a connection graph of the Arabic language, characterized in that in order to take into account the specifics of semantic-syntactic relationships between language entities, an asymmetrical adjacency matrix is used. The method provides a fundamental solution to such NLP problems in Arabic, such as the presence of directed connections between words and (or) tokens within a sentence, interword and intertoken syntactic dependencies, and the syntactic significance of word order in a sentence.
2. A methodology has been developed for constructing and using a graph neural network for analyzing texts in Arabic, based on the automated construction of a connection graph using an asymmetric adjacency matrix. The use of the methodology not only more organically reflects the specifics of the Arabic language, but also gives a significant increase in the accuracy of classification of text documents: F1 -measure values equal to 0.9220-0.9913 were obtained, which is 2% higher than the SOTA values for texts of general vocabulary and by 11% - for texts of special (medical) vocabulary. A text analyzer implemented on the basis of the technique consumes 3.27 times less memory resources than the SOTA model (AraBERT text analyzer).
3. A hybrid gradient method has been developed to speed up the process of setting up transformer-type neural networks for processing language models, which allows solving the problem of increased setup time for text analyzers in relation to complex and (or) voluminous texts. The convergence of the method is theoretically proven. An experimental assessment of the convergence of the method, performed on standard optimization problems without restrictions, was 0.9913. Using the example of setting up a language model on medical Arabic texts, it is shown that the proposed method is 19% faster than the SOTA optimization method (Adam) in speed while maintaining the level
of accuracy. The method has generality, i.e. can be used to increase the convergence of the optimization process in various problems with convex objective functions.
4. For the first time, a freely distributed problem-oriented medical text data set has been created for the Arabic language domain, which makes it possible to extend the scope of application of NLP technologies to this domain.
5. Based on the proposed methods and methodology, a framework for processing texts in Arabic was created, integrating MLOps practices. The framework can be used not only to create joint datasets to improve the processing of medical texts in Arabic, but also in general to exchange medical information of any modality between various medical institutions that maintain documentation in Arabic.
Author's publications on the topic of the dissertation
Author's publications in scientific journals included in international abstract
databases and citation systems.
1. Hammoud J., Vatian A., Dobrenko N., Vedernikov N., Shalyto A., Gusarova N. (2021) New Arabic Medical Dataset for Diseases Classification. In: Yin H. et al. (eds) Intelligent Data Engineering and Automated Learning - IDEAL 2021. IDEAL 2021. Lecture Notes in Computer Science, vol 13113. Springer, Cham. https://doi.org/10.1007/978-3-030-91608-4_20 (Q2)
2. Hammoud J., Dobrenko N., Gusarova N. Named Entity Recognition and Information Extraction for Arabic Medical Text // Proceedings of the 12th IADIS International Conference e-Health 2020, EH 2020.
3. Suzdaltseva, M., Shamakhova, A., Dobrenko, N. V., Alekseeva, O., Hammoud, J., Gusarova, N. F., ... & Shalyto, A. (2021). De-identification of Medical Information for Forming Multimodal Datasets to Train Neural Networks. In ICT4AWE (pp. 163-170).
Contents
Introduction
Chapter 1. Overview of the subject area.
1.1. Arabic language and its specificity as an object of automated processing using
NLP
1.2. Review and analysis of existing NLP tools for Arabic language processing
1.3. Setting the goals and objectives of the dissertation
Summary
Chapter 2. Development of a method for taking into account the specifics of semantic-syntactic relations during the construction of a dependency graph of the Arabic language.
2.1. Formation of nodes of the Arabic language dependency graph as an object for use in NLP tasks
2.2. Formation of connections of the Arabic language dependency graph as an object for use in NLP tasks
2.3. Formation of an adjacency matrix to describe Arabic text as an object for use in NLP tasks
Summary
Chapter 3. Development of a methodology for constructing and using a graph neural network for the automated construction of a graph of connections in the Arabic language.
3.1. Selection and implementation of a graph neural network for solving NLP problems in Arabic.
3.2. Experimental studies of a text analyzer based on a graph neural network.
3.3. Implementation of explainable artificial intelligence tools for a text analyzer based on a graph neural network.
Summary
Chapter 4. Development of a method for accelerating the process of setting up transformer-type neural networks for processing language models
4.1. Selecting a language model for building a text analyzer in Arabic
4.2. Development of a nonlinear gradient method for accelerating the work of text analyzers
4.3 Experimental evaluation of the effectiveness of the nonlinear gradient method for accelerating the work of text analyzers.
Summary
Chapter 5. Solving practical problems of processing specialized texts in Arabic using developed methods and techniques.
5.1. Generation of a problem-oriented dataset of medical texts in Arabic.
5.2. Development of a framework for solving practical problems of processing specialized texts in Arabic based on MLOps.
Summary
Conclusion
Bibliography
Appendix B. Author's publications on the topic of the dissertation
Introduction
Relevance of the topic. Arabic is one of the most widely spoken languages in the world, and automation of its processing obviously serves to increase the accessibility of information content both for native speakers of Arabic and for representatives of other language groups. However, as practice shows, it receives significantly less attention in terms of natural language processing (NLP) tools and resources than other languages. This situation is largely due to the unique grammatical structures and features of the Arabic language, which complicates the processing task using standard NLP methods.
In this regard, research in the field of natural language processing applied to Arabic language (ANLP) is essential to address existing problems and increase the accessibility and efficiency of Arabic language processing. The development of new algorithms and models, specially created to take into account the semantic and syntactic features of the Arabic language, is an integral part of this process.
As the analysis shows, today the dominant means of implementing NLP tasks, regardless of the specific language in world practice, are transformer-type neural networks, primarily BERT and its analogues. On the other hand, graph neural networks (GNNs) have emerged as a powerful tool for modeling complex data structures such as graphs and networks. As our research shows (see Chapter 3), GNNs as graph constructions are much more organic, compared to BERT, means for taking into account the natural structure of the Arabic language. Therefore, it is critical to take advantage of GNNs in Arabic processing to further improve this area of NLP.
The high (compared to other language groups) semantic-syntactic complexity of the Arabic language makes it urgent to accelerate the process of processing text components, which is primarily associated with accelerating the convergence of learning algorithms. This issue in relation to the Arabic language also remains beyond the attention of researchers.
The degree of development of the problem. NLP issues in relation to the Arabic language have been considered in the literature primarily in relation to the problem of
named entity recognition (NER) [4-8]. There are known applications of such approaches as conditional random fields, support vector machines, deep collaborative learning, etc. [4-8]. However, most works focus on political and economic domains, with a predominant rule-based approach. The application of NER to Arabic medical documents is much more limited [17], and no publications on full-scale NLP problem solving in Arabic applied to the medical domain have been identified in the available literature. There are also no publicly available datasets of medical texts in Arabic.
The use of neural networks of various types for solving NLP problems is widely presented in the literature [122-128], and the best (SOTA) results were achieved using BERT-like methods [132-139]. A modification of this method has been developed for the Arabic language - AraBert [153]. However, the effectiveness of BERT-like methods, primarily in terms of speed, as well as full consideration of semantic-syntactic connections, decreases with the complication of the language structure, which fully applies to the Arabic language. On the other hand, GNNs are able to capture more complex relationships and interactions between words in text using graph representations [101]. However, the use of GNN for Arabic text analysis has not been presented in the literature.
Optimization techniques and methods play a crucial role in training neural networks as they minimize losses by tuning attributes such as weights and learning rates. Widely used machine learning and deep learning platforms, including BERT-like ones, use typical algorithms such as ADAM [96], SGD with momentum [97], and RMSprop [98]. However, their effectiveness decreases when working with pretrained neural networks. Several methods using nonlinear conjugate gradients to solve convex nonlinear optimization problems are presented in [77-79], but their application to solving NLP problems on pretrained neural networks still remains unexplored.
Goal of the study
The goal of the study is to increase the efficiency of intellectual text processing in Arabic by taking into account the specifics of semantic-syntactic relationships during the automated construction of a language connection graph.
This goal is achieved by solving several scientific problems, including:
1. Develop a method for taking into account the specifics of semantic-syntactic relationships during the construction of a graph of connections in the Arabic language.
2. Develop a methodology for constructing and using a graph neural network as an organic tool for the automated construction of a graph of connections in the Arabic language.
3. Develop a method for accelerating the process of setting up transformer-type neural networks for processing language models, carry out a theoretical justification and experimental confirmation of its effectiveness in various language domains (using the example of the Arabic language).
4. Create a problem-oriented medical data set that takes into account specialized connections characteristic of medical texts in Arabic.
5. Develop and programmatically implement a framework for solving practical problems of processing specialized texts in Arabic in various domains, including medical and industrial, through the integration of MLOps practices.
Research methods include machine learning methods, methods for constructing graph neural networks, methods for finding solutions for convex objective functions.
The following main provisions of scientific novelty are submitted for defense:
1. A method for constructing a connection graph of the Arabic language, characterized in that in order to take into account the specifics of semantic-syntactic relationships between language entities, an asymmetrical adjacency matrix is used, which allows taking into account directional connections between words and (or) tokens within a sentence.
2. A technique for constructing and using a graph neural network for analyzing texts in Arabic, characterized in that, in order to take into account the linguistic specifics of the Arabic language, the structure of the network and its software implementation are based on the automated construction of a connection graph using the method of step 1.
3. A technique for accelerating the tuning process in transformer-type neural networks for processing language models, characterized in that in order to improve convergence, the conjugate coefficients are combined to identify the direction of the gradient search.
Reliability of scientific achievements. The degree of reliability of scientific achievements is confirmed by the correct use of methods, justification for setting tasks, and experimental studies covering the developed technologies and algorithms. The results obtained are recognized by the scientific community: published in articles and presented at conferences.
Compliance with the specialty passport. In accordance with the passport of specialty 1.2.1 - "Artificial intelligence and machine learning", the dissertation relates to the field of research "4. Development of methods, algorithms and creation of artificial intelligence and machine learning systems for processing and analyzing texts in natural language, for images, speech, biomedicine and other special types of data."
The theoretical significance of the work is that the developed technique for accelerating the tuning process in transformer-type neural networks has universal application, i.e. allows you to increase the convergence of the optimization process in various problems with convex objective functions. The developed method for constructing a graph of connections in the Arabic language is universal, i.e. can be implemented using various natural language processing algorithms.
The practical significance of the work is that, based on the proposed method and techniques, a framework for processing texts in Arabic was created, integrating MLOps practices. In addition, a problem-oriented medical data set was created that takes into account specialized connections characteristic of medical texts in Arabic. This demonstrates the universality of the results of the work for solving a wide range of practical problems of processing specialized texts in Arabic in various domains, including medical and industrial. The practical value of the results of the dissertation research is confirmed by acts on the implementation of the research results.
Approbation of work. The main results of the work were reported and discussed at the following conferences:
1. XII ITMO Young Scientists Congress (03.04.2023 - 06.04.2023)
2. LII scientific and educational-methodological conference of ITMO University (31.01.2023 - 03.02.2023)
3. XI ITMO Young Scientists Congress (04.04.2023 - 08.04.2023)
4. LI scientific and educational-methodological conference of ITMO University (02.02.2022- 05.02.2022)
5. International Conference on Intelligent Data Engineering and Automated Learning (25.11.2021 - 27.11.2021)
6. International Conference of Information and Communication Technologies for Ageing Well and e-Health (22.10.2021)
7. X ITMO Young Scientists Congress (14.04.2021 - 17.04.2021)
8. LI scientific and educational-methodological conference of ITMO University (01.02.2021- 04.02.2021)
9. 12th International Conference on e-Health (21.07.2020 - 23.07.2020)
10. 13th International Conference on ICT, Society and Human Beings (21.07.2020 - 23.07.2020)
11. XLIX scientific and educational-methodological conference of ITMO University (29.01.2020 - 01.02.2020)
The author's personal contribution to works carried out in collaboration is the construction of models, the development and implementation of algorithms and methods, and the writing of literature reviews.
Implementation of work results. The research results were used in the following R&D projects: Russian Science Foundation, RSF 10078.
Publications. The main results on the topic of the dissertation are presented in 3 publications indexed in the Scopus citation database.
Structure and scope of the dissertation. The introduction formulates the purpose and objectives of the research and substantiates the relevance and scientific novelty of the work. In addition, the introduction lists the main provisions of the dissertation work to be defended and presents the scientific significance of the work.
The first chapter contains an analysis of the Arabic language and its specificity as an object of automated processing using NLP. Based on the literature, a review was carried out and existing NLP tools for processing Arabic were analyzed. Their limitations are identified, such as the insufficiency of expressive means to take into account the complex semantic-syntactic structure of the Arabic language and the insufficient efficiency of the optimizers used. The purpose and objectives of the dissertation are formulated.
The second chapter presents the developed method for taking into account the specifics of semantic-syntactic relations during the construction of a graph of connections in the Arabic language. The method allows us to explicitly take into account such key features of the Arabic language as the direction (asymmetry) of interword and intertoken connections and the syntactic significance of word order in a sentence.
In the third chapter, the proposed method is implemented and tested during the construction of a graph neural network (GNN) that solves NLP problems in Arabic. Specific features of the developed GNN model are the use of an asymmetric adjacency matrix, as well as the ability to assign weights to the edges of the graph. The results of successful testing of the developed GNN on several datasets belonging to the medical and industrial domains are presented. In addition, two explainable artificial intelligence (XAI) tools, namely SHAP and GNNExplainer, are used to further verify the effectiveness.
The fourth chapter presents a developed method for accelerating the process of setting up transformer-type neural networks for processing language models. The technique is based on a new approach to solving convex functions using the nonlinear gradient method, which involves combining the conjugate HRM and NHS coefficients to determine the direction of the gradient search. A theoretical substantiation of the developed methodology has been carried out, and its advantages over SOTA methods in
solving standard optimization problems have been experimentally demonstrated. The application of the methodology for solving NLP problems of the Arabic language using BERT-type transformers has been carried out, and the achieved gain in processing time and F1-measure has been experimentally confirmed.
The fifth chapter describes the process and result of the formation of a problem-oriented dataset of medical texts in Arabic, which is publicly available and available at the link (https: //github .com/JaafarHammoud/Arabic_Medical_Datasets).
The sixth chapter presents the developed framework for solving practical problems of processing specialized texts in Arabic based on MLOps. The framework supports the collection of datasets from multiple medical centers under the supervision of a reputable organization. ML pipelines and DevOps tools are used to train appropriate models and make them available to all medical centers. An experimental study of the approach showed the advantages of training on a combined and constantly updated data set using the example of an NLP tool such as AraBERT.
Chapter 1. Overview of the subject area
1.1. Arabic language and its specificity as an object of automated processing using
NLP
In recent times, Natural Language Processing (NLP) has become an indispensable field within the realm of artificial intelligence, playing a crucial role in enabling computers to comprehend, interpret, and generate human language. Among the world's major languages, Arabic holds significant prominence, making it imperative to harness its computational power through the domain of Arabic NLP. The intricacies associated with Arabic language morphology, syntax, and semantics pose numerous challenges for Arabic NLP. With an abundance of digital content available in Arabic, efficient processing techniques are vital to unlock the immense potential of Arabic text analysis across various applications such as information retrieval, sentiment analysis, and machine translation.
Arabic NLP, due to the unique characteristics of the Arabic language, presents specific challenges and complexities that require tailored approaches. In this section, we will discuss some of the major challenges faced in Arabic NLP and highlight existing approaches to address them.
- Morphological Complexity: Arabic is known for its rich morphology, where words are constructed from root letters and various affixes. This complexity poses challenges for tasks such as tokenization, stemming, and lemmatization. Traditional approaches have relied on rule-based morphological analyzers and dictionaries to handle these complexities. However, with the advent of machine learning, data-driven approaches like neural networks and statistical models have shown promise in tackling Arabic morphology.
- Syntactic Structure: Arabic has a complex syntactic structure with flexible word order and intricate grammatical rules. Parsing Arabic sentences accurately requires sophisticated syntactic analyzers and parsers that can handle the intricacies of the language. Approaches based on statistical models, dependency parsing, and
constituency parsing have been explored to capture the syntactic structure of Arabic sentences.
- Dialectal Variations: One of the major challenges in developing NLP systems for Arabic is the presence of significant dialectal variations across different regions. This variation makes it difficult to create NLP systems that can effectively handle multiple dialects. Traditional approaches have focused on dialect-specific resources and models. However, recent advancements in Utilizing transfer learning and domain adaptation techniques have shown promise in building dialect-agnostic models that can handle different Arabic dialects.
- Named Entity Recognition (NER): NER in Arabic faces challenges due to variations in transliteration, different name formats, and limited annotated datasets. Traditional approaches rely on rule-based methods, gazetteers, and handcrafted features. However, with the rise of deep learning techniques, such as recurrent neural networks and transformers, data-driven approaches have shown improvements in Arabic NER, especially with the availability of larger annotated datasets.
- Language Resources: Arabic has relatively fewer language resources, such as large-scale corpora, lexical resources, and annotated datasets, compared to languages like English. This scarcity of resources poses challenges for developing robust and accurate NLP models. Efforts have been made to create and expand Arabic language resources through crowdsourcing, collaborations, and initiatives from academia and industry.
- Code-Switching: Arabic is often used in code-switching scenarios, where Arabic is mixed with other languages like English or French. This presents challenges for various NLP tasks, including language identification, text classification, and sentiment analysis. Approaches combining rule-based methods and statistical models have been explored to handle code-switching in Arabic text.
- Sparsity and Out-of-Vocabulary Words: Arabic exhibits a high degree of sparsity, especially in social media and informal texts. Out-of-vocabulary words pose challenges for tasks like word sense disambiguation, machine translation, and information retrieval. Approaches leveraging sub-word representations, character-level models, and contextual word embeddings have been effective in handling sparsity and out-of-vocabulary words in Arabic NLP.
To address these challenges, ongoing research in Arabic NLP focuses on developing language-specific models, leveraging deep learning techniques, and building larger annotated datasets. Transfer learning and cross-lingual approaches are also being explored to benefit from resources and models trained on other languages. The collaborative efforts of researchers, language technology communities, and industry stakeholders are essential in advancing Arabic NLP and overcoming the unique challenges it presents.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.