Методы и алгоритмы информационного поиска в текстах на арабском языке для наполнения баз знаний тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Шакер Алаа
- Специальность ВАК РФ00.00.00
- Количество страниц 192
Оглавление диссертации кандидат наук Шакер Алаа
TABLE OF CONTENTS
Реферат
Synopsis
Chapter 1. Problem analysis and formulation of the task
1.1. Introduction
1.2. The characteristics of the Arabic language
1.2.1. The scripting writing in Arabic
1.2.2. Al-Tashkil and Al-Tanween
1.2.3. Arabic Morphology
1.2.4. Arabic Syntax
1.2.5. Challenges of Arabic-Named Entities
1.3. Information retrieval models
1.3.1. The Boolean model
1.3.2. Vector space approaches
1.3.3. Probabilistic Approaches
1.3.4. Google's PageRank model
1.4. What can quantum-based model provide?
1.5. Relation Extraction Methods
1.5.1. The importance of extracting relationships
1.5.2. Knowledge Based Methods of Relation Extraction
1.5.3. Supervised methods of Relation Extraction
1.5.4. Weakly-supervised methods of Relation Extraction
1.5.5. Self-supervised methods of Relation Extraction
1.5.6. Open Information Extraction methods of Relation Extraction
1.5.7. The proposed model for extracting the relation between entities in Arabic
1.6. The scientific problem for discussion and solution
1.7. Conclusion
Chapter 2. Quantum-like method for analyzing texts in Arabic
2.1. Introduction
2.2. Mathematical apparatus of quantum theory
2.2.1. Hilbert vector space
2.2.2. Gram-Schmidt process
2.2.3. Dirac notation
2.2.4. The Hermitian Operators
2.2.5. Tensor product
2.3. Analogy between QM and IR
2.4. Quantum information representation
2.4.1. Q-bit for representing the state of object
2.4.2. The Bell's test inequality formula
2.5. Related works of quantum-like model for IR
2.6. The proposed quantum-like method for Arabic text analyzing
2.6.1. Hyperspace analogue to language model (HAL)
2.6.2. Document vector state
2.6.3. The Bell's Inequality Operators (similarity measure of text documents)
2.6.4. The specifics of Bell's test behavior during text analyzing
2.7. Conclusion
Chapter 3. A method for extracting open relations between named entities from
Arabic texts
3.1. Introduction
3.2. Used deep learning techniques for Named Entity Recognition
3.2.1. Named Entity definition
3.2.2. Named Entity Recognition (NER)
3.2.3. Deep Learning for Named Entity Recognition (NER)
3.2.4. Long Short Term Memory (LSTM)
3.2.5. Gated Recurrent Unit (GRU)
3.2.6. The used format tags for labeling Arabic words
3.3. Related works of extracting relationships between entities in Arabic
3.4. The proposed model for extracting relationships from Arabic texts
3.4.1. The model architecture
3.4.2. Language pre-processing
3.4.3. Tokenization
3.4.4. Named Entity Recognition (NER) model
3.4.5. Assembling Entity's name
3.4.6. Extraction of Relations
3.5. Conclusion
Chapter 4. Experimental study of the developed methods
4.1. Introduction
4.2. Tools for conducting experiments on quantum-like model
4.3. The code for implementing the quantum-like model
4.4. Experimental results of the quantum-like model for analyzing Arabic texts
4.4.1. Using the semantic model to check the pair words' entanglement in the text
4.4.2. The accuracy of using the Bell test to check the words' entanglement in a
text (Classify)
4.4.3. The result of using the Quantum semantic model to retrieve texts
4.4.4. A comparison between using the Quantum semantic model and TF-IDF
to retrieve texts
4.5. Tools for building Arabic relation-extraction model
4.6. The code for implementing the Arabic relation-extraction model
4.7. Experimental results of the relation-extraction model from Arabic texts
4.7.1. A New Dataset for Named Entity Recognition in the Arabic Language
4.7.2. The results of the relation-extraction model from Arabic texts
4.8. Conclusion
Conclusion
References
Appendix
152
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Многозначная классификация и распознавание именованных сущностей на основе переноса обучения по зашумленным меткам для малоресурсных языков2023 год, кандидат наук Шахин Зейн
Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания2021 год, кандидат наук Верхоляк Оксана Владимировна
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Система управления базами знаний для управления процессами интеллектуального анализа данных2021 год, кандидат наук Мань Тяньсин
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы информационного поиска в текстах на арабском языке для наполнения баз знаний»
РЕФЕРАТ
Актуальность проблемы. Поиск информации (IR) - это получение информационных ресурсов, соответствующих информационной потребности из набора этих ресурсов. Растущее количество интернет-ресурсов вступает в противоречие с возможностями эффективного поиска. Тексты в интернете считаются неструктурированными данными. Процесс поиска в большом текстовом массиве является более сложным, чем процесс запроса из структурированной базы данных, поскольку структурированные базы данных организованы по именованным полям, поэтому доступны процессы сравнения и извлечения точных данных. В наборе данных неструктурированных текстов используются статистические алгоритмы "типа TF-IDF", которые также используются поисковыми системами в Интернете.
Число арабских пользователей Интернета составляет 264 миллиона, и они осуществляют поиск и выпускают огромное количество информации на арабском языке, особенно с взрывом информационных ресурсов во всех областях жизни, таких как новости, медицинские записи, правительственные документы, судебные слушания, социальные сети и т.д. Так что любой, кто попытается работать с этими данными или проанализировать их, будет чувствовать себя перегруженным информацией. Кроме того, на арабском языке нет квалифицированной поисковой системы, поэтому все поисковые операции выполняются Google, которая использует модель ранжирования страниц Google для извлечения данных. Google использует структуру ссылок в Интернете для определения качества страницы, называемого рангом страницы. Предположим, страницы содержат ссылки с других высококачественных веб-страниц, таких как DMOZ или Википедия. Проблема заключается в том, что почти на всех арабских страницах нет подобных надежных ссылок на них. Таким образом, если кто-то выполняет поиск в Google на арабском языке, первым результатом часто будет Википедия, даже если она не содержит информации, относящейся к теме поиска. Кроме того,
особенности арабского языка отличаются от других языков, таких как английский и русский .... и т.д.
Тенденция к увеличению количества ресурсов на арабском языке, характеризующуюся снижением эффективности поиска по мере увеличения размера неструктурированных данных. Это приводит к необходимости в более мощных инструментах для повышения эффективности процессов извлечения информации.
Это подводит нас к важности разработки инструментов, которые учитывают особенности арабского языка и работают над повышением эффективности процесса поиска за счет анализа текстов и определения файлов, наиболее соответствующих теме поиска, возможность извлекать из текста наиболее полезную информацию, такую как названия сущностей и отношения между ними, который позволяет размещать наиболее релевантные файлы на первых местах и извлекать значимую информацию, которая помогает в процессе сопоставления, что экономит время пользователя и повышает эффективность процесса поиска.
Решаемой научной проблемой. Разработать квантово-семантическая модель для поиска арабских текстов в зависимости от релевантности текста для поиска по теме. Кроме того, разработать модель для извлечения отношений в арабских текстах.
Степень теоретической разработанности темы. На уровне использования математических основ квантовой теории при построении модели анализа естественных языков начало положено с предложения Ван Рийсбергена (2004) [111] квантовой модели поиска информации, направленной на унификацию векторных логический и статистический подходы. Затем было предложено использовать матрицу HAL для построения текстового пространства в работе Брузы и Вудса [22], затем Баррос [16] предложил новую квантово-семантическую модель, объединяющую две работы Ван Рийсбергена [111] и Бруза [22], что считается фактическим
началом этой модели, позволяющей эффективно анализировать текст путем построения текстового пространства и неравенства Белла тест. Результаты показали способность измерения контекст текста. Другими словами, модель может измерять корреляцию между парами слов-запросов в тексте. После этого начались исследования по проверке способности квантовой модели на других языках, таких как русский язык в работах Игоря Бессмертного и Алекса Платонова [1, 81] и китайский язык в работе Шяюши Ханга и Игоря Бессмертного [18]. Наконец, в этой работе изучается способность модели анализировать тексты на арабском языке.
На стороне извлечения отношений из текстов; существующие методы, используемые в этой области, можно разделить на пять категорий (методы основанные на знаниях, методы обучения с учителем, методы слабо-обучения с учителем, методы обучения без учителя и модель извлечения открытой информации). Наша работа относится к последней категории. Этот подход начал формироваться в работе Этциони [15], предложившего идею открытого извлечения информации. Однако подход извлечения открытых отношений является новым, поэтому его используют лишь в нескольких проектах. TextRunner (Банко и Этциони, 2008 [36]) является примером такой системы. Поэтому на уровне арабского языка этот метод не используется ни в одной работе для извлечения отношений в арабских текстах. в этой работе мы представляем модель с новой структурой. Однако другие работы извлекают отношения на арабском языке с использованием других методов, таких как Бен Хамаду [46], Белкасем и Бадр [60], Мохаммед Г.Х. и Касим [11], Инас и других. [34], Гехад Мамдух и других. [117].
Объект исследования - Квантовая семантическая модель основана на анализе текстов, поэтому использовались арабские тексты, извлеченные из поиска Google. Кроме того, для обучения модели извлечения отношений использовался набор данных распознавания именованных сущностей с арабскими именами.
Предмет исследования - Методы, повышающие эффективность поисковой операции (Квантово-семантическая модель, Методы глубокого обучения).
Цель и задачи исследования. эта работа направлена на повышение эффективности процессов поиска в неструктурированных наборах данных (текстах) на арабском языке с использованием квантово-семантической модели, которая изучает релевантность файлов, и предлагает новую модель извлечения-отношения, которая помогает в поиске информации или анализе текста.
для достижения цели необходимо решить следующие основные задачи:
1. Изучить особенности арабского языка и определить необходимые методы предварительной обработки входных текстов.
2. Проверить способность квантово-семантической модели измерении релевантность извлеченных текстов.
3. Проверить способность квантово-семантической модели извлечении тексты из арабского корпуса.
4. Создать набор данных для распознавания именованных сущностей с арабскими именами (ЛКЕЯ) с использованием формата ВЮЕБ.
5. Разработать новую модель для извлечения отношений между сущностями из арабских текстов с помощью глубокого обучения и сравнить с другими существующими моделями.
Область исследования. Соответствует седьмому пункту специализации 2.3.8 Информатика и информационные процессы:
Пункт 7. Разработка методов распознавания образов, фильтрации, распознавания и синтеза изображений, решающих правил. Моделирование формирования эмпирического знания.
Методология и методы исследования. являются теория искусственного интеллекта, алгебра, квантовая теория и теория вероятностей. Методы исследования включают математическое моделирование и
эксперименты с набором данных арабских текстов в двух основных доменах, извлечение файлов и извлечение первичной информации из текста в виде сущностей и отношений между ними с использованием программирования на языке Python. Экспериментальное исследование проводится на Python с использованием NLTK, ScikitLearn, NumPy, Scipy, Qalsadi (библиотека стеммеров арабских слов), Trax (библиотеки) и Colab google.
Достоверность и обоснованность. Результаты исследования представлены путем сравнения разработанных моделей и алгоритмов с результатами экспериментальных исследований и опубликованными материалами других исследователей. Кроме того, воспроизводимость экспериментов обеспечивается, поскольку квантовая модель и модель извлечения отношений были протестированы на разумном количестве арабских текстов во многих областях.
Информационная база исследования представлена опубликованными работами ведущих специалистов в области искусственного интеллекта и семантического анализа текстов, материалами конференций по искусственному интеллекту, в частности, Брузы и Вудса [22], Галофаро, Тоффано и Доана [40] и Игорь Бессмертный и Алексей Платонов [81] статей. В дополнение к последним опубликованным научным статьям в области извлечения отношений между сущностями на арабском языке и на других веб-ресурсах.
Положения, выносимые на защиту:
1. Метод анализа текстов на арабском языке, характеризующийся использованием квантовоподобных методов, позволяет повысить качество процесса классификации с измерением квантовой запутанности пар слов.
2. Метод извлечения отношений из арабских текстов, включающих именованные сущности, который отличается применением модели LSTM к модели арабского языка, позволяет повысить полноту и точность.
3. Результаты экспериментального исследования разработанных методов анализа арабских текстов подтверждают их эффективность и действенность.
Научная новизна:
1. В работе продемонстрирована возможность применения теста Белла с использованием матрицы гиперпространственного аналога языка (HAL) для измерения семантической корреляции парных слов во фрагментах арабского текста и использования в процессе информационного поиска.
2. Предложение нового метода извлечения модели отношений-сущностей и ее достижения с использованием методов глубокого обучения (распознавание имен сущностей) представляется многообещающим.
3. Создать новый арабский набор данных распознавания именованных сущностей (ANER), содержащий примерно тридцать семь тысяч помеченных слов, используя формат BIOES.
Теоретическая и практическая значимость работы. Результаты этой работы доказывают, что мы можем использовать квантово-семантические модели для повышения эффективности других алгоритмов поиска информации по переупорядочивания извлеченных файлов в зависимости от релевантности теме поиска. Кроме того, во второй части представлена модель извлечения взаимосвязей, которая может извлекать важные данные из неструктурированных файлов, которые помогают в анализе текста, поиске и обобщении текста.
Апробация результатов исследования. Результаты исследования докладывались на 10 университетских, всероссийских и международных научных конференциях. XLIX научная и учебно-методическая конференция Университет ИТМО, Санкт-Петербург 2020 [104]. IX конгресс молодых ученых (КМУ), Университет ИТМО, Санкт-Петербург 2020 [105]. Международная конференция Информационно-коммуникационные технологии для науки и промышленности, Саратовский государственный
технический университет им. Ю.Гагарина 2020 [82]. 13-я Международная научно-практическая конференция-форум (Майоровские чтения) по программной инженерии и компьютерным системам, Санкт-Петербург 2021 [99]. Конгресса молодых ученых (X КМУ) Университет ИТМО - Санкт-Петербург 2021 [100]. 12-я Международная научно-практическая конференция-форум (Майоровские чтения) по программной инженерии и компьютерным системам, Санкт-Петербург 2021 [103]. L научная и учебно-методическая конференция Университета ИТМО - Санкт-Петербург 2021 [7]. Первая международная конференция «Искусственный интеллект в технике и науке - AIES 2022», Казахский национальный университет им. аль-Фараби, Казань, 2022 [101]. XI Конгресса молодых ученых, Университет ИТМО -Санкт-Петербург 2022 [98]. Пятьдесят вторая (LII) научная и учебно-методическая конференция, Университет ИТМО - Санкт-Петербург 2023 [102].
Публикация результатов исследования. Основное содержание диссертации опубликовано в пяти статьях; четыре из них опубликованы в журналах, рецензируемых Web of Science или Scopus [2, 82, 101, and 103], а одна статья опубликованы в журнале, рецензируемом как РИНЦ [102]. Перечисленные статьи отражают состояние исследований в области применения квантовоподобных моделей к задачам информационного поиска и анализа текстовых данных на естественных языках, а также модель извлечения отношений между сущностями предложений и анализируя их.
Личный вклад автора. Все результаты, представленные в диссертации, получены автором лично или совместно с аспирантами. В частности, эксперименты «Анализ времени теста неравенства Белла для поиска информации» и «Эффективность использования теста неравенства Белла для поиска информации в арабских текстах» с аспирантом Алаа Алдарф. Также к.т.н. Королёва Юлия Александровна помогла мне в издании работы под названием «Квантовая семантическая модель поиска текста на арабском
языке». Наконец, А. Платонов, Ю. Королева, Л. Мирославская в работе «Векторное представление слов с использованием квантовоподобных вероятностей».
Объем и структура работы. Диссертация представлена на (188) страницах, состоящих из введения, четырех глав, содержащих (18) рисунков и (11) таблиц. Библиографический список включает (120) ссылки. Приложение к диссертации содержит опубликованные статьи.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы машинного обучения для сквозных систем автоматического распознавания речи2023 год, кандидат наук Лаптев Александр Алексеевич
Автоматическое чтение по губам с помощью LIpsID-признаков2019 год, кандидат наук Главач Мирослав
Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц2022 год, кандидат наук Зено Бассель
Применение машинного обучения на основе типа личности пользователя для задач профилирования пользователей социальных сетей и рекомендации контента2023 год, кандидат наук Ян Ци
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Заключение диссертации по теме «Другие cпециальности», Шакер Алаа
Заключение
Проведенные исследования продемонстрировали, что метод HAL в Заключении еще раз полностью демонстрирует позволяет построить семантическое пространство текста не только для европейских языков, но и для арабского языка. Мы также обнаружили, что
параметр Белла при анализе арабских текстов сильно зависит от размера окна HAL, как это имело место для других языков. Из наших результатов предполагается, что для этого типа модели существует оптимальный размер окна, который максимизирует параметр Белла.
Предложенный подход можно использовать для улучшения поиска чего? путем ранжирования результатов поиска в зависимости от теста Белла, поэтому он может объединить в себе два алгоритма: сначала используя традиционный статистический метод (TF-IDF) для получения списка текстов-кандидатов, затем, используя квантовоподобную семантическую модель, упорядочить файлы по убыванию релевантности запросу, Чтобы избежать попадания в ситуацию, когда одно из слов запроса отсутствует в тексте, отфильтровывать такие тексты на первом этапе либо рассматривать только результаты, попадающие в диапазон 2 < Sbell < 2V2 теста Белла.
Список литературы диссертационного исследования кандидат наук Шакер Алаа, 2023 год
Литература
1. Yang Y., Pedersen J. O. A comparative study on feature selection in text categorization // International Conference on Machine Learning. - 1997. - Т. 97. - С. 412-420.],
2. Peñas A. et al. Corpus-based terminology extraction applied to information access // Proceedings of Corpus Linguistics. - 2001. - Т. 2001.
3. Бессмертный, И.А. Метод автоматического построения тезаурусов на основе статистической обработки текстов на естественном языке / И.А.Бессмертный, А.Б. Нугуманова // Известия Томского политехнического университета. - 2012. - Т. 321. -№ 5. - С. 125-130.
4. Jones K. S. A statistical interpretation of term specificity and its application in retrieval (англ.) // Journal of Documentation : журнал. — MCB University: MCB University Press, 2004. — Vol. 60, no. 5. — P. 493-502.
5. Daniel Zeng , Donghua Wei, Michael Chau, Feiyue Wang. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontiers. March 2011, Volume 13, Issue 1, pp 115-125
6. Z. Harris. Distributional structure. Word, 10(23):146-162, 1954.
7. Sahlgren M. The Distributional Hypothesis. From context to meaning (англ.) // Distributional models of the lexicon in linguistics and cognitive science (Special issue of the Italian Journal of Linguistics), Rivista di Linguistica : журнал. — 2008. — Vol. 20, no. 1. — P. 33—53.
8. M. Melucci and B. Piwowarski. Quantum mechanics and information retrieval: From theory to application. In Proceedings of the 2013 Conference on the Theory of Information Retrieval, ICTIR '13, pages 1:1-1:1, New York, NY, USA, 2013. ACM.
9. Using Quantum Probability for Word Embedding Problem. Trukhanov A., Platonov A., Bessmertny I. В сборнике: CEUR Workshop Proceedings. 11. Сер. "MICSECS 2019 - Proceedings of the 11th Majorov International Conference on Software Engineering and Computer Systems" 2020.
10. Applying the Bell's Test to Chinese Texts. Bessmertny I.A., Huang X., Platonov A.V., Koroleva J.A., Yu C. Entropy. 2020. Т. 22. № 3. С. 275.
11. Lund, K. and Burgess, C. (1996), "Producing high-dimensional semantic spaces from lexical cooccurrence", Behavior Research Methods, Instruments and Computers, Vol. 28 No. 2, pp. 203-208.
12. Galofaro F., Toffano Z., Doan B. L. A quantum-based semiotic model for textual semantics //Kybernetes. - 2018.
13. А. Шакер. Using bell test for realizing a quantum-like semantic model for text retrieval in arabic texts// Сборник тезисов докладов конгресса молодых ученых. Электронное издание. - [2020, электронный ресурс]. - Режим доступа: https://kmu.itmo.ru/digests/article/4084 ., IET - 2020
14. Galofaro, F., Doan, B.L. and Toffano, Z. (2016), "Linguistics and quantum theory: epistem o-logical perspectives", 2016 IEEE International Conference on Computational Science and Engineering, IEEE International Conference on Embedded and Ubiquitous Computing, and International Symposium on Distributed Computing and Applications to Business, Engineering and Science, 2016, IEEE, pp. 600-607
15. Kartsaklis, D. (2014), "Compositional operators in distributional semantics", Springer Science Reviews, doi: 10.1007/s40362-014-0017-z, Vol. 2 Nos 1/2, p. 161.
16. Cabello A. Violating Bell's inequality beyond Cirel'son's bound //Physical review letters. -2002. - T. 88. - №. 6. - C. 060403.
17. Popescu S., Rohrlich D. Quantum nonlocality as an axiom //Foundations of Physics. - 1994. -T. 24. - №. 3. - C. 379-385.
18. Bruza, P.D., Woods, J.: Quantum collapse in semantic space: interpreting natural language argumentation. In: Second Quantum Interaction Symposium, (2008)
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.