Лингвистическое и алгоритмическое обеспечение процесса информационного поиска на основе грамматических связей, в том числе для тюркских языков тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Еримбетова Айгерим Сембековна
- Специальность ВАК РФ05.13.17
- Количество страниц 122
Оглавление диссертации кандидат наук Еримбетова Айгерим Сембековна
Введение
Глава 1. Алгоритмы информационного поиска
1.1 Основные задачи информационного поиска
1.2 Сравнение предложений
1.3 Логические методы отождествления
1.4 Выводы по главе
Глава 2. Разработка системы связей для тюркских языков
2.1 Морфология тюркских языков
2.2 Реализация алгоритмов выделения основ
2.3 Наиболее важные связи для тюркских языков
2.4 Выводы по главе
Глава 3. Определение тем текстов
3.1 Методы тематического анализа текстовой информации
3.2 Вычисление весов слов
3.3 Определение тем текстов и вычисление их важности
3.4 Процесс резюмирования
3.5 Выводы по главе
Глава 4. Программная реализация
4.1 Общие сведения
4.2 Реализация алгоритма отожествления
4.3 Построение графа для системы предложений
4.4 База данных
4.5 Результаты экспериментов
4.6 Выводы по главе
Заключение
Литература
Приложения
Приложение А Тестирование для английского языка по теме «Информационные технологии»
Приложение Б Тестирование для руского языка по теме «Информационные технологии»
Приложение В Примеры перефразирования предложений на казахском языке
Приложение Г Программный код словаря казахского языка
Приложение Д Программный код словаря турецкого языка
Приложение Е Тесты на определение тем текстов
Приложение Ж Акты о внедрении
Приложение З Свидетельство о государственной регистрации прав на объект авторского права
2
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы и алгоритмы семантического информационного поиска в печатных текстах на языках тибето-бирманской группы (на примере бирманского языка)2020 год, кандидат наук Нэй Лин
Разработка и модификация моделей и алгоритмов поиска данных в INTERNET/INTRANET среде для улучшения качества поиска2014 год, кандидат наук Хорошко, Максим Болеславович
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети интернет2015 год, кандидат наук Толкачев, Демид Максимович
Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования2012 год, кандидат технических наук Колосов, Алексей Павлович
Введение диссертации (часть автореферата) на тему «Лингвистическое и алгоритмическое обеспечение процесса информационного поиска на основе грамматических связей, в том числе для тюркских языков»
Введение
Актуальность темы. Актульность проблемы информационного поиска связана, прежде всего, с колоссальным объемом информационных ресурсов. Задачей поиска и анализа текстовой информации занимается компьютерная лингвистика. В ycлoвияx cтрeмитeльнoгo рocтa oбъeмoв инфoрмaциoнныx рecyрcoв вoзникaeт нeoбxoдимocть пoвышeния кaчecтвa инфoрмaциoннoгo пoиcкa и методов обработки текстов та ecтecтвeннoм языкe в информационно-поисковых системах (ИПC). Подобное требование приводит к необходимости совершенствования ИПС, а именно, алгоритмов поиска и ранжирования документов в ИПС с возможностью учета семантики поступающих запросов.
Многие исследователи склоняются к необходимости проведения глубокого семантического анализа текстов для создания их семантических образов, на основе которых можно было бы проводить тонкое ранжирование документов. Этот подход, несомненно, наиболее разумный, однако требует тщательной и долгой работы над созданием подходящих инструментов для автоматической обработки текстов. В частности, может потребоваться детальное описание различных областей знаний. Поэтому также имеет смысл поиск частичных решений, одно из которых представлено в данной работе.
Основная цель - построение алгоритмов, которые, проникая в структуру текста, могли бы получить правильную оценку соответствия (релевантности) текста поисковому запросу, исходя из контекста поискового запроса, не ограничиваясь ключевыми словами, близостью, или частотой. То есть решается задача фильтрации находимой информации.
Следующим актуальным направлением исследований в области информационного поиска является задача автоматической тематической классификации анализируемых текстов и резюмирование, т. е. автоматическое создание аннотации. Чаще всего для оценки информативности различных элементов текста используют статистический подход, основанный на частотных характеристиках слов или словосочетаний. В результате пользователь получает список наиболее значимых предложений исходного текста, и вес предложения определяется как сумма частот, входящих в него значимых слов или количеством связей между данным предложением и предложениями, находящимися слева и справа от него[1]. Известны также позиционные методы, в которых информативность предложения зависит от его положения в тексте и индикаторные методы, основанные на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами, называемыми маркерами или индикаторами [2].
Поиск по аннотациям значительно быстрее и упрощает определение релевантности текста поисковому запросу, чем при извлечении необходимых сведений из полных текстов.
3
Однако большинство разработок носят экспериментальный характер, многие из них недоступны, и многие существующие системы не поддерживают агглютинативные языки при формировании аннотаций (Oracle Text, TextAnalyst, IBM Text Mining) [3-5].
В рамках данной работы обсуждается задача оценки качества в предположении, что содержание реферата зависит от предпочтений пользователя и регулируется с помощью запроса. Исследуется интересный существующий алгоритм, разработанный Нираджем Кумаром [6], учитывающий такой фактор как порядок слов, а не просто их близость, а также применяющий весьма специфическую методику определения похожести двух текстов с использованием меры центральности по близости. В диссертационной работе описываются возможные вариации алгоритма, его частей, параметров и подзадач. Также предложено обобщение алгоритма с использованием знания о грамматических структурах. Алгоритм может быть описан на макроуровне следующим образом.
1. Проводится предварительная обработка текста, могут удаляться отдельные элементы, специальные обозначения, не поддерживаемые символы.
2. Специальным образом по текстам формируются графы.
3. Вычисляются веса слов на основе частотных характеристик или с учетом грамматической структуры текста.
4. Предполагается, что отдельные абзацы текста могут отражать информацию по различным темам. Вычисляются веса абзацев (условно можно сказать, тематических фрагментов), исходя из весов входящих в них слов.
5. Вычисляется оценка релевантности абзацев в тексте (потенциальных фрагментов реферата) и текстов, являющихся тематическими эталонами с учетом грамматической структуры и с применением меры центральности по близости.
6. Вычисляется окончательная оценка на основе полученных ранее оценок релевантности и весов тем.
При решении технической проблемы разработки систем автоматического реферирования необходимо в первую очередь решить научную проблему, связанную с разработкой метода формирования контента реферата, адекватно отражающего смысл текста. К настоящему времени большинство предлагаемых систем автоматического реферирования используют метод составления выдержек, т.е. выделяют и выбирают оригинальные фрагменты из исходного документа и соединяют их в короткий текст.
Такие программы могут использоваться различными организациями и отдельными пользователями, которые регулярно ищут в сети различного типа информацию:
технологическую, информационную, политическую и социально-экономическую, военную и т.д.
Резюмируя, можно сказать, что актуальность темы обусловлена: необходимостью разработки новых и совершенствования имеющихся алгоритмов поиска и ранжирования документов, способных учитывать семантику поступающих запросов; наличием научных проблем, связанных с поиском и анализом текстовой информации; вариативностью лексики, омонимией и синтаксической синонимией (перефразированием); необходимостью разработки быстрых алгоритмов поиска и анализа, применяемых для больших текстовых коллекций, а также тем обстоятельством, что часто алгоритмы информационного поиска и анализа скрываются разработчиками.
Степень проработанности темы. Теоретической основой послужили научные работы, содержащие исследования по грамматикам связей, синтаксическим анализаторам текстов на естественном языке, агглютинативным языкам, методам сравнения предложений и определения тем текстов, алгоритмам на графах и математической логике.
Наиболее важными из них являются работы: Б. 81еа1»г, Б. Тешрег1еу, Ь. УерБ1аБ, N. Кишаг, Ьо1й 2аёеЬ, I. ЬаГГеЛу, О. Бакоп, Н.В. Лукашевич, Н.Н. Леонтьева, Г.С. Осипов, И.В. Соченков, В.Ф. Хорошевский, И.В. Ефименко, 021еш istek, Б§геГ АёаЬ и ряда других.
В Казахстане прикладные возможности морфологических и синтаксических анализаторов применительно к тюркским языкам в системах машинного перевода и проблемы семантического анализа при автоматической обработке исследовались в работах следующих авторов: А.А. Шарипбаева, Г.Т. Бекмановой, Т.Г. Балова, У.А. Тукеева, Ж. Жуманова, Д. Рахимовой, Е.Н. Амиргалиева, О.Ж. Мамырбаева, Р.Р. Мусабаева и ряда других исследователей.
Цель и задачи исследования
Основная цель диссертации - разработка нового лингвистического и алгоритмического обеспечения технологий информационного поиска и анализа текстовой информации с учетом синтаксиса и элементов семантики, в том числе, для тюркоязычных текстов.
Разрабатываемые методы должны позволять ИПС сопоставлять конструкции естественного языка и в ряде случаев отождествлять даже перефразированные варианты предложений, основываясь на анализе их синтаксических структур.
Для определения релевантности (соответствия) текста поисковому запросу можно сопоставить поисковый запрос и текст, взятый из сети Интернет или других источников.
Второй аспект цели состоит в разработке методов, позволяющих определять темы текстов.
В диссертации предполагается, что алгоритмы основываются на использовании диаграмм связей, создаваемых программным приложением Link Grammar Parser (далее, LGP).
В соответствии с поставленной целью в диссертационной работе решаются следующие задачи.
1. Исследование методов повышения качества информационного поиска на основе грамматики связей, в том числе с учетом перефразирований предложений.
2. Разработка системы связей (морфологических и синтаксических) для тюркских языков, и реализация инструментальных средств построения диаграмм связей на платформе программной системы LGP для казахского и турецкого языков.
3. Анализ моделей определения тем текстов на естественном языке, обобщение алгоритма Нираджа Кумара с использованием диаграмм LGP.
4. Разработка программного инструментария для анализа текстов путем реализации алгоритмов построения графов по предложениям, определения степени близости предложений, подсчета различных характеристик.
Соответствие диссертации паспорту специальности. Диссертация соответствует области исследований специальности 05.13.17 - Теоретические основы информатики по п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 6 «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке»; п. 12 «Разработка математических, логических, семиотических и лингвистических моделей и методов взаимодействия информационных процессов, в том числе на базе специализированных вычислительных систем».
Методы исследования. В основном, применялись методы, относящиеся к информационным технологиям и используемые при обработке текстов на естественном языке, а также методы из теории графов и математической логики. В диссертации привлечен довольно обширный материал из классической и математической лингвистики.
Научная новизна работы заключается в следующем:
- На основе грамматики связей разработаны алгоритмы сопоставления предложений с целью определения их похожести с учетом перефразирований. Предложено обобщение алгоритма Нираджа Кумара определения тем текстов.
- Предложена система связей (морфологических и синтаксических) для тюркских языков. Разработанные прототипы программной системы ЬОР для казахского и турецкого языков обладают богатым набором связей.
- Созданный инструментарий позволяет проводить широкомасштабное тестирование и совершенствование алгоритмов информационного поиска на естественном языке, в том числе на казахском и турецком языках, дающих высокую степень релевантности результата запросу.
Теоретическая значимость. Предложенные в диссертации способы использования семантико-синтаксических отношений между смысловыми единицами предложения, получаемых на основе диаграмм системы ЬОР, и используемых для вычисления степени близости естественно-языковых конструкций, включая разного рода перефразирования, представляют собой большой теоретический интерес. В частности, это позволяет повысить качество и эффективность работы ИПС путем определения степени соответствия релевантности текста поисковому запросу и классификации текстов по темам.
При реализации прототипа системы ЬОР для казахского и турецкого языков была предложена система связей для тюркских языков, что также является значимым теоретическим результатом.
Практическая значимость. Результаты работы могут быть применены в автоматизированных системах акцепции информации из текстов на естественном языке, интеллектуальных системах поиска информации в сети, при построении систем автоматического резюмирования, электронных переводчиках и словарях и в системах безопасности, например, работающих с банковской информацией.
Основные этапы исследования выполнены в рамках проектов и грантов: Грант Министерства образования и науки Республики Казахстан на 2015-2017 гг. № 46 «Разработка информационно-поискового тезауруса (с учетом морфологии казахского языка) в полнотекстовых базах данных по ИТ-технологиям»; Грант Министерства образования и науки Республики Казахстан на 2018-2020 гг. № АР05133550 «Модели и методы семантического анализа и представления смысла текста в компьютерной лингвистике»; Грант РФФИ на 2018-2019 гг. «Модели и методы создания информационных систем поддержки научных исследований, интегрированных в открытое семантическое пространство» (№ 18-07-01457-А); Интеграционный проект СО РАН на 2018-2020 гг. (№ АААА-А18-118022190008-8).
Положения, выносимые на защиту.
1. Методы повышения качества информационного поиска на основе грамматики связей.
2. Система связей для тюркских языков и кастомизированная версия программной системы LGP для казахского и турецкого языков.
3. Обобщенный алгоритм Нираджа Кумара, дополнительно использующий систему связей LGP.
4. Специализированный программный инструментарий для анализа текстов на естественном языке.
Степень достоверности результатов. Достоверность результатов подтверждена строгой математической формализацией основных положений диссертационного исследования и результатами экспериментальных исследований разработанных программных средств, реализующих предложенные методы, структуры данных и алгоритмы.
Апробация результатов исследования. Основные результаты диссертации докладывались автором на 20 научных конференциях (Баку, Алматы, Астана, Москва, Иркутск, Новосибирск, Казань, Красноярск, Владивосток, Усть-Каменогорск, Ханты-Мансийск, Караганда, Симфереополь, Рим):
- XVI Вceрoccийcкая кoнфeрeнция молодых учeных по мaтeмaтичecкoмy мoдeлирoвaнию, (28-30 октября, 2015, г. Крacнoярcк, Россия);
- Мeждyнaрoднaя конференция «Информационные и телекоммуникационные технологии: обрaзoвaниe, тау^, прaктикa: II Мeждyнaрoднaя нayчнo-прaктичecкaя кoнфeрeнция», (3-4 дeкaбря 2015, г. Aлмaты, Кaзaxcтaн);
- 54^я Мeждyнaрoднaя нayчнaя стyдeнчecкaя кoнфeрeнция «МНСК-2016», (16-20 aпрeля 2016, г. Нoвocибирcк, Рoccия);
- 56-aя Мeждyнaрoднaя таучтая cтyдeнчecкaя кoнфeрeнция «МНСК-2018», (22-27 aпрeля 2018, г. Нoвocибирcк, Рoccия);
- III Мeждyнaрoднaя нayчнo-прaктичecкaя кoнфeрeнция «Интeллeктyaльныe инфoрмaциoнные и кoммyникaциoнныe тexнoлoгии - cрeдcтвo оcyщecтвлeния трeтьeй индycтриaльнoй рeвoлюции в cвeтe Стрaтeгии "Кaзaxcтaн-2050"», (2-3 июня 2016, г. Астата, Кaзaxcтaн);
- The 10th IEEE International Conference on Application of Information and Communication Technologies. AICT-2016, (12-14 October 2016, Baku, Azerbaijan);
- Вceрoccийcкaя нayчнo-тexничecкaя кoнфeрeнция c мeждyнaрoдным yчacтиeм
«Интеллектуальный анализ сигналов, данных и знаний: методы и средства», (14-17 ноября 2017, НГТУ, г. Новосибирск, Россия);
- XVIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям, (21-25 августа 2017, г. Иркутск, Россия);
- XVI Всероссийская конференция «Распределенные информационно-вычислительные ресурсы. Наука - цифровой экономике». DICR-2017, (4-7 декабря 2017, г. Новосибирск, Академгородок, Россия);
- Марчуковские научные чтения. MSR-2017, (25.06-14.07.2017, г.Новосибирск, Академгородок, Россия);
- Вторая Российско-Тихоокеанская Научная Конференция по Компьютерным Технологиям и Приложениям. RPC-2017, (25-29 сентября 2017, г. Владивосток, Остров Русский, Россия);
- Международная конференция «СотрШ:айопа1 апё Могтайоп ТесЬпо1о§1е8 in Science, Еп§теепп§ апё Бёисайоп». С!ТесЬ-2018, (25-28 сентября 2018, г.Усть-Каменогорск, Казахстан);
- Международная научная конференция «Аналитика и управление данными в областях с интенсивным использованием данных». DAMDID-2018, (9-12 октября 2018, г.Москва, Россия);
- Russian Биттег всЬоо1 in тЮгтайоп геШеуа1'18: «ШЮгтайоп геШеуа1 for §ооё». RuSSIR-2018, (27-31 August 2018, Ка2ап, Russia).
- Седьмая Всероссийская научная конференция с международным участием, 12-16 марта 2019, г. Ханты-Мансийск, Россия;
- Международная научная конференция «Теоретические и прикладные вопросы математики, механики и информатики» приуроченной к 70-летию доктора физико-математических наук, профессора М.И. Рамазанова, (12-13 июня 2019, г. Караганда, Казахстан);
- 12-я Международная Ершовская конференция по информатике. Рабочий семинар «Наукоемкое программное обеспечение», (2-3 июля 2019, г. Новосибирск, Россия);
- IV Международная научно-практическая конференция «Информатика и прикладная математика» посвещенная 70-летнему юбилею профессоров Т.Н. Биярова, В. Вуйцика и 60-летью профессора Е.Н. Амиргалиева, (25-29 сентября 2019, г. Алматы, Казахстан);
- VII Международная конференция по компьютерной обработке тюркских языков "TurkLang 2019", (3-5 октября 2019, г. Симферополь, Республика Крым, Россия);
- Вторая Международная научная конференция «Ситуация, язык, речь. Модели и приложения». «Бкиайоп, Ьап§иа§е, БреесЬ. Моёек & АррНсайопв». БЬБ-2019), (8-11.10.2019, г. Рим, Италия).
Основные результаты диссертации докладывались и обсуждались также на научных семинарах в Институте систем информатики им. А.П. Ершова СО РАН, Новосибирском государственном университете, Сибирском государственном университете телекоммуникаций и информатики, Стамбульском техническом университете (Стамбул), Евразийском национальном университете им. Л.Н. Гумилева (Астана), Институте информационных и вычислительных технологий КН МОН РК (Алматы), Казахский национальный университет им. аль-Фараби (Алматы), Казахстанско-Британском техническом университете (Алматы), Карагандинском государственном техническом университете (Караганда).
Публикации соискателя по теме диссертации. По материалам диссертации опубликованы более чем 35 научных работ, из них: 1 монография, 4 работы в изданиях рекомендуемых ВАК, 6 работ индексируемых в WoS и/или Бсорш. Получено 1 свидетельство о регистрации программного обеспечения.
Личный вклад. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. В основном работа выполнялась совместно с научным руководителем. Наибольший вклад автором диссертации внесен в разработку алгоритмов для анализа текстов на тюркских языках и в создание программного обеспечения в целом.
Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и восьми приложений. Полный объем диссертации составляет 122 страницы, включая 18 рисунков и 16 таблиц. Список литературы содержит 122 наименования.
Глава 1. Алгоритмы информационного поиска 1.1 Основные задачи информационного поиска
Объемы обрабатываемой электронной информации нарастают по экспоненте. Этому способствует активное внедрение мультимедиа, широкое распространение корпоративных и глобальных сетей, уход большинства предприятий от бумажного документооборота и переход на автоматизированные системы управления предприятиями. В подобной ситуации резко возросла потребность в системах поиска и анализа данных. Традиционные системы поиска, развивающиеся в тесной взаимосвязи с СУБД, в основном ориентированы на работу со структурированными текстовыми данными и мало приспособлены для обработки мультимедийной и неструктурированной информации. По статистике, доля структурированных данных в современных архивах составляет не более 20%, остальные же 80% приходятся на долю различных документов, сканированных текстов и другой разрозненной информации [1]. Соответственно возникает проблема поиска и выборки необходимой информации из большого неструктурированного массива данных.
Другим фактором, стимулирующим развитие технологий поиска, является появление большого количества электронных библиотек, содержащих значительные объемы актуальных знаний. Производительность и эффективность любой подобной системы хранения информации напрямую зависит от эффективности и производительности поисковых систем. Именно поисковая система (ПС) определяет, превратятся ли в знания многочисленные разрозненные данные, поступающие по различным каналам связи и накапливаемые в разнообразных государственных, ведомственных, частных и прочих электронных архивах.
Самой распространенной задачей, ставящейся перед ПС, является задача поиска информации в предварительно проиндексированных полнотекстовых массивах данных. Это могут быть как данные на локальной машине, так и распределенные данные внутри Интранет/Интернет сетей. Подобная задача поиска стоит как перед поисковыми системами Интернет, так и перед специализированными средствами полнотекстового поиска. Выделяются следующие подзадачи: поиск по контексту, тематический поиск, построение карты знаний, авторубрикатор, поиск документов по отношению близости.
На сегодняшний день существует достаточно много интересных решений для улучшения характеристик поиска. Практически у каждой известной поисковой системы имеется своя реализация поиска и своя подборка нововведений, которые улучшают общие показатели поиска такие, как индекс цитирования в Яндекс, ранжирование в Ооо§1е. Все эти решения широко распространены. Однако легко можно указать их основные недостатки:
11
- поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными, отсутствует оценка связности слов в запросе;
- большое количество поисковых машин с разными пользовательскими интерфейсами порождает у пользователя проблему информационной перегрузки;
- методы индексирования баз данных, как правило, семантически слабо связаны с их информационным содержанием;
- неадекватные стратегии поддержки каталогов часто приводят к тому, что пользователю выдаются ссылки на информацию, которой уже нет в сети;
- поисковые машины еще не столь совершенны, чтобы понимать достаточно сложные конструкции естественного языка;
- по тому представлению результатов, которое обеспечивают современные поисковые машины, невозможно сделать логически обоснованный вывод о полезности источников;
- существующие решения для так называемого Бешапйс Web трудно сопрягаемы с другими формами хранения и поиска информации в условиях уже существующих объемов данных.
При разработке ПС, независимо от предполагаемой ее архитектуры, встают две основные проблемы, от эффективности решения которых, кардинально зависит качество создаваемой ПС:
- проблема эффективного семантического анализа текста документа для последующего его индексирования и определения соответствия его запросу пользователя;
- проблема организации эффективного поиска по базе индексов релевантных документов, отвечающих запросу пользователя.
Первая проблема подразумевает разработку алгоритмов обработки текстов документов для выделения значимых терминов, определяющих содержание документа, а также для определения весовых коэффициентов этих терминов. Данные термины и их веса используются при создании индекса документа - информации, в сжатом виде представляющей основной смысл документа. Решение второй проблемы сводится к разработке структуры хранения индексов документов, алгоритмов поиска по данной базе индексов и алгоритмов определения степени релевантности документа поисковому запросу. Поскольку основной лексической единицей текстового документа является слово или термин, существующие методы индексации базируются именно на терминах Основными и наиболее значимыми критериями, используемыми поисковыми системами для описания индексируемых терминов документа, являются следующие:
- степень присутствия в документе (частота появления);
- специфичность, определяется при уточнении смыслового значения и специфики термина;
- место присутствия в документе (находится в заголовке, подзаголовке, начале документа).
При составлении индекса обычно исключаются слова, несущие чисто грамматические функции, общеупотребительные слова, знаки препинания. Общеупотребительные слова встречаются в любом текстовом документе и слабо коррелированны с его тематикой. Это такие части речи как предлоги, союзы и т. д.
При разработке методов индексации необходимо учитывать проблему общности/специфичности. Общность индексации подразумевает составление индекса, максимально отражающего все аспекты содержания документа. Специфичность, наоборот, подразумевает выделение из документов только наиболее важных терминов. Общность и специфичность индексации напрямую связаны с общностью и точностью поиска.
Наиболее часто используется статистический метод индексации. Предположим, что имеется коллекция, состоящая из N документов. Определим функцию tfij как
относительную частоту появления термина ti в документе d:
tfij = Ш / п,
где Ш - число встречаемости термина в документе, п - число всех терминов в документе.
Выделив множество часто встречающихся терминов, можно построить простейший индекс, содержащий значения функции tfij для каждого термина в документе. Такой метод
индексации ориентирован на максимальную общность поиска, точность поиска при этом будет низкая. Усовершенствование этого метода можно произвести, введя веса терминов, характеризующие их специфичность.
Определим величину dfi как количество документов в коллекции, содержащих термин
ti. Тогда, величина
!°ё()
именуемая инверсной частотой появления термина в документах, может служить величиной, характеризующей специфичность термина ti (чем меньшая доля документов
содержит термин, тем больше ценность ti как термина, дискриминирующего документы
определенного класса). Широко применяемый комбинированный метод индексации [7] определяет веса терминов как величину wtj:
N
W = tfj ■l0g( f У
В зарубежной литературе такой метод обозначается как TF * IDF метод. В соответствии с ним, наибольший вес имеют термины, которые встречаются достаточно часто, но при этом, сосредоточенные в небольшой доле документов коллекции.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Агрегированное представление текстов для задач поиска в коллекциях текстовых документов2019 год, кандидат наук Фролов Дмитрий Сергеевич
Математическое и программное обеспечение интеллектуальных поисковых систем на основе использования мультиагентной архитектуры2013 год, кандидат наук Минашкин, Сергей Александрович
Модели определения тем текстов, основанные на графах, и их применение для решения задачи автореферирования2019 год, кандидат наук Бакиева Айгерим Муратовна
Реляционно-ситуационные структуры данных, методы и алгоритмы решения поисково-аналитических задач2014 год, кандидат наук Соченков, Илья Владимирович
Список литературы диссертационного исследования кандидат наук Еримбетова Айгерим Сембековна, 2020 год
Литература
1. Карташева Е. Л. Инструментальные средства подготовки и анализа данных для решения трехмерных задач математической физики, Матем. моделирование, 1997. Т. 9, №7. С.113-127
2. Тарасов С.Д. Современные методы автоматического реферирования. Научно-технические ведомости СПбГПУ 6'2010. Информатика. Телеуоммуникации. Управление, 2010. С.59-73
3. Oracle Database Technologies. [Электронный ресурс] URL: https://www.oracle.com/technetwork/database/enterprise-edition/index-098492.html (дата обращения: 10.09.2019)
4. TextAnalyst SDK. [Электронный ресурс] URL: http://www.analyst.ru/index.php?lang=rus (дата обращения: 13.09.2019)
5. IBM Knowledge Center. [Электронный ресурс] URL: https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.ta.help/tm_ intro tm defined.htm (дата обращения: 14.09.2019)
6. Kumar N., Srinathan K., Varma V. Using graph based mapping of co-occurring words and closeness centrality score for summarization evaluation // CICLing Proceedings of the 13 th International Conference on Computational Linguistics and Intelligent Text Processing, 2012. Vol. 2. P. 353-365.
7. Frakes W.B., Baeza-YatesR. Information Retrieval: Data Structures & Algorithms, 1992. Vol. 152. 630 p.
8. Рафанов С.В. К проблеме классификации текстов в машинном переводе // Вестник Московского государственного областного университета. Серия: Лингвистика, 2010. №3. С. 36-42.
9. Сокирко А. В. Семантические словари в автоматической обработке текста // Канд. дисс., МГПИИЯ, М., 2000. 108 с.
10. Осипов Г.С. Лекции по искусственному интеллекту. Изд. 2-е, испр. и доп. М.: Книжный дом «ЛИБРОКОМ», 2013. 272 с.
11. ШведоваН.Ю. Большая российская энциклопедия. Том 34. М., 2017. С. 728 -729.
12. Поспелов Н.С. О грамматической природе сложного предложения. Вопросы современного русского языка. М., 1950.
13. Белошапкова В.А. Сложное предложение в современном русском языке (некоторые вопросы теории). М., 1967. 160 с.
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Максимов Л.Ю. Многомерная классификация сложноподчиненных предложений (на материале современного русского литературного языка). Ставрополь - Пятигорск: Издательство СГУ, 2011. 680 с.
Кручинина И.Н. Структура и функции сочинительной связи в русском языке. Монография. М.: Наука, 1988. 212 с.
Ляпон М.В. Смысловая структура сложного предложения и текст: к типологии внутритекстовых отношений. М.: Наука, 1986. 200 с.
Лбов Г.С. Методы обработки разнотипных экспериментальных данных: моногр. Институт математики СО АН. Новосибирск: Изд. Наука, 1981. 160 с. Temperley D., Sleator D., Lafferty J. Link Grammar Documentation [Electronic resource], 1998. URL: http://www.link.cs.cmu.edu/link/dict/index.html (дата обращения: 2.09.2019) Grinberg D., Lafferty J., Sleator D. A robust parsing algorithm for link grammars. Carnegie Mellon University Computer Science technical report CMU-CS-95-125, 1995. Викентьев А.А., Викентьев Р.А. О метриках для формул от разнотипных переменных и мерах опровержимости // Труды второй международной молодежной школы-конференции «Теория и численные методы решения обратных и некорректных задач». 2011. Часть 1. С. 192-209. [Электроный ресурс]. URL: http://semr.math.nsc.ru/v8/c182-410.pdf (дата обращения: 11.08.2019)
Мельчук И.А. Опыт теории лингвистических моделей «Смысл ^ Текст». М.: Наука, 1974.
Падучева Е.В. Семантические исследования: Семантика времени и вида в русском языке; Семантика нарратива. М.: Языки славянской культуры, 2010. 480 с. Лукашевич Н.В. Модели и методы автоматической обработки неструктурированной информации на основе базы данных онтологического типа: Диссертация на соискание ученой степени доктора технических наук. Москва, 2014. 312 с.
Агглютинативные языки // Википедия - свободная энциклопедия, 2015. URL: https://ru.wikipedia.org/wiki/Агглютинативные_языки (дата обращения: 5.08.2019) Дыбо А.В., Шеймович А.В. Автоматический морфологический анализ для корпусов тюркских языков // Филология и культура. 2014. №2(36). С. 20-26 Gülten Eryigit, Joakim Nivre, Kemal Oflazer. Dependency Parsing of Turkish // Computational Linguistics, 2008. V. 34. № 3. P. 357-389.
Kemal Oflazer. Two-level Description of Turkish Morphology, Literary and Linguistic Computing, Vol. 9, N. 2, 1994. P. 137-148.
28. Tukeev U. Automaton models of the morphology analysis and the completeness of the endings of the Kazakh language // Proc. of international conference "Turkic languages processing" (Turklang-2015), 2015. P. 91-100.
29. Ozlem istek. A Link Grammar for Turkish. Thesis. Bilkent University, Ankara, Turkey, 2006. 135 p.
30. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) // Дисс. на соискание ученой степени канд. техн. наук. М., 2003. 148 c.
31. Батура Т.В., Мурзин Ф.А. Машинно-ориентированные логические методы отображения семантики текста на естественном языке: моногр. Институт систем информатики им. А.П. Ершова СО РАН. Новосибирск: Изд. НГТУ, 2008. 248 с.
32. Баранов А.Н. Введение в прикладную лингвистику / А.Н. Баранов. М.: Изд-во ЛКИ, 2007. 360 с.
33. Марчук Ю.Н. Компьютерная лингвистика / Ю.Н. Марчук. М.: АСТ: Восток-Запад, 2007. 317 с.
34. Тукеев У.А. Жуманов Ж.М., Рахимова Д.Р. Моделирование семантических ситуаций времен казахского языка при машинном переводе // Вестник КазНУ. Серия математика, механика, информатика, 2012. № 4(75). С. 99-107.
35. Кулагина О.С. Исследования по машинному переводу / О.С. Кулагина. М.: Наука, 1979. 320с.
36. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М.: Издательский центр «Академия», 2006, 304 стр.
37. Peters C., Braschler M., Clough P. Multilingual Information Retrieval: From Research To Practice. Springer-Verlag, 2012. 2017 p.
38. Figuerola C.G., Gomez R., Zazo Rodriges A.F., Luis J., Berrocal A. Stemming in Spanish: A first approach to its impact on information retrieval // Resultts of the CLEF 2001 Cross-Language System Evaluation Compaign. Working Notes for the CLEF 2001 Workshop. 3 September, Darmstadt, Germany. 2001. P. 197-202.
39. Larkey L.S., Ballesteros L., Connell M.E. Improving stemming for Arabic information retrieval: light stemming and co-occurrence analysis // Proceedings of he 25th annual international ACM SIGIR conference on Research and development in information retrieval, 2002. P. 275-282.
40. Рыбаков Ф.И. Автоматическое индексирование на естественном языке./ Ф.И. Рыбаков, Е.А. Руднев, В. А. Петухов. М.: Энергия, 1980. 160 с.
41. Пиотровский Р.Г. Информационные измерения языка / Р.Г. Пиотровский. Л.: Наука ЛО, 1968. 116 с.
42. Плунгян В.А. Общая морфология: Введения в проблематику / В.А. Плунгян. М.: Эдиториал УРСС, 2003. 384 с.
43. Болховитянов А. В., Чеповский А.М. Алгоритмы морфологического анализа компьютерной лингвистики. М.: МГУП имени Ивана Федорова, 2013. 198с.
44. Дыбо А.В., Шеймович А.В. Автоматический морфологический анализ для корпусов тюркских языков. Филология и культура. Philology and Culture. 2014. №2(36). С. 20-26
45. Жуманов Ж.М. Разработка грамматики связи для синтаксического анализа казахского языка // Вестник КазНУ. Серия математика, механика, информатика, 2012. № 2(73). С. 71-80.
46. Батура Т.В. Математическая лингвистика и автоматическая обработка текстов. учеб. пособие. Новосиб. гос. ун-т. Новосибирск: РИЦ НГУ, 2016. 166 с.
47. Figuerola C.G., Gomez R., Zazo Rodriges A.F., Luis J., Berrocal A. Stemming in Spanish: A first approach to its impact on information retrieval // Resultts of the CLEF 2001 Cross-Language System Evaluation Compaign. Working Notes for the CLEF 2001 Workshop. 3 September, Darmstadt, Germany, 2001. P. 197-202.
48. Larkey L.S., Ballesteros L., Connell M.E. Improving stemming for Arabic information retrieval: light stemming and co-occurrence analysis // Proceedings of he 25th annual international ACM SIGIR conference on Research and development in information retrieval, 2002. P. 275-282.
49. Manning C., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge University Press, 2008. 544 p.
50. Gausrad T., Bouma G. Accurate Stemming of Dutch for Text Classification // Computational Linguistics in the Netherlands - CLIN. 2001. P.104-117.
51. Wahbeh A., Al-Kabi M., Al-Radaideh Q.A., Al-Shawakfa E.M., Alsmadi I. The Effect of Stemming on Arabic Text Classification: An Empirical Study // IJIRR. 2011. P. 54-70.
52. Bouras C., Tsogkas V. Improving Text Summarization Using Noun Retrieval Techniques // Proceedings of the 12th international conference on Knowledge-Based Intelligent Information and Engineering Systems, Part II. 2008. P. 593-600.
53. Orasan C., Pekar V., Hasler L. A comparison of summarization methods based on term specificity estimation // Proceediings of the Fourth International Conference on Language Resources and Evaluation (LREC-04). Lisbon, Portugal. 2004. P.1037-1041.
54. Всеволодова А.В. Компьютерная обработка лингвистических данных. М: Флинта: Наука, 2007. 96 с.
55. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М.: Издательский центр «Академия», 2006. 304 с.
56. Хойер Г. Антропологическая лингвистика // Зарубежная лингвистика. Т. 2. М.: Прогресс, 2002, С. 44-67.
57. Egyigit G., Adali E. An affix Stripping Morphologycal Analizer for Turkish, Proccedings of the easted International Conference Artifical Intelligeence and Applications, 2004, Istanbuluk, Austria. P. 299-304
58. Тукеев У.А., Рахимова Д.Р. Семантические связи в автоматической обработке текста казахского языка // Вестник КазНТУ. Серия математика, механика, информатика, 2012. № 2. С. 320-325.
59. Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proc. of the 2014 Joint Meeting of SIGMORPHON and SIGFSM, 2014. P. 46-54.
60. Куликовская Л.К., Мусаева Э.Н. Грамматика казахского языка в таблицах и схемах в сопоставлении с грамматикой русского языка, 2006. 76 с.
61. Porter M.F. Snowball: A language for stemming algorithms. URL: http://www.snowball.tartarus.org/texts/introduction.html
62. Willet P. The Porter stemming algorithm: then and now // Program: Electronic Library and Information Systems, 2006. Volume 40. Issue 3. P. 219-223.
63. Казахская грамматика. Фонетика, словообразование, морфология, синтаксис. Астана, 2002.
64. Бектаев К. Большой казахско-русский, русско-казахский словарь. Алматы, 1995, 703с.
65. Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Бурибаева А. К., Карабалаева М. Х. Интеллектуальный морфологический анализатор, основанный на семантических сетях // Материалы междунар. науч.-технич. конф. «Открытые семантические технологии проектирования интеллектуальных систем» (0STIS-2012). Минск: БГУИР, 2012. С. 397-400
66. Саймон Р. Mirrosoft Windows 2000 API SuperBible. 2004. 1216 с.
67. Nenkova A., McKeown K. Automatic Summarization // Foundations and Trends in Information Retrieval, 2011. Vol. 5, № 2-3. P. 103-233.
68. Кормен D., Hovy E., McKeown, K. Introduction to the special issue on summarization // Computational Linguistics Journal - Summarization, 2002. Vol. 28. № 4. P. 399-408.
69. Nenkova A., Vanderwende L., McKeown K. A compositional context sensitive multi-document summarizer: exploring the factors that influence summarization // Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2006. P. 573-580.
70. Erkan G., Radev D. Lexrank: Graph-based centrality as salience in text summarization // Journal of Artificial Intelligence Research, 2004.
71. Carbonell J., Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries // Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Australia: Melbourne, 1998. P. 335-336.
72. Boudin F., El-Beze M., Torres-Moreno J.-M. A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization // Proceedings of the 22nd International Conference on Computational Linguistics, 2008. P. 23-26.
73. Luhn H.P. The automatic creation of literature abstracts // IBM Journal of Research and Development, 1958. Vol. 2. № 2. P. 159-165
74. Sleator D., Temperley D. Parsing English with a Link Grammar. Pittsburgh: School of Computer Science Carnegie Mellon University, 1991. 93 p.
75. Lafferty J., Sleator D., Temperley D. Index to Link Grammar Documentation [Electronic Resource] // URL: http://www.link.cs.cmu.edu/link/dict/index.html (дата обращения 4.09.2019)
76. Батура Т.В., Мурзин Ф.А., Перфильев А.А., Шманина Т.В. Методы повышения эффективности поиска информации на основе синтаксического анализа // Монография / Институт систем информатики имени А. П. Ершова СО РАН. Новосибирск: Изд-во СО РАН, 2012. 86 с.
77. PorterM. An algorithm for suffix stripping. Program, 1980. Vol.14 No.3. p.130-137.
78. Page L., Brin S., Motwani R., Winograd T. The pagerank citation ranking: bringing order to the web. Technical report, Stanford digital library technologies project, 1998. 17 p.
79. Hierarchical clustering [Electronic Resource] // URL: http://en.wikipedia.org/wiki/Hierarchical_clustering (дата обращения: 20.08.2019)
80. Ward's method [Electronic Resource] // URL: http://en.wikipedia.org/wiki/Ward's_method (дата обращения: 20.08.2019)
81. Ramos J. Using TF-IDF to Determine Word Relevance in Document Queries // The First instructional Conference on Machine Learning, 2003. 8 p.
82. Jeremie Bouttier, P. Di Francesco, E. Guitter. Geodesic distance in planar graphs. 2003. Т. 663, вып. 3. С. 535-556
83. Chan, Timothy M. More algorithms for all-pairs shortest paths in weighted graphs, SIAM Journal on Computing, 2010. Т. 39 (5): P. 2075-2089.
84. Соченков И. В. Реляционно-ситуационные структуры данных, методы и алгоритмы решения поисково-аналитических задач // Канд. дисс., ИСА РАН, М., 2014. 148 с.
Публикации автора по теме диссертации Монография
85. Батура Т.В., Бакиева А.М., Еримбетова А.С., Мурзин Ф.А., Сагнаева С.К. Грамматика связей, релевантность и определение тем текстов // Институт систем информатики им. А.П. Ершова СО РАН. - Новосибирск: Изд-во СО РАН, 2018. ISBN 978-5-76921632-9. - 91 с.
Статьи в журналах из перечня ВАК
86. Бакиева А.М., Батура Т.В., Еримбетова А.С., Митьковская М.В., Семенова Н.А. Исследование грамматики связей на примере казахского и турецкого языков // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 3. С. 5-14.
87. Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И. Модель определения нормальной формы слова для казахского языка // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, № 1. С. 107-116.
88. Мурзин Ф.А., Тусупова М.Д., Еримбетова А.С. Filling up Link Grammar Parser dictionaries by using Word2vec techniques // Совм. вып. по матер. Междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании», Вестник ВКГТУ им. Д. Серикбаева, Вычислительные технологии. Усть-Каменогорск -Новосибирск, 2018. Т. 1, 4.3. С. 169-176.
89. Батура Т.В., Ефимова Л.В., Еримбетова А.С., Касекеева А.Б., Мурзин Ф.А. Временные и пространственные понятия в текстах на естественном языке и их исследование. Вестник СибГУТИ. - Новосибирск, 2019. №3, С. 27-35
Статьи в изданиях, индексируемых в Scopus и/или Web of Science
90. Yerimbetova A.S., Murzin F.A., Batura T.V., Sagnayeva S.K., Semich D.F., Bakiyeva A.M. Estimation of the degree of similarity of sentences in a natural language based on using the
Link Grammar Parser program system // Journal of Theoretical and Applied Information Technology, 2016. Vol. 86. N. 1. P. 68-77.
91. Yerimbetova A.S., Murzin F.A., Batura T.V., Sagnayeva S.K., Tazhibayeva S.Zh., Bakiyeva A.M. Link Grammar Parser for Turkic Languages and algorithms for estimation the relevance of documents // 2016 IEEE 10th International Conference on Application of Information and Communication Technologies (AICT-2016), 2016, Baku, Azerbaijan. 2016. pp. 104-107.
92. Batura T.V., Murzin F.A., Semich D.F., Sagnayeva S.K., Tazhibayeva S.Zh., Bakiyev M.N., Yerimbetova A.S., Bakiyeva A.M. Using the Link grammar parser in the study of Turkic languages // Eurasian journal of mathematical and computer applications. ISSN: 23066172. Astana: L.N. Gumilyov Eurasian National University, 2016. V. 4. Iss. 2. pp. 14-22.
93. Fedotov А.М., Tussupov J., SambetbayevaM., Yerimbetova A.S., Idrisova I. Development and implementation of a morphological model of kazakh language // Eurasian journal of mathematical and computer applications. ISSN: 23066172. Astana: L.N. Gumilyov Eurasian National University, 2015. V. 3. Iss. 3. pp. 69-79.
94. Fedotov A.M., Tusupov J.A., Sambetbayeva M.A., Sagnayeva S.K., Bapanov A.A., Nurgulzhanova A.N., Yerimbetova A.S. Using the thesaurus to develop it inquiry systems // Journal of Theoretical and Applied Information Technology, 2016. Vol.86. Iss. 1. P.44-61.
95. Yerimbetova A.S., Sagnayeva S.K., Murzin F.A., Tussupov J.A. Creation of tools and algorithms for assessing the relevance of documents // RPC 2018. Proceedings of the 3rd Russian-Pacific Conference on Computer Technology and Applications [8482202] Institute of Electrical and Electronics Engineers Inc. https://doi.org/10.1109/RPC.2018.8482202
Прочие публикации
96. Batura T.V., Murzin F.A., Bakiyeva A.M., Yerimbetova A.S. The methods of estimation of the degree of similarity of sentences in a natural language based on the link grammar // Bulletin of the Novosibirsk Computing Center. Series: Computer Science. 2014. Is. 37. P. 55-69.
97. Batura T.V., Murzin F.A., Semich D.F., Bakiyeva A.M., Yerimbetova A.S. On some graphs connected with texts in a natural language, link grammar and the summarization process // Bulletin of the Novosibirsk Computing Center. Series: Computer Science. 2015. Iss. 38. p. 37-49.
98. Мурзин Ф.А., Батура Т.В., Еримбетова А.С., Бакиева А.М. Методы определения степени близости предложений на естественном языке на основе грамматики связей // Наука и мир. Волгоград: Научное обозрение, 2015. № 3 (19). Т. 2. С. 61-67.
99. Еримбетова А.С., Ефимова Л.В. Анализ текстов на естественном языке с помощью синтаксического анализатора Link Grammar Parser и семантической компоненты
91
системы Dialing // Труды XVI Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (YM-2015). 2015. Красноярск, Россия, 2015. С. 71-72.
100. Batura T.V., Bakiyeva A.M., Yerimbetova A.S., Mit'kovskaya M.V., Semenova N.A. Methods of constructing natural language analyzers based on Link Grammar and rhetorical structure theory // Bulletin of the Novosibirsk Computing Center. Series: Computer Science. 2016. Is. 40. pp. 37-51.
101. Murzin F.A., Batura T.V., Semich D.F., Sagnayeva S.K., Bakiyeva A.M., YerimbetovaA.S., Mit'kovskaya M.V., Semenova N.A. Research of link grammar for kazakh and turkish languages // Вестник КазНИТУ. Алматы, 2016. № 4 (116). С. 684-691.
102. Еримбетова А.С., Бакиева А.М. Модели определения релевантности текста и задача реферирования // Материалы 54-й Международной научной студенческой конференции, МНСК - 2016, г. Новосибирск, 2016 г, C. 167.
103. Бакиева А.М., Еримбетова А. С. Исследование грамматики связей на примере турецкого и казахского языка // Материалы 54-й Международной научной студенческой конференции, МНСК - 2016, г. Новосибирск, 2016 г, C. 163.
104. Batura T.V., Murzin F.A., Semich D.F., Yerimbetova A.S., Bakiyeva A.M. Link Grammar Parser and estimation of the document relevance to the search query // Марчуковские научные чтения 20 - 2017 (MSR 2017). Тезисы. Новосибирск: Омега Принт, 2017. Новосибирск, 2017 г. С. 200.
105. Мурзин Ф.А., Еримбетова А.С., Сагнаева С.К., Батура Т.В., Бакиева А.М., Семич Д.Ф. Алгоритмы и программные инструменты для определения релевантности текста поисковому запросу и определения тем текстов // Труды Международной конференции «Актуальные проблемы чистой и прикладной математики». Алматы: ИМиММ, 2017. Алматы, 2017. С. 141-142.
106. Мурзин Ф.А., Еримбетова А.С., Батура Т.В., Бакиева А.М., Семич Д.Ф., Ефимова Л.В. О новых инструментах поиска информации на основе грамматики связей // Интеллектуальный анализ сигналов, данных и знаний: методы и средства. Сборник статей Всероссийской научно-практической конференции с международным участием. Новосибирск: НГТУ, 2017. С. 161-166.
107. Мурзин Ф.А., Батура Т.В., Еримбетова А.С., Бакиева А.М., Семич Д.Ф., Ефимова Л.В. О системе поиска информации на основе грамматики связей // Труды XVI Российской конференции «Распределенные информационно-вычислительные ресурсы. Наука -цифровой экономике» (DICR-2017). Новосибирск: ИВТ СО РАН, 2017. С. 100-114.
92
108. Murzin F.A., Sagnaeva S.K., Yerimbetova A.S., Sambetbaeva M.A. Agglutinative languages with a link grammar // Вестник КазАТК, 2016. № 2 (97). С. 62-67.
109. Мурзин Ф.А., Сагнаева С.К., Еримбетова А.С., Дайырбаева Э.Н. Разработка системы связей для тюркских языков // Вестник КазАТК № 3 (102), 2017. С. 102-107
110. Еримбетова А.С., Абдалиев Б.Ж. Проблемы построения функциональной модели тюркских языков // Сборник материалов XII Международной научной конференции студентов и молодых ученых «Наука и образование - 2017». г. Астана, Казахстан. С. 652-655.
111. Еримбетова А.С. Link Grammar Parser и оценка релевантности документа для поискового запроса // Материалы XVI Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям. Иркутск: ИДСТУ СО РАН, 21-25 августа 2017. С.76.
112. Еримбетова А.С. Определение тем текстов. XIII Международная научная конференция студентов, магистрантов и молодых ученых «ЛОМОНОСОВ - 2017». 2017. С.43-44.
113. Еримбетова А.С., Дайырбаева Э.Н. Агглютинативт тшдер Yшiн LINK GRAMMAR PARSER // Материалы XLI Международной научно-практической конференции КазАТК им. М. Тынышпаева на тему: «Инновационные технологии на транспорте: образование, наука, практика», 2017. Т. 2. С. 155-159.
114. Александров К.В., Еримбетова А.С. Разработка и анализ новых технологий поиска информации // Материалы 56-й Международнрй научной студенческой конференции МНСК-2018, Информационные технологии, Новосибирск, Россия. 2018 г., 115 стр.
115. Sambetbayeva М.А., Yerimbetova A.S., Daiyrbayeva E.N. Models and methods of creating information systems integrated into the open semantic space // The Bulletin of Kazakh Academy of Transport and Communications named after M. Tynyshpayev, 2018. Vol. 106, No.3. P. 134-140.
116. Еримбетова А.С., Абдалиев Б. ^азак тшндеп сездердщ калыптасу формасын аньщтау // Материалы III Международной научно-практической интернет-конференции «Проблемы и перспективы развития современной науки в странах Европы и Азии». Сборник научных работ, Переяслав-Хмельницкий, 2018. С.152-155.
117. Murzin F., Yerimbetova A.S., Tussupova M., Aleksandrov K. Development and analysis of technologies of searching information relevant to the search query using linguistic support // Proceedings of the XX International Conference «Data Analytics and Management in Data Intensive Domains». M., Russia, 2018. P. 207-214.
118. Еримбетова А.С., Мурзин Ф.А. Разработка и анализ технологий определения релевантности текста поисковому запросу // Информационные технологии и системы. Труды Седьмой Всероссийской научной конференции с международным участием. Ханты-Мансийск, Россия, 2019. С. 152-156.
119. Еримбетова А.С., Батура Т.В., Мурзин Ф.А., Сагнаева С.К., Смаилова У.М., Тишбек Ж.Ж. Инструментарий для определения семантической близости текстов на агглютинативных языках // Материалы V Международной научно-практической конференции «Global Science and Innovations 2019: Central Asia», г. Астана, 2019. С. 106-109.
120. Tussupova M., Murzin F.A., Yerimbetova A.S., Tazhibayeva S.Zh. Grammatical categories determination with the use of machine learning // Materials of the International scientific conference "Theoretical and applied questions of mathematics, mechanics and computer science" dedicated to the 70th anniversary of the doctor of physical and mathematical sciences, Professor Murat Ibraevich Ramazanov, Karagandy, 2019. 119 p.
121. Батура Т.В., Ефимова Л.В., Еримбетова А.С., Касекеева А.Б., Мурзин Ф.А. Анализ временных и пространственных понятий, встречающихся в текстах на естественном языке // 12-я Международная Ершовская конференция по информатике. Труды семинара «Наукоемкое программное обеспечение», 2019, Новосибирск, Россия. С. 5358
Свидетельство о регистрации программы для ЭВМ
122. Еримбетова А.С., Батура Т.В. Мурзин Ф.А., Сагнаева С.К., Бакиева А.М. Свидетельство о государственной регистрации прав на объект авторского права Министерства Юстиции Республики Казахстан «1^азак жэне тYрiк тшдерше арналган LINK GRAMMAR PARSER синтаксиспк талдагышы» запись в реестре № 743 от 17.04.2017 г. (Синтаксический анализатор LINK GRAMMAR PARSER для казахского и турецкого языков).
Приложения
Приложение А Тестирование для английского языка по теме «Информационные
технологии»
Результаты тестовых испынатий
№ Текст тестового зaпрocа Tls ill
1. The basic concepts of the information theory of Shannon and the concept of entropy 133 18 0 0
2. Codes correcting errors, their connection with redundancy and entropy 124 14 1 1
3. Statistical models of sources of information 126 9 0 9
4. Applications of statistics in linguistics, music research and genetics 150 11 2 9
5. Elements of cryptography, public key codes and the method of elliptic curves 180 17 1 0
6. Algorithmic foundations of symbolic transformation systems, pattern matching 95 18 0 0
7. Sources and types of images, classification of image processing algorithms 180 12 6 0
8. Representation of images in computer systems. 220 18 2 1
9. Technical means of image input, photo-receiving matrices and rulers based on charge-coupled devices 17 8 1 1
10. Image formats and color spaces 210 20 0 0
11. Measures of proximity of images, analysis of brightness differences and histograms 150 18 0 0
12. Search for objects in the images and areas of application of the searching algorithms in robotics and security systems 110 18 2 5
13. MPEG-2 - similar video compression systems 210 16 4 0
14. Two-dimensional orthogonal transformations and their application for image compression and noise filtering 150 20 0 5
15. Continuous and discrete wavelet transform 170 18 0 0
16. MPEG-4 - similar video compression systems 210 18 2 2
17. Image compression using wavelet transforms and cascading filter banks 99 19 0 0
18. Tasks of IR optics and grilles based on Hadamard matrices 40 15 0 0
19. Parallel processing of information and parallel computer architectures 170 18 0 1
20. Supercomputers and project TOP 500 190 16 2 0
21. General mathematical relations characterizing computing on parallel computers 100 16 2 1
22. Organization of computer memory with parallel access to information 136 20 0 8
23. Architecture of parallel systems for searching and tracking multiple moving objects 100 11 4 1
24. CUDA programming system, the difference between CPU and GPU in parallel calculations 134 20 0 0
25. Languages for parallel processing of big data storages 190 16 4 2
26. Fuzzy sets, set-theoretic and algebraic operations with fuzzy sets, their properties 130 18 2 0
27. Fuzzy sets and linguistic variables 162 20 0 1
28. Various variants of fuzzy numbers, operations with fuzzy numbers 119 20 0 1
29. Fuzzy statements and predicates, logical connectives and quantifiers in fuzzy logic 100 18 2 0
30. Solving control problems using fuzzy logic, completeness and consistency of control rules 100 17 2 2
31. Models based on fuzzy logic in agriculture, medicine, business 92 17 2 4
32. Information uncertainty in decision-making tasks, the use of fuzzy logic on the example of the problem of choosing alternatives 113 14 3 0
33. Data clustering, application for image processing 190 20 0 0
34. Classification, clustering and machine learning methods 200 20 0 0
35. Neurocomputers and their application to solve image processing problems and in computer linguistics 90 16 0 7
36. Convolution neurocomputer networks and networks with deep learning 170 13 0 0
37. Classification of problems of artificial intelligence and the algorithms used to solve them 200 19 1 0
38. The impact of the Internet on the system of production and consumption, the digital economy 172 18 1 3
39. Big data centers, development trends 217 20 0 7
40. Big data, main problems and development prospects 210 20 0 6
41. Cloud computing 240 14 3 0
42. Research and use of social networks for modeling social, economic, political and other processes 180 17 2 7
43. Mechanisms of influence on the processes in social networks 170 15 1 5
44. The use of information technology in the army 154 20 0 4
45. Cyber War, information systems for combating terrorism 250 15 5 4
46. Neurointerfaces, cognitive technologies, interfaces between computing systems and living organisms, human or animal 40 14 0 4
47. European project Human Brain Project, current state of affairs 70 16 3 0
48. The Internet of Things, smart factories 260 15 5 2
49. Robotic systems 220 10 2 2
50. The concept of information dominance 160 20 0 4
Примечание. П - общее количество фрагментов, полученных от Google; П - количество релевантных ссылок, одобренных системой; П - количество релевантных ссылок, пропущенных системой; П - количество не релевантных ссылок, одобренных системой.
Приложение Б Тестирование для русого языка ^ тeмe «Инфoрмaциoнныe
тexнoлoгии»
Результаты тестовых испынатий
№ Текст тестового зaпрocа li
1. Ocнoвныe пoнятия тeoрии инфoрмaции Шeннoнa и гонять энтрoпии 140 20 0 0
2. ^ды, иcпрaвляющиe omnGxH, их cвязь c избытoчнocтью и энтрoпиeИ 100 14 3 0
3. Cтaтиcтичecкиe мoдeли иcтoчникoв cooбщeниИ 160 0 0 0
4. Прилoжeния cтaтиcтики в лингвистите, иccлeдoвaнии музыки и в re^TORe 112 15 0 8
5. Элeмeнты криптoгрaфии, кoды oткрытoгo ключa и мeтoд эллиптичecкиx кривых 120 19 0 2
6. Aлгoритмичecкиe ocнoвы cиcтeм cимвoльныx прeoбрaзoвaний, cличeниe c oбрaзцoм 140 16 0 9
7. Иcтoчники и типы изoбрaжeний, клaccификaция aлгoритмoв oбрaбoтки изoбрaжeниИ 110 16 0 7
8. Прeдcтaвлeниe изoбрaжeниИ в кoмпьютeрныx cиcтeмax 160 20 0 0
9. Тexничecкиe cрeдcтвa ввoдa изoбрaжeний, фoтo-приeмныe мaтрицы и линeИки не ocнoвe прибoрoв c зaрядoвoИ cвязью 93 18 1 1
10. Фoрмaты изoбрaжeниИ и цвeтoвыe прocтрaнcтвa 195 20 0 0
11. Мeры близocти изoбрaжeниИ, aнaлиз пeрeпaдoв яркocти и гиcтoгрaмм 90 20 0 0
12. Пoиcк oбъeктoв та изoбрaжeнияx и oблacти примeнeния aлгoритмoв пoиcкa в рoбoтoтexникe и в ^^^ax бeзoпacнocти 90 20 0 0
13. MPEG-2 - пoдoбныe cиcтeмы кoмпрeccии видeo 130 10 8 1
14. Двyмeрныe oртoгoнaльныe прeoбрaзoвaния и иx примeнeниe для кoмпрeccии изoбрaжeниИ и фильтрaции myмoв 111 15 2 0
15. Нeпрeрывнoe и диcкрeтнoe вeйвлeт-прeoбрaзoвaниe 130 18 2 0
16. MPEG-4 - пoдoбныe cиcтeмы кoмпрeccии видeo 139 13 3 2
17. Cжaтиe изoбрaжeниИ c пoмoщью вeИвлeт-прeoбрaзoвaниИ и кacкaдирoвaниe бaнкoв фильтрoв 90 14 5 0
18. Зaдaчи ИК-oптики и рacтры та ocнoвe мaтриц Aдaмaрa 90 11 0 0
19. Пaрaллeльнaя oбрaбoткa инфoрмaции и пaрaллeльныe aрxитeктyры кoмпьютeрoв 109 18 1 9
20. Cyпeркoмпьютeры и прoeкт TOP 500 180 2 18 0
21. Общда мaтeмaтичecкиe cooтнomeния, xaрaктeризyющиe вычиcлeния та пaрaллeльныx кoмпьютeрax 90 20 0 9
22. Oргaнизaция кoмпьютeрнoй пaмяти c пaрaллeльным дocтyпoм к инфoрмaции 108 7 10 0
23. Aрxитeктyрa пaрaллeльныx cиcтeм для го^кя и oтcлeживaния мнoжecтвa годвижнык oбъeктoв 90 14 4 4
24. Cиcтeмa прoгрaммирoвaния CUDA, рaзличиe мeждy CPU и GPU в пaрaллeльныx рacчётax 99 16 2 0
25. Языки для пaрaллeльнoй oбрaбoтки бoльmиx xрaнилищ дaнныx 110 0 0 0
26. Нeчeткиe мнoжecтвa, тeoрeтикo-мнoжecтвeнныe и aлгeбрaичecкиe oпeрaции нaд нeчeткими мнoжecтвaми, иx cвoйcтвa 90 15 5 0
27. Нeчeткиe мнoжecтвa и лингвиcтичecкиe пeрeмeнныe 140 18 2 0
28. Различные варианты нечетких чисел, операции над нечеткими числами 93 0 20 0
29. Нечеткие высказывания и предикаты, логические связки и кванторы в нечеткой логике 90 12 2 0
30. Решение задач управления с помощью нечеткой логики, полнота и непротиворечивость правил управления 80 14 0 0
31. Модели на основе нечеткой логики в сельском хозяйстве, медицине, бизнесе 90 7 7 2
32. Информационная неопределенность в задачах принятия решений, применение нечеткой логики на примере задач о выборе альтернатив 90 15 0 5
33. Кластеризация данных, применение для обработки изображений 130 0 18 0
34. Классификация, кластеризация и методы машинного обучения 130 18 1 0
35. Нейрокомпьютеры и их применение для решения задач обработки изображений и в компьютерной лингвистике 90 15 3 1
36. Сверточные нейрокомпьютерные сети и сети с глубоким обучением 130 4 15 0
37. Классификация задач искусственного интеллекта и алгоритмы, применяемые для их решения 130 10 2 1
38. Влияние интернета на систему производства и потребления, цифровая экономика 110 8 12 0
39. Большие центры обработки данных, тенденции развития 171 0 8 0
40. Большие данные, Big Ба1а, основные проблемы и перспективы развития 130 14 4 0
41. Облачные вычисления 170 0 20 0
42. Исследование и использование социальных сетей для моделирования социальных, экономических, политических и других процессов 99 19 0 12
43. Механизмы воздействия на процессы в социальных сетях 150 13 3 0
44. Применение информационных технологий в армии 90 20 0 6
45. Кибервойска, информационные системы для борьбы с терроризмом 137 18 2 0
46. Нейроинтерфейсы, когнитивные технологии, интерфейсы между вычислительными системами и живыми организмами, человеком или животным 90 20 0 0
47. Европейский проект Нишап Brain Ргсцей, состояние дел на текущий момент 14 13-20(0.4) 0 0
48. Интернет вещей, умные заводы 130 0 20 0
49. Робототехнические системы 200 0 1 0
50. Концепция информационного доминирования 170 0 18 0
Примечание. Щ - общее количество фрагментов, полученных от Google; Щ - количество релевантных ссылок, одобренных системой; Щ - количество релевантных ссылок, пропущенных системой; Щ - количество не релевантных ссылок, одобренных системой.
Приложение В Примеры перефразирования предложений на казахском языке
1.1. Оныц сатып алFан гулдер1 эдем1 ед1. (Цветы, которые он купил, были прекрасны.)
+---АБ— +
+----------АБ----------+ +-ОУ-+----+
I I I I I I I
О.=ныц сат.=ып ал.=ган гYл.=дер.=i эдемi едi. А$(оныц, гYлдерi)AAS(сатып алган, гYлдерi)лOV(гYлдерi, эдем1 едг)
1.2. Оныц сатып алFан гулдер1 эдем1 болды. (Цветы, которые он купил, были прекрасны.)
+---АБ — +
+----------АБ----------+ +-ОУ-+----+
I I I I I I I
О.=ньщ сат.=ып ал.=ган ^л.=дер.^ эдемi болды. А$(оныц, гYлдерi)лAS(сатъm алган, гYлдерi)ЛOV(гYлдерi, эдемi болды) Х} =эдемi, е=непомеченная связь е (Х}, ед^^ е (Х}, болды)
Логические формулы
х 1 =эдемi
Я = £( х1з ед{) (р2 =£( х1, болды),
Я
2.1. Тулк1 коянды жед1. (Лиса съела кролика.)
| +--ОУ--+
I I I
ТYЛкi к;оян.=ды же.=дi. S(тYлкi, жедi)лOV(цоянды, жед^
2.2. ^оянды тулк1 жеп койды. (Кролика съела лиса.)
+--------ОУ-------+
I +------б-----+
I I +---?---+
I I I I
Крян.=ды тYЛкi жеп к;ой.=ды.
OV(цоянды, жеп цойды)AS(тYлкi, жеп цойды)л?(жеп, цойды) S(X}.=X2, Хз) е(х}.=х2, Хз) е(Х}, х2)^(х2, хз)
Логические формулы
х1 = тYлкi
х 2 = цоянды хз =же
рх = 0У(х2. = ды, х3. = дг) л $(х1, х3. = дг)
р2 = 0У(х2. = ды,х3. = дг) л (8(хг,х3. = дг) ле(жеп_цойды)
Рх ^Р2
3.1. Оз ол жейдеш кулк1л1 болу уш1н киген ед1щз. (Вы надели этот костюм чтобы быть смешным.)
+--------------------------32з------------------------+
| +-----------------------------------+
| +---АО---+ +-------------Е-------------+
| | | | | | | |
^з ол жейде.=нi кYл.=кi.=лi бол.=у Yшiн ки.=ген ед^=н^з.
А0(ол, жейдеш)лЕ(^лкт болу ушт, киген едщ1з)л01У(жейдеш, киген ед1ц1з)к$2&(с1з, киген
ед1ц1з)
3.2. Оз ол жейдеш эзш ушш киген ед1щз. (Вы надели этот костюм для шутки.)
+------------------32з-----------------+
| +-----------о^----------+
| +---АО---+ +-----------Е---------+
| | | | | | |
^з ол жейде.=нi эз^ Yшiн ки.=ген ед^=н^з.
А0(ол, жейдеш)лЕ(эзт Yшiн, киген едщ1з)л01У(жейдеш, киген ед1ц1з)к$2&(с1з, киген ед1ц1з)
3.3. Оз уст1щзге киген сол жейдемен кулкш1 болар едщ1з. (Вы были смешным одевая этот костюм.)
+-------------------------------32з-----------------------------+
I | I I I I I |
С1з Ycт-=1Ц-=1з.=ге ки.=ген сол жейде.=мен ^лк1.=л1 бол.=ар ед1.=ц1з. ?(аз, киген)А?(устщзге, киген)А А$(сол, жейдемен)А?(жейдемен, кулкт)А?(кулкт, болар ед^з) $2и(аз, кyлкiлi болар ед^з) А0(ол, х!.=м) А0(сол, х\.=мен)
Логические формулы
х1 = жейде
Я = А0(ол, хх. = т) (р2 = А0(сол, хх. = мен)
Я ^ Р2
4.1. Джон не айтарын бшмей, токтап калды. (Джон остановился, не зная, что сказать.)
+---------------------бзб-------------------+
| +------------+----------+ +---?-- +
| | | | | |
Джон не айт.=ар.=ын б^.=ме.=й, ток;та.=п к;ал.=ды. $3&(Джон, тоцтап цалды)АЕ(не айтарын бшмей, тоцтап цалды)А?(тоцтап цалды)
100
4.2. Джон не айтарын бшмегенджтен токтап калды. (Джон остановился, потому что не знал, что сказать.) (бшмеген(не знал)+джтен(потому что))
+---------------------------бзб-----------------------+
| +--------------Е-----------+
| +------------+----------+ +----------------+
I I I I I I I
Джон не айт.=ар.=ын бiл .=ме .=ген .=дiк .=тен токта.=п кал.=ды. 83&(Джон, тоцтап цалды)лЕ(не айтарын бшмегендттен, тоцтап цалды)л?(тоцтап цалды)
4.3. Джон айтары жоктыктан токтап калды. (смысловой перевод, здесь нет слово потому что) (Джон остановился, потому что нечего сказать.)
+------------------бзб--------------------+
I +------------+ +------+
I I I I I
Джон айт.=ар.=ы жок.=тык.=тан токта.=п кал.=ды. 83&(Джон, тоцтап цалды)лЕ(айтары жоцтыцтан, тоцтап цалды)л?(тоцтап цалды) 1 (не, х1)А1(х1, бшмегендттен)^(х1, жоцтыцтан)
Логические формулы
х1 = айтар
Р = 1 (не, х1. = ын) л1(х1. = ын, бглмегенКтеР} р2 = (х1. = ы, жоцтыцтан)
Я>1 = Р 2
5.1. Асан келу1 мумк1н. (Асан может прийти.)
+------бзб-----+
I +-?-+
I I I
Асан кел.=у.^ мум^н. S3s(Асан, келуг мYмкiн)A?(келуi, мYмкiн)
5.2а. Асанныц келу1 мумкш. (Ожидается, что Асан придет.)
I +-?-+
I I I
Асан.=ньщ кел.=у.^ мYмкiн. Е(Асанныц, келуi мYмкiн)A?(келуi, мYмкiн)
5.3а. Асанныц келу1 эбден мумк1н. (Асан, скорее всего, придет.) (прямой перевод-Вполне возможно приезд Асана)
+----------е---------+
I +----?----+
+-----?----+ +--1--+
I I I I
Асан.=ныц кел.=у.^ эбден мYмкiн.
Е(Асанныц, келуг эбден мYмкiн)A?(Асанныц, келу1)А?(келу1, эбден мYмкiн) Б35(х1, х2)^Е(х1 .=ныц, х2)^Е(х1 .=ныц, х2) А1(эбден, х2)
Логические формулы
х! — Асан х 2 — мYмкiн
х3 —эбден
р1 — Б 35(х1,х2) р2 — Е (х1. — ныц , х2)
(р3 — Е(х1. — ныц, х2) Л 1( эбден, х 2) р ^р2
6.1. Ол Абай елецдерш унатады. (Ей нравятся стихи Абая.)
+-------------бзб-------------+
+----+-----АО------+----ОУ----+
I I I I
Ол Абай елец.=дер.=iн ¥на.=т.=ады.
Б35(Ол, унатады)АЛО(Абай, елецдерш)лО¥(елецдерш, унатады)
6.2. Ол Абай жазFан елецдерд1 унатады. (Ей нравятся стихи написанные Абаем.)
+-------------------бзб-----------------+
+---+----б-----+------АО-----+----ОУ----+
I I I I I
Ол Абай жаз.=ган елец.=дер.=дi ¥на.=т.=ады.
Б35(Ол, унатады)А?(Абай, жазган)лЛО(жалган, влецдердi)ЛOV(влецдердi, унатады)
3.3. Ол Абайдыц елецдерш унатады. (Ей нравятся стихи Абая.)
+----------------бзб-----------------+
+----+-----+------АО-----+-----ОУ----+
I I I I I
Ол Абай.=дыц елец .=дер .^н ¥на.=т.=ады.
Б35(Ол, унатады)лЛО (Абайдыц, влецдерiн)лOV(влецдерiн, унатады)
ЛО(х1, х2 .=ерт) ^ Б(х1, х3 .=ган, х2.=дерд^ ^ ЛО(х1 .=ныц, (х2 .=дерт)
Логические формулы
х 1 — Абай х 2 — елец
хз —жазган(произвольный подходящий по смыслу глагол) р1 — ЛО (х1, х 2. — дер1н )
р2 — Б(х1,х3. — ган х2. — дерд1 )
(3 — ЛО(х1,. —ныц,. — дерт)
( ^(з
7.1a. Асан бугш Алматы^а кел1п жетед1 деп болжаймыз. (Ожидается, что Асан приедет сегодня в Алматы.)
+-------------------------S3s----------------------+
| +----------------------E---------------------+
| | +-----------------E---------------+
I I I I I I I
Асан 6yriH Алматы.=га кел.=iп жет.=едi деп болжа.=й.=мыз. S3s(AcaH, келт жетедi деп болжаймыз)лE(бYгш, келт жетедi деп болжаймыз)лЕ(Алматыга, келт жетедi деп болжаймыз)
7.2. Асанды бугш Алматы^а келед1 деп болжаймыз. (Будем ожидать(прогнозируем), что Асан приедет сегодня в Алматы.)
+---------------------OV--------------------+
I +------------------E---------------------+
I I +---------------E----------------+
I I I I I I I
Асан.=ды 6yriH Алматы.=га кел.=е.=дi деп болжа.=й.=мыз. S3s(Асанды, келедi деп болжаймыз)лE(бYгш, келедi деп болжаймыз)лЕ(Алматыга, келедi деп болжаймыз)
7.3. Асанды Алматы^а келед1 деп болжаймыз. (Ожидаем (прямой перевод-прогнозируем) приезд Асана в Алматы.)
I +------------E-------------+
I I I I I
Асан.=ды Алматы.=га кел.=е.=дi деп болжа.=й.=мыз. OV (Асанды, келедi деп болдаймыз)лЕ(Алматыга, келедi деп болжаймыз) S3s(xj, x2)^OV(xj .=ды, x2)
Логические формулы
x1 = Асан
x2 = болжаймыз Ф1 = S 3s(xl5 x2) ф2 = OV(x1. = ды, x2)
8.1a. Ол келген1не куанышты болды. (Он был счастлив приехать.)
+---------------S3s-------------+
I +---------OV-------+
I I I I
Ол кел.=ген.=i .=не куаныш.=ты бол.=ды. S3s (ол, цуанышты болды)лOV(келгенше, цуанышты болды)
8.2. Оныц келгеш ез1н куанышты етть (Его приход сделал его самого счастливым.)
+------------Б----------+
+--------АО--------+ |
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.