Математическое моделирование и программная реализация семантического преобразования поисковых запросов тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Кириллов, Антон Владимирович
- Специальность ВАК РФ05.13.18
- Количество страниц 251
Оглавление диссертации кандидат технических наук Кириллов, Антон Владимирович
СОДЕРЖАНИЕ
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Глава 1. Основные подходы к поиску информации в электронных документах
1.1. Традиционные поисковые системы
1.1.1 Формальные компоненты поисковой системы
1.1.2 Логический метод определения множества претендентов
1.1.3 Проблема ранжирования: переход от г к т
1.1.3.1 Логический метод ранжирования
1.1.3.2 Ранжирование на основе вектора документа
1.1.3.3 Реалистичные модели ранжирования
1.1.4 Оценка качества документа на основе цитирования: алгоритм PageRank
1.1.4.1 Вычисление рейтинга страницы по алгоритму Ра§еЯапк
1.1.4.2 Наглядное обоснование
1.2. Семантический поиск
1.3. Естественно-языковые поисковые системы
1.3.1 Обзор зарубежных естественно-языковых поисковых систем
1.3.2 Обзор отечественных естественно-языковых поисковых систем
1.4. Постановка задачи диссертационного исследования
1.5. Выводы по главе 1
Глава 2. Формализация и алгоритмизация обработки аспектно-ориентированных запросов
2.1 Состояние исследований по семантической обработке вопросов на естественном языке
2.2 Базовые принципы нового подхода к семантически-ориентированному поиску информации в Интернете
2.3 Разработка принципов семантического расширения аспектно-ориентированных запросов
2.3.1 Центральные идеи предлагаемого подхода
2.3.2 Первичные информационные единицы для разработки алгоритма анализа аспектно-ориентированных запросов
2.4 Краткая характеристика теории К-представлений
2.5 Разработка математической модели проблемно-ориентированной системы первичных единиц концептуального уровня
2.6 Разработка плана алгоритма построения семантического расширения аспектно-ориентированного поискового запроса
2.7 Анализ структуры входных запросов аспектно-ориентированного типа
2.8 Формализация предположений о входном языке аспектно-ориентированных поисковых запросов
2.9 Основные идеи разработки алгоритмов определения типа и объектов интереса входных запросов
2.10 Алгоритмы определения типа аспектно-ориентированного вопроса и его объектов интереса
2.10.1 Алгоритм определения типа запроса
2.10.2 Алгоритм определения объектов интереса запроса
2.11 Разработка алгоритма построения семантического расширения аспектно-ориентированного поискового запроса
2.12 Обсуждение разработанных алгоритмов
2.13 Выводы по главе 2
Глава 3. Разработка алгоритмов семантического преобразования обобщенных запросов на основе математических моделей компонентов базы знаний
3.1. Разработка принципов семантического расширения обобщенных запросов достижения целей
3.2. Формальная модель базы знаний для представления целей
3.3. Анализ структуры запросов достижения целей
3.4. Разработка алгоритма определения типа вопросов достижения целей и их объектов интереса
3.5. Метод преобразования вопросов достижения целей к расширенному виду
3.6. Разработка принципов семантического расширения обобщенных запросов об изменениях состава множеств
3.7. Разработка формальной модели базы знаний для описания изменений состава множеств
3.8. Анализ структуры запросов об изменениях составов множеств
3.9. Разработка алгоритма определения типа запросов об изменениях составов множеств и их объектов интереса
3.10. Метод построения семантического расширения вопросов об изменениях в составе множеств
3.11. Разработка итоговой модели базы знаний для поддержки поиска
3.12. Выводы по главе 3
Глава 4. Программная реализация системы семантически-ориентированного поиска на основе предложенного метода и исследование полученных результатов
4.1 Разработка и реализация архитектуры программного комплекса AOS Engine
4.1.1 Разработка концептуальной архитектуры программного комплекса
4.1.2 Разработка компонентной архитектуры программного комплекса
4.1.2.1 Общая архитектура программного комплекса и выбор платформы реализации
4.1.2.2 Лингвистическая база знаний
4.1.2.3 Аспектно-ориентированная база знаний
4.1.2.4 Подсистема AOS Engine
4.1.2.5 Выбор платформы реализации
4.2 Разработка итогового алгоритма построения расширенного множества запросов и ранжирования результатов
4.3 Исследование полученных результатов
4.4 Выводы по главе 4
Заключение
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
Приложение 1. Структура и примеры входных аспектно-ориентированных
запросов
Приложение 2. Система продукций разработанной КС-грамматики
Приложение 3. Полная таблица записей словарей, используемых для анализа
структуры входных запросов
Приложение 4. Алгоритмы
Приложение 5. Анализ структуры понятий, являющихся множествами
преобразованных запросов
Приложение 7. Экранные формы программных компонентов
Приложение 8. Данные для баз знаний
Приложение 9. Акты внедрения
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр2003 год, кандидат технических наук Крошилин, Александр Викторович
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах2007 год, кандидат технических наук Люстиг, Инга Владимировна
Исследование и разработка методов и моделей поиска адекватной информации в полнотекстовых базах данных2004 год, кандидат технических наук Андриенко, Евгений Владимирович
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Введение диссертации (часть автореферата) на тему «Математическое моделирование и программная реализация семантического преобразования поисковых запросов»
ВВЕДЕНИЕ
Актуальность темы исследования. В настоящее время параллельно с ростом объемов информации в Интернете происходит разработка новых и совершенствование существующих подходов к ее поиску. Все большую актуальность приобретают средства семантического поиска, под которыми понимаются системы, принимающие на вход некоторый запрос, обрабатывающие его с использованием рассуждений над специфичной базой знаний и возвращающие совместимые результаты. Входным запросом может являться, например, вопрос на естественном языке (ЕЯ), представление вопроса при помощи триплетов, графическое представление, набор ключевых слов, отдельные фразы и т.д. В роли базы знаний могут выступать онтологии, аннотированные массивы текста, текстовые документы, Веб, XML- документы, RDF документы, HTML документы и т.д. В нашей стране значительный вклад в развитие семантического поиска внесли Э.Э. Гасанов, А.Е. Ермаков, А.Н. Королев, И.П. Кузнецов, Д.Г. Лахути, H.H. Леонтьева, М.Г. Мальковский, А.Г. Мацкевич, A.C. Нариньяни, И. С. Некрестьянов, Г.С. Осипов, И.В. Сегалович, A.B. Сокирко, Н.В. Перцов, H.H. Перцова, Э.В. Попов, В.Ш. Рубашкин, И.А. Тихомиров, В.О. Толчеев, В.А. Тузов, В.А. Фомичёв, Н.П. Харин, В.Ф. Хорошевский и другие учёные.
Однако, несмотря на большое разнообразие методов и подходов к семантическому поиску, у существующих поисковых систем имеется ряд недостатков. К ним можно отнести отсутствие семантического описания электронных документов (в большинстве случаев), высокую трудоемкость алгоритмизации автоматизированного создания данного описания, большой разрыв между технологиями семантического веба и гипертекстового поиска (развиваются параллельно и независимо друг от друга), недостаточные интеллектуальные возможности анализаторов естественно-языковых запросов вопросно-ответных систем.
Объект исследования: методы семантической обработки поисковыми системами естественно-языковых запросов.
Предмет исследования: методы применения формальных средств для семантического анализа и преобразования поисковых запросов на естественном языке, проектирования лингвистической базы знаний, а также баз знаний для поддержки преобразования запросов и поиска.
Цель исследования: разработать такой метод семантического преобразования важных с практической точки зрения естественно-языковых поисковых запросов в форму (множество производных запросов), позволяющую традиционным системам поиска обнаружить наиболее релевантные результаты, который предусматривает применение формальных средств для описания (а) системы концептуальных единиц первичного уровня, (б) логической структуры базы знаний для поддержки преобразования запросов и поиска.
Задачи исследования:
1.Провести анализ состояния исследований по семантической обработке поисковыми системами вопросов на естественном языке (ЕЯ) с целью выявления классов вопросов, недостаточно проработанных в научной литературе и имеющих большую практическую значимость для систем естественно-языкового поиска.
2. По результатам проведенного анализа разработать метод семантического преобразования, который бы позволил трансформировать поданный на вход естественно-языковой запрос в форму (множество производных запросов), позволяющую повысить релевантность документов, выдаваемых системами поиска по ключевым словам.
3. Выбрать наиболее соответствующую предложенному методу методологическую основу исследования для построения математических моделей компонентов базы знаний, необходимых для семантического преобразования естественно-языковых запросов.
4. Построить математические модели компонентов базы знаний, необходимых для семантического преобразования поисковых запросов для выбранных типов вопросов. Построить итоговую математическую модель для поддержки
семантически-ориентированного преобразования и поиска. 5. На основе предложенных моделей разработать алгоритмы анализа и преобразования поисковых запросов в форму (множество производных запросов), позволяющую повысить релевантность документов, выдаваемых системами поиска по ключевым словам. Разработать алгоритм ранжирования результатов по степени релевантности поисковому запросу. 6 . Разработать программный комплекс, реализующий предложенный метод семантического преобразования поисковых запросов.
7. Провести тестирование разработанного программного комплекса и проанализировать полученные результаты.
Теоретико-методологическую основу исследования составляют теория алгоритмов, теория графов, теория контекстно-свободных грамматик, теория К-представлений, методы теоретического программирования и Веб программирования.
Достоверность и обоснованность научных положений подтверждается корректным применением математического аппарата теории К-представлений, теории контекстно-свободных грамматик, теории алгоритмов и результатами тестирования разработанной компьютерной программы.
В ходе исследования была решена научная задача создания такого метода семантического преобразования естественно-языковых запросов в расширенную форму, позволяющую традиционным поисковым системам получать более релевантные результаты, который предусматривает применение формальных средств для описания (а) системы концептуальных единиц первичного уровня, (б) логической структуры базы знаний для поддержки преобразования запросов и поиска, (в) шаблонов семантических трансформаций, необходимых для преобразования поисковых запросов.
Теоретическая значимость исследования. Впервые предложен базирующийся на математической модели подсистемы базы знаний метод семантического преобразования ЕЯ-запросов поисковых систем (ПС) в форму (множество производных запросов), позволяющую повысить релевантность
результатов работы систем поиска по ключевым словам.
Практическая значимость исследования состоит в том, что предложен новый подход к анализу и преобразованию ЕЯ-запросов ПС в такую форму (множество производных запросов), которая позволяет повысить релевантность документов, получаемых от традиционных ПС. Данный подход базируется на построении математических моделей семантических объектов, которые используются алгоритмами построения множества преобразованных запросов. Разработанные алгоритмы позволяют определять типы и подтипы ЕЯ-запросов поисковой системы, а также выделять объекты интереса запросов. На основе разработанной модели базы знаний для поддержки преобразования запросов и поиска в зависимости от типа запроса и выделенных объектов интереса происходит построение множества семантически преобразованных запросов, которые подаются на вход традиционной ПС. Разработанный алгоритм ранжирования результатов поисковой выдачи позволяет повысить релевантность результатов по сравнению с системами поиска по ключевым словам. Математический подход, базирующейся на теории К-представлений, является предметно независимым и может быть использован при проектировании базы знаний для поддержки преобразования запросов и поиска в разных предметных областях. Важным аспектом практической ценности разработанного комплекса является возможность его интеграции с любым количеством поисковых систем, а также возможность управления информацией в базе знаний с целью повышения соответствия результатов поиска информационной потребности пользовате-лей, что не требует внесения изменений в разработанные алгоритмы.
Полученные в диссертации результаты использованы в научных и проектных исследованиях компании «Вокском - Голосовые Телекоммуникации» (Москва), а также в лекционных и лабораторных занятиях по дисциплине «Проектирование лингвистических процессоров» на кафедре «Информационные технологии» «МАТИ» - Российского государственного технологического университета им. К.Э. Циолковского.
Основные положения, выносимые на защиту:
1. Разработан комплекс математических моделей семантических и семантико-синтаксических объектов, предназначенных для расширения пользовательских поисковых запросов:
1.1. Математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня, используемой для построения множества преобразованных аспектно-ориентированных запросов.
1.2. Математическая модель концептуальной базы целей, используемая для преобразования запросов о достижении целей.
1.3. Математическая модель базы знаний об изменениях множеств, используемой для поддержки преобразования запросов об изменениях множеств.
1.4. Итоговая математическая модель базы знаний для поддержки семантического преобразования запросов и поиска.
2. Разработан комплекс из двух алгоритмов, обеспечивающих анализ поисковых запросов на соответствие рассматриваемым типам и подтипам поисковых запросов, а также позволяющий определить значимые объекты интереса поисковых запросов.
3. Разработаны метод и алгоритм построения множества преобразованных запросов.
4. Разработан программный комплекс, реализующий предлагаемый метод семантического преобразования поисковых запросов и использующий разработанные алгоритмы. Разработанный программный комплекс был успешно развернут по адресу http://www.aosengine.ru.
5. Разработана КС-грамматика в форме Бэкуса-Наура для описания входного языка поисковых запросов пользователей.
Апробация и внедрение результатов исследования. Основные результаты работы представлялись и получили одобрение на научно-практической конференции студентов и аспирантов «Информационные технологии в экономике, бизнесе, управлении» (ГУ-ВШЭ, 2010), на IX
Международной научно-технической конференции «Новые информационные технологии и системы» (НИТиС-2010), на молодежной научной конференции «Гагаринские чтения» в МАТИ (2011) и на научном семинаре «Математические модели информационных технологий» Отделения прикладной математики и информатики факультета бизнес-информатики НИУ ВШЭ в 2012 году. По теме диссертационной работы опубликовано 7 научных работ, включая две статьи в изданиях из списка изданий, рекомендованных ВАК РФ. Разработанный в диссертации программный комплекс был развернут по адресу http://www.aosengine.ru/.
Структура диссертации: основной текст диссертации изложен на 156 страницах, состоит из введения, четырёх глав, заключения, списка литературы из 100 наименований и девяти приложений.
Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи работы, определены ее теоретическая и практическая значимость, приведены сведения об апробации и внедрении работы, о структуре диссертации и о публикациях по теме диссертации.
В первой главе рассматриваются системы поиска по ключевым словам -логика, применяемая в системах такого класса, и наиболее распространенные методы ранжирования результатов поиска. Проводится обзор и классификация систем, реализующих принципы семантического поиска. Значительное внимание уделяется описанию принципов разработки естественно-языковых поисковых систем и анализу характеристик основных представителей систем данного класса. Формулируется задача диссертационного исследования.
Во второй главе рассматриваются три класса важных для приложений, но недостаточно исследованных в научных публикациях естественно-языковых запросов. Предлагается новый подход к семантически-ориентированному поиску информации в Интернете, основанный на семантическом преобразовании входного запроса в форму, позволяющую традиционной поисковой системе найти более релевантные (семантически) документы. Для каждого из выделенных классов запросов предлагаются принципы
семантического преобразования.
Анализируется структура запросов аспектно-ориентированного типа и разрабатывается математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня с целью создания основы для разработки алгоритмов семантического преобразования запросов данного типа.
Предлагается новый метод формального описания структуры входных текстов анализатора аспектно-ориентированных запросов рассматриваемых видов на основе аппарата контекстно-свободных грамматик.
Разрабатываются план алгоритма семантического преобразования аспектно-ориентированных запросов и вспомогательный структурированный алгоритм определения типа и объектов интереса запросов данного вида.
В третьей главе анализируются запросы достижения целей, строится математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов о достижении/недостижении цели. Для этого определен класс формальных объектов, названных концептуальными базами целей (к.б.ц.). В отличие от понятия концептуального базиса, введенного в теории К-представлений В.А.Фомичева, концептуальные базы целей включают формальные представления целей интеллектуальных систем (в том числе организаций), являющиеся выражениями СК-языков (стандартных концептуальных языков).
Предлагается математическое описание многообразия шаблонов семантической трансформации, порожденных рассматриваемой концептуальной базой целей и множеством символов, интерпретируемых как значения морфологических признаков словоформ. В доступной научной литературе отсутствует прототип понятия "шаблон семантической трансформации".
Разрабатывается метод преобразования вопросов достижения целей в множество производных запросов на основе концептуальной базы целей и набора шаблонов семантической трансформации. Преимуществом метода является компактность представления данных, позволяющих построить семантическое расширение запроса о достижении/недостижении цели.
Предлагаются метод и алгоритм построения семантического расширения вопросов об изменениях множеств. Строится математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов об изменениях множеств. Для этого определен класс формальных объектов, названных базами знаний об изменениях множеств. В отличие от понятия концептуального базиса, введенного в теории К-представлений В.А.Фомичева, базы знаний об изменениях множеств включают формальные представления составных элементов множеств и индикаторов изменений состава множеств.
В четвертой главе рассматривается логическая архитектура разрабатываемого программного комплекса и формулируются основные требования к программной реализации. На основании разработанной логической архитектуры и требований проектируется компонентная архитектура решения, состоящего из трех основных подсистем: лингвистической базы знаний, аспектно-ориентированной базы знаний и подсистемы анализа и расширения запросов - AOS Engine.
Далее в главе разрабатывается итоговый алгоритм построения расширенного множества запросов для любого из рассмотренных типов и подтипов, основанный на предложенном методе.
Разрабатываются требования к компонентам и подсистемам программного комплекса, на этой основе выбираются платформа реализации и библиотеки, удовлетворяющие сформулированным требованиям.
Проводится анализ работоспособности разработанных алгоритмов и их тестирование. Также анализируются результаты работы поисковой системы, реализующей предложенный метод преобразования, поиска и ранжирования.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах2007 год, кандидат технических наук Слюсарь, Валентин Викторович
Модели и методы интеграции структурированных текстовых описаний на основе онтологий2009 год, кандидат физико-математических наук Иванов, Владимир Владимирович
Теоретические основы, методы и алгоритмы формирования знаний о синонимии для задач анализа и сжатия текстовой информации2012 год, доктор физико-математических наук Михайлов, Дмитрий Владимирович
Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП2012 год, кандидат технических наук Калиниченко, Алла Викторовна
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Кириллов, Антон Владимирович
3.12. Выводы по главе 3
В данной главе получены следующие основные результаты:
1. Построена математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов о достижении/недостижении цели. Для этого определен класс формальных объектов, названных концептуальными базами целей (к.б.ц.). В отличие от понятия концептуального базиса, введенного в теории К-представлений В.А.Фомичева, концептуальные базы целей включают формальные представления целей интеллектуальных систем (в том числе организаций), являющиеся выражениями СК-языков (стандартных концептуальных языков).
2. Предложено математическое описание многообразия шаблонов семантической трансформации, порожденных рассматриваемыми концептуальной базой целей и множеством символов, интерпретируемых как значения морфологических признаков словоформ. В доступной научной литературе отсутствует прототип понятия "шаблон семантической трансформации".
3. Разработан метод преобразования вопросов достижения целей в множество производных запросов на основе концептуальной базы целей и набора шаблонов семантической трансформации. Преимуществом этого метода является компактность представления данных, позволяющих построить семантическое расширение запроса о достижении/ недостижении целей.
4. Построена математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов об изменениях в составе множеств. Для этого определен класс формальных объектов, названных базами знаний об изменениях множеств. В отличие от понятия концептуального базиса, введенного в теории К-представлений, базы знаний об изменениях множеств включают формальные описания структуры множеств объектов (в том числе множеств, относящихся к организациям) и индикаторов изменений состава множеств.
5. Разработан метод преобразования вопросов об изменениях состава множеств в семейство производных запросов на основе базы знаний об изменениях множеств. Преимуществом этого метода является компактность представления данных, позволяющих построить семантическое расширение запросов такого типа.
6. Построена итоговая математическая модель базы знаний для поддержки семантического преобразования аспектно-ориентированных запросов, запросов о достижении цели и запросов об изменениях состава множеств.
Глава 4. Программная реализация системы семантически-ориентированного поиска на основе предложенного метода и исследование полученных результатов
Рассматривается логическая архитектура разработанного программного комплекса и формулируются основные требования к программной реализации. На основе разработанной логической архитектуры и требований проектируется компонентная архитектура решения, состоящего из трех основных подсистем: лингвистической базы знаний, аспектно-ориентирован-ной базы знаний и подсистемы анализа и расширения запросов - AOS Engine.
Далее в главе разрабатывается итоговый алгоритм построения расширенного множества запросов для любого из рассмотренных типов и подтипов, основанный на предложенном методе.
Разрабатываются требования к компонентам и подсистемам программного комплекса, на основании которых выбираются платформа реализации и библиотеки, удовлетворяющие сформулированным требованиям.
Проводится анализ работоспособности разработанных алгоритмов и их тестирование. Также анализируются результаты работы поисковой системы, реализующей предложенный метод преобразования, поиска и ранжирования.
4.1 Разработка и реализация архитектуры программного комплекса AOS Engine
4.1.1 Разработка концептуальной архитектуры программного комплекса
Основная идея, лежащая в основе архитектуры программного комплекса, реализующего предложенный подход, заключается в максимальной доступности и независимости компонентов, а также возможности их независимого использования. Рассмотрим процесс преобразования и анализа поискового запроса с точки зрения используемых в данном процессе логических компонентов (Рисунок 4.1).
Рисунок 4.1. Процесс преобразования запроса и поиска документов с точки зрения логических компонентов.
Поисковый запрос первоначально поступает на вход анализатора запросов. В анализаторе запросов реализованы описанные в главах 2 и 3 алгоритмы определения типа и объектов интереса запроса. Для приведения слов запроса в стем-форму используется компонент стемминга, содержащий в себе логику и библиотеки для определения нормальной формы слов. На выходе из анализатора запросов создается расширенная форма запроса, содержащая тип, объекты интереса и дополнительные объекты (например, указатель временного периода).
Проанализированный запрос поступает на вход компонента семантического расширения. В зависимости от типа запроса при построении результирующего множества запросов используются различные источники информации. Для аспектно-ориентированных запросов используется компонент ЛБЗ (Лингвистическая База Знаний), позволяющий определять концептуальное окружение характеристических объектов запросов, а также компонент АОБЗ(Аспектно-Ориентированная База Знаний), предоставляющий информацию об аспектах различных понятий. Для вопросов достижения целей используется база целей, содержащая в себе информацию о декомпозиции целей объекта интереса запроса, а также правила трансформации для построения множества преобразованных запросов. Для запросов об изменениях состава множеств используется база множеств (база знаний об изменениях множеств), содержащая в себе информацию о компонентах объекта интереса запроса и индикаторы, позволяющие найти факты об их изменениях.
Множество расширенных запросов поступает на вход компонента взаимодействия с поисковой системой, который обеспечивает выборку результирующих документов из заданной поисковой системы, также возможно использование нескольких поисковых систем. В данном компоненте происходит соединение с той или иной системой поиска по ключевым словам, передача в нее каждого из поданных на вход запросов и агрегация полученных документов.
В компоненте анализа результирующих документов происходит обработка полученных из компонента взаимодействия с поисковой системой документов и производится их ранжирование по степени семантической релевантности первоначальному запросу. При ранжировании результатов поиска для аспектно-ориентированных запросов используется компонент АОБЗ (Аспектно-Ориентированная База Знаний), содержащий в себе информацию об аспектах объектах интереса поисковых запросов. При ранжировании документов используется упрощенный алгоритм, строящий объединение множеств возвращенных документов по каждому из запросов, подсчитывая повторные вхождения одного и того же документа. Также учитывается наличие в сниппете объекта интереса поискового запроса, определенного на этапе анализа. После обработки всех возвращенных документов те из них, которые набрали наибольший рейтинг, возвращаются пользователю.
Рассмотрим ключевые логические компоненты и опишем их назначение в сводной таблице (Таблица 4.1).
Заключение
Задачи исследования, обусловленные целью работы и поставленные во введении, были успешно решены. В итоге проведенного исследования лично автором были получены следующие основные результаты:
1. Исследованы три класса важных для приложений, но недостаточно изученных в научных публикациях естественно-языковых запросов: (а) аспектно-ориентированные запросы, (в) запросы, касающиеся достижения или недостижения целей интеллектуальных систем (в том числе организаций), (в) запросы о возможных изменениях состава определенных множеств объектов (например, совета директоров конкретной фирмы).
2. На основе анализа и типизации аспектно-ориентированных запросов предложен набор первичных информационных единиц (реляционных символов) для разработки алгоритма анализа аспектно-ориентированных запросов.
3. Построена математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня, используемых преобразователем запросов. С этой целью введены формальные понятия аспектно-ориентированной сортовой системы, размеченной концептуально-объектной системы и расширенного концептуального базиса. По сравнению с предложенным В. А. Фомичевым в теории К-представлений понятием концептуального базиса введенное понятие расширенного концептуального базиса позволяет (а) учитывать множество аспектов, связанных с тем или иным понятием, т.е. учитывать набор основных характеристик объектов, квалифицируемых определенным понятием; (б) строить концептуальное окружение того или иного понятия при помощи функции «детерминант концептуального окружения».
4. На основе математической модели проблемно-ориентированной системы первичных единиц концептуального уровня (задающей класс расширенных концептуальных базисов) был разработан оригинальный метод анализа и семантического расширения аспектно-ориентированных запросов.
5. Предложен новый метод формального описания структуры входных текстов анализатора аспектно-ориентированных естественно-языковых вопросов на основе аппарата контекстно-свободных грамматик.
6. Разработаны алгоритмы определения типа и объектов интереса аспектно-ориентированных поисковых запросов, использующие ряд подалгоритмов обработки специфических типов данных запросов.
7. Разработаны общие принципы функционирования целевого алгоритма построения множества семантически преобразованных поисковых запросов.
8. Построена математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов о достижении/недостижении цели. Для этого определен класс формальных объектов, названных концептуальными базами целей (к.б.ц.). В отличие от понятия концептуального базиса, введенного в теории К-представлений, концептуальные базы целей включают формальные представления целей интеллектуальных систем (в том числе организаций), являющиеся выражениями СК-языков (стандартных концептуальных языков).
9. Предложено математическое описание многообразия шаблонов семантической трансформации, порожденных рассматриваемыми концептуальной базой целей и множеством символов, интерпретируемых как значения морфологических признаков словоформ. В доступной научной литературе отсутствует прототип понятия "шаблон семантической трансформации".
10. Разработан метод преобразования вопросов достижения целей в множество производных запросов на основе концептуальной базы целей и набора шаблонов семантической трансформации. Преимуществом этого метода является компактность представления данных, позволяющих построить семантическое расширение запроса о достижении/ недостижении целей.
11. Построена математическая модель компонента базы знаний поисковой системы, необходимого для семантического преобразования вопросов об изменениях в составе множеств. Для этого определен класс формальных объектов, названных базами знаний об изменениях множеств. В отличие от понятия концептуального базиса, введенного в теории К-представлений, базы знаний об изменениях множеств включают формальные представления составляющих элементов множеств и индикаторов изменения состава множеств.
12. Разработан метод преобразования вопросов об изменениях состава множеств в множество производных запросов на основе базы знаний об изменениях множеств. Преимуществом этого метода является компактность представления данных, позволяющих построить семантическое расширение запросов такого типа, и независимость формы представления от предметной области.
13. Спроектирован и разработан программный комплекс AOS Engine, реализующий предложенный метод семантического преобразования поисковых запросов. Проведенное тестирование и анализ результатов поиска демонстрируют, во-первых, работоспособность алгоритмов определения типа и объектов интереса запросов, а во-вторых, действительное наличие детализаций запросов в электронных документах, содержащих информацию по первоначальному запросу.
В ходе исследования была решена научная задача создания метода семантического преобразования естественно-языковых запросов в форму (множество преобразованных запросов), позволяющую традиционным поисковым системам получать более релевантные результаты, который предусматривает применение формальных средств для описания (а) системы первичных единиц концептуального уровня, (б) логической структуры базы знаний для поддержки семантического преобразования запросов и поиска, (в) шаблонов семантических трансформаций, необходимых для преобразования поисковых запросов.
Список литературы диссертационного исследования кандидат технических наук Кириллов, Антон Владимирович, 2012 год
СПИСОК ЛИТЕРАТУРЫ
1 Башмаков И.А., Рабинович П.Д. Анализ моделей семантических сетей как
математического аппарата представления знаний об учебном материале // Справочник. Инженерный журнал. - 2002 - №7- С.55-60.
2 Ермаков А.Е., Плешко В.В. Обработка естественно-языковых запросов к
поисковой машине на основе их лингвистического анализа // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2009. - Москва, Наука, 2009.
3 Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц
русского синтаксиса. - М.: Наука, 1988 - 440 с.
4 Золотова Г.А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная
грамматика русского языка. Институт русского языка РАН им. В. В. Виноградова, М. 2004 - 544 с.
5 Кириллов A.B. Метод семантического преобразования обобщенных запросов
на основе базы целей // Бизнес-информатика, 2011. № 3. С. 16-24
6 Кириллов A.B. О новом подходе к концептуальному поиску информации в
интернете // Сборник трудов Международной молодежной научной конференции «XXXVII Гагаринские чтения», МАТИ, 2011. С. 11-13.
7 Кириллов A.B. Преодоление разрыва между семантическим и традиционным
поиском информации // Сборник трудов IX Международной научно-технической конференции «Новые информационные технологии и системы» (НИТиС-2010). 2010. С. 22-32.
8 Кириллов A.B., Фомичев В.А. О новом подходе к семантическому
преобразованию естественно-языковых запросов // Бизнес-информатика, Москва, 2011. № 1 (15). С. 19-26.
9 Люстиг И.В., Фомичев В.А. Принципы формального отображения семантики
лексических единиц, предложений и дискурсов в интеллектуальной поисковой системе Medsearch // Компьютерная лингвистика и интеллектуальные технологии. Труды Междунар. конф. Диалог'2004 (Верхневолжский, 2-7 июня 2004 г.). С. 431-435.
10 Методы семантического анализа системы Ask.Net. Режим доступа: http ://asknet.ru/technology .htm
11 Нуль-терминированные строки. Режим доступа: http://ru.wikipedia.org/wiki/Hyflb-TepMHHHpoBaHHaH_cTpoKa
12 Осипов Г.С. Построение моделей предметных областей. 4.1. Неднородные
семантические сети// Известия РАН. Техническая кибернетика, 1990, № 5, С. 32-45.
13 Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. - М.: Наука, Физматлит, 1997.
14 Осипов Г.С., Куршев Е.П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А.. Семантический поиск в среде Интернет. Препринт. Переславль-Залесский: ИПС РАН, 2003, 37 стр.
15 Осипов Г.С., Смирнов И.В., Тихомиров И.А. Реляционно-ситуационный метод поиска и анализа текстов и его приложения // Искусственный интеллект и принятие решений. 2008 / 02. С. 3 - 10.
16 Поляков П.Ю., Плешко В.В., Ермаков А.Е. RCO на РОМИП 2009. Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП'2009. (Петрозаводск, 16 сентября 2009г.) - Санкт-Петербург: НУ ЦСИ, 2009.
17Правиков A.A., Фомичев В.А. Разработка рекомендательной системы с естественно-языковым интерфейсом на основе математических моделей семантических объектов // Бизнес-информатика. Междисциплинарный научно-практический журнал ГУ-ВШЭ, Москва, 2010, № 4 (14). С. 3-11.
18 Стемминг. Режим доступа: http://ru.wikipedia.org/wiki/CTeMMHHr
19 Фомичев В.А Класс формальных языков и алгоритм для построения
семантических аннотаций Веб-документов // Вестник МГТУ имени Н.Э. Баумана. Сер. Приборостроение. 2005. № 3 (60). С. 73-86.
20 Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня // Информационные
технологии. 2002. № 10. С. 16-25.
21 Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть II. Система правил для построения семантических представлений фраз и сложных связных текстов // Информационные технологии. 2002. №11. С. 34-45.
22 Фомичев В.А. Математические основы представления содержания посланий компьютерных интеллектуальных агентов. ГУ-ВШЭ, издательство "ТЕИС", 2007.-176 с.
23 Фомичев В.А. Новый класс языков для представления содержания посланий компьютерных интеллектуальных агентов // Качество и ИЛИ (CALS)-технологии. - № 1. 2005. С. 34-39.
24 Фомичев В.А. Новый метод преобразования естественно-языковых текстов в семантические представления // Информационные технологии. 2005. № 10. С. 25-35.
25 Фомичев В.А. Понятие текстообразующей системы как компонент нового формального аппарата для проектирования лингвистических процессоров // Информационные технологии. - № 8. 2005. С. 22-27.
26 Фомичев В.А. Представление информации средствами К-исчислений. М., Московский институт электронного машиностроения (МИЭМ), 1988.- 60 с.
27 Фомичев В.А. Семантико-синтаксические анализаторы вопросо-ответных Интернет-систем нового поколения как инструмент повышения качества высшего образования // Качество. Инновации. Образование. 2005. № 1. С. 67-72.
28 Фомичев В.А. Стандартные К-языки как универсальный и гибкий инструмент формирования контрактов и протоколов переговоров в области электронной коммерции // Информационные технологии. 2005. № 3. С. 2629.
29 Фомичев В.А. Формализация проектирования лингвистических процессоров - М.: МАКС Пресс, 2005. - 368 с.
30 Фомичев В.А. Формализация структуры основных словарей лингвистической базы данных // Качество и ИЛИ (САЬ8)-технологии. - № 3. 2005. С. 30-38.
31 Форма Бэкуса-Наура. Режим доступа: http://m.wikipedia.org/wiki/^opMa_B3Kyca_—_Наура
32 Akbik A., Broth J. Wanderlust: extracting semantic relations from natural language text using dependency grammar patterns. Conference WWW2009, April 20-24, 2009, Madrid, Spain.
33 Apache Maven project homepage. Режим доступа: http://maven.apache.org/
34 Apache POI - the Java API for Microsoft documents. Режим доступа: http://poi.apache.org/
35 Apache Tomcat project homepage. Режим доступа: http://tomcat.apache.org/
36 ARQ - A SPARQL Processor for Jena. Режим доступа: http://openjena.org/ARQ/ 37Azevedo G., Oliveira A.. Control centers with open architectures.- IEEE
Computer Applications in Power, vol. 14, No. 4, Oct 2001, p. 27 — 32.
38 Berners-Lee Т., et al. RFC 3986. URI generic syntax. Режим доступа: http://tools.ietf.org/html/rfc3986
39 Bernstein A., Kaufmann E., Gohring A., Kiefer C. Querying ontologies: a
controlled english interface for end-users. In 4th International Semantic Web Conference (ISWC 2005), pages 112- 126, November 2005.
40 Bernstein A., Kaufmann E., Kaiser C.. Querying the semantic web with ginseng: a guided input natural language search engine. In 15th Workshop on Information Technology and Systems (WITS 2005), pages 45-50, December 2005.
41 Bhagdev R, Chapman S., Ciravegna F., Lanfranchi V., Petrelli D.. Hybrid search: effectively combining keywords and semantic searches. In The Semantic Web: Research and Applications, pages 554-568. Springer Berlin / Heidelberg, 2008.
42 Brin S., Page L. The anatomy of a large-scale hypertextual Web search engine.
In:Proceedings of the 7th International World Wide Web Conference, 1998.
43 сЗрО - JDBC3 Connection and Statement Pooling. Режим доступа: http://www.mchange.com/projects/c3p0/index.html
44 Cimiano P., Haase P., HeizmannJ., Mantel M. ORAKEL: A portable natural language interface to knowledge bases. March 1, 2007. Режим доступа: http ://www. smartweb-proj ect.org/V ortraege/orakel_tech.pdf
45 Corese: Conceptual REsource Search Engine. Режим доступа: http://www-sop.inria.fr/edelweiss/software/corese/
46 D'Aquin M., Baldassarre C., Gridinoc L., Angeletou S., Sabou M., Motta E. Characterizing knowledge on the semantic web with Watson. In EON, pages 110, 2007.
47Dali L., Rusu D., Fortuna B. Question answering based on semantic graphs. Conference WWW2009, April 20-24, 2009, Madrid, Spain.
48 Extensible Markup Language (XML) 1.0 (Fifth Edition). W3C recommendation, 26 November 2008. Режим доступа: http://www.w3.org/TR/REC-xml/
49 Feldmann К., Wolf W., Weber M. Development of an open, event-based and platform independent architecture for distributed and intelligent control systems. 2nd IEEE International Conference on Industrial Informatics, 2004. INDIN '04. 2004 24-26 June 2004, p. 560 - 566.
50 Fellbaum C., Miller G. WordNet. An electronic lexical database. Cambridge, MA: MIT Press; 1998. 422 p.
51 Fernandez M., Lopez V. Using TREC for cross-comparison between classic IR
and ontology-based search models at a Web scale. Conference WWW2009, April 20-24, 2009, Madrid, Spain.
52 Fomichov V. Mathematical models of natural-language-processing systems as cybernetic models of a new kind. Cybernetica (Belgium). 1992. V. XXXV . N. 1. P. 63-91.
53 Fomichov V.A. A mathematical model for describing structured items of conceptual level // Informatica (Slovenia). 1996. V. 20. N. 1. P. 5-32.
54 Fomichov V.A. A variant of a Universal Metagrammar of Conceptual Structures. Algebraic systems of conceptual syntax // In A. Nijholt, G. Scollo, R. Steetskamp (eds.), Algebraic Methods in Language Processing. Proc. of the Tenth Twente Workshop on Language Technology joint with First AM AST Workshop on
Language Processing, Univ. of Twente, Enschede, The Netherlands, Dec. 1995. P. 195-210.
55 Fomichov V.A. An ontological mathematical framework for electronic commerce and semantically-structured Web // Y.Zhang, V.A.Fomichov, and A.P.Zeleznikar (Eds.), Special Issue on Database, Web, and Cooperative Systems. Informática. An Intern. J. of Computing and Informatics (Slovenia, Europe). 2000. Vol. 24. No. 1. - P. 39-49.
56 Fomichov V.A. Integral Formal Semantics and the design of legal full-text databases // Cybernetica (Belgium). 1994. V. XXXVII. N. 2. P. 145-177.
57 Fomichov V.A. K-calculuses and K-languages as powerful formal means to
design intelligent systems processing medical texts // Cybernetica (Belgium). 1993. V. XXXVI. N. 2.. P. 161-182.
58 Fomichov V.A. Standard K-Languages as a Powerful and Flexible Tool for Building Contracts and Representing Contents of Arbitrary E-Negotiations //K. Bauknecht, B. Proell, H. Werthner (Eds.), The 6th Intern. Conf. on Electronic Commerce and Web Technologies "EC-Web 2005", Copenhagen, Denmark, Aug. 23 - 26, 2005, Proceedings. Lecture Notes in Computer Science. Vol. 3590. Springer Verlag. 2005. P. 138-147.
59 Fomichov V.A. Theory of K-calculuses as a Powerful and Flexible Mathematical Framework for Building Ontologies and Designing Natural Language Processing Systems // Troels Andreasen, Amihai Motro, Henning Christiansen, Henrik Legind Larsen (Eds.), Flexible Query Answering Systems. 5th Intern. Conference, FQAS 2002, Copenhagen, Denmark, Oct. 27 - 29, 2002. Proceedings; LNAI 2522 (Lecture Notes in Artificial Intelligence, Vol. 2522), Springer: Berlin, Heidelberg, New York, Barcelona, Hong Kong, London, Milan, Paris, Tokyo, 2002. P. 183-196.
60 Fomichov V.A. Theory of K-representations as a Comprehensive Formal Framework for Developing a Multilingual Semantic Web // Special Issue on Semantic Informational Technologes. Informática. An International Journal of Computing and Informatics (Slovenia), 2010,Vol. 34, No. 3, p. 287-296.
61 Fomichov V.A. Theory of Restricted K-calculuses as a Comprehensive Framework for Constructing Agent Communication Languages; Special Issue on NLP and Multi-Agent Systems, ed. by V.A.Fomichov and A.P.Zeleznikar, Informática. An Intern. Journal of Computing and Informatics (Slovenia). 1998. V. 22. N. 4.- P. 451-463.
62 Fomichov V.A., Kirillov A.V. Semantic Transformation of Search Requests for Improving the Results of Web Search // Pre-Conference Proceedings of the Focus Symposium on Intelligent Information Management Systems (August 2, 2011, Focus Symposia Chair: Jens Pohl) in conjunction with InterSymp-2011, 23rd International Conference on Systems Research, Informatics and Cybernetics, August 1 - 5, 2011, Germany). San Luis Obispo, CA, USA: Collaborative Agent Design Research Center, California Polytechnic State University (Cal Poly), 2011. P. 37-43.
63 Fomichov V.A.. Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms. Series: IFSR International Series on Systems Science and Engineering, Vol. 27. Springer: New York, Dordrecht, Heidelberg, London, 2010.-354 p.
64 Fomichov, V.A. Towards a mathematical theory of natural-language
communication // Informática. An Int.. J. of Computing and Informatics (Slovenia). 1993. 17(1). P. 21-34.
65 Git - fast version control system homepage. Режим доступа: http://git-scm.com/
66 Google Web Toolkit (GWT) project homepage. Режим доступа: http://code.google.com/webtoolkit/overview.html
67 Guha R., McCool R., Miller E. Semantic Search. WWW2003, May 20-24, 2003, Budapest, Hungary.
68 Halpin H., Lavrenko V. Relevance feedback between hypertext and semantic
search. Conference WWW2009, April 20-24, 2009, Madrid, Spain.
69 JDK 6 Java Database Connectivity (JDBC)-related APIs & developer guides. Режим доступа: http://d0cs.0racle.c0m/javase/6/d0cs/techn0tes/guides/jdbc/
70 JDOM Project homepage. Режим доступа: http://www.idom.org/
71 JSR-000224. JavaTM API for XML-Based Web Services 2.2. Режим доступа: http://jcp.org/aboutJava/communityprocess/mrel/jsr224/index3.html
72 Kaufmann E., Bernstein A., Fischer L. NLP-Reduce: A "naive" but domain-
independent natural language interface for querying ontologies. 4th European Semantic Web Conference ESWC, 2007. Режим доступа:
http://www.mendeley.com/research/nlpreduce-a-nave-but-domainindependent-natural-language-interface-for-querying-ontologies/
73 Kaufmann E., Bernstein A., Zumstein R. Querix: a natural language interface to
query ontologies based on clarification dialogs. In 5th International Semantic Web Conference (ISWC 2006), pages 980-981. Springer, November 2006.
74 Lei Y., Uren V., Motta E.. Semsearch: a search engine for the semantic web. In Proc. 5th International Conference on Knowledge Engineering and Knowledge Management Managing Knowledge in a World of Networks, Lect. Notes in Сотр. Sci., Springer, Podebrady, Czech Republic, pages 238-245, 2006.
75 Mealling M., Denenberg R. Report from the Joint W3C/IETF URI Planning
Interest Group: Uniform Resource Identifiers (URIs), URLs, and Uniform Resource Names(URNs): clarifications and recommendations. Режим доступа: http://tools.ietf.org/html/rfc3305
76 Meij E., Mika P., Zaragoza H. Investigating the demand side of semantic search through query log analysis. Conference WWW2009, April 20-24, 2009, Madrid, Spain.
77 MySQL database project homepage. Режим доступа: http://dev.mysql.com/
78 Namespaces in XML 1.0 (Third Edition). W3C recommendation, 8 December 2009. Режим доступа: http://www.w3.org/TR/REC-xml-names/
79 OWL DL semantics. Режим доступа: http://www.obitko.com/tutorials/ontologies-semantic-web/owl-dl-semantics.html
80 OWL Web Ontology Language semantics and abstract syntax. W3C recommendation, 10 February 2004. Режим доступа: http://www.w3 .org/TR/2004/REC-owl-semantics-20040210/
81 Page L., Brin S., Motwani R., Winograd T. The PageRank citation ranking:
Bringing order to the Web. Stanford Digital Libraries Working Paper, Stanford University (1998).
82 Page L., Brin S., Motwani R., Winograd T. The PageRank citation ranking: bringing order to the Web. Manuscript in progress. Режим доступа: http ://google. Stanford. edu/~backrub/pageranksub .ps
83 RDF semantics. W3C recommendation, 10 February 2004. Режим доступа: http://www.w3 .org/TR/rdf-mt/
84 RDF vocabulary description language 1.0: RDF Schema. W3C recommendation,
10 February 2004. Режим доступа: http://www.w3.org/TR/rdf-schema/
85 RDF/XML syntax specification (revised). W3C recommendation, 10 February 2004. Режим доступа: http://www.w3.org/TR/rdf-syntax-grammar/
86 Relational Persistence for Java and .NET. Режим доступа: http://www.hibernate.org/hibernate
87 Resource Description Framework (RDF). Режим доступа: http://www.w3. org/RDF/
88 Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. MLMTA-2003.
89 Semantic Search Survey. Режим доступа: http://swuiwiki.webscience.org/index.php/Semantic_l. Search_Survey
90 Semantic search Wikipedia article. Режим доступа: http://en.wikipedia.org/wiki/Semantic_search
91 SEWASIE search engine overview. Режим доступа: http ://www. sewasie.org/sewasie-overview.htm
92 Shannon C.E. A mathematical theory of communication. Bell Syst. Tech. J. 27 (1948).
93 Spârck-Jones K., Walker S., Robertson S.E. A probabilistic model of information retrieval: Development and comparative experiments. Inf. Process. Manag. 36(6), 779-808 (2000).
94 SPARQL query language for RDF. W3C recommendation, 15 January 2008. Режим доступа: http://www.w3.org/TR/rdf-sparql-query/
95 Tran D.T., Bloehdorn S., Cimiano P., Haase P. Expressive Resource Descriptions
for Ontology-Based Information Retrieval. In: Proceedings of the 1st International Conference on the Theory of Information Retrieval ICTIR'07, 18th -20th October 2007, Budapest, Hungary (2007) , p. 55-68.
96 Wang L. Open architecture-based factory automation systems. IEEE Aerospace
and Electronic Systems Magazine, vol. 19, No. 2, Feb. 2004, p. 14 - 17.
97 Wrigley S.N., Reinhard D., Elbedweihy K., Bernstein A., Ciravegna F. Methodology and campaign design for the evaluation of semantic search tools. WWW2010, April 26-30, 2010, Raleigh, North Carolina.
98 XML Schema Part 0: primer second edition. W3C recommendation, 28 October 2004. Режим доступа: http://www.w3.org/TR/xmlschema-0/
99 XML Syntax Rules. Режим доступа: http://www.w3schools.com/xml/xml_syntax.asp
100 Zesch Т., Mtiller С., Gurevych I. 2008. Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary. Conference LREC 2008 (Marrakech, Morocco).
157
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.