Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат наук Кошкин, Дмитрий Евгеньевич
- Специальность ВАК РФ05.13.15
- Количество страниц 145
Оглавление диссертации кандидат наук Кошкин, Дмитрий Евгеньевич
Оглавление
ГЛОССАРИЙ.
ВВЕДЕНИЕ
Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов
1.1 Теории, используемые при анализе текстового контента
1.2 Методы классификации и алгоритмы кластерного анализа текстового контента
1.3 Оценка алгоритмов кластеризации по критериям вычислительной сложности
1.4 Аппаратные и программные платформы развертывания вычислительных кластеров
1.4.1 Технологии сетевого объединения вычислительных узлов
1.4.2 Программные платформы развертывания вычислительных кластеров
1.4.3 Гибридные кластеры с графическими процессорами (GPU)
1.5 Заключение. Постановка задачи
Глава 2 Развитие существующих методов и алгоритмов специальной обработки текстового
контента. Придание вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности
2.1 Развитие многопоточности для алгоритмов кластеризации на примере алгоритма Нечетких С-средних
2.1.1 Метод использования энтропийной меры оценки алгоритма Нечетких С-средних для контроля процесса кластеризации и повышения ее качества
2.2 Метод параллельной обработки минимальных синтаксических структур с использованием базовых характеристик объектно-ориентированных языков высокого уровня
2.3 Разработка вычислительного кластера со свойствами расширяемости, масштабируемости и интероперабельности
2.3.1 Допущения и ограничения в выборе аппаратной платформы для реализации вычислительного кластера
2.3.2 Допущения и ограничения программной платформы для реализации вычислительного кластера
2.3.3 Методика использования особенностей стандартов для повышения производительности сетевых соединений вычислительных кластеров на основе протокола Ethernet
2.4 Заключение
Глава 3 Развертывание вычислительного кластера на примере кластера в МГТУ МИРЭА.
Практическая реализация методов и алгоритмов многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах
3.1 Программная платформа для развертывания кластера MuninnHPC на основе доработанной кластерной платформы PelicanHPC
3.2 Реализация алгоритма кластеризации с использованием многопоточности и графических процессоров (GPU Fuzzy C-Means) на языке Python
3.2.1 Описание дополнительных модулей и способов их использования. Экспериментальная верификация
3.3 Апробация созданных кластеров в условиях конкуренции в проекте Folding@HOME.97 Глава 4 Практические исследования многопоточной кластеризации текстового контента на
естественном языке
4.1 Сравнение вычислительной скорости центрального и графического процессоров
4.2 Кластеризация тестовой подборки художественных текстов
4.2.1 Результаты экспериментов предобработки текстов с модулем mystem
4.2.2 Предобработка текстов с модулем PyMorphy2
Заключение
Библиография
Приложения
Приложение 1. Результаты экспериментов на синтетической подборке текстов с 4, 5 и 6 кластерами
Приложение 2. Свидетельство о регистрации программы для ЭВМ 2012660210
Приложение 3. Свидетельство о регистрации программы для ЭВМ 2013660292
Приложение 4. Акты внедрения кластеров MuninnHPC и HuginnHPC
ГЛОССАРИЙ
АРХИТЕКТУРА ИНФОРМАЦИОННОЙ СИСТЕМЫ - концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы. [1].
БАЗА ЗНАНИЙ - организованная совокупность знаний, представленная в форме, которая допускает автоматическое или автоматизированное использование этих знаний на основе реализации возможностей средств информационных технологий. [2]
БРАУЗЕР (англ. web browser) - программное обеспечение для поиска и просмотра веб-сайтов, для запроса веб-страниц (преимущественно из Интернет). Служит для их обработки, вывода и перехода от одной страницы к другой [3].
ВАЛИДНОСТЬ (англ. validity) - мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам [3].
ВЕБ-ОБОЗРЕВАТЕЛЬ см. браузер.
ВЕБ-ПОРТАЛ см. портал.
ВЕБ-САЙТ (англ. website, от web - паутина и site — «место») - одна или совокупность веб-страниц, доступных в Интернет через протоколы HTTP/HTTPS. Страницы веб-сайта объединены общим корневым адресом, а также обычно темой, логической структурой, оформлением и/или авторством [3].
ВЕБ-СЕРВЕР - сервер, принимающий HTTP-запросы от клиентов, обычно браузеров, и выдающий им HTTP-ответы, обычно вместе с HTML-страницей, изображением, файлом, медиа-потоком или другими данными. Веб-серверы - основа Всемирной паутины. Вебсервером называют как программное обеспечение, выполняющее функции веб-сервера, так и компьютер, на котором это программное обеспечение работает. Клиенты получают доступ к веб-серверу по URL адресу нужной им веб-страницы или другого ресурса [4].
ВТОРИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - описания (например уровень образования, тип материала, предмет, аннотация или ключевые слова) и адреса ресурсов, не расположенных на текущем портале, а доступных через Интернет на других порталах, сайтах по гиперссылкам [4].
ВЫЧИСЛИТЕЛЬНЫЙ КЛАСТЕР - группа компьютеров, объединенных каналами связи и представляющая с точки зрения пользователя единый аппаратный ресурс.
ГАРМОНИЗАЦИЯ КОНТЕНТА - систематизация и унификация в результате изменения состава, свойств и признаков составляющих контента [4,5].
ДАННЫЕ - качественные или количественные переменные, принадлежащие к набору элементов. Необработанные данные не были подвергнуты обработке или другим
манипуляциям. В качестве абстрактного понятия данные лежат на самом нижнем уровне абстракции из которых далее проистекают информация и знания.
ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА информационно-поисковая система, предназначенная для нахождения документов, содержащих затребованную информацию. Поисковый массив документальной ИПС состоит из поисковых образов документов или из самих документов [1].
ЗНАНИЯ - совокупность информации и правил вывода о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах использования их для принятия решений. Главное отличие знаний от данных состоит в их структурности и активности.
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ (Information extraction) - это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
ИНДЕКСИРОВАНИЕ - процедура, завершающаяся присвоением документу соответствующего поискового образа [6].
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ (Data Mining) - собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.[3]
ИНТЕРНЕТ - глобальная информационная сеть, части которой логически взаимосвязаны друг с другом посредством единого адресного пространства, основанного на протоколе TCP/IP. Интернет состоит из множества взаимосвязанных компьютерных сетей и обеспечивает удаленный доступ к компьютерам, электронной почте, доскам объявлений, базам данных и дискуссионным группам [1].
ИНТЕРФЕЙС ПРОГРАММИРОВАНИЯ ПРИЛОЖЕНИЙ (англ. Application Programming Interface, API) - набор методов (функций), который программист может использовать для доступа к функциональности программного компонента (программы, модуля, библиотеки). API является важной абстракцией, описывающей функциональность «в чистом виде» [3].
ИНТРАНЕТ — распределенная корпоративная вычислительная сеть, предназначенная для обеспечения теледоступа сотрудников к корпоративным информационным ресурсам и использующая программные продукты и технологии Интернет. Интранет позволяет контролировать доступ к корпоративной информации [1].
ИНФОРМАЦИЯ - сведения о чём-либо, независимо от формы их представления.
ИНФОРМАЦИОННЫЙ ОБРАЗОВАТЕЛЬНЫЙ ПОРТАЛ - система тематических профессиональных сайтов, выполненных по сходному замыслу и работающих в единых стандартах обмена информацией. Современное информационно-технологическое средство выхода участников непрерывного образования в единую информационно-образовательную среду в целях информационно-технологической и управленческой поддержки этим средством образовательных технологий. Цель портала — выработка новых стандартов организации и информационного обеспечения образовательного процесса на всех уровнях образования [6].
ИНФОРМАЦИОННЫЙ ПОИСК - некоторая последовательность операций, выполняемых с целью нахождения документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы [7].
ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА (сокр. ИПС) - некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенные для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявленный системе [7].
ИНФОРМАЦИОННО-ПОИСКОВЫЙ ЯЗЫК - определенная семантическая система, предназначенная для выражения основного смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые содержат требуемую информацию. Правила перевода с естественного языка на информационно-поисковый язык (и наоборот) обычно задаются в виде двуязычного словаря и соответствующего алгоритма [6].
ИНФОСЕТЬ - однородная однослойная сеть объектов, морфологически объединенных отношениями, вытекающими из структуры синтаксической единицы (предложения)
КОНТЕНТ (англ. content - содержание) - любое информационно значимое (содержательное) наполнение информационного ресурса (например, веб-сайта) - тексты, графика, мультимедиа - вся информация, которую пользователь может загрузить на диск компьютера с соблюдением соответствующих законностей, как правило, только для личного пользования [3].
КЛАСТЕР - 1. в теории кластерного анализа - группа объектов объединенных по какому-либо признаку.
2. см. Вычислительный кластер.
КЛАСТЕРИЗАЦИЯ — см. кластерный анализ
6
КЛАСТЕРНЫЙ АНАЛИЗ - многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.
ЛЕММАТИЗАЦИЯ - процесс приведения словоформы к лемме - её нормальной (словарной) форме. В русском языке нормальными формами считаются следующие морфологические формы: для существительных — именительный падеж, единственное число; для прилагательных — именительный падеж, единственное число, мужской род; глаголов, причастий, деепричастий — глагол в инфинитиве. [3] МЕТАДАННЫЕ см. метаописание.
МЕТАОПИСАНИЕ - описание ресурса, включающее характеристики, которые не могут быть извлечены из его содержимого автоматически. Значительно облегчает поиск и позволяет учесть разнообразные требования и условия, выдвигаемые пользователем [8].
МЕТОД - систематизированная совокупность шагов, действий, которые необходимо предпринять, чтобы решить определённую задачу или достичь определённой цели
МЕТОДИКА - определенная, усвоенная процедура или набор процедур для достижения некоторой специфической цели. Обычно этот термин употребляется с коннотацией, что эти процедуры требуют определенной квалификации, и владение ими отражает некоторый уровень опытности. [9]
МЕТОДОЛОГИЯ - учение о структуре, логической организации, методах и средствах деятельности; учение о принципах построения, формах и способах научного познания. [10]
МИНИМАЛЬНАЯ СИНТАКСИЧЕСКАЯ СТРУКТУРА (способная нести в себе знания) - простое предложение текстового контента, состоящих из подлежащего в форме существительного, сказуемого в форме глагола (в сложном предложении добавляется прямое дополнение)
МНОГОПОТОЧНОСТЬ - независимая обработка частей данных, выполняемых группой инициированных программой процессов.
НОРМИРОВАНИЕ КОНТЕНТА - принятие мер по снижению дисперсии и математического ожидания размеров файла в пределах каждого массива контента [4].
ОНТОЛОГИЯ - это попытка всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила (теоремы, ограничения), принятые в этой области.
ОНТОЛОГИЧЕСКОЕ СОГЛАШЕНИЕ - соглашений о связях между смыслами различных терминов [11]
ПЕРТИНЕНТНОСТЬ (англ. pertinence, pertinency) - степень соответствия содержания документов информационной потребности пользователя [6].
ПЕРВИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - ресурсы, располагающиеся непосредственно на самом портале [4].
ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА - выраженное в терминах информационно-поискового языка основное смысловое содержание этого документа, которое поставлено в однозначное соответствие данному документу и предназначено для его отыскания в массиве других документов, характеристика, кратко выражающая основное смысловое содержание документа [6].
ПОИСКОВЫЙ ОБРАЗ ЗАПРОСА - поисковый образ, выражающий смысловое содержание информационного запроса [12].
ПОИСКОВОЕ ПРЕДПИСАНИЕ - текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска. Поисковые предписания формируются при поступлении запросов [12].
ПОЛНОТА (англ. recall) — это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных поисковой системой документов к общему числу документов, удовлетворяющих данному запросу [12].
ПОРТАЛ - сетевой узел или комплекс узлов, подключенных к Интернет по высокоскоростным каналам, обладающий развитым пользовательским интерфейсом и предоставляющий единый с концептуальной и содержательной точки зрения доступ к широкому спектру информационных ресурсов и услуг, ориентированных на определенную аудиторию [4].
ПРОПУСКНАЯ СПОСОБНОСТЬ КАНАЛА - или ширина полосы пропускания. Обычно для аналоговых каналов выражается в Герцах (Гц), а для цифровых каналов - в битах в секунду. Более широкая полоса пропускания позволяет передать больший объем информации за единицу времени [ 13].
РЕЛЕВАНТНОСТЬ (англ. relevance, relevancy) - степень соответствия содержания документа информационному запросу в том виде как он сформулирован. Субъективное понятие, поскольку результаты поиска, полезные для одного пользователя, могут быть бесполезными для другого [3,6].
РЕПОЗИТАРИИ - место хранения метаданных или сведений о данных [14].
САЙТ см. веб-сайт.
СЕМАНТИЧЕСКАЯ СЕТЬ — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия,
8
события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний.
СЕМАНТИЧЕСКИЕ ОТНОШЕНИЯ - при представлении семантической сети в виде графа - нагруженные ребра графа, выражающего семантическую сеть.
СЕРВЕР КЛАСТЕРА - вычислительная машина, являющаяся главным узлом кластера, под управлением которого находятся другие узлы. Является единой точкой входа для управления и администрирования кластера. При использовании системы мониторинга агрегирует поступающую с узлов статистическую информацию. В зависимости от конфигурации и настроек может выполнять широкий диапазон функций и решать обширный круг задач.
СИСТЕМА УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ (сокр. СУБД) - специализированная программа (чаще комплекс программ), предназначенная для манипулирования базами данных [14].
СПЕЦИАЛЬНАЯ ОБРАБОТКА ТЕКСТОВОГО КОНТЕНТА - статистическая, морфологическая обработка, в том числе и с целью передачи полученного массива данных алгоритму кластеризации для дальнейшего анализа.
СТЕММИНГ (Стемматизация) - это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова. [3]
ТАКСОН (лат. taxon, «порядок, устройство, организация») - группа в классификации, состоящая из дискретных объектов, объединяемых на основании общих свойств и признаков. Классификационные системы, использующие понятие «таксона», обычно носят иерархический характер; применяются они в языкознании, библиографии и других науках, но прежде всего в биологии. [3]
ТАКСОНОМИЯ (греч. та£ц - строй, порядок и vojioi; - закон) - учение о принципах и практике классификации и систематизации. [3] [15].
ТОЧНОСТЬ (англ. precision) - определяется по соответствию найденных документов запросу пользователя [12]
УЗЕЛ КЛАСТЕРА - набор технического обеспечения (обычно - процессор, оперативная память, материнская плата, иногда жесткий диск), участвующий в образовании вычислительного кластера и передающий свои вычислительные ресурсы под управление сервера кластера.
ФИТНЕС-ФУНКЦИЯ — в теории генетических алгоритмов — функция оценки приспособленности особи из популяции. [16]
CUDA (англ. Compute Unified Device Architecture) - программно-аппаратная архитектура, позволяющая производить вычисления с использованием графических процессоров NVIDIA, поддерживающих технологию GPGPU (произвольных вычислений на видеокартах)
FLOPS (FLoating-point Opérations Per Second - операции с плавающей точкой в секунду) - внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. [3]
MPI (Message Passing Interface, интерфейс передачи сообщений) - программный интерфейс (API) для передачи информации, который позволяет обмениваться сообщениями между процессами, выполняющими одну задачу. Разработан Уильямом Гроуппом, Эвином Ласком и другими. [3]
НРС - HIGH PERFORMANCE CLUSTER - см. Вычислительный кластер.
OWL (Web Ontology Language - язык Веб-онтологий) - язык описания онтологий для семантической паутины. Язык OWL позволяет описывать классы и отношения между ними, присущие веб-документам и приложениям. OWL основан на более ранних языках OIL и DAML+OIL и в настоящее время является рекомендованным консорциумом Всемирной паутины.
RDF (Resource Description Framework - среда описания ресурса) - это разработанная консорциумом Всемирной паутины модель для представления данных, в особенности -метаданных. RDF представляет утверждения о ресурсах в виде, пригодном для машинной обработки. RDF является частью концепции семантической паутины.
HTML (англ. Hypertext Markup Language - язык разметки гипертекста) - стандартный язык разметки документов во Всемирной паутине. Все веб-страницы создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузером и отображается в виде документа, удобном для человека [3].
XML (англ. eXtensible Markup Language - расширяемый язык разметки) -рекомендованный Консорциумом Всемирной паутины язык разметки, представляющий собой свод общих синтаксических правил. Текстовый формат, предназначенный для хранения структурированных данных для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки (например, XHTML), иногда называемых словарями [3].
Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК
Развитие и применение когнитивно-семантических методов и алгоритмов в мультимедийных образовательных портальных системах2013 год, кандидат наук Болбаков, Роман Геннадьевич
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей2013 год, кандидат наук Филиппов, Алексей Александрович
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров»
ВВЕДЕНИЕ.
В настоящее время зародилось и развивается новое направление в области обработки данных - Большие данные (Big Data) [3,17,18,19]. Это направление характеризуется тем, что работает с данными, подходящими под определение из трех V - Volume, Variety и Velocity. Т.е. данные большого объема (Volume), разных типов и меры структурированности (Variety), которые требуется быстро обработать и получить результат (Velocity). Под это определение как нельзя лучше подходит текстовый контент, содержащийся в научных статьях, технической литературе, сети Интернет, художественных произведениях, и т.д.
Для обработки текстов может использоваться несколько методов, частности кластерный анализ, семантический анализ, контент-анализ и другие. Для всех этих методов, с учетом объемов информации, требуются новые инструменты и способы, что ускорить получение результата и уменьшить затраты процессорного времени. Основными инструментами становятся высокопроизводительные вычислительные кластеры, которые, работая в многопоточном режиме, могут дать многократное ускорение за счет количества установленных процессоров и разделения задачи на задания. Однако, исходя из разнообразия существующих видов кластеров, их архитектур и используемых компонентов в первую очередь потребуется определить характеристики алгоритмов и методов, для того, чтобы разработать наиболее подходящий кластер, решающий поставленную задачу.
Предполагая, что кластер будет работать, например, в информационно-поисковых системах или для создания семантических сетей, то его основными задачами становится обработка неструктурированных групп текстов. Следовательно, первым шагом становится кластеризация текстов по тематике, структурирование.
В процессе обработки неподготовленных, смешанных групп текстов, могут
появляться неточности в получаемой информации об объектах, имеющих одинаковое
написание, но разное значение в разных областях знания [20] (например, понятие
«Онтология» различно трактуется в философии и в теории информации). Очевидно, что
разделение текстов по тематике является необходимым шагом при обработке
неструктурированных текстовых массивов. Для автоматизированного разделения и
группировки текстов применим кластерный анализ как технология интеллектуальной
обработки данных, способная выделять кластеры, т.е. группы подобных объектов.
Кластерный анализ известен и развивается более 70-ти лет [21,22], существует множество
алгоритмов для разных видов данных и некоторое количество реализаций в виде
программных модулей. Кластерный анализ отличается от классификации тем, что в процессе
классификации, количество классов объектов известно заранее. В кластерном анализе,
количество классов (кластеров) неизвестно и, в зависимости от реализации алгоритма,
11
задается исследователем или генерируется автоматически. Но для категорийных данных, таких как текстовые материалы, достичь стопроцентно точного разделения пока не удается. Текущей тенденцией в области технологии кластерного анализа текстов является использование нечетких, вероятностных алгоритмов [23-25], что позволяет текстам, написанным на естественном языке принадлежать к разным кластерам с разной вероятностью. Обработка отдельных кластеров, полученных при использовании нечетких алгоритмов, может повысить качественный уровень получаемой из текстов информации.
Следующим шагом по обработке полученных структурированных групп текстов становится обработка групп. Для семантического анализа, текст не просто бессмысленный набором синтаксических единиц, подчиняется законам языка, на котором написан, и может быть формализован [27]. Для такой формализации потребуется изучить особенности построения слов и синтаксических единиц исследуемого языка и используемого стиля изложения материала, например, научно-популярного или просторечного. Английский язык является наиболее распространенным языком мира (112 стран, 56.6% интернет-контента [3]). На нем публикуется большинство научных статей и, потому этот язык исследован и формализован на уровне, достаточном для проведения первых испытаний технологии «семантического поиска» [28]. Исследования в области формализации русского языка проводятся в большей мере на территории России, и попытки формализации, идут по пути экспертных оценок, словарных статей и обработке материалов заранее подготовленных людьми [20]. В то же время следует отметить, что практически отсутствуют широко известные и легкие в использовании методы работы с текстами на естественном языке без их предобработки. При этом, в работе с текстами во многих случаях не учитываются терминологические базы, присущие каждой предметной области науки, художественным текстам и текстам в интернете. Таким образом, составление соответствующих терминологических баз является одним из важных шагов.
Как было сказано ранее, объемы исходных данных в задачах кластерного и семантического анализа требуют значительных вычислительных мощностей, и приводят к тому, что локальное решение, на одном компьютере, физически невозможно за приемлемое время, даже на современных компьютерах с многоядерным процессором. В качестве основной технологии, дающей возможность продуктивного исследования языков при существенном ускорении процесса обработки, предлагаются технологии многопоточного анализа с использованием высокопроизводительных вычислительных кластеров (ВВК). Такие кластеры, обычно, работают как распределенные системы с многопроцессорной параллельной сетевой обработкой информации. Гибкость, заложенная изначальной архитектурой всей системы, позволяет работать с данными как параллельно, так и
12
последовательно в зависимости от логики запущенной на кластере программы. В основе ВВК и параллельных вычислений значительное место занимают операционные системы, основанных на ядре Linux [30-32] и специализированные программные библиотеки. В этих системах используются технологии разделяемой памяти и удаленного управления командами, что создает условия для объединения отдельных физических вычислительных машин в одну логическую.
Целью диссертационной работы является разработка многопоточных методов и алгоритмов, работающих в среде вычислительных кластеров, и разработка вычислительного кластера, поддерживающего созданные алгоритмы.
Для достижения этой цели в диссертации поставлены следующие основные задачи:
- Разработать многопоточный алгоритм кластерного анализа для категорийных данных, реализовать и апробировать предложенный алгоритм на высокопроизводительных вычислительных кластерах;
- Разработать, создать и апробировать вычислительный кластер, профилированный для создаваемых алгоритмов.
- Сформулировать выводы и рекомендации по повышению производительности вычислительных кластеров, при решении задач автоматического анализа текстового контента на естественном языке.
- Провести эксперименты для верификации выдвигаемых в диссертации положений;
- Внедрить научные положения и выводы диссертации в учебный процесс МГТУ МИРЭА.
Перечисленные задачи будут дополнены и уточнены по результатам аналитического обзора Главы 1.
Структура диссертации состоит из Введения, четырех глав основного текста, Заключения, Библиографии (147 источников) и четырех Приложений. Текст диссертации предваряет развернутый глоссарий терминов, относящийся к данной предметной области. Диссертация содержит 145 страницы, включая 55 рисунков и 14 таблиц.
Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов.
В условиях работы с большими объемами данных (англ. В1^Ба1а [3]) задача создания словарей, тезаурусов, баз знаний, например для современного сленга в сети интернет, может стать совершенно нетривиальной задачей. В первую очередь требуются быстрые, и во вторую точные методы извлечения необходимой информации из текстового контента. Неструктурированный контент, например, в сети Интернет, содержит разнотематические материалы, которые, иногда, пересекаются по терминологии. Так как каждой области науки характерна своя терминология и свои определения терминов, то при обработке текстов без учета тематики появляется риск смешать термины из разных наук и, таким образом, ухудшить качество получаемой информации. Повысить точность быстрого алгоритма может группировка текстов по тематике. С задачей группировки можно справиться двумя способами - классификация и кластеризация. Разница между этими двумя понятиями состоит в том, что классификация подразумевает обучение классификатора с использованием экспертных оценок и затрат на это человеческого времени. В результате, дальнейшее разделение происходит быстро, но только по заранее обученному количеству классов. Классификация является методом, использующим «обучение с учителем» В алгоритмах кластерного анализа зачастую достаточно указать количество кластеров, на которые надо разделить множество и меру, по которой будет определяться сходство/различие между объектами. Времени на кластеризацию требуется больше, однако, не приходится тратить время на обучение и, как покажут далее исследования, можно варьировать количество кластеров по окончании процесса. Таким образом кластеризация -обучение без учителя. В случае кластеризации, тексты, содержащие одинаковые определения будут в одной группе (кластере), а обработка получившегося кластера повысит точность работы алгоритма анализа текстового контента. Основой всех этих затратных вычислений, с технической точки зрения, становятся вычислительные кластеры, как недорогая, но при этом эффективная альтернатива суперкомпьютерным вычислениям.
1.1 Теории, используемые при анализе текстового контента.
Хорошо известно, что исследования любого естественного языка занимают умы ученых-лингвистов уже века. В области их интересов и свойства морфологии и синтаксиса языка и грамматические особенности и свойства текстов как средства коммуникации индивидов. За годы исследований сформировались теории, открывающие новые грани естественного языка и строящие формализованные алгоритмы представления и извлечения
14
знаний из текстов. Способы извлечения знаний из текстов стали частью компьютерной лингвистики с появлением ЭВМ. Для соискателя наибольший интерес представляет русский язык.
В первую очередь стоит принять во внимание иерархию и определения, представленные ниже на Рисунке 1.1. ДИЗМ (DIKW, англ. data, information, knowledge, wisdom) - данные, информация, знания, мудрость - информационная иерархия, где каждый уровень добавляет определённые свойства к предыдущему уровню.
• В основании находится уровень данных. (В контексте диссертации под данными понимается так же текстовый контент, тексты из сети интернет.)
• Информация добавляет контекст. (Под информацией уже понимаются объекты, описываемые текстом и окруженные контекстом, например, связями с другими объектами.)
• Знание добавляет механизм использования («как»),
• Мудрость добавляет условия использования («когда») (На уровне мудрости получается, что связи и образы действия извлекаются из самих себя и появляются не
Далее будут рассматриваться теории в порядке их возникновения или публикаций с целью определить общую пригодность этих теорий к быстрой обработке текстового контента в задаче извлечения информации и, возможно, знаний.
В статье Л. В. Щербы [33] рассматривается вопрос сравнения существующих языков с
точки зрения категорий «части речи». Рассматривая русский язык, Л.В.Щерба говорит о том,
что части речи, как категории имеют зависимость от контекста и от логического ударения в
устной речи «Во фразе Когда вы приехали? ударение на когда определяет его как наречие, а
отсутствие ударения во фразе Когда вы приехали, бычо еще светло определяет его как союз.»
15
Также, говорится о существовании «формальных признаков», относящихся к частям речи и являющиеся внешней формой слова. Там же, «Существование всякой грамматической категории обусловливается тесной, неразрывной связью ее смысла и всех формальных признаков, так как неизвестно, значат ли они что-либо, а следовательно — существуют ли они как таковые, и существует ли сама категория.», что по мнению диссертанта говорит о взаимосвязи между внешними признаками «грамматической категории» (написанием) и смыслом, которое она в себе несет. Отдельно говорится о том, что далее будет вызывать сложности при автоматической обработке текстов «Яркость отдельных категорий не одинакова, что зависит, конечно, в первую голову от яркости и определенности, а отчасти и количества формальных признаков. ... Раз формальные признаки не ограничиваются одними морфологическими, то становится ясным, что материально одно и то же слово может фигурировать в разных категориях: так, кругом может быть или наречием, или предлогом», Т.е. без контекста слова могут иметь разночтения в их причастности к той или иной части речи.
Итоговый вывод можно сформулировать следующим образом: значение слова зависит от контекста, написание слова зависит от формальных признаков, формальные признаки зависят от контекста. Если проще, то формальные признаки слова, само слово и контекст полностью взаимозависимы друг от друга, но при определении формальный признаков и контекста, можно определить значение слова.
В работах Н.Хомского, которые касаются «генеративной грамматики» [34,35,36] уже встает вопрос о контексте, предложениях, синтаксических единицах того или иного языка. Общая идея генеративных (порождающих) грамматик распространяется на многие языки мира, так как утверждается тезис «Грамматика того или иного языка представляет собой, по сути дела, гипотезу о принципах построения предложений в этом языке. Грамматика излагает основанные на фактах постулаты (правила), на которых базируются данные, собранные на определенном этапе». В общем случае, для каждого языка может быть выделена некоторая структура, которая бы была лингвистически верная по связям между синтаксическими единицами. При этом совершенно не подразумевается , что предложение построенное согласно грамматики языка будет так же иметь смысл. На этот счет Н.Хомский привел пример:
«Понятие «грамматически правильный» не может отождествляться с понятиями «осмысленный», «значимый» в каком бы то ни было семантическом смысле. Данные ниже предложения (1) и (2) равно бессмысленны, но любой носитель английского языка назовёт грамматически правильным лишь первое.
(1) Colorless green ideas sleep furiously.
«Бесцветные зелёные мысли спят яростно».
(2) Furiously sleep ideas green colorless»
С точки зрения извлечения информации из текстов, становится понятно, что извлекаемая информация может быть как фактически бессмысленной, так и недостоверной. Недостаток достоверности информации устраняется объемом обрабатываемых материалов, например в научных статей. Бессмысленность информации устраняется сложнее, так как потребуется перейти от уровня синтаксиса и морфологии к уровню выше - семантики языка.
Важнейшей реализацией категориальных грамматик является «грамматика Монтегю». Ричард Монтегю стремился создать «универсальную грамматику» не в смысле лингвистики, т. е. не грамматику, справедливую для всех реальных и потенциальных человеческих языков, — а теорию синтаксиса и семантики, в первую очередь, всех известных искусственных языков логики, и только во вторую — естественных языков.
Центральная идея Монтегю: естественный язык в существенных своих свойствах не отличается от формализованных языков. Монтегю разработал своеобразный алгебраический способ задания соответствий между формой и содержанием в языке, тем самым расширив сферу и методы логики и дав инструменты для формулирования аксиоматической теории для естественного языка, позволяющей понять, какую именно работу следует проделать, чтобы описать семантические свойства той или иной конструкции. Сравнивая работы Монтегю и Хомского можно сказать, что для Н.Хомского грамматика — область психологии и устанавливает, как человек осваивает язык, продуцирует и понимает речь с опорой на универсальные врожденные способности, настраиваемые на конкретный язык. Хомский пытается понять, что же делает язык человеческим языком, отличает от иных систем символов. Для Монтегю грамматика — область логики, например, объясняющей грамматические свойства кванторов через свойства логической системы. Хомский как лингвист стремится объяснить свойства психики через свойства грамматики. Монтегю считал, что математическая логика должна объяснить свойства естественного языка.
Грамматика Монтегю - общее направление, в основе которого лежат - обобщение логики исчисления предикатов в рамках обобщенной теории типов в приложении к семантическому описанию естественного языка. [37]
Переходя к семантике языка и возможности автоматизированной обработки текстов
на естественном языке рассмотрим модель «Смысл «Текст» и ее разработчиков И. А.
Мельчука, А. К. Жолковского и Ю.Д. Апресяна. Теория «Смысл <=> Текст» представляет
17
собой описание естественного языка, понимаемого как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или построение текста) и от текста к смыслу («понимание», или интерпретация текста); отсюда символ двунаправленной стрелки в названии теории. При этом приоритет в исследовании языка отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации текста может быть получено на основе описания процесса построения текста. Теория постулирует многоуровневую модель языка, то есть такую, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью серии переходов от одного уровня представления к другому. Помимо двух «крайних» уровней — фонологического (уровня текста) и семантического (уровня смысла), выделяются поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический уровни. Каждый уровень характеризуется набором собственных единиц и правил представления, а также набором правил перехода от данного уровня представления к соседним. На каждом уровне мы имеем дело, таким образом, с особыми представлениями текста — например, глубинно-морфологическим, поверхностно-синтаксическим и т. п.
Семантическое представление является неупорядоченным графом («сетью»), синтаксические представления являются графическим деревом («деревом зависимостей»), морфологическое и фонологическое представления линейны.
Данная идеология в целом достаточно типична для многих (так наз. стратификационных) теорий языка, развивавшихся в середине XX века; в отдельных чертах теория Мельчука напоминает и ранние версии трансформационной порождающей грамматики Хомского — с тем существенным отличием, что исследование семантики не только никогда не было для Хомского приоритетной задачей, но и вообще практически выводилось им за пределы лингвистики. Языковая модель Хомского не преобразует смыслы в тексты, а порождает тексты по определённым правилам; интерпретация же приписывается этим текстам впоследствии. Существенно также, что англо-американские синтаксические теории, возникшие на материале английского языка с жёстким порядком слов, как правило, использовали синтаксис составляющих, а не синтаксис зависимостей. [38-43]
После рассмотрения теории «смысл <=>текст» следует отметить теорию коммуникативной грамматики. [44,45]
В синтетическом, флективном языке, каким является русский, особое значение имеют отношения между синтаксисом и морфологией. И если в описательной грамматике исследователей интересуют отношения между компонентом предложения и словоформой, то
18
в грамматике объяснительной устанавливаются отношения между типовым значением предложения и категориальным значением частей речи, участвующих в организации того или иного типа предложений. Это отношение оказывается основным критерием классификации моделей в концепции «Коммуникативной грамматики русского языка» [46]
Коммуникативная грамматика в основу своей объяснительной теории кладет идею триединой сущности языковой единицы, и тем самым соединяет системное и текстовое исследование языковой единицы.
Для соединения в одном исследовании структуры, семантики и функции оказываются необходимыми такие лингвистические «инструменты», которые бы обнаружили связь между словом, предложением и текстом - во-первых, и грамматической системой и текстом - во-вторых.
Такими грамматическими инструментами стали (1) модель субъектной перспективы высказывания, (2) понятие коммуникативного регистра речи и (3) таксис как техника межпредикативных отношений в тексте. Если конкретное высказывание исследовать с использованием каждого из трех инструментов, то станет очевидным, что отношение высказывания к действительности интерпретируется системой коммуникативных регистров, отношение высказывания к сфере человека мыслящего и говорящего представлено субъектной перспективой, а отношение высказывания к другому высказыванию объясняется теорией таксиса.
Коммуникативный регистр речи - модель речевой деятельности, обусловленная точкой зрения говорящего и его коммуникативными интенциями, располагающая определенным репертуаром языковых средств и реализованная в конкретном фрагменте текста. Коммуникативный регистр в условиях текста является средством обнаружения синтаксической композиции, в рамках же языковой системы образует область функциональных возможностей языковой единицы.
Модель субъектной перспективы - ось, соединяющая пять субъектных сфер, взаимодействие которых организует высказывание и объясняет его функционирование в тексте. Идея субъектной перспективы позволяет интерпретировать грамматические объекты в связи с точкой зрения говорящего, то есть обеспечивает антропоцентрический взгляд как на текст, так и на грамматическую систему.
Таксис - техника линейного взаимодействия предикативных единиц, основанная на механизме совпадения / несовпадения по трем параметрам - модальности, времени и лицу.
Особенность словообразования и фразопостроения.
Задача анализа текста и создания семантических сетей становится нетривиальной для некоторых типов языков мира, таких как синтетические флективные языки (классификация по морфологической топологии и Августу Шлейхеру), коим являются русский, немецкий и иные устойчивые языки индоевропейской группы.
В 19-м веке А. Шлейхер, усовершенствуя существовавшие в то время типологические классификации, впервые ввел алгебраические обозначения элементов морфологической структуры слова, что придает его классификации большую степень точности в сравнении с классификациями его предшественников. Типологическая классификация А. Шлейхера не учитывает инкорпорирующих языков, а содержит три типа, реализуемых в двух вариантах: синтетическом и аналитическом.
A.A. Реформатский [47] представляет классификацию А.Шлейхера в следующем
виде:
(R - корень слова, г - служебное слово, а - флеския (суффиксы, префиксы, постификсы, окончания и т.д.))
Изолирующие языки
1) R - чистый корень ( например, китайский язык);
2) R + г - корень плюс служебное слово (например, бирманский язык).
Агглютинирующие языки
Синтетический тип:
1) Ra - суффигированный тип (например, тюркские и финские языки );
2) aR — префигированный тип (например, языки банту);
3) R / а - инфицированный тип (например, бацбийский язык).
Аналитический тип:
4) Ra (aR) + г - аффигированный корень плюс служебное слово (например, тибетский
язык).
Флективные языки
Синтетический тип:
1) Ra - чистая внутренняя флексия (например, семитские языки);
2) aRa (Raa) - внутренняя и внешняя флексия (например, индоевропейские, в особенности древние языки).
Аналитический тип:
3) aRa (Raa) + г - флектированный и аффигированный корень плюс служебное слово (например, романские языки, английский язык).
Классификация Ф.Ф. Фортунатова [48], будучи чисто морфологической, не учитывает, как и типологизация А. Шлейхера, соотношения слова и предложения. В нее не вошел инкорпорирующий тип языков, в которых слова-предложения образуются путём объединения корней-основ и служебных элементов, части этого слова-предложения выполняют одновременно функции элементов слова и членов предложения (как пример -чукотский язык, языки американских индейцев). Однако очень тонко подмечено различие образования слов в семитских и индоевропейских языках, а именно соотношение флексии основ и обычной аффиксации, что в других классификациях остается незамеченным.
Морфологическая классификация языков рассматривает выражение грамматических отношений слова и предложения. Во флективных языках отношения слова, словосочетания и предложения выражены изменением звучания отдельного слова, в агглютинативных свободно присоединяемые к слову и сочетанию слов аффиксы выражают отношения слов и словосочетаний внутри словосочетаний, в изолирующих языках отношения слова и предложения выражены порядком слов, а в полисинтетических языках агглютинативные аффиксы могут как бы дублировать члены предложения, обозначая схему предложения.
Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК
Онтологическая информационная поддержка проектирования в электронных архивах технической документации2015 год, кандидат наук Субхангулов Руслан Айратович
Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов2018 год, кандидат наук Козлов Павел Юрьевич
Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям2013 год, кандидат технических наук Поляков, Дмитрий Вадимович
Математические модели флективной обработки словоформ и их использование в системах автоматической обработки текстов русского языка1984 год, кандидат технических наук Дударь, Зоя Владимировна
Разработка математических моделей и методов семантической кластеризации гипертекстовых структур на основе учёта статистики переходов пользователей2015 год, кандидат наук Салин, Владимир Сергеевич
Список литературы диссертационного исследования кандидат наук Кошкин, Дмитрий Евгеньевич, 2014 год
Библиография.
1. Соловьев С.Ю. Служба тематических толковых словарей «Glossary Commander» [Электронный ресурс]: Web-and-Press, 2007. - URL: www.glossary.ru. (дата обращения 20.10.2012)
2. Национальная педагогическая библиотека. [Электронный ресурс]. - URL: http://didacts.ru/dictionary/1007/word/baza-znanii (дата обращения 20.10.2012)
3. Википедия. Свободная энциклопедия [Электронный ресурс]. - URL: http://ru.wikipedia.org. (дата обращения 20.10.2012)
4. Иванников А.Д., Тихонов А.Н. Основные положения концепции создания системы образовательных порталов - Интернет-порталы: содержание и технологии. Сб. науч. ст. Вып.1 / Редкол.: Тихонов А.Н. (пред.) и др.; ГНИИ ИТТ «Информика». - М.: Просвещение, 2003.-720 с.
5. Шемончук Д.С. Разработка и исследование методов улучшения функционала сетевых мультимедийных порталов в сфере управления образовательными процессами. Диссертация на соискание степени кандидата технических наук по специальности 05.13.13/ МГТУ МИРЭА.
6. Михайлов А.И., Черный А.И., Гиляревский P.C. Основы информатики, Москва.: Изд-во "Наука", 1968. - 757 с.
7. Ватолин Д. и др. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - М.: ДИАЛОГ-МИФИ, 2003. - 384 с.
8. Синица Е.М., Бурцев М.С. Описание учебных ресурсов метаданные стандарты профили // Educational Technology & Society 9(1) 2006, ISSN 1436-4522.
9. Оксфордский толковый словарь по психологии / Под ред. А. Ребера: в 2-х тт: Т.1. / Пер. с англ. Чеботарева Е.Ю. — М.: Вече ACT, 2003. — 592.
10. Большой Энциклопедический Словарь. - 2-е изд. перераб. и доп. - Москва.: «Большая Российская энциклопедия»; Санкт-Петербург.: «Норинт», 1999. - 1456 е.: ил.
11. Клещев A.C., Шалфеева Е.А. Каталог свойств онтологий. Принципы организации каталога: Препринт, 2007. Владивосток: ИАПУ ДВО РАН, 2007,20 с.
12. Ландэ Д.В. Поисковые системы: поле боя - семантика // Киев. Журнал "Телеком", № 4, 2004, С. 44-50
13. Дж. Мартин. Системный анализ передачи данных. Том 2. // Перевод с анг. - М.: Мир, 1975-432 с.
14. Кросс П., Раими С. Применение репозитария Microsoft [Электронный ресурс]: SQL
Server Magazine Online/RE, - 2000 №2 - URL:
http://www.olap.ru/desc/microsoft/news/m001120689.asp. (дата обращения 20.10.2012)
123
15. Яндекс.Словари [Электронный ресурс]. - URL: http://sl0vari.yandex.ru/TAKC0H0MUiI/BC3/TaKC0H0MHa (теория классификации)/ (дата обращения 20.10.2012)
16. Roboforum.ru Wiki. Статья «Генетические алгоритмы». [Электронный ресурс]. - URL: http://roboforum.ru/wiki/TeHeTH4ecKHe_aiiropHTMbi (дата обращения 20.10.2012)
17. Хаб Big Data / Тематические медиа. [Электронный ресурс]. - URL: http://habrahabr.ru/hub/bigdata/ (дата обращения 20.10.2013)
18. Найдич А. Big Data: проблема, технология, рынок / КомпьютерПресс 01'2012 [Электронный ресурс]. - URL: http://www.compress.ru/Article.aspx?id=22725 (дата обращения 20.10.2013)
19. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers Big data: The next frontier for innovation, competition, and productivity / McKinsey Global Institute. May 2011 [Электронный ресурс]. - URL: http://wvm.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovati on (дата обращения 20.10.2013)
20. Найханова JI. В.Технология создания методов автоматического построения онтологий на основе генетического и автоматного программирования: Монография. - Улан-Уде: Изд-во БНЦ СО РАН, 2008. - 244 с.
21. Tryon R.C. Cluster analysis. - London: Ann Arbor Edwards Bros, 1939. -139 p.
22. Fortier J., Solomon H., Clustering procedures, Multivariate Analysis/ под. ред. Krishnaih P. R. -N.Y. Academic Press, p. 493-506,1966.
23. Кошкин Д.E., Новикова O.A. Уточнение кластеризации категорийных данных через оценку энтропии результирующих кластеров. // Всероссийский конкурс научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий: сборник научных работ: в 3 т. - Белгород: ИД «Белгород», 2012. - Т. 3. - 548 с. с.167-173.
24. Новикова O.A., Кошкин Д.Е. Уточнение кластеризации категорийных данных через оценку энтропии результирующих кластеров. / Итоги диссертационных исследований. Том 2. -Материалы IV Всероссийского конкурса молодых ученых. -М.: РАН, 2012. -138 с. с.116-125
25. Новикова O.A., Кошкин Д.Е. Энтропийная оценка качества автоматического разбиения категорийных данных алгоритмом Fuzzy C-means. «Информатизация образования и науки», №1(17) январь 2013. - М. «Информика», 2013. - 180 е., с. 113-121
26. Бессмертный И.А. Искусственный интеллект: Учебное пособие. - СПб: СПбГУ ИТМО, 2010.-132 с.
27. В.В. Виноградов. Основные типы лексических значений слова (Виноградов В.В. Избранные труды. Лексикология и лексикография. - М., 1977. - С. 162-189)
28. Lenta.ru Интернет СМИ. Google анонсировал семантический поиск - [Электронный ресурс]. URL: http://lenta.ru/news/2012/03/15/google/(дата обращения 20.10.2012)
29. Т. Б. Агранат. Способы различения простого и сложного предложения при автоматическом анализе текстов. ИПМ РАН
30. PARALLEL.RU - Информационно-аналитический центр по параллельным вычислениям [Электронный ресурс]. URL: http://www.parallel.ru (дата обращения 20.10.2012)
31. Кластер (практическое руководство) : Параллельные вычисления // Юрий Сбитнев [Электронный ресурс]. URL: http://cluster.linux-ekb.info/ (дата обращения 20.10.2012)
32. Кузьминский M. Beowulf - кластеры на базе ОС Linux «Computerworld Россия», № 05, 1998 [Электронный ресурс]. URL: http://www.osp.ru/cw/1998/05/26946/ (дата обращения 20.10.2012)
33. Щерба Л.В. Языковая система и речевая деятельность. - М., 1974. - С. 77-100. «О частях речи в русском языке», 1928 г.
34. N.Chomsky. Three models for the description of language. - IRE Transactions on information theory. 1956. IT-2. № 3.
35. Хомский H. Синтаксические структуры // Новое в лингвистике. — M., 1962. — В. II. — С. 418
36. N.Chomsky. Aspects of the theory of syntax. Cambridge (Mass.), 1965.
37. Демьянков В.З. Доминирующие лингвистические теории в конце XX века // Язык и наука конца 20 века. М.: Институт языкознания РАН, 1995. С.239-320
38. Ю.Д.Апресян. Об экспериментальном толковом словаре русского языка. - Вопросы языкознания. 1968. № 5.
39. Ю.Д.Апресян. О языке для описания значений слов. - Изв. АН СССР. Сер. лит. и яз. 1969. № 5.
40. Ю.Д.Апресян. Избранные труды. Том 1. Лексическая семантика. Синонимические средства языка. М., 1995, стр. 3-69
41. И.А. Мельчук. Опыт теории лингвистических моделей «Смысл <=> Текст». М., 1974 (2-е изд., 1999).
42. И.А. Мельчук. Русский язык в модели «Смысл <=> Текст». Москва-Вена, 1995.
43. И.А. Мельчук, А.К. Жолковский, Ю.Д. Апресян и др. Толково-комбинаторный
словарь современного русского языка: Опыты семантико-синтаксического описания
русской лексики. Wien: Wiener Slavistischer Almanach, 1984
125
44. Г.А.Золотова. Очерк функционального синтаксиса русского языка. М., 1973.
45. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. - Коммуникативная грамматика русского языка ISBN: 5-88744-050-3, 2004, М.: Институт русского языка им. В.В. Виноградова РАН
46. Золотова Г. А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. М., 1998.
47. Реформатский, А.А. Введение в языковедение. - М.: Аспект Пресс, 1998.
48. Фортунатов Ф.Ф Сравнительное языковедение: Общий курс. М.: Красанд, 2010. - 184 с. (Лингвистическое наследие XX века)
49. Г.С. Осипов, И.В. Смирнов, И.А. Тихомиров "Реляционно-ситуационный метод поиска и анализа текстов и его приложения" /Журнал Искусственный интеллект и принятие решений. №2 2008. (стр. 3 - 10) ISSN 2071-8594
50. Загоруйко Н. Г., Елкина В. Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985.
51. А. P. Demster, N. М. Laird, D. В. Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm
52. Agrawal Rakesh, Gehrke Johannes, Gunopulos Dimitrios, Raghavan Prabhakar "Automatic Subspace Clustering of High Dimensional Data", Data Mining and Knowledge Discovery (Springer Netherlands) 11 (1): 5-33, (2005)
53. Yang, Y., Guan, H., You. J. CLOPE: A fast and Effective Clustering Algorithm for Transactional Data In Proc. of SIGKDD'02, July 23-26,2002, Edmonton, Alberta, Canada.
54. Harsha S. Nagesh, Sanja у Goil, and Alok Choudhary . A scalable parallel subspace clustering algorithm for massiv e data sets. June 2000
55. J. C. Dunn "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters", Journal of Cybernetics 3: 32-57 (1973)
56. J. C. Bezdek "Pattern Recognition with Fuzzy Objective Function Algoritms", Plenum Press, New York (1981)
57. A.S. Fraser. Simulation of genetic systems. J. of Theor. Biol., vol. 2, pp. 329-346, 1962.
58. A.S. Fraser. The evolution of purposive behavior. In Purposive Systems, H. von Foerster, J.D. White, L.J. Peterson, and J.K. Russel, Eds. Washington, DC: Spartan Books, pp. 15-23,1968.
59. H.J. Bremermann, M. Rogson, S. Salaff. Search by Evolution. In Biophysics and Cybernetic Systems. M. Maxfield, A. Callahan, and L. J. Fogel, Eds. Washington DC: Spartan Books, pp. 157-167, 1965.
60. J.H. Holland. Adaptive plans optimal for payoff-only environments. Proc. of the 2nd Hawaii Int. Conf. on System Sciences, pp. 917-920, 1969.
126
61. Oren Zamin and Oren Etzioni. Grouper: A Dynamic Clustering Interface to Web Search Results. Department of Computer science and Engineering, University
62. T. Joachims "A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization.", In Proc. of the ICML'97,143-151,1997.
63. Introduction to Information Retrieval By Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze Website: http://informationretrieval.org/ Cambridge University Press © 2008 Cambridge University Press
64. Yan Liu, Minimum Spanning Trees, LDCSEE, West Virginia University, Morgantown, WV
65. Sudipto G., Rajeev R., Kyuseok S. "ROCK: A Robust Clustering Algorithm for Categorical Attributes", KAIST, 2000
66. Дорофеюк А. А. Алгоритмы автоматической классификации: Обзор // Автоматика и телемеханика, - 1971.-№ 12.-С. 78—113.
67. WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases Proc. 24th Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1998, pp. 428439
68. Воронцов K.B. Байесовская классификация. Непараметрические методы. Курс лекций. МГУ, 2013.
69. Esko Ukkonen. On-line construction of suffix trees. Department of Computer Science, University of Helsinki, PO Box 26 (Teollisuuskatu 23), FIN-00014 HUT, Finland.
70. Oren Eli Zamir. A Phrase-Based Method for Grouping Search Engine Results. University of Washington, Department of Science & Engineering
71. Кириченко K.M, Герасимов М.Б. Обзор методов кластеризации текстовой информации [Электронный ресурс]. URL: http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm (дата обращения 20.10.2012)
72. J.H. Holland. Adaptation in Natural and Artificial Systems. Ann Arbor: Univ. of Michigan Press, 1975.
73. Sartaj Sahni, Ellis Horowitz, Sanguthevar Rajasekaran. Computer Algorithms, 2nd Ed., Silicon Press, 773 p., 2007
74. Кошкин Д.Е. Модель кластеризации текстов по тематике с использованием стемминга входящих слов / Дипломная исследовательская работа по специальности 071900 (230201) «Информационные системы и технологии», М. 2011 г., МИРЭА, ф. ИТ, к. ТИССУ, 129 с.
75. Сигов A.C., Кошкин Д.Е., Дробнов С.Е. Кластеризация текста на основе анализа слов с применением распределенных вычислений. «Информатизация образования и науки», №2(10) апрель 2011. - М. «Информика», 2011. - 154 е., 74-80 с.
76. Основы судебного речеведения: Монография / Галяшина Е.И.; под ред. проф. М. В. Горбаневского. -М.: СТЭНСИ, 2003. - 236 с.
77. Романов А. Обзор программного обеспечения для идентификации авторства текста: Материалы конф. / Научная сессия ТУСУР-2007, Томск, 5-8 мая, 2008. - В-Спектр, 2008. -С. 182-184. - ISBN 978-5-91191-080-8.
78. В. Алпатов. Женщины говорят иначе [Электронный ресурс]. URL: http://www.nkj.ru/archive/articles/6657/ (дата обращения 24.08.2007)
79. Вейлерт А. А. О зависимости количественных показателей единиц языка от пола говорящего лица // Вопросы языкознания. N 5.1976. С. 138-143.
80. Горошко Е. И. Особенности мужского и женского вербального поведения (психолингвистический анализ). Дис. канд. филол. наук. М., 1996.138 с
81. Горошко Е. И. Особенности мужского и женского стиля письма // Тендерный фактор в языке и коммуникации. Иваново, 1999. С. 28-41.
82. Кирилина А. В. Тендер: лингвистические аспекты. М.: Институт социологии РАН, 1999.189 с.
83. Крючкова Т. Б. Некоторые экспериментальные исследования особенностей использования русского языка мужчиной и женщиной // Проблемы психолингвистики. М., 1975. С. 186-200.
84. Michael Creel. PelicanHPC GNU Linux. [Электронный ресурс]. URL: http://pareto.uab.es/mcreel/PelicanHPC/ (дата обращения: 28.09.2012).
85. Ruder Boskovic Institute. DCC Live. [Электронный ресурс]. URL: http://dcc.irb.hr/ (дата обращения: 28.09.2012).
86. Scalable Cluster Environment [Электронный ресурс]. URL: http://sourceforge.net/projects/sce/ (дата обращения: 28.09.2012)
87. ComputeMode:On-demand НРС cluster manager [Электронный ресурс]. URL: http://computemode.imag.fr/mediawiki/index.php/ComputeMode_Grid_Manager (дата обращения: 28.09.2012)
88. Rocks Website. [Электронный ресурс]. URL: https://wiki.rocksclusters.org/ (дата обращения: 28.09.2012)
89. Joseph D. Sloan. High Performance Linux Clusters with OSCAR, Rocks, OpenMosix, and MPI. O'Reilly, 2004, ISBN: 0-596-00570-9
90. LINUX.ORG.RU Новости - Кластеры Вышел Rocks Cluster Distribution 6.1 [Электронный ресурс]. URL: http://www.linux.org.ru/news/clusters/8542036 (дата обращения: 28.09.2012)
91. Wikipedia. Free Encyclopedia. [Электронный ресурс]. URL: http://en.wikipedia.org/wiki/Main_Page (дата обращения 20.10.2012)
92. Kerrighed. Main Page. [Электронный ресурс]. URL: http://www.kerrighed.org/wiki/index.php/Main_Page (дата обращения: 28.09.2012)
93. A. Barak MOSIX Cluster Operating System [Электронный ресурс]. URL: http://www.mosix.org/ (дата обращения: 28.09.2012)
94. ИПМ им. М.В.Келдыша РАН. Разработка высокопроизводительных массово-параллельных гибридных вычислителей и способов их применения. [Электронный ресурс] -URL: http://www.kiam.ru/MVS/research/faq.html (дата обращения20.10.2012)
95. Марков Н. NVIDIA С1ЮА(сиквел) — Настройка PyCUDA // Тематические медиа. -2009. - 11 января. [Электронный ресурс]. URL: http://habrahabr.ru/post/48798/ (дата обращения 20.10.2012)
96. Pycuda 2013.1.1. Python Package Index // Python Software Foundation [Электронный ресурс]. URL: https://pypi.python.org/pypi/pycuda (дата обращения 20.10.2012)
97. A. Klockner, N. Pinto, Y. Lee, В. Catanzaro, P. Ivanov, A. Fasih/ PyCUDA: GPU RunTime Code Generation for High-Performance Computing // Elsevier. 18.11.2009. [Электронный ресурс]. URL: http://www.cs.berkeley.edu/~yunsup/papers/PyCUDA-2009.pdf (дата обращения 20.10.2012)
98. Ализар А. Запускаем Java-программы на GPU // Тематические медиа. - 2012. - 14 августа. [Электронный ресурс]. URL: http://habrahabr.ru/post/149552/ (дата обращения 20.10.2012)
99. The GeForce Lounge Board - GeForce Forums [Электронный ресурс]. URL: https://forums.geforce.com/default/board/45/the-geforce-lounge/ (дата обращения 20.10.2012)
100. Параллельные вычисления CUDA | Что такое CUD А? // NVIDIA [Электронный ресурс]. URL: http://www.nvidia.ru/object/cuda-parallel-computing-ru.html (дата обращения 20.10.2012)
101. Хмельницкий Национальный Университет. Центр Параллельных Вычислений. Параллельное ускорение [Электронный ресурс]. URL: http://parallelcompute.sourceforge.net/parcom_ru.php (дата обращения 20.10.2012)
102. Тараскина A.C. Нечеткая кластеризация по модифицированному методу с-средних и ее применение для обработки микрочиповых данных. / Касьянов В.Н. (ред.) Проблемы интеллектуализации и качества систем информатики. Новосибирск: Ин-т систем информатики имени А. П. Ершова СО РАН, 2006. — 280 с.
103. Кошкин Д.Е. Модификация алгоритма кластеризации категорийных данных Fuzzy С-Means. Материалы VI Всероссийской конференции студентов, аспирантов и молодых
129
ученых «Искусственный интеллект, философия, методология, инновации». Часть I, Секции I-III, г. Москва, МИРЭА, 13-15 ноября 2013 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2013.-154 е., 121-126 с.
104. O.A. Новикова. Обзор методов интеллектуального анализа данных применительно к задаче автоматизированного построения онтологий // Современные вопросы науки и образования-XXI век: сб. науч. Трудов по материалам Международной заочной научно-практической конференции 29 февраля 2012 г.: в 7 частях. Часть 3; Мин. Образования и науки Рос. Федерации. Тамбов: Изд-во ТРОО «Бизнес-Наука-Общество», 2012.164 с. Стр. 103-106
105. Виноградов Г.П. , Мальков A.A. Оценка эффективности метода кластеризации, использующего субъективные оценки // Международный журнал «Программные продукты и системы», №2, 2009. [Электронный ресурс]. URL: http://www.swsys.ru/index.php?page=article&id=2271 (дата обращения: 15.08.2012).,
106. Н.И. Куренков, С.Н. Ананьев Энтропийный подход к решению задач классификации многомерных данных. [Электронный ресурс]. URL: http://wwwcdl.bmstu.ru/it/kurenkov3.html (дата обращения: 28.09.2012).,
107. Пивоварова JI.H. Кластеризация документов. Системы понимания текста. [Электронный ресурс]. URL: http://www.myshared.ru/slide/38331/ (дата обращения: 15.02.2013).
108. Бекман И.Н. Информатика //курс лекций. Москва-Рим. 2009. [Электронный ресурс]. URL: http://profbeckman.narod.ru/InformLekc.htm (дата обращения: 15.02.2013).
109. Александр Пак. Определение части речи слов в русском тексте (POS-tagging) на Python 3// Тематические медиа. - 2011. - 10 августа. [Электронный ресурс]. URL: http://habrahabr.ru/post/125988/ (дата обращения 20.10.2012)
110. Александр Пак. Парсим русский язык// Тематические медиа. - 2012. - 20 июля. [Электронный ресурс]. URL: http://habrahabr.ru/post/148124/(дата обращения 20.10.1012)
111. Страуструп. Б. Язык программирования С++, Специальное издание: Пер. с англ. / Б. Страуструп. - СПб.: "Изд-во БИНОМ", 2001. - 1099 е.: ил
112. Грэди Буч. Объектно-ориентированный анализ и проектирование с примерами приложений на С++ = Object-Oriented Analysis and Design with Applications / Пер. И.Романовский, Ф.Андреев. - 2-е изд. - М., СПб.: «Бином», «Невский диалект», 1998. - С. 276-278. - 560 с.
113. Кошкин Д.Е., Скуратов А.К. Особенности параллельной обработки русскоязычного контента с использованием базовых характеристик объектно-ориентированных языков
высокого уровня // Журнал Вестник РУДН. Серия Информатизация Образования. №3,2013 год, - 108 е., с. 22-29.
114. Дробнов С.Е., Кошкин Д.Е. Расчет оптимального количества вычислителей GRID-системы. // Современные информационные технологии в управлении и образовании: Сборник научных трудов.В 3-х ч.-М.:ФГУП НИИ «Восход»Ч.1.- 224 е., 2012 г. 149-155 с.
115. Леохин Ю. Л., Зубков Р. С. Архитектуры систем управления корпоративными компьютерными сетями с функцией прогнозирования состояний // Качество. Инновации. Образование. 2012. № 12(91). С. 81-92.
116. С.Е. Кошкин Д.Е. Анализ ускорения обучения нейронных сетей при применении GRID-систем. Материалы IV Всероссийской конференции студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология инновации». Часть I, г. Москва, МИРЭА, 10-12 ноября 2010 г. Под ред. Д.И. Дубровского и Е.А. Никитиной -М.: «Радио и Связь», 2010. - 168 е., 85-88 с.
117. Семантическая сеть — Викизнание. [электронный ресурс], URL http://www.wikiznanie.ru/ru-wz/index.php/CeManTH4ecKaa_ceTb. (обращение 1.10,2012)
118. Кошкин Д.Е. Анализ синтаксических единиц в рамках текстового контента для формализации и создания алгоритма многопоточной обработки текстового контента. / Сборник научных трудов по материалам Международной научно-практической конференции «Современные тенденции в образовании и науке». 31.10.2013. Часть 3; Мин-во обр. и науки РФ. Тамбов: Изд-во ТРОО «Бизнес-Наука-Общество». 2013. 163 с. с. 78-82
119. Кошкин Д.Е. Организация высокопроизводительного вычислительного кластера на основе дистрибутива PelicanHPC. // Современные информационные технологии в управлении и образовании: Сборник научных трудов. В 3-х ч. - М.: ФГУП НИИ «Восход» 4.1.- 164 е., 2013 г. 12-18 с
120. Поисковая система IEEE [Электронный ресурс.] URL: http://ieeexplore.ieee.org/Xplore/guesthome.jsp
121. Спецификация Intel на технологию РХЕ версии 2.1. [Электронный ресурс.] URL: ftp://download.intel.com/design/archives/wfm/downloads/pxespec.pdf
122. The Internet Engineering Task Force (IETF) [Электронный ресурс.] URL: http://www.ietf.org/ (обращение 10.09.13)
123. CUDA Toolkit Documentation. [Электронный ресурс.] URL: http://docs.nvidia.com/cuda/index.html (обращение 10.09.13)
124. Кошкин Д.Е. Методы извлечения и представления знаний в форме семантических сетей из текстов на русском языке с помощью высокопроизводительных вычислительных кластеров. Материалы VI Всероссийской конференции студентов, аспирантов и молодых
131
ученых. Часть I, г. Москва, МИРЭА, 29-30 ноября 2012 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2012. - 184 е., 78-83 с.
125. Charles Bookman. Linux Clustering: Building and Maintaining Linux Clusters. Sams, 2002 — 288 p.
126. MPI Documents // Message Passing Interface Forum [Электронный ресурс.] URL: http://www.mpi-forum.org/docs/ (дата обращения: 15.02.2013).
127. Домрачев В.Г., Безрукавный Д.С., Калинина Э.В., Ретинская И.В., Скуратов А.К. Нечеткие методы в задачах мониторинга сетевого трафика. Ж. Информационные технологии. N3 2006 с. 2-10
128. Скуратов А.К. Статистический анализ телекоммуникационных сетей на основе исследования информационных потоков представленных в виде временных рядов // Вестник Самарского государственного аэрокосмического университета имени академика С.П. Королева: Сборник научных трудов. Выпуск 1(9).-Самара: СГАУ, 2006. -С. 185-190.
129. Тихонов А.Н., Скуратов А.К., Домрачев В.Г., Ретинская И.В. К развитию высокопроизводительных ресурсов и вычислений в научно-образовательной среде. Труды XI Всероссийской научно- методической конференции "Телематика 2004", 7-10 июня 2004 г., СПб., том 1, стр. И 9-121.
130. J. Mogul, S. Deering, DECWRL, Stanford University. Path MTU Discovery RFC1191. URL: http://tools.ietf.org/html/rfcll91 (дата обращения: 28.09.2013)
131. ОТЧЕТ (заключительный) по мероприятию «Развертывание на совместной базе МГТУ МИРЭА и Московского городского дворца детского (юношеского) творчества (МГДД(Ю)Т) инновационно-образовательного кластера в сфере информационных технологий», выполненному в рамках Соглашения № 1161 от 11 сентября 2012г. с Департаментом образования г. Москвы о предоставлении МГТУ МИРЭА Субсидии из бюджета города Москвы, на реализацию механизмов развития и эффективного использования потенциалов вузов в интересах города Москвы // МГТУ МИРЭА. Москва, 2012 г. 118 с. [Электронный ресурс.] URL: http://www.mirea.ru/moskva/otchet_2.docx (дата обращения: 01.09.2013).
132. Тихонов А.Н., Иванников А.Д., Скуратов А.К., Домрачев В.Г., Ретинская И.В. Современное развитие и применение высокопроизводительных вычислительных ресурсов в сфере науки и образования. Высокопроизводительные вычисления и технологии. Тезисы конференции. - Москва-Ижевск: Институт компьютерных исследований, 2003, стр. 17-22.
133. А.К. Скуратов, C.B. Свечников. Управление данными в распределенных средах. Учебное пособие в поддержку направления профессиональной подготовки
"Информационной системы" и дополнительного развивающего образования. МГДД(Ю)Т, МИРЭА, ФГУ ГНИИИТТ "Информика". М.: 2009г. - 111с. УДК 004.738.5
134. Официальный сайт LuxRender. [Электронный ресурс.] URL: www.luxrender.net (дата обращения: 28.09.2013)
135. Blender.org - Home of the Blender project [Электронный ресурс.] URL: http://www.blender.org/ (дата обращения: 28.09.2013)
136. Cycles Render Engine [Электронный ресурс.] URL: http://wiki.blender.0rg/index.php/D0c:2.6/Manual/Render/Cycles (дата обращения: 28.09.2013)
137. The Computer Language Benchmarks Game [Электронный ресурс.] URL: http://benchmarksgame.alioth.debian.org/ (дата обращения: 28.09.2013)
138. The Computer Language Benchmarks Game [Электронный ресурс.] URL: http://benchmarksgame.alioth.debian.org/ (дата обращения: 28.09.2013)
139. Официальная страница статистики кластера MuninnHPC. [Электронный ресурс.] URL: http://muninn.tissu.fít.mirea.ru (дата обращения: 28.09.2013)
140. Официальный сайт модуля NumPy [Электронный ресурс.] URL: http://www.numpy.org/ (дата обращения: 28.09.2013)
141. Andreas Klöckner. Официальная страница модуля PyCuda. [Электронный ресурс.] URL: http://wiki.tiker.net/PyCuda (дата обращения: 28.09.2013)
142. PyCUDA. Nvidia Developer Zone // Nvidia Corporation [Электронный ресурс.] URL: https://developer.nvidia.com/pycuda (дата обращения: 28.09.2013)
143. Lisandro Dal ein. Официальный сайт MPI for Python. [Электронный ресурс.] URL: http://mpi4py.scipy.org (дата обращения: 28.09.2013)
144. Краковецкий А. Кластеризация: алгоритмы k-means и c-means. [Электронный ресурс.] 2009.-22 августа. URL: http://msug.vn.ua/Posts/Details/3331 (дата обращения: 28.09.2013)
145. Официальный сайт проекта Folding@Home distributed computing. [Электронный ресурс.] URL: http://folding.stanford.edu/Russian/HomePage (дата обращения: 28.09.2013)
146. Pande Labs. Papers. [Электронный ресурс.] URL: http://pande.stanford.edu/papers (дата обращения: 28.09.2013)
147. Официальная страница команды 222616 MIREA.TISSU. [Электронный ресурс.] http://fah-web.stanford.edu/cgi-bin/main.py?qtype=teampage&teamnum=222616 (дата обращения: 28.09.2013)
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.