Разработка математических моделей и методов семантической кластеризации гипертекстовых структур на основе учёта статистики переходов пользователей тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Салин, Владимир Сергеевич
- Специальность ВАК РФ05.13.18
- Количество страниц 100
Оглавление диссертации кандидат наук Салин, Владимир Сергеевич
Оглавление
Введение
Глава 1.Модели и методы кластеризации гипертекстовых структур
1.1. Общая характеристика проблемы кластеризации веб-документов
1.2. Задача семантической кластеризации гипертекстовых документов
1.3. Традиционные методы семантической кластеризации документов
I
1.4. Подходы к моделированию гипертекстовой структуры для ее кластеризации
Глава 2.Разработка модели семантической кластеризации гипертекстовой структуры с использованием статистики переходов
2.1. Сбор данных о действиях пользователей на веб-сайте
2.2. Моделирование поведения пользователей в гипертексте
2.3. Семантическая кластеризация.. гипертекстовой структуры с учётом статистики переходов
I
Глава З.Разработка программного комплекса для кластеризации гипертекста с использованием статистики переходов
3.1. Требования к программной системе
3.2. Общая архитектура системы
3.3. Реализация программной системы
Глава 4.Методика оценки эффективности семантической кластеризации гипертекста
4.1. Разработка методики оценки эффективности
4.2. Оценка эффективности разработанного метода семантической кластеризации на реальных веб-сайтах
4.3. Практические рекомендации к подбору входных параметров модели и
ограничения её применения
Заключение
Список литературы
Приложения
Приложение А. Реализация алгоритма построения графа веб-сайта
Приложение Б. Реализация алгоритма расчёта метрик Precision, Recall и Fmeasure
Приложение В. Примеры запроса к серверу статистики Google Analytics и ответа от него
Приложение Г. Динамика изменения размера взвешенных графов веб-сайтов sstu.ru, rauseum.seun.ru, aksw.org при повышении порогового значения веса
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет2004 год, доктор технических наук Мальцева, Светлана Валентиновна
Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом2002 год, кандидат технических наук Холодова, Светлана Анатольевна
Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска2014 год, кандидат наук Зейн Али Нажи
Теоретико-графовые алгоритмы выявления семантической близости между понятиями на основе анализа наборов ключевых слов взаимосвязанных объектов2021 год, кандидат наук Лунев Кирилл Владимирович
Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования2012 год, кандидат технических наук Колосов, Алексей Павлович
Введение диссертации (часть автореферата) на тему «Разработка математических моделей и методов семантической кластеризации гипертекстовых структур на основе учёта статистики переходов пользователей»
Введение
Актуальность темы исследования. Получение актуальной информации через сеть Интернет в последнее время является важной потребностью информационного общества. Широко известные поисковые системы, такие как Google, Яндекс, Bing, Yahoo!, стали входной точкой для доступа к информации миллионов веб-сайтов для многих пользователей.
i
Вместе с тем, объемы информации, представленной в сети Интернет, постоянно растут, экспоненциально увеличивается количество веб-сайтов в сети. Обработка больших объемов информации с целью эффективного извлечения требующихся данных предполагает использование специализированных программных средств поиска и интеллектуального анализа, данных, а также современных подходов к структуризации, группировке, построению мета-описания (Н. Шедболт, В. Холл, Т. Бернерс-Ли [93]). ,
I
На предварительных этапах обработки данных в Вебе, различные программные системы применяют подход с группированием веб-документов общей тематики, который принято называть семантической кластеризацией. Данное понятие широко используется в области лингвистики при сопоставлении текстов естественного,„.язвдса , ианализа ,на предмет семантической эквивалентности (Михайлов Д.В. и Емельянов Г.М. [11]). С другой стороны, семантическая кластеризация веб-документов является подзадачей,более общей задачи кластеризации данных.
Широкое распространение кластеризация данных получила с развитием подходов к интеллектуальному анализу массивов данных ближе к концу XX века, сформировав отдельное направление кластерного анализа. Теоретические и методологические основы на данном направлении заложены в, результатах исследований многих отечественных и зарубежных авторов, включая Б. Дюрана и П. Оделла [5], И. Д. Манделя [10], С. А. Айвазяна [1], Д. С. Хайдукова [31] и других. Анализируя современные тенденции в данной области, В. С. Бериков и Г. С. Лбов
[3] предлагают следующую группировку по методам кластеризации: вероятностный (включает известные алгоритмы k-means, k-medians, EM-алгоритм и другие), иерархический и графовый подходы (детальный обзор методов графовой кластеризации проведен С. Э. Шеффер [92]), нечеткие алгоритмы кластеризации, алгоритмы на основе нейронных сетей и искусственного интеллекта, а также ряд алгоритмов, не вошедших в перечисленные группы. Как подчеркивает В. Эствилл-Кастро [48], на сегодняшний день разработано значительное множество разнообразных алгоритмов кластеризации, однако в различных, прикладных областях они имеют свои особенности.
В области поиска и анализа данных, данная задача весьма актуальна в последнее время, так как часто поисковые выдачи содержат тысячи или даже миллионы веб-страниц, , релевантных поисковому запросу. Чтобы помочь пользователю поисковой системы в 1 навигации по результатам поиска, формируются группы близких по, своей семантике веб-докумецтов. , .Подход используется как во всемирных поисковых системах (таких, как Google, Yahoo!, Bing или Яндекс [6, 29, 40]), так и в локальных поисковиках, встроенных в работу конкретного веб-сайта для поиска релевантных документов в нем. Подробный обзор авторов Н. О. Эндрюса и Э. А. Фокса [32] описывает применение для задачи семантической кластеризации в Вебе одиннадцати различных алгоритмов, со
ссылками более чем на 50 источников. Применительно к кластеризации веб-
i
документов, стоит отметить обзор К. Карпинето и др. [42], в котором авторы рассматривают 14 алгоритмов текстовой кластеризации для решения задачи
, . i¡Oin-.Kv>mi,l ClU i i-, .i i . ...
группировки результатов поиска. Однако рассмотренные ими подходы хоть и
i
отличаются от классических центроидных алгоритмов кластеризации документов, но тем не менее не учитывают внутренних гипертекстовых свойств веб-сайта и ориентированы на рассмотрение каждого веб-документа как отдельного текстового объекта.
•Г. 1 í( ' Vi'll-.jr.,--, |< r\ ;!!,.!•■■ 'I
Другой областью, где семантическая кластеризация играет важную роль, является концепция «Семантического Веба» (Semantic Web) как идеи построения
формального мета-описания над информацией, представленной в сети Интернет [93]. В данной области, методы кластеризации могут применяться в задачах программного анализа данных на предварительных этапах. При выявлении
I
семантики веб-документов, в частности, в задаче определения ключевых слов и составления онтологий, важно определить группы, или кластеры связанных по смыслу документов. На полученных в результате коллекциях документов, близких по смыслу, повышается эффективность известных методов анализа текста, которые как раз используются для определения семантики [42, 60, 66, 79]. |
I
В администрировании веб-сайтов, семантическая кластеризация также играет важную роль. Например, рна используется на начальных этапах реинжиниринга веб-сайта, где требуется провести анализ текущей его структуры. Администратору веб-сайта, принимающему решение о его реструктуризации, важно знать сформировавшиеся группы веб-страниц, тесно связанных по смыслу, чтобы учесть эти связи при перестроении структуры [15, 21].
Современные технологии разработки веб-сайтов также опираются на семантическую'11 'кластеризацию ' веб-документов. Наиболее ярким примером является концепция адаптивного дизайна пользовательских интерфейсов и адаптивной навигации. Ключевые принципы данных подходов р разработке опираются, с одной стороны, на анализ поведения пользователя на веб-сайте в рамках его сессии посещения, а с другой, на кластеры веб-страниц, максимально близких по смыслу к уже посещенным страницам. Подробный .обзор работ, посвященных анализу навигационного поведения пользователей для решения задач построения пользовательских интерфейсов и навигации в гипертексте, провели авторы В. Холинк, М. ван Сомерен, Б. Дж. Вилинга [60]. В частности,
I
исследования и разработка адаптивной навигации отражены в работах авторов
<.' К. и-,», I ^,; 11 _ 1.1 и • • ) < I > ч
Б. Смита и П. Котгера [94], М. Дж. Паззани и Д. Биллсуса [84], М. Перковиц и О. Этциони [85]. Отдельно стоит отметить исследования Г. Бейдун [37], в котором авторы предлагают применять при построении навигационной модели в
I
гипертексте статистику переходов пользователей, в то время как традиционно
.) О'ЫСЛЧ К \'.}.е 1Кп_с!|1Л-П|!ь! м 1
статистика переходов и посещений веб-страниц использовалась для решения задач веб-аналитики (А. Котик [7]).
Таким образом, задача кластеризации веб-документов актуальна в разных областях, связанных с разработкой средств организации и структурирования гипертекствого пространства.
Вместе с тем, вопрос кластеризации как текстовых, так и нетекстовых веб-документов (например, графических) остается малоизученным, являясь при этом актуальным в анализе веб-сайтов. В таких случаях, известные текстовые методы малоэффективны, и для определения семантической близости между нетекстовыми веб-документами ^еб}Ыэтся'новые подходы. • '' 1 •
С другой стороны, активно развивается область веб-аналитики^ обладающая богатым опытом наблюдения за поведением пользователей в гипертекстовом пространстве. Исследования в данной области показывают, что при целенаправленном посещении веб-страниц сайта, пользователи решают конкретную поисковую задачу и переходят между веб-документами, отвечающими их поисковому запросу [94, 97, 109]. Тем самым, пользователи неявно устанавливают семантические связи между посещенными веб-документами — как текстовыми, так и нетекстовыми. В свою очередь, инструменты веб-аналитики помогают накапливать. статир;гикущереходов пользователей.
В этой связи, как представляется, , может, оказаться полезным .подход, связанный с учётом статистики числа обращений пользователей к (Нетекстовым документам. В частности, подобный учёт может расширить возможности графовых моделей в решении задачи семантической кластеризации. , :
В данной работе предлагается решение актуальной проблемы семантической кластеризации нетекстовых веб-документов с учётом использования статистики посещения и гиперссылок. Результаты исследования дополняют известные методы семантической кластеризации текстовых документов и предоставить возможность классифицировать текстовые и нетекстовые объекты в рамках единого подхода на
предварительном этапе интеллектуальной обработки данных. Изложенное позволяет сформулировать следующую цель работы.
Целью диссертационного исследования является разработка математических моделей гипертекстовой структуры и методов её семантической кластеризации с учётом статистики обращения к веб-документам для расширения возможностей классификации нетекстовых веб-документов на предварительных этапах смысловой обработки данных в информационном пространстве Интернет.
1
Для достижения цели в работе решаются следующие задачи:
1) Провести анализ известных моделей гипертекстовых структур и методов их
I >!
кластеризации;
2) Разработать модель гипертекстовой структуры для выявления кластеров семантически связанных документов на основе статистики активности пользователей;'4'' - •'• ' " ■1 1 - 1
3) Разработать метод семантической кластеризации гипертекстовой структуры на базе разработанной модели;
4) Разработать комплекс программ для автоматизированного построения модели гипертекстовой структуры и ее кластеризации на основе разработанного метода;
5) Разработать методику оценки эффективности разработанного метода поиска кластеров семантически связанных документов в гипертексте, по сравнению с традиционными методами текстовой кластеризации.
Объектом иисследования в данной работе является информационное пространство Интернета, представленное набором веб-документов, организованных в виде гипертекста (языка разметки документов с определением ссылок между ними).
Предметом исследования в настоящей работе являются методы семантической кластеризации веб-документов.
м: iwUli: ifpn Kllnll! 'i.v w .4
.VI . II
Теоретическая и методологическая основа. Теоретическую и методологическую основу исследования составляют аналитические методы теории графов, теории множеств, кластерного анализа, математической статистики, методы веб-аналитики, проектирования программных систем и баз данных.
При проведении моделирования и вычислительных экспериментов на ЭВМ, использовались современные аппаратные и программные средства. Программный комплекс и алгоритмы реализованы на языке Java, для обработки и хранения данных использовались язык SQL и СУБД MySQL.
I I
Научная новизна исследования. Научная новизна результатов диссертационного исследования заключается в следующем: '
1) Разработана математическая модель гипертекстовой структуры в виде взвешенного редуцированного графа, отличающаяся учётом статистики наиболее частых переходов пользователей между узлами гипертекста за заданные промежутки времени.
2) Разработан алгоритм вычисления весов дуг графа по данным статистики переходов пользователей между веб-страницами за заданные промежутки времени. Алгоритм применяется "¿' предложенной модели при построении взвешенного графа веб-сайта. v .
3) Предложена методика оценки эффективности нового метода семантической кластеризации соотнесения найденных кластеров нетекстовых веб-документов с кластерами текстовых документов. Методика включает расчет численных показателей, а также оценки соответствия нетекстовых документов известной тематике.
4) Разработан комплекс программ для автоматизированного построения математической модели веб-сайта с учётом статистики обращений к веб-документам и её последующей кластеризации. Комплекс программ также
.....' • •< " '«'■•• >'1VI' Г- "liV.......... .'.I ■!■•■'■ ' ■ "
позволяет рассчитывать численные показатели эффективности нетекстовой кластеризации при сопоставлении с кластерами текстовых документов.
5) На основании предложенной математической модели и разработанного комплекса программ, показана эффективность кластеризации нетекстовых документов с учётом статистики переходов на трёх тестовых примерах реальных веб-сайтов с различной долей нетекстовых веб-документов в них.
Научная значимость исследования заключается в том, что результаты, представленные в работе, расширяют и дополняют возможности исследования информационного пространства Интернет. Разработанная модель гипертекстовой структуры дает возможность использовать связь между семантической близостью веб-документов и переходами пользователей между документами по гиперссылкам, что существенно расширяет применимость и эффективность методов семантической кластеризации.; н ,.......
Практическая значимость исследования обусловлена тем, что его результаты могут быть использованы для решения задачи семантической кластеризации, включая нетекстовые веб-документы, что является актуальным на предварительных этапах смысловой обработки информации в дети Интернет. Разработанный комплекс программ моделирования веб-сайтов с учётом статистики их посещения может быть использрван как инструмент для решения широкого круга задач анализа информации в сети Интернет. Полученные с, его помощью результаты кластеризации веб-документов позволяют судить о практической ценности данного- инструмента и возможности его применения в конкретных прикладных задачах реинжиниринга веб-сайтов, а также в области
I
интеллектуального анализа гипертекстовой информации.
Разработанная в рамках диссертационной работы программа: «А^еЬРадеСк^еге - программное обеспечение для построения кластеров вебстраниц», заявлена- в Роспатент РФ для получения свидетельства о государственной регистрации программы для ЭВМ. .,,
Апробация результатов исследования. Диссертационная работа многократно обсуждалась на научных семинарах кафедры «Информационные
системы и технологии» Саратовского государственного технического университета им. Гагарина Ю.А. в 2012-2015 годах, Всероссийских и международных конференциях, а также на научных семинарах исследовательской группы Agile Knowledge Engineering and Semantic Web (Лейпциг, Германия) в 2014 году.
Основные результаты диссертационного исследования были представлены в
i
форме научных докладов и сообщений на следующих конференциях:
1) «Проблемы социально-экономического развития России» (Саратов, 2009);
2) «Телематика'2010» (Санкт-Петербург, 2010);
3) «Модернизация экономики и общества: новое качество посткризисного развития» (Саратов, 2011);
4) «Телематика'2011» (Санкт-Петербург, 2011); 1
5) «Телематика'2012» (Санкт-Петербург, 2012);
6) International Conference on Engineering Education and Research (Марракеш, 2013); ,
7) «Математические методы в технике и технологиях - ММТТ-26» (Нижний Новгород, 2013);
8) ICEE/ICIT Conference (Кейптаун, 2013);
9) Innovative Information Technologies (Прага, 2014);
10) «Интернет и современное общество» (IMS 2015) (Санкт-Петербург, 2015).
Всего по теме исследования опубликовано 20 научных работ, в том числе 5 в изданиях, рекомендованных ВАК РФ [15, 19,27, 28, 24].
Соответствие темы диссертации требованиям паспорта специальностей научных работников. Диссертационная работа выполнена в соответствии с паспортом специальности 05.13.18 - Математическое моделирование, численные методы и комплексы программ, п. 1. Разработка новых математических методов моделирования объектов и явлений; п.'З. Разработка, обоснование и тестирование эффективных ■ вычислительных методов с применением современных
I,|J, . I I v >11. H)l I . - .
компьютерных технологий; п. 4. Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.
Положения и результаты, выносимые на защиту:
1) Разработанная на основе синтеза гипертекстовой структуры сайта и данных статистики переходов пользователей между его узлами математическая модель в виде взвешенного редуцированного графа решает задачу семантической сегментации гипертекста без его полнотекстового анализа.
2) Разработанный на базе предложенной модели метод кластеризации веб-
I
документов позволяет осуществлять семантическую привязку ' нетекстовых документов. I
3) На основе разработанной методики оценки эффективности предложенного метода семантической -„кластеризащщ совокупности веб-документов, показана применимость нового метода кластеризации веб-документов на примере решения
, I
задачи поиска семантических кластеров для трех различных веб-сайтов.
4) Разработанный комплекс программ для автоматизированного построения
I
графовой модели для множества гипертекстовых документов веб-сайта с учетом
i 5
данных статистики поведения пользователей может использоваться как инструмент для решения прикладных задач в областях проектирования, разработки веб-сайтов, интеллектуальном анализе данных гипертекста.
Структура диссертации. Диссертационное исследование изложено на 100 страницах, его структура состоит из введения, четырех глав, заключения, списка использованной литературы, 4 приложений, 23 рисунков, 5 таблиц и ,17 формул.
Во введении показана актуальность исследуемой проблемы, рассмотрена степень ее проработанности, определены предмет, объект, цель и задачи и методы исследования, а также определена новизна, теоретическая и практическая значимость полученных'результатов. 'i' 1
) чп1мм \ |»с л ль 1 и 11 и
В первой главе дан обзор традиционных подходов к кластеризации текстовых документов, сформулирована задача семантической кластеризации веб-документов произвольного вида (как текстовых, так и нетекстовых).
Во второе главе приводится модель для заданной совокупности веб-документов, за основу которой взят взвешенный ориентированный граф Н = [Р, ¿}. Представление гипертекста в виде ориентированного графа дополняется путем назначения весов ребрам на основе данных статистики переходов пользователей между страницами гипертекста за время А Т. Фактические значения весов назначаются в зависимости от количества переходов пользователей между узлами гипертекста и определяются двумя параметрами: временным интервалом наблюдения активности пользователей и минимальным пороговым значением весов ребер графа,¡ниже которого веса считаются незначительными и исключаются из модели. На основе модели, разработан метод семантической кластеризации веб-документов.
В третьей главе описывается архитектура программного комплекса для автоматизированного построения графовой модели гипертекста и вычисления кластеров на основе данных статистики переходов по связям гипертекста, продемонстрированы ключевые аспекты ее реализации и функционирования.
В четвертой главе приводятся основные результаты вычислительных экспериментов по применению разработанного метода кластеризации на реальных сайтах и предлагается методика оценки эффективности кластеризации гипертекста на базе их результатов.
В заключении содержатся результаты проведенного диссертационного исследования, сформулированы основные выводы и рекомендации по результатам исследования.
,, \ ii.ll ЛС 1 ^л Л!.. 1Ь, |,ИКи V .VII ,< I ч>'. I . • I
Глава 1. Модели и методы кластеризации гипертекстовых структур
1.1. Общая характеристика проблемы кластеризации веб-документов
Объемы информации, представленной в Интернете, постоянно возрастают. Экспоненциально увеличивается количество веб-сайтов в сети. По состоянию на 2015 год, количество известных веб-сайтов составляет около 1 миллиарда (по данным рейтингового агентства ^^гай1).
1,000,000,000 --------------------------------------------------------------------------------------------———
о
0
I-
>5
8
1
ю а> о
о а
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
Год
Рисунок 1. Динамика возрастания количества веб-сайтов (уникальных веб-доменов) в сети Интернет2
Прирост только за 2014-й год составил около 44%, что составляет около 300 миллионов веб-сайтов, появившихся в сети и доступных для анализа. Динамика ежегодного возрастания количества веб-сайтов, начиная с 2000-го года, показана на рисунке 1.
I
Кроме того, всё большую популярность набирают веб-ориентированные бизнес-системы на предприятиях. Это системы автоматизации бизнес-процессов,
I
системы документооборота, планирования ресурсов предприятия и другие. Часто такие системы расположены во внутренней сети организации и недоступны для анализа извне. Поэтому более-менее точно оценить их численность очень сложно.
I.
1 Методика подсчёта описана на веб-сайте организации http://www.netcraft.com/active-sites/
2 График построен по данным сервиса ЫеМГгай на конец 2014 года. Источник:
https://docs.google.eom/spreadsheets/d/194P0mer3rlCHckc42vgXpt7NkplJv9z ОоМЬСпХаСечу/риЬ?ц1с1=0
15 I
Эффективное извлечение данных таких объемов для последующей обработки и анализа требует наличия автоматизированных систем интеллектуального анализа как самих данных, так и поведения пользователя в гиперпространстве. Подобного рода системы позволяют агрегировать информацию с нескольких веб-сайтов, предоставлять удобные и эффективные средства поиска, анализировать поведение пользователя и адаптировать
пользовательский интерфейс под его актуальные интересы, подсказывать
!
релевантные веб-страницы при навигации по сайту и многое другое.
I
Потребность в таких системах постоянно возрастает вместе с развитием Интернета. Веб-технологии в 2000-х годов совершают переход от условной концепции «Веб 1.0», в котором центральными элементами были персональные и корпоративные веб-сайты с уникальным, создаваемым автором или, владельцем веб-сайта содержимым, к концепции «Веба 2.0»3, в котором веб-сайты «только для чтения» активно замещаются социальными. сетями, интерактивными информационными порталами. Концепция «Веб 2.0» подталкивает самих пользователей Интернета на создание нового содержательного наполнения вебсайтов. С переходом к данной концепции и предоставлением соответствующих технических возможностей разработчиками веб-сайтов, объемы информации стали стремительно расти.
Используемые ранее каталоги веб-сайтов, по которым пользователи могли самостоятельно найти веб-сайт нужной категории, стали замещаться поисковыми системами. Такие системы стали быстро охватывать не только все известные каталоги, но и самостоятельно искать возникающие во Всемирной сети веб-сайты и осуществлять поиск по ним.
В основе Интернет-поиска лежит главным образом сопоставление введенного поискового запроса (фразы или набора фраз) содержанию всех известных поисковой машине веб-сайтов. При этом содержательный анализ текста,
3 Автор термина - Тим О'РеГшн, источник 1111п:/Аулу\у.оге1'11у.сот/риЬ/п/\уеЬ2/агс1)!ус/\уЬа1-{я-шеЬ-20.Ь(т1
размещенного на веб-странице, сам по себе является отдельной серьезной задачей из области лингвистики и обработки естественного языка. В данной области рассматриваются различные лингвистические проблемы выявления семантики текста, его классификации, вопросы синонимии и так далее.
Однако при поиске пользователь-человек решает смысловую задачу - поиск наиболее подходящего сайта прежде всего по смыслу, или семантике его поискового запроса. В то время как поисковая система сопоставляет введенные им ключевые слова по правилам лингвистики, никак не оперируя семантикой слов. Программные системы оказались малоэффективными в решении задачи семантического поиска, то есть, поиска по смыслу, а не только по сопоставлению языковых конструкций. С другой стороны, традиционный подход к составлению содержимого веб-сайтов не предполагал никаких дополнительных! действий по добавлению семантики в, ¡текстовый или .графический материал.
Данные особенности гипертекстового пространства значительно усложняют процесс «осмысленного» поиска и автоматизированного извлечения семантики из содержимого веб-страниц. Важным шагом в решении данной проблемы стал переход к концепции «Семантического Веба» [93] и принятие мировым Интернет-сообществом4 глобального подхода построения над веб-сайтами слоя метаинформации, предполагающего,выделение из документов ключевых слов и последующего описания документов на основе онтологий5. Данные онтологии предполагают строго заданный формат, что значительно должно облегчить программным агентам работу с ними. Задача разработки такого мета-описания является одной из задач построения Семантического Веба.
I
Семантический Веб предполагает привязку содержимого веб-страниц к таким онтологиям и слою мета-описания, что включает создание рпределенной структурированности данных. При этом повсеместно используемый язык разметки
4 \V3 Consortium, веб-сайт организации: http7Avww.w3.org/ 1
5 Онтология направлена на формализацию некоторой области знаний с помощью концептуальной схемы, содержащей все классы объектов, их связи и ограничения, принятые в данной области зндний. >
!
гипертекста HTML6 ориентирован на удобное и графически насыщенное отображение данных пользователю-человеку: данный язык хоть и обладает некой структурой, но она ориентирована на применение различных стилизаций текста, добавления графических элементов, медиа-объектов, создания анимации и так далее. Его использование для структуризации самих данных, исходя из их семантики и значения, разделения содержательной части от графической составляющей и каркаса страницы, уходит на второй план.
I
Другой важный фактор состоит в том, что часто содержательная часть веб-
I
страницы не имеет информативного текста и представлена в виде медиа-объектов. К таким нетекстовым веб-документам можно отнести, например, встроенные в вебстраницу аудио- и видеопроигрыватели с соответствующим наполнением, объекты Flash, Flex, Silverlight, Java-апплеты, различные слайд-шоу, документы бинарного формата. Условно, такие веб-документы можно разделить на следующие, группы:
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Модели, алгоритмы и программные средства бикластеризации на основе замкнутых множеств2010 год, кандидат технических наук Игнатов, Дмитрий Игоревич
Проблемы изучения и восприятия гипертекста в мультимедийной среде Интернет2009 год, кандидат филологических наук Ильина, Ирина Анатольевна
Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия2010 год, кандидат технических наук Бородащенко, Антон Юрьевич
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров2014 год, кандидат наук Кошкин, Дмитрий Евгеньевич
Список литературы диссертационного исследования кандидат наук Салин, Владимир Сергеевич, 2015 год
Список литературы
1. Айвазян С. А. [и др.] Прикладная статистика: Классификация и снижение размерности [Книга]. - М.: Финансы и статистика, 1989.
2. Алексеева Р. Е. Построение модели и алгоритма кластеризации в интеллектуальном анализе данных [Журнал] // Вестник Нижегородского университета им. Н.И. Лобачевского. - 2012 г.. - 1 : Т. 2. - стр. 198-202.
3. Бериков В. Б. и Лбов Г. С. Современные тенденции в кластерном анализе [Журнал] // Институт математики им. С.Л. Соболева. - 2009 г.. - стр. 1-26.
4. Дербенева О. Ю. [и др.] К вопросу о модулярности веб-пространства образовательного учреждения [Журнал] // Ученые Записки
. , I
Петрозаводского Государственного Университета. - 2014 г.. - 8 : Т. 2. - стр.
V- ¡1 ;(•' : ! ! К ■ и ! ' I - 1 ' ! ¡; 1.!
104-108.
5. Дгоран Б. и Оделл П. Кластерный анализ [Книга]. - М.: Статистика, 1977.
}
6. Зеленков Ю. Г. и Сегалов^ч И. В. Сравнительный анализ методов определения нечетких дубликатов для ^УУеЬ-документов // Труды. - 2007. -
Н. !>. ¡> .!(ш)В ; . \ и ипр. м ■ ,1. •............, :
Т. 9.-С. 166-174.
7. Кошик А. Веб-аналитика 2.0 на практике [Книга]. - М.: Диалектика, 2011.
8. Куприянова Н. И. Концептуальная модель кластеризации данных [Журнал] // Известия ЮФУ. - 2007 г.. - стр. 256-260.
9. Маликов А. В. Ориентированные графы в реляционных базах данных [Журнал] // Управление, вычислительная техника и информатика. - 2008 г.. - 18 :Т.2.-стр. 100-104.
10. Мандель И. Д. Кластерный анализ [Книга]. - М. : Финансы и статистика, 1988.
11. Михайлов Д.В. и Емельянов Г.М. Семантическая кластеризация текстов предметных языков (морфология и синтаксис) [Журнал] // Компьютерная техника. - 2009 г.. - 4 : Т. 33. - стр. 473-480.
12. Николенко С. И. и Фишков А. А. Обзор моделей поведения пользователей для задачи ранжирования результатов поиска [Журнал] // Труды СПИИРАН. - 2012 г.. - 3 : Т. 3. - стр. 139-175.
13. Ольшевский А. И. и Кондратьева А. А. Описание способов представления \уеЬ-сайтов в виде фреймовой модели для реализации функциональных операций в Интернет - клиентских системах [Журнал] //
I
Искусственный Интеллект. - 2008 г.. - стр. 110-118.
14. Салин В. С. Аналитика сайта на основе графовой модели [Конференция] // Модернизация экономики и общества: новое качество посткризисного развития.-'2011.-стр. 109-110. 1
15. Салин В. С. и Папшев С. В. Об одном подходе к реинжинирингу гипертекстовых структур [Конференция] // Математические методы в технике и технологиях - ММТТ-26: сб. тр. XXVI междунар. науч. конф. -2013.-стр. 118-120.
I
16. Салин В. С. и Папшев С. В. Семантическая навигация, основанная на объектно-ориентированной модели сайта [Конференция] // Телематика'2011 : тр. XVIII всерос. науч.-метод. конф., г. Санкт-Петербург. - 2011. - стр. 191-192.
17. Салин В. С. и Папшев С. В. Семантическая сегментация веб-гипертекста на основе дискретных математических моделей [Конференция] // Труды VIII объединенной5 конференции «Интернет и современное общество» (1МБ 2015). - 2015. - стр. 119-129.
18. Салин В. С. и Сумина Г. А. Автоматизированная система учета статистики и регистрации посещений в ИОЦ «Виртуальный филиал
Русского музея» [Конференция] //Телематика'2010 : тр. XVII всерос. науч.-метод. конф., г. Санкт-Петербург. - 2010. - стр. 211-212.
19. Салин В. С. и Сытник Р. А. Автоматизация сбора и анализа внешней информации в финансовом менеджменте [Журнал] // Вестник Саратовского государственного технического университета. - 2011 г.. -60. - стр. 224-228.
20. Салин В. С. и Сытник Р. А. Экономические аспекты доступа к научным базам данных [Конференция] // Телематика'2011 : тр. XVIII всерос. науч.-метод. конф., г. Санкт-Петербург. - 2011. - стр. 189.
21. Салин В. С. Разработка системы поддержки принятия решений для реинжиниринга веб-сайта [Конференция] // Участники школы молодых ученых и программы У.М.Н.И.К..: сб. тр. XXVI междунар. науч. конф. "Математические методы в технике и технологиях - ММТТ-26". - 2013. -стр. 255-^258)' —."И" ........— * - >
22. Салин В. С. Создание и доработка системы хранения данных с веб-интерфейсом [Конференция] // Проблемы социально-экономического развития России. - 2009. - стр. 108-109.
23. Салин В. С., Папшев С. В. и Сытник А. А. Графовая модель веб-сайта как основа для анализа его структуры [Конференция] // Телематика'2012 : тр. XIX всерос. науч.-метод. конф., г. Санкт-Петербург. - 2012. - стр. 190191.
24. Салин В. С., Папшев С. В. и Сытник А. А. Метод семантической кластризации гипертекстовой структуры с применением статистики переходов пользователей по внутренним ссылкам [Журнал] // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. - 2015 г.. - Т. 2. - стр. 138-148.
25. Салнн В. С., Папшев С. В. и Сытник А. А. Об одном методе синтеза семантической структуры веб-сайта [Журнал] // Вестник Саратовского государственного технического университета. - 2011 г.. - 60. - стр. 199-202.
26. Салин В. С., Папшев С. В. и Сытник А. А. Подходы к семантической сегментации образовательных гипертекстовых ресурсов [Конференция] // Телематика'2014: тр. XXI всерос. науч.-метод. конф., г. Санкт-Петербург. -2014. - стр. 93-95. ,
27. Салин В. С., Папшев С., В. и Сытник А. А. Построение семантических кластеров гипертекстовой структуры на основе статистики переходов пользователей по гиперссылкам [Журнал] // Вестник Саратовского государственного технического университета. - 2014 г.. - 77. - стр. 192-198.
28. Салин В. С., Папшев С. В. и Сытник А. А. Практическое применение метода Вогс1егАо\у в задаче автоматизированной семантической кластеризации веб-сайта [Журнал] // Информатизация образования и науки. ФГАУ ГНИИ ИТТ «Информика». - 2015 г.. - 27 : Т. З.1- стр. 65-73.
29. Сегалович И. и Маслов М. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового'' поиска и" ранмсирования в Яндекс // Труды второго российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова. - Санкт-Петербург: НИИ Химии СПбГУ. - 2004.
30. Сорокин А. В. и Белим С. В. Повышение информативности сайта с помощью ориентированных графов [Журнал] // Наука И Образование. -2010 г.. -стр. 1-10.
31. Хайдуков Д. С. Применение кластерного анализа в государственном управлении [Журнал] // Философия математики: актуальные проблемы. -[б.м.] : МАКС Пресс, 2009 г..-'стр. 287.
32. Andrews Nicholas О и Fox Edward A Recent developments in document clustering [Журнал] // Citeseer. - 2007 г.. - стр. 1-25. - ISBN: 9781424415281 DOI: 10.1109ЛЕЕМ.2007.4419185.
33. Arasu Arvind и Garcia-Molina Hector Extracting structured data from web pages [Конференция] // Proceedings of the 2003 ACM SIGMOD international conference on Management of data. - 2003. - стр. 337-348.
i
34. Auer Soren [и др.] Dbpedia: A nucleus for a web of open data [Раздел книги] // The semantic web. - [б.м.]: Springer, 2007. 1
35. Banerjee Arindam и Ghosh Joydeep Clickstream clustering using weighted
longest common subsequences [Журнал] // Proc of the Workshop on Web
i
Mining SIAM Conference cm Data Mining. - 2001 г.. - стр. 33-40.
36. Berlt Klessius [и др.] Modeling the web as a hypergraph to compute page reputation [Журнал] // Information Systems. - 2010 г.. - 5 : Т. 35. - стр. 530543. - ISBN: 9284137845 ISSN: 03064379 DOI: 10.1016/j.is.2009.02.005.
37. Beydoun G. Formal concept analysis for an e-learning semantic web [Журнал] // Expert Systems with Applications. - [б.м.]: Elsevier, 2009 г.. - Т. 36.-стр. 10952-10961.
i
38. Biemann С. Chinese whispers: an efficient graph clustering algorithm and its application to natural language processing problems [Конференция] //Proceedings of the first workshop on graph based methods for natural language processing. - Association for Computational Linguistics, 2006. - C. 73-80.
39. Bra Paul De и Houben Geert-jan A Formal Approach to Analyzing the Browsing Semantics of Hypertext [Журнал]. - 1993 г..
40. Brin Sergey и Page Lawrence The anatomy of a large-scale hypertextual Web search engine [Журнал] // Computer Networks and ISDN Systems . - 1998 г.. -Т. 30. - стр. 107-117. - Proceedings of the Seventh International World Wide
• ......*. . ..... ! •
-nine's u! |hi' firsi V.ul ¡.s,»!!in <)!• ■ Wi ■ I
Web Conference . - ISSN: 0169-7552 DOI: http://dx.doi.org/10.1016/S0169-7552(98)00110-X.
41. Carlson Andrew [и др.] Toward an Architecture for Never-Ending Language Learning [Конференция] // Proceedings of the Conference on Artificial Intelligence (AAAI). - 2010.
42. Carpineto Claudio [и др.] A survey of Web clustering engines [Журнал] // ACM Computing Surveys. - 2009 г.. - 3 : Т. 41. - стр. 1-38. - ISBN: 0360-0300 ISSN: 03600300 DOI: 10.1145/1541880.1541884.
43. Chakrabarti Deepayan и Mehta Rupesh The paths more taken: matching
i>J . I Li I l~> . ' . » J ' i
DOM trees to search logs for accurate webpage clustering [Конференция] // Proceedings of the 19th international conference on World wide web. - 2010. -стр. 211-220.
44. Croft W Bruce, Metzler Donald и Strohman Trevor Search engines: Information retrieval in practice [Раздел книги]. - [б.м.] : Addison-Wesley Reading, 2010.
!
45. Deerwester S. С. [и др.] Indexing by latent semantic analysis [Журнал] //JAsIs. - 1990. - T. 41. - №. 6. - C. 391-407.
I
46. Devika К и Surendran Subu An Overview of Web Data Extraction Techniques
...... !.! V .1- M 1(1" f' ' I I/ ' I
[Журнал] // International Journal of Scientific Engineering and Technology. -2013 г.. - 4 : Т. 2.
47. Erbs Nicolai [и др.] DKPro Keyphrases: Flexible and Reusable Keyphrase
i
Extraction Experiments [Журнал] // ACL 2014. - 2014 г.. - стр. 31.
48. Estivill-Castro Vladimir Why so many clustering algorithms [Журнал] //
ACM SIGKDD Explorations Newsletter. - 2002 г.. - 1 : T. 4. - стр. 65-75.
j
49. Ferragina P. и Gulli A. The anatomy of a hierarchical clustering engine for Web-page, news and book snippets //Data Mining, 2004. ICDM*04 [Журнал] //
! r'ii.VfVä t№ ' f.
ICDM'04 Fourth IEEE International Conference on Data Mining. - 2004 г.. - Т. 2004. - стр. 395-398.
50. Ferrara Emilio and Meo, Pasquale De and Fiumara, Giacomo and Baumgartner, Robert Web Data Extraction, Applications and Techniques: A Survey [Журнал] // CoRR. - 2012 г.. - Т. abs/1207.0246.
51. Ferrucci David и Lally Adam UIMA: An Architectural Approach to
Unstructured Information Processing in the Corporate Research Environment
i -
[Журнал] // Nat. Lang. Eng.. - New York, NY, USA : Cambridge University Press, Сентябрь 2004 г.. - 3-4 : Т. 10. - стр. 327-348. - ISSN: 1351-3249 DOI: 10.1017/S1351324904003523. "
52. Frank Eibe [и др.] Domain-specific Keyphrase Extraction [Конференция] // Proceedings of the 16th International Joint Conference on Artificial Intelligence - Volume !2. - San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1999. - стр. 668-673.
53. Frisse Mark F и Cousins Steve В Models for Hypertext [Журнал] // Journal of the American Society for Information Science. - 1992 г.. - 2 : Т. 43. - стр. 183-191.-DOI: 10.1145/122974.125117.
i \ч.-|ч:Лп: "'О! ¡4 . ч. • Г н - ■ : - : ■ ' 1
54. Fukunaga К., Narendra Р. М. A branch and bound algorithm for computing k-nearest neighbors [Журнал] //Computers, IEEE Transactions on. - 1975. - T.
100.-№. 7.-C. 750-753. 1
• ■ . i
55. Girvan M., Newman M. E. J. Community structure in social and biological
... i, ■ . I ; i 11 i. ■ . .
networks [Конференция] //Proceedings of the national academy of sciences. — 2002. - T. 99. - №. 12. - C. 7821-7826.
!
56. Halasz Frank G и Schwartz Mayer D The Dexter hypertext reference model [Журнал] // Communications of the ACM. - 1994 г.. - стр. 30-39.
57. Harispe Sebastien [и др.] Semantic Measures for the Comparison of Units of Language, Concepts or Entities from Text and Knowledge Base Analysis [Журнал] // arXiv preprint arXiv: \ldots. - 2013 г.. - стр., 1-102.
58. Hill Chapel Hyperdocuments as Automata : Trace-based Browsing Property Veri cation [Журнал]. - 1992 г..
59. Hoefner Peter и Lautenbacher Florian Algebraic Structure of Web Services [Журнал] // Electronic Notes in Theoretical Computer Science. - 2008 г.. - 3 : Т. 200. - стр. 171-187. - ISBN: 1571-0661 ISSN: 15710661 DOI: 10.1016/j.entcs.2008.04.099.
i
60. Hollink Vera, Van Someren Maarten и Wielinga Bob J. Navigation behavior
i
models for link structure optimization [Журнал] // User Modelling and User-Adapted Interaction.' '-'2007 г.. - 4 : Т. 17. - стр. 339-377. - ISBN: 0924-1868 1573-1391 ISSN: 09241868 DOI: 10.1007/sl 1257-007-9030-0. '
61. Indumathi D. Search Query Expansion using Genetic Algorithm?based Clustering [Журнал] // The Smart Computing Review. - 2013 г.. - 1 : Т. 3. - стр. 14-23. - ISSN: 22344624 DOI: 10.6029/smartcr.2013.01.002.
62. Jain a. K., Murty M. N. н Flynn P. J. Data clustering: a review [Журнал] // ACM Computing Surveys. - 1999 г.. - 3 : T. 31. - стр. 264-323. - ISBN: 03600300 ISSN: 03600300 DOI: 10.1145/331499.331504.
i
63. Janruang Jongkol и Guha Sumanta Semantic Suffix Tree Clustering
« ! >IU\.r S UiMi - ' . ' i !
[Журнал] // First IRAST International Conference on Data Engineering and Internet Technology (DEIT). - 2011 г.. - стр. 35-40. - ISBN: 9781424485819.
64. Kaur Manjot н Kaur Navjot Web Document Clustering Approaches Using K-Means Algorithm [Журнал] // International Journal of Advanced Research in Computer Science and Software Engineering. - 2013 г.. - 5 : Т. 3. - стр. 861864.
65. Kelleher Daniel н Luz Saturnino Automatic Hypertext Keyphrase Detection [Конференция] // Proceedings of the 19th International Joint Conference on Artificial Intelligence. - San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 2005. - стр. 1608-1609.
66. Kosala Raymond и Blocked Hendrik Web mining research: A survey [Журнал] //ACM SIGKDD Explorations Newsletter. - [б.м.] : ACM, 2000 г.. -1 : T. 2. - стр. 1-15.
!
67. Kuhn Adrian, Ducasse Stephane и Girba Tudor Semantic clustering: Identifying topics in source code [Журнал] // Information and Software
I
Technology. - 2007 r.V - 3 : T. 49. - стр. 230-243. - ISBN: 0950-5849 ISSN: 09505849 DOI:: 10.10T6/j.infsof.2Ö06.10.017.!
I •
68. Lange DBA Formal Approach to Hypertext using Post-Prototype Formal Specification // VDM '90 [Конференция] // Proceedings of the Third International Symposium of VDM Europe on VDM and Z - Formal Methods in Software Development. - 1990. - стр. 99-121.
69. Lee Chung-Hong и Yang Hsin-Chang A Web Text Mining Approach Based on Self-organizing Map [Конференция] // Proceedings of the Second International Workshop on Web Information and Data Management. - New York, NY, USA : ACM, 1999.:- стр. 59-62. - ISBN: 1-58113-221-2 DOI: 10.1145/3 Î9759.319789.1 ! ''
70. Lee Michael D, Pincombe Brandon и Welsh Matthew 'An empirical evaluation of models of text document similarity [Журнал] // Proceedings of the 27th Annual Conference of the Cognitive Science Society. - 2005 г.. - стр. 12541259. - ISBN: 0976831813 DOI: 10.1.1.111.7144.
71. Lehmann J. и Volker J. Studies on the Semantic Web [Книга]. - P.O. Box 41 07 05, 12117 Berlin, Germany : Akademische Verlagsgesellschaft - AKA GmbH, 2014.
• uiS.'il'r/v; л\ч"/ХЧ
72. Machado Julio P [и др.] Structuring Web Course Pages as Automata : revising concepts [Журнал]. - 2000 г..
73. Macropol Katy и Singh Ambuj Scalable Discovery of Best Clusters on Large Graphs [Конференция] // Proceedings of the VLDB Endowment. - 2010. - T. 3. - стр. 13-17.
74. Mamosian Heidar, Rahmani Amir Masoud и Dezfouli Mashalla Abbasi A
7 (
t
New Clustering Approach based on Page's Path Similarity for Navigation Patterns Mining [Журнал]. - 2010 г.. - 2 : Т. 7. - стр. 9-14.
75. Maslowska I Phrase-based hierarchical clustering of web search results
i
[Книга]. - [б.м.] : Springer Berlin Heidelberg, 2003. - стр. 555-562.
76. Medelyan Olena, Frank Eibe и Witten Ian H. Human-competitive Tagging
Using Automatic Keyphrase Extraction [Конференция] // Proceedings of the
i
2009 Conference on Empirical Methods in Natural Language Processing: Volume 3 - Volume 3. - Stroudsburg, PA, USA : Association for Computational Linguistics, 2009. - стр.1318-1327. - ISBN: 978-1-932432-63-3: ' ' "
77. Ngomo Axel-Cyrille Ngonga и Schumacher Frank Borderflow: A local graph clustering algorithm for natural language processing [Раздел книги] // Computational Linguistics and Intelligent Text Processing. - [б.м.] : Springer, 2009.
78. Ngomo Axel-Cyrille Ngonga и Schumachcr Frank Disentangling the Wikipedia Category Graph for Corpus Extraction [Журнал] // Research Journal on Computer science and Computer Engineering with Applications. - 2009 г.. -T.39(2).-стр. 5-10. :
! , . s > /
79. Ngomo Axel-Cyrille Ngonga, Lyko Klaus и Christen Victor Coala— correlation-aware active learning of link specifications [Раздел книги] // The Semantic Web: Semantics and Big Data. - [б.м.]: Springer, 2013.
80. Newman M. E. J. Modularity and community structure in networks [Конференция] //Proceedings of the National Academy of Sciences. - 2006. -T. 103. - №. 23. - C. 8577-8582.
81. Osinski Stanislaw An algorithm for clustering web search results [Журнал] // Journal of Mathematical Psychology. - 2003 г.. - 3 : T.12. - стр. 328-383.
82. Osinski Stanislaw and Weiss, Dawid Carrot2: Design of a Flexible and Efficient Web Information Retrieval Framework [Конференция] // Advances in Web Intelligence Third International Atlantic Web IntelligenceConference, AWIC 2005, Lodz, Poland, June 6-9, 2005, Proceedings. - 2005. - стр. 439444. - DOI: 10.1007/11495772^_68.
i
83. Osinski Stanislaw, Stefanowskj J и Weiss D Lingo: Search results clustering algorithm based on Singular Value Decomposition [Конференция] // Proceedings of the International Conference on Intelligent Information Systems (IIPWM'04), Zakopane, Poland.'- 2004.- стр. 359-368. '
84. Pazzani M J и Billsus D Adaptive web site agents // Journal of Agents and Multiagent systems [Конференция]. - 2002. - Т. 5. - стр. 205-218.
. > i w • П L.IN. III!',. _ . i.
85. Pcrkowitz M и Etzioni О Adaptive Web Sites: Automatically Synthesizing Web Pages [Конференция] // Proceedings of the Fifteenth National Conference on Artificial Intelligence. - 1998.
86. Poon Hoifung и Domingos Pedro Unsupervised Ontology Induction from Text
i
[Конференция] // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. - Stroudsburg, PA, USA : Association for Computational Linguistics, 2010. - стр. 296-305.
i
87. Salin V S, Papshev S V и Sytnik A A About a method of educational web resources optimization [Конференция] // ICEE/ICIT Conference, Cape Town. -2013. - Т. 2б1з;-стр- 685-691'. " "
л.
■!• -in t : ■ ! • ■
88. Salin V S, Papshcv S V и Sytnik A A An approach to facts extraction and semantic analysis of educational websites [Конференция] // International Scientific-Practical Conference "Innovative Information Technologies", Prague. - 2014. - T. 2014. - стр. 86-88.
89. Salin V S, Papshev S У и Sytnik A A Mathematical Methods of Educational Web Sites Re-engineering and Semantic Optimization [Конференция] // International Conference on Engineering Education and Resëarch (iCEER 2013), Marrakesh. - 2013. - стр. 829-835.
90. Salin V S, Papshev S V и Sytnik A A Semantic Navigation Based on Object-
Oriented Model of a Web Site [Конференция] // CASYS'll, 10th International
/
Conference on Computing Anticipatory Systems, Liege. - 2011.
I
91. Salin V S, Papshev S V и Sytnik A A Semantic Navigation Based on Object-
i • ■■
Oriented Model of a Web Site [Журнал] // International Journal of Computing Anticipatory Systems. - 2014 г.: - T. 28. - стр. 109-115.
92. Schaeffer - Satu Elisa Graph clustering by flow simulation [Журнал] //
• "!'!i:iuon;u 'imlereiux* Hv-!:i. ■ : J.---.'. ■ !
Computer Science Review. - 2007 г.. - 1 : Т. 1. - стр. 27-64. - ISSN: 15740137 DOI: 10.1016/j.cosrev.2007.05.001.
' 1
93. Shadbolt N, Hall W и Berners-Lee T The Semantic Web Revisited
' ■ _ i
[Журнал] // IEEE Intelligent Systems. - 2006 г..
94. Shahabi С. [и др.] Knowledge discovery from users web-page navigation
(
[Журнал] //Research Issues in Data Engineering, 1997. Proceedings. Seventh International Workshop on. - IEEE, 1997. - C. 20-29.
95. Smyth В и Cotter P Intelligent navigation for mobile internet portals [Конференция]. - 200396. Sridevi K, Umarani R и Selvi .V An Analysis of Web Document Clustering
Algorithms [Журнал] // International Journal of Science and Technology. - 2011
' i
г..-6 : Т. 1. - стр. 275-282.
97. Srivastava J. [и др.] Web usage mining: Discovery and applications of usage patterns from web data [Журнал] //ACM SIGKDD Explorations Newsletter. -2000.-Т. 1. — №. 2. — C. 12-23.
98. Stotts P. David, Furuta Richard Adding browsing semantics to the hypertext model // DOCPROCS '88 Proceedings of the ACM conference on Document processing systems [Конференция]. - 1988. - стр. 43-50.
99. Stotts P. David, Furuta Richard Petri-net-based hypertext: document structure with browsing semantics [Журнал] // ACM Transactions on Information
Systems (TOIS. - 1989 г.. - 1 : Т. 7. - стр. 3-29.
. ...... . .. i
100. Stotts P. David, Furuta Richard The trellis hypertext reference model //
t
Computer science technical report series [Конференция]. - 1990. - 11 стр.
101. Stotts P. David, Furuta Richard и Cabarrus Cyrano Ruiz Hyperdocuments as automata: verification of trace-based browsing properties by model checking [Журнал] // ACM Transactions on Information Systems. - 1998 г.. - 1 : T. 16. -стр. 1-30.-ISSN: 10468188 DOI: 10.1145/267954.267955.
102. Suchanek Fabian M, Kasneci Gjergji и Weikum Gerhard Yago: a core of
• i
semantic knowledge [Конференция] // Proceedings of the 16th international conference on World Wide Web. - 2007. - стр. 697-706.
,- 5k ii-ivk? KiJi-uili ' • (
103. Suchanek Fabian M, Sozio Mauro и Weikum Gerhard SOFIE: a self-organizing framework for information extraction [Конференция] // Proceedings of the 18th international conference on World wide web. - 2009. - стр. 631-640.
104. Tryon R.C. Cluster analysis [Книга]. - P.O. Box 41 07 05, 12117 Berlin,
I
Germany: London: Ann Arbor Edwards Bros, 1939.
105. Turney Peter D. Coherent Keyphrase Extraction via Web Mining [Конференция] // Proceedings of the 18th International Joint Conference on Artificial Intelligence. - San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 2003. - стр. 434-439.
106. Turney Peter D. Learning Algorithms for Keyphrase Extraction [Журнал] // Inf. Retr.. - Hingham, MA, USA: Kluwer Academic Publishers, 2000 г.. - 4 : Т. 2. - стр. 303-336. - ISSN: 1386-4564 DOI: 10.1023/A: 1009976227802.
107. Van Dongen Stijn Marinus Graph clustering [Журнал] // Graph stimulation by flow clustering. - 2000 г.. - Т. PhD thesis. - стр. University of Utrecht. - ISBN:
90-393-2408-5 ISSN: 15740137 DOI: 10.1016/j.cosrev.2007.05.001.
»
108. Wu Fei и Weld Daniel S Automatically refining the wikipedia infobox ontology
i
[Конференция] // Proceedings of the 17th international conference on World Wide Web. - 2008. - стр. 635-644^
109. Xiao J. [и др.] Measuring similarity of interests for clustering web-users [Конференция] //Proceedings of the 12th Australasian database conference. -
IEEE Computer Society, 2001. -' C. 107-114.
_ < ,
110. Zamir Oren и Etzioni Oren Web Document Clustering: A Feasibility Demonstration [Журнал] // Sigir '98. - 1998 г.. - стр. 46-54. - ISBN: 1581130155 ISSN: 1581130155 DOI: 10.1145/290941.290956.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.