Автоматическое рубрицирование и реферирование текстовой информации: в том числе на иностранных языках тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Абрамов, Валерий Евгеньевич
- Специальность ВАК РФ05.25.05
- Количество страниц 163
Оглавление диссертации кандидат технических наук Абрамов, Валерий Евгеньевич
Введение.
Глава 1. Автоматическое рубрицирование и реферирование в задачах обработки текстов. Постановка задачи исследования.
1.1. Обзор методов автоматического рубрицирования и реферирования текстовой информации.
1.2. Постановка задачи исследования.
Выводы.
Глава 2. Методы автоматического рубрицирования и реферирования текстов.
2.1. Морфологический и концептуальный анализ как основа обработки текстовой информации.
2.2. Метод автоматического рубрицирования с использованием словарей без учета и с учетом контекста.
2.3. Составление реферата отдельного текста документа на основе результатов автоматического рубрицирования.
2.4. Метод обзорного реферирования по набору текстов документов.
Выводы.
Глава 3. Применение методов автоматического рубрицирования и реферирования в системе автоматического рубрицирования текстов САРТ.
3.1. Общая характеристика системы САРТ.
3.2. Словари в системе САРТ.
3.3. Технология автоматического рубрицирования и реферирования.
3.4. Примеры работы системы.
Выводы.
Глава 4. Применение методов автоматического реферирования в экспериментальной системе составления обзорных рефератов.
4.1. Общая характеристика системы составления обзорных рефератов.
4.2 Технология обзорного реферирования.
4.3 Оценка работы системы.
Выводы.
Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений2011 год, кандидат технических наук Тарасов, Сергей Дмитриевич
Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений2009 год, кандидат технических наук Тревгода, Сергей Александрович
Формирование контента реферата при автоматическом реформировании научного текста2010 год, кандидат технических наук Пачковская, Светлана Валерьевна
Метод математической формализации русского языка в задаче автоматического реферирования текстов2001 год, кандидат физико-математических наук Корхова, Ольга Владимировна
Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах2007 год, кандидат филологических наук Николаева, Ирина Викторовна
Введение диссертации (часть автореферата) на тему «Автоматическое рубрицирование и реферирование текстовой информации: в том числе на иностранных языках»
В современных автоматизированных информационных системах (АИС) широко используются технологии автоматической классификации и реферирования информации, которые способствуют повышению эффективности информационного поиска, что существенно улучшает характеристики этих систем. Эти технологии нашли применение в бурно развивающейся в последнее десятилетие сети Интернет.
Методы автоматической классификации и реферирования информации появились в начале 50-ых годов прошлого века. Однако результаты исследований в силу ограниченности средств вычислительной техники и отсутствия сетевых технологий не получали широкого распространения, оставаясь в рамках лабораторий и отдельных предприятий. В, 50-х годах прошлого века появился термин "информационный взрыв", характеризующий лавинообразный рост научных публикаций, которые должен воспринять и хранить ученый в процессе своей деятельности. Развитие Интернет способствовало небывалому росту объемов информации на электронных носителях, что привело к трудностям ее поиска. В наше время сохраняется угроза информационного взрыва, однако современные технологии автоматической классификации, реферирования и поиска информации позволяют существенно их снизить.
Классификация позволяет проводить систематизацию информации, что способствует повышению эффективности ее поиска. Мы будем рассматривать один из видов классификации - рубрицирование информации, т.е. распределение документов по тематическим рубрикам, определенным заранее и организованным в виде некоего справочника — рубрикатора.
Классическое реферирование - процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. В последние годы получают распространение методы реферирования набора документов, результатом которых является обзорный реферат, содержащий основные положения из всех документов набора. Человек усваивает значительно больший объем информации, изучая рефераты вместо оригиналов документов, что позволяет эффективнее работать с большими объемами информации.
На наш взгляд, автоматизация процессов рубрицирования и реферирования текстов является перспективным направлением, которое нужно развивать, чтобы справляться с огромными потоками документов. Этим определяется актуальность выбранной темы исследования, посвящённой разработке методов и алгоритмов автоматического рубрицирования и реферирования текстовой информации.
Учитывая приведенные выше соображения, определим цель исследования. Целью исследования являлась разработка и практическая реализация лингвистических методов, обеспечивающих эффективное решение задач рубрицирования и реферирования текстов на разных языках в системах автоматической обработки текстовой информации.
Объектом исследования являлись общественно-политические тексты на ряде европейских языков (русском, английском, немецком и французском).
Предметом исследования являлась семантико-синтаксическая структура общественно-политических текстов на русском, английском, немецком и французском языках.
Методы исследования. В работе использованы методы компьютерной лингвистики, теории вероятностей, теории графов, теории информационного поиска и современные технологии программирования.
В соответствии с указанной целью в работе поставлены и решены следующие основные задачи:
1. Рассмотрены основные современные подходы и методы, применяющиеся при решении задач автоматического рубрицирования и реферирования текстовой информации.
2. Разработаны программные и словарные средства для проведения морфологического и концептуального анализа текстов, необходимые для обеспечения решения задач автоматического рубрицирования и реферирования.
3. Разработан метод автоматического рубрицирования, в которых используются словари слов и словосочетаний, составленные с учетом и без учета контекста окружающих слов. На основе метода автором, совместно с другими исполнителями, разработана система автоматического рубрицирования текстов (САРТ) на четырех языках: русском, английском, немецком и французском.
4. Разработано два метода реферирования: для отдельного текста документа на основе результатов автоматического рубрицирования и обзорного реферирования по набору текстов документов.
5. Разработана методика оценки результатов автоматического реферирования (оценка полноты содержания реферата). Исследование проводилось на трех коллекциях документов большого объема.
6. Проведены экспериментальные исследования для выявления зависимости длины обзорного реферата от количества документов в наборе и суммарного объема текстов документов.
7. Для системы автоматического рубрицирования САРТ автором разработан комплекс алгоритмов и программ для создания и ведения словарей слов и словосочетаний, составленных с учетом и без учета контекста окружающих слов.
Работа выполнена в рамках научного направления Научно-исследовательского центра информатики при МИД России - "Создание подсистемы информационного взаимодействия абонентов автоматизированных систем".
Научная новизна. К основным результатам работы, отличающимся научной новизной, относятся:
1. Метод автоматического составления обзорного реферата по набору документов, основанный на анализе семантико-синтаксической структуры текстов, учитывающий анафорические связи, а также неинформативную лексику и вводные слова и предложения.
2. Методика оценки качества обзорного реферата; позволяющая определить степень покрытия исходного набора документов составленным рефератом.
3. Результаты экспериментальных исследований по выявлению зависимости длины обзорного реферата от количества документов и суммарного объема текстов документов в наборе, позволяющие дать количественную оценку ресурсов при использовании метода в реальных условиях, например, в Интернете. Эксперименты показали, что предложенный метод реферирования позволяет составлять рефераты приемлемой длины (до 400 слов) как при небольших размерах кластеров, так и для кластеров, содержащих 100 - 150 документов.
4. Метод автоматического рубрицирования текстов, отличающийся от существующих аналогов возможностью обработки массива текстов, содержащего документы на нескольких европейских языках.
Практическая значимость работы заключается в том, что разработанные автором методы и алгоритмы морфологического анализа, автоматического составления словарей слов и словосочетаний, рубрицирования и реферирования текстов позволили создать действующую в промышленном режиме систему.
Реализация и внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в ФГУП "НИЦИ при МИД России" в ходе выполнения работ по договору на тему "Создание подсистемы информационного взаимодействия абонентов автоматизированных систем", что подтверждается соответствующим актом внедрения.
Результаты работы были использованы при выполнении научного гранта общества с ограниченной ответственностью "Яндекс" №66-05/07.
Диссертант является автором программы для ЭВМ "Автоматическое рубрицирование текстовой информации (на русском, английском, немецком и французском языках)" совместно с Глобусом Е.И. и Абрамовой Н.Н., официально зарегистрированной в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам 31 октября 2006 года (Свидетельство № 2006613783).
Системы САРТ и ОБЗОР являются результатом коллективного творчества. В разработке этих систем наряду с автором принимали участие Глобус Е.И. (программа создания и ведения частотных словарей слов и словосочетаний, составленных с учетом и без учета контекста окружающих слов) и Абрамова
H.Н. (метод выделения словосочетаний в текстах на русском языке, ведение информационно-поискового тезауруса по общественно-политической тематике и словарей слов и словосочетаний на рабочих языках системы).
Автор выражает большую благодарность участникам совместной работы, так как результаты, выносимые на защиту в данной диссертации, не были бы возможны без этих работ.
Непосредственно автором диссертации проведены следующие исследования и разработки:
I. Разработан морфологический анализатор для текстов на русском языке.
2. Разработан метод автоматического рубрицирования с использованием словарей без учета и с учетом контекста.
3. Разработан метод реферирования для отдельного текста документа на основе результатов автоматического рубрицирования.
4. Разработан метод обзорного реферирования по набору текстов документов (алгоритмы определения значимых предложений в текстах документов, автоматического разрешения анафор и определения порядка расположения предложений в обзорном реферате).
5. Разработана методика оценки результатов автоматического реферирования.
6. Проведены экспериментальные исследования для выявления зависимости длины обзорного реферата от количества документов в наборе и суммарного объема текстов документов.
Апробация работы. Основные положения и результаты диссертации обсуждались и получили одобрение на 7-ой Международной конференции "НТИ-2007. Информационное общество. Интеллектуальная обработка информации. Информационные технологии" (г. Москва, 24-26 октября 2007 г.); девятой Всероссийской научной конференции RCDL '2007 "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (г. Переславль-Залесский, Россия, 15-18 октября 2007г.).
Публикации. По теме диссертации автором опубликовано 5 работ - 3 статьи, тезисы доклада и реферат с описанием программы для ЭВМ (см. список публикаций автора). В работах, опубликованных в соавторстве, лично диссертанту принадлежат: описание принципов автоматического рубрицирования, опирающиеся на словари слов и словосочетаний, составленные с учетом и без учета контекста окружающих слов [7], описание разработанных им алгоритмов определения значимых предложений из каждого документа кластера, автоматического разрешения анафор и определения порядка расположения предложений в обзорном реферате [9].
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы из 105 названий, восьми приложений, акта о внедрении. Общий объем работы - 163 страницы, основной текст - 102 страницы. В работе имеется 16 таблиц и 26 рисунков.
Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Концептуальный анализ текстов в системах автоматической обработки научно-технической информации2002 год, кандидат технических наук Козачук, Максим Вячеславович
Методика обучения реферированию и аннотированию иностранной научной литературы в техническом вузе1970 год, Черемисов, Б. А.
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов2018 год, кандидат наук Козлов Павел Юрьевич
Совершенствование лингвистических и структурных характеристик информационных документов АИС и РЖ1984 год, кандидат технических наук Борохов, Эдуард Александрович
Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Абрамов, Валерий Евгеньевич
Выводы
1. В разработанной при участии автора экспериментальной системе ОБЗОР впервые для русского языка был реализован предложенный диссертантом метод автоматического составления обзорных рефератов по набору тематически связанных между собой документов. Испытание системы проводилось с использованием набора данных "Новости", предоставленного компанией "Яндекс".
2. Экспериментальная система ОБЗОР позволяет обрабатывать как отдельный кластер, выбранный из списка, так и проводить пакетную обработку всех кластеров по каждой коллекции или сразу по всем коллекциям. В системе можно настраивать параметры отбора наиболее значимых предложений для включения в реферат, задавать ограничение объема реферата, проводить оценку покрытия оригиналов текстов словосочетаниями из реферата, строить графики зависимости длины реферата от объема кластера и количества документов в кластере.
3. Эксперимент по составлению обзоров проводился на наборе из 160 кластеров суммарным объемом 35 Мб на компьютере с процессором Intel Celeron 2,4 ГГц. Среднее время составления одного обзорного реферата составило ~ 34 сек.
4. Было проведено исследование оценки полноты содержания реферата, т.е. какой процент частотной лексики, имеющейся в документе кластера, попадает в реферат. Тестирование проводилось по всем трем исходным коллекциям документов. Для каждого кластера определялась степень покрытия его полученным рефератом, выраженная в процентах. Для большинства кластеров степень покрытия находится в интервале 70-90%.
5. Была выявлена зависимость степени покрытия от объема кластера. При объеме кластера до 10 Кб наблюдается устойчивое хорошее покрытие, а при больших размерах кластеров зависимость покрытия от объема кластера не выявлена. Не выявлено также прямой зависимости между объемом реферата и объемом кластера, объемом реферата и количеством документов в кластере.
ЗАКЛЮЧЕНИЕ ПО РАБОТЕ
В процессе исследований по теме диссертации автором получены следующие научные и практические результаты:
1. Разработан инструментарий для проведения морфологического и концептуального анализа текстов, необходимый для обеспечения решения задач автоматического рубрицирования и реферирования.
2. Разработан метод автоматического рубрицирования текстов на русском и иностранных языках с использованием словарей двух типов: словарей словосочетаний без учета контекста и словарей с учетом контекста. Метод был реализован в системе автоматического рубрицирования текстов на русском и нескольких иностранных языках (САРТ), за время работы которой в режиме промышленной эксплуатации обработано текстов общим объемом свыше 400 Мб. Оценка качества рубрицирования текстов проводилась в рамках работ ФГУП «НИЦИ при МИД России» по договору на тему «Создание подсистемы информационного взаимодействия абонентов автоматизированных систем». Комиссия по приемке работ в эксплуатацию отметила высокое качество работы системы.
3. В рамках системы САРТ разработаны средства формирования и ведения словарей на разных языках.
4. Разработаны методы реферирования для отдельного текста документа на основе результатов автоматического рубрицирования и обзорного реферирования по набору текстов документов.
5. Метод обзорного реферирования реализован в экспериментальной системе ОБЗОР. Эксперимент по составлению обзоров проводился на наборе документов суммарным объемом 35 Мб на компьютере с процессором Intel Celeron 2,4 ГГц. Среднее время составления одного обзорного реферата составило ~ 34 сек.
6. Разработана методика оценки результатов автоматического реферирования, с помощью которой было проведено экспериментальное исследование полноты содержания обзорных рефератов. Для большинства кластеров степень покрытия их составленными обзорными рефератами находится в интервале 70 - 90%.
7. Была выявлена зависимость степени покрытия от объема кластера. При объеме кластера до 10 Кб наблюдается устойчивое хорошее покрытие, а при больших размерах кластеров зависимость покрытия от объема кластера не выявлена. Не выявлено также прямой зависимости между объемом реферата и объемом кластера, объемом реферата и количеством документов в кластере.
Таким образом, в результате проведенных автором исследований разработаны и реализованы на ЭВМ методы, алгоритмы и программы автоматического рубрицирования и реферирования текстов, которые используются в повседневной работе в ФГУП "НИЦИ при МИД России".
Вместе с тем, автор отмечает, что разработанные им методы и алгоритмы автоматического рубрицирования и реферирования текстов можно усовершенствовать при проведении дальнейших исследований в этом направлении.
Так, при рубрицировании информации на иностранных языках будет получен значительно лучший результат, если использовать морфологический анализ, а не правое усечение слов. Однако разработка морфологического анализа для иностранных языков требует усилий больших коллективов квалифицированных лингвистов, знающих языки. Можно идти по пути приобретения лицензированных программ морфологического анализа для требующихся иностранных языков, однако таких продуктов на рынке практически нет.
Автор видит также возможности снижения трудозатрат при рубрицировании информации. Основные трудозатратные операции - это пополнение использующихся словарей, которое происходит в интерактивном режиме. Проведя дополнительные исследования, можно автоматизировать процесс составления словарей без учета и с учетом контекста с минимальным участием человека, заключающимся в просмотре и удалении из словарей лексики, не относящейся к рубрике.
В области реферирования дальнейшие исследования должны быть направлены, прежде всего, на совершенствование методов и алгоритмов.
К примеру, точность алгоритма разрешения анафор должна быть не ниже 90%, так как при неправильном разрешении анафор добавляется избыточная информация в реферат. Еще лучше разработать алгоритм, обеспечивающий замену анафорических слов и групп на их антецеденты, что позволило бы не вносить дополнительные вышестоящие предложения в реферат.
В алгоритм расстановки предложений в обзоре надо включить возможность выбора тематик с учетом хронологии. Было бы хорошо сравнить этот алгоритм с алгоритмом, предложенным в работе [73].
Отождествление предложений, извлеченных из разных документов кластера, очень сильно зависит от полноты тезауруса. В связи с этим нужно разработать процедуру автоматического составления тезауруса по текстам на русском и иностранных языках, либо использовать программы, предлагающиеся на рынке.
К нерешенным проблемам следует отнести и некоторую "неестественность" представления информации в реферате, когда в разных предложениях повторяется одно и тоже развернутое название объекта, а краткое название зачастую предшествует полному. Например, в первом предложении встретилось Сергей Лавров, а в последующих несколько раз повторяется "Министр иностранных дел России Сергей Лавров". Для решения этой проблемы можно использовать подход, предложенный в статье [73].
Выбор самых значимых предложений в документе не дает возможности выявить другие менее важные темы, на которые желательно также ссылаться в обзорном реферате. Для решения этой проблемы можно провести автоматическое рубрицирование всех документов кластера, когда в качестве рубрикатора использовать наиболее значимые предложения, отобранные со всего кластера и прошедшие этап отождествления, а словари слов и словосочетаний, характеризующие рубрики, формировать автоматически по всем близким по смыслу предложениям из разных документов кластера.
Отмеченные нами возможности усовершенствования методов автоматического рубрицирования и реферирования информации в настоящее время не могут быть реализованы, так как требуют проведения значительных дополнительных исследований. Тем не менее, все вышеперечисленные проблемы, не нашедшие отражения в диссертации, не снижают значительности и ценности полученных результатов.
Список литературы диссертационного исследования кандидат технических наук Абрамов, Валерий Евгеньевич, 2008 год
1. Комплексный смысловой анализатор текстов TextAnalyst // Материалы с сайта http://www.analyst.ru.
2. Лингвистические, поисковые и мультимедиа-технологии. "МедиаЛингва" // Материалы с сайта http://www.medialingua.ru/default.asp
3. Реферат сайта (интернет-магазина) // ред. Чугунов Г.А. // Материалы с сайта http://www.antula.ru/referat-example.htm.
4. Технология SemLp (Semantic Language Processing) // Материалы с сайта http://semlp.com/index.php? option=comcontent&task=view&id=13&Itemid=39.
5. Технологии анализа и поиска текстовой информации RSO (Russian Contest Optimizer) // Материалы с сайта http://www.rco.ru.
6. Абрамов В.Е. Морфологический анализатор для задач автоматической обработки текстовой информации // Сб. "Вестник ВГТУ". Воронеж: ВГТУ, 2007. -Т. 3.-№ 12.- С. 51-57.
7. Абрамова Н.Н. Автоматизация составления словарей словосочетаний по неформализованным текстам: Автореф. . канд. техн. наук.- М.: ВИНИТИ, 1985.-27 с.
8. Алыгулиев P.M. Автоматическое реферирование документов с извлечением информативных предложений // Вычислительные технологии. 2007. - Т. 12.-№5.-С. 5-15.
9. Азарова И.В., Марина А.С. Автоматизированная классификация контекстов при подготовке данных для компьютерного тезауруса RussNet. // Материалы конф. "Диалог-2006". Эл. версия: http://www.dialog-21 .ru/dialog2006/materials/html/Azaroval .htm
10. Андреев A.M., Березкин Д.В., Сюзев B.B., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ. Сер. Приборостроение. М.: изд-во МГТУ.- 2003.- №3.
11. Антонов А.В. Методы классификации и технология Галактика-Zoom // Международный форум по информатике, т.28, № 2003. - С.
12. Антонов А.В., Курзинер Е.С. Определение тематически значимых документов в системе Галактика-ZOOM (авторубрикация) // Материалы конф. "Диалог-2005". Эл. версия: http://www.di alog21 .ru/Archive/2005/Antonov%20Kurziner/Antonov%20Kurziner.htm
13. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с.
14. Белов А.А., Волович М.М. Автоматическое распознавание тематики сверхкоротких текстов. // Материалы конф. "Диалог-2007". Эл. версия: http://www.dialog-21.ru/dialog2007/materials/html/05.htm
15. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. 248 с.
16. Белоногов Г.Г., Зеленков Ю.Г. Еще раз о принципе аналогии в морфологии // Научно-техническая информация, сер.2, № 3, М.: ВИНИТИ, 1995.
17. Белоногов Г.Г., Гиляревский Р.С., Козачук М.В., Новоселов А.П., Хорошилов А.А. Автоматическая классификация текстов // Междунар. форум по информации и документации. М.: ВИНИТИ, 2001. - Т.26.- №2. - С. 3-9.
18. Блюменау Д.И., Гендина Н.И., Добронравов И.С., Лахути Д.Г., Леонов В.П., Федоров Е.Б. Формализованное реферирование с использованием словесных клише (маркеров) // НТИ. Сер.2. 1981. - №2. - С.16-20.
19. Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов // Материалы конф. "Диалог-2005".- эл. версия http://www.dialog-21.ru/
20. Браславский П.И., Колычев И.С. Автоматическое реферирование веб-документов с учетом запроса // Сб. "Интернет-математика 2005". М.: ООО "Яндекс", 2005. - С. 485-500.
21. Вейзе А.А Чтение, реферирование и аннотирование иностранного текста. М.: Высшая школа, 1985. - 127 с.
22. Воронков Н.В. Статистический метод оценки информативности предложений в задаче автоматического реферирования текстов // Искусственный интеллект. -Донецк, 2007. № 4. Эл. версия:. iai.donetsk.ua/general/conference/2007/Inflist/tezisconf.doc.
23. Гальперин И.Р. Текст как объект лингвистического исследования. М.: Едиториал УРСС, 2004. 139 с.
24. Гиндин С.И. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов // Семиотика и информатика. М.: ВИНИТИ, 1977.- Т. 9.- С.35-84.
25. Глобус Е.И., Абрамов В.Е., Абрамова Н.Н. Автоматическое рубрицирование текстовой информации (на русском, английском, немецком и французском языках) / Свидетельство об официальной регистрации программы для ЭВМ № 2006613783, 31 октября 2006 г.
26. Горькова В.И., Ворохов Э.А. Реферат в системе научной коммуникации. Направления совершенствования лингвистических и структурных характеристик // Информатика. Сер. "Итоги науки и техники". М.: ВИНИТИ, 1987.-Т. 11.-232 с.
27. Губин М.В., Меркулов А.И. Эффективный алгоритм формирования контекстно-зависимых аннотаций // Компьютерная лингвистика и интеллектуальные технологии: Труды междунар. конфер. "Диалог'2005" (Звенигород, 1-6 июня 2005 г.). М.: Наука, 2005. - С. 116-120.
28. Дунаев Е.В., Шелестов А.А. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой // Сб. "Интернет-математика 2005". М.: ООО "Яндекс", 2005. - С. 382 - 398.
29. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры / Информационные технологии. М., 2000. № 11.- С. 37 - 40.
30. Зубов А.В. Автоматическое построение табличного реферата группы текстов одной тематики // Материалы конф. "Диалог-2005". Эл. версия: http://www.dialog-21 .ru/Archive/2005/Zubov%20A/ZubovA.htm.
31. Иомдин Л.Л. Идея и цель: об одном типе русских связочных предложений. Сокровенные смыслы. Слово, текст, культура / Сборник статей в честь Н.Д. Арутюновой. М.: Языки славянской культуры, 2004,- С. 418-425.
32. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов на основе латентно-семантического анализа. Эл. версия: http://www.dialog-21 .ru/dialog2007/materials/html/05 .htm.
33. Кутарба А. Ю. Построение семантического словаря для обработки англоязычных текстов. Автореф. . канд. физ-мат. наук / Санкт-Петербургский гос. универ. Спб., 2006. - Эл. версия: www.math.spbu.m/m/nimeh/AspDok/pub/2006/kutarba.pdf.
34. Ландэ Д.В., Литвин А.Б. Феномены современных информационных потоков // Сети и бизнес. 2001. - № 1. - С. 14-21.
35. Ландэ Д. В., Фурашев В. Н. Выявление новых событий в рамках системы контент-мониторинга // НТИ. Сер. 2. -М., 2006. № 12. - С. 12-16.
36. Леонов В.П. Реферирование и аннотирование научно-технической литературы. Новосибирск: Наука, 1986. - 175 с.
37. Лукашевич Н.В. Автоматическое рубрицирование потоков текстов по общественно-политической тематике // НТИ. Сер.2. 1996. - № 10. - С. 22-30.
38. Лукашевич Н.В., Добров Б.В. Автоматическое рубрицирование текстов по рубрикаторам сложной структуры. Эл. версия: http://library.mephi.ru/data/scientific-sessions/2001 /3/1415.html.
39. Лукашевич Н.В., Добров Б.В., Штернов С.В. Обработка потока новостей на основе больших лингвистических ресурсов. Сб. "Интернет-математика 2005", М.: ООО "Яндекс", 2005. С. 461-484.
40. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <=> Текст": Семантика, синтаксис. М., 1974. - 314 с.
41. Митрофанова О.А., Крылов С.А. "Типовой" контекст: случайность или закономерность? // Материалы конф. "Диалог-2006". Эл. версия: http://www.dialog-21.ru/dialog2006/materials/html/Mitrofanova.htm.
42. Михайлов А.И., Чёрный А.И., Гиляревский Р.С. Основы информатики. М.: Наука, 1968. - 756 с.
43. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Автореф. . канд. физ.-мат. наук.- Санкт-Петербург, 2002.-24 с.
44. Пащенко Н.А., Кнорина JI.B. и др. Проблемы автоматизации индексирования и реферирования // Итоги науки и техники. Сер. "Информатика". М.: ВИНИТИ, 1983.-№7.- 164 с.
45. Прадун Д.В. Автоматическое реферирование видеоинформации // Информатика. Минск: ОИПИ НАН Беларуси. - № 4 (16), 2007. - с. 12 - 22.
46. Севбо И.П. Структура связного текста и автоматизация реферирования. М.: Наука, 1969. - 135 с.
47. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. -Киев: Наукова думка, 1983. 219 с.
48. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.-558 с.
49. Сычев А.В., Баженов М.М. Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту // Сб. "Интернет-математика 2007". Екатеринбург, 2007. - С. 200 -210.
50. Фролкина Н.А. Информационная система проекта Рубрикон как пример разработки электронной энциклопедической библиотеки. Эл. версия: http://www.gpntb.ru/win/inter-events/crimea2003/trud/toml/sec/Doc82.HTML.
51. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. TextAnalyst комплексный нейросетевой анализатор текстовой информации // Вестник МГТУ им. Н.Э. Баумана, 1998. - № 1, С. 32 - 36.
52. Хорошилов А.А. Теоретические основы и методы построения систем фразеологического машинного перевода: Автореф. . доктора техн. наук.- М., 2006.-51 с.
53. Чугреев B.JI. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: Автореф. канд. техн. наук.- С-Пб., 2003. — 24 с.
54. Яцко В.А. Логико-лингвистические проблемы анализа и реферирования научного текста. Абакан: изд-во Хакасского гос. ун-та, 1996. - 128 с.
55. Яцко В.А. Симметричное реферирование: теоретические основы и методика // НТИ. Сер.2. 2002.- № 5.- С.18 - 28.
56. Alonso L., Castellon I., Climent S., Fuentes M., Padro L., Rodriguez H. Approaches to Text Summarization: Questions and Answers. In Revista Iberoamericana de Inteligencia Artificial, No. 20, pp. 34 52, 2003.
57. Ando R.K. et al. Multidocument Summarization by Visualizing Topical Content. Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization, 2000, pp. 79 -88.- http://www.isi.edu/~cylwas-anlp2000.
58. Barzilay R. Sentence Ordering in Multidocument Summarization. Computer Science at Columbia University, Web seit, 2007. http://www.cs.columbia.edu/nlp/papers/2001 /barzilayal01 .pdf.
59. Blair-Goldensohn S. Columbia University at DUC 2005. Публикации конф. DUC 2005. http://www-nlpir.nist.gov/projects/duc/pubs.html.
60. Dumais S., Chen H. Hierarchical Classification of Web Content. Proceedings of 23 rd ACM Int.Conf. RDIR, 2000, pp. 256 263.
61. Carbonell J.G., Goldstein J. The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Proc. 21st Int'l ACM and Development in Information Retrieval SIGIR Conf. Research^ ACM Press, New York, 1998, pp. 335 336.
62. Church K. W, Gale W. A. Inverse document frequency (IDF): A measure of deviations from Poisson. In Proceedings of the Third Workshop on Very Large Corpora (WVLC), pp. 121 130, 1995.
63. Croft W. В., Harper D. J. Using probabilistic models of document retrieval without relevance information. Journal of Documentation, 35(4), pp. 285 295, 1979.
64. Fang H., Tao Т., Zhai C. A formal study of information retrieval heuristics. In Proceedings of SIGIR, pp. 49 56, 2004.
65. Greiff W. R. A theory of term weighting based on exploratory data analysis. In Proceedings of SIGIR, pp. 11 19, New York, NY, USA, 1998.
66. Hahn U., Mani I. The Challenges of Automatic Summarization. IEEE Computer Cociety, vol. 33, no. 11, pp. 29 36, 2000.- Эл. версия: http://d0i.ieeec0mputers0ciety.0rg/l 0.1109/2.881692.
67. Hirao Т., Isozaki H., Maeda E., Matsumoto Y. Extracting Important Sentences with Support Vector Machines. In Proc. of the 19 thlnternationalConference on Computational Linguistics, vol. 1, pp. 1 7, 2002.
68. Iatsko V. Linguistic Aspects of Summarization // Philologie in Netz. 2001.- № 18. -pp. 33 - 46. Эл. версия: http://www.fu-berlin.de/phin/phinl8/pl8t3.htm.
69. Jones K.S., Willett P. and eds. Readings in Information Retrieval, Morgan Kaufmann, pp. 339 344, 1997.
70. Lee L. IDF revisited: A simple new derivation within the Robertson-Sparck Jones probabilistic model. SIGIR pp. 751 752, 2007.
71. Lienhart R., Pfeiffer S., Effelsberg W. «Video Abstracting,» Comm. ACM, Vol. 40, No. 12, 1997, pp. 54-62.
72. Lodhi H., Saunders C., Shawe-Taylor J., Cristianini N., Watkins C. Text Classification using String Kernels. Journal of Machine Learning Research, no. 2, 2002.
73. Luhn H. The automatic creation of literature abstracts. In IBM Journal of Research and Development, vol. 2(2), pp.159 165, 1958.
74. Nenkova A. Automatic Text Summarization of Newswire: Lessons Learned from the Document Understanding Conference. In Proc. of AAAI 2005, pp. 1436 1441.
75. Nomoto Т., Matsumoto Y. The diversity-based approach to open-domain text summarization. In Information Processing&Management, 2003, no. 39, pp. 363 -389.
76. Mani I., Bloedorn E. Summarizing Similarities and Differences Among Related Documents. Information Retrieval, vol. 1, no. 1, 1999, pp. 35 67.
77. Radev D.R., Blair-Goldensohn S., Zhang Z. Experiment in Single and Multi-Document Summarization Using MEAD. Web seite Radev D., 2007. -http ://tangra. si .umich.edu/~radev/papers.
78. Radev D.R., Jing H., Stys M., Tam D. Centroid-based summarization of multiple documents. In Information Processing and Management, vol. 40, pp. 919 938, 2004.
79. Radev D.R., McKeown K.R. Generating Natural Language Summaries from Multiple Online Sources. Com-putational Linguistics, Vol. 24, No. 3, 1998, pp. 469 500.
80. Robertson S. E., Jones K. S. Relevance weighting of search terms. Journal of the American Society for Information Science, 27(3), pp.129-146, 1976.
81. Robertson S. E., Walker S. On relevance weights with little relevance information. In Proceedings of SIGIR, pp. 16 24, 1997.
82. Robertson S. E., Walker S., Jones K. S., Hancock-Beaulieu M. M., Gatford M. Okapi at trec-3. // In Proc. of the TREC-3, 1994. http://portal.acm.org/citation.cfm?id=l 066677.1066922
83. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval 11 In Information Processing and Management: an International Journal, Vol. 24, Issue 5, pp. 513 -523, 1988.
84. Salton G., Singhal A., Mitra M., Buckley C. Automatic Text Structuring and Summarization. Information Processing&Management, Vol. 33, No. 2, 1997, pp. 193 -207.
85. Vries A. P. de, Roelleke T. Relevance information: A loss of entropy but a gain for idf? In Proceedings of SIGIR, pp. 282 289, 2005.
86. Wasson M. Classification Technology at LexisNexis // SIGIR 2001. Workshop on Operational Text Classification. -Эл. версия:http://www.daviddlewis.com/events/ots2001/presentations/otcO 1 -wasson- paper.txt.
87. Wong S. К. M., Yao Y. Y. A note on inverse document frequency weighting scheme sic. Technical Report TR, pp. 89 990, Cornell University, Ithaca, NY, USA, 1989.
88. Zechner K., Fast Generation of Abstracts from General Domain Text Corpora by Extracting Relevant Sentences, COLING '96 Proceeding, Vol. 2, 1996, pp. 986 989.
89. Zhang Z., Lee W. Web Taxonomy Integration using Support Vector Machines. • Proceedings of www2004, 2004, pp. 472 481.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.