Математические модели, методы и алгоритмы построения размеченных корпусов текстов тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Седов, Алексей Владимирович
- Специальность ВАК РФ05.13.18
- Количество страниц 113
Оглавление диссертации кандидат наук Седов, Алексей Владимирович
Оглавление
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СЛОВАРЕЙ И ТЕКСТОВЫХ КОРПУСОВ
1.1 Понятие корпуса
1.2 Типы корпусов
1.3 Конструирование и применение корпусов
1.3.1. Национальный корпус русского языка
1.3.2 Корпус ХАНКО
1.3.3. Корпус русского литературного языка
1.3.4. Открытый корпус ОрепСогрога
1.4 Краткое сравнение корпусов
1.5 Область применения лингвистических корпусов
1.6 Построение корпуса СМАЛТ
1.6 1 Морфологическая разметка
1.6.2 Синтаксическая разметка
1.7 Лингвистический корпус финноязычных текстов газеты «Каюаьаы Зашмат»
1.8 Модель построения корпуса с грамматической разметкой
1.9 Модель построения корпуса с синтаксической разметкой
ГЛАВА 2 АВТОМАТИЗАЦИЯ ГРАММАТИЧЕСКОГО И СИНТАКСИЧЕСКОГО РАЗБОРА
2.1 Программа грамматической разметки
2 1.1 Этап преформатирования
2.1.2 Этап разметки
2.2 Программа синтаксической разметки
2 2 1 Этап преформатирования
2.2 2 Этап разметки
2.3 Автоматическая грамматическая разметка
2.4 Автоматизированная синтаксическая разметка
ГЛАВА 3 СТРУКТУРЫ ДАННЫХ ДЛЯ ХРАНЕНИЯ И ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ
3.1 Использование сети Интернет
3.2 Создание \^ев-интерфейса
3.3 Отличие локального доступа от доступа через Интернет
3 4 Оптимизация структур данных под поиск
3.5 Критерий оптимальности по скорости поиска
3.6 Оптимизация по объёму хранимой информации
3.7 Оптимизация количества информации предоставляемой пользователю
3.8 Результаты оптимизации по скорости поиска
3.9 Результаты оптимизации по объёму хранимой информации
3.10 Количество информации предоставляемой пользователю
3.11 Доступ к системе и основные характеристики
ГЛАВА 4. ПРИМЕНЕНИЕ РАЗМЕЧЕННОГО КОРПУСА ДЛЯ АНАЛИЗА ОДНОРОДНОСТЕЙ
4.1 Поиск неоднородных фрагментов на основе методов атрибуции текстов
4.2 Метод сильного графа связности для поиска неоднородных фрагментов
4.3 Использование наивного байесовского классификатора
4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи
4.4.1 Алгоритм поиска неоднородности фрагмента текста
4.4.2 Пример выявления наиболее информативных признаков
4.4.3 Примеры неоднородных фрагментов текстов
4.4.4 Применение алгоритма к атрибуции текстов
4.5 Использование компонентного анализа для поиска неоднородных фрагментов
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ:
ПРИЛОЖЕНИЯ
Приложение №1 Список структурных схем синтаксического разбора
Приложение №2 Поиск информации через web-ресурс
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Принципы создания мультимедийного корпуса с прагматической разметкой эмоциональной составляющей речи и его использование при искусственном билингвизме (на материале английского и русского языка)2015 год, кандидат наук Сидорова Елена Вячеславовна
Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе2004 год, кандидат филологических наук Чардин, Иван Сергеевич
Пропедевтический учебный корпус русского языка: методы создания и методический потенциал для обучения носителей китайского языка2024 год, кандидат наук Хоу Линьсюе
Порядок слов в хеттском языке: корпусные методы и анализ в типологической перспективе2018 год, кандидат наук Молина, Мария Александровна
Синтаксис и семантика японского деепричастия репрезентативности на -tari по данным корпусного исследования2017 год, кандидат наук Дегтярева Анна Владимировна
Введение диссертации (часть автореферата) на тему «Математические модели, методы и алгоритмы построения размеченных корпусов текстов»
Введение
Актуальность темы.
Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает потребность в обработке огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.
Развитие компьютерных технологий, их повсеместное внедрение в разные области науки и знаний, в частности в гуманитарные исследования, обеспечило массовый рост корпусных исследований в период с конца 1980-х и до середины 1990-х годов [1]. Следствием стало увеличение числа создаваемых корпусов. В это время появились крупные национальные корпуса в Англии, Чехии, Финляндии и других странах (преимущественно европейских).
Самые распространенные и популярные корпуса текстов [2] приведены в таблице 1.
В настоящее время созданием корпусов занимается большое количество исследователей. Примечательно то, что при создании данных корпусов задачи разбора и снятия омонимии зачастую решаются вручную.
Изначально лингвистические корпуса создавались и использовались для подсчёта встречаемости различных языковых элементов, таких как графемы, морфемы, словосочетания.
С течением времени корпус перестал восприниматься как средство поиска слов в текстах. Корпус превратился в инструмент для исследования языка [3].
Современные создаваемые корпуса текстов в основном используются для решения сложных лингвистических задач, таких как машинный перевод [4], проверка орфографии и грамматики (внедрены почти во все современные текстовые редакторы) и др.
Таблица 1: Текстовые корпуса
Название Год Количество словоупотреблений
The Brown University Corpus of American English 1964 1000000
American Heritage Intermediate corpus 1971 5000000
The Lancaster-Oslo/Bergen Corpus of British English 1978 1000000
Birmingem corpus 1987 20000000
Kolhapur corpus 1988 1000000
The TOSCA Corpus, Nijmegen 1988 15000000
The Survey of English Usage Corpus, University College London 1988 1000000
The Child Language Data Exchange System (CHILDES) 1984 20000000
Nijmengen 1991 132000000
Longman/Lancaster English Language Corpus 1991 50000000
Map Task Corpus 1991 147000000
Longman Corpus of Learners' English 1992 10000000
The Lancaster/IBM Spoken English Corpus (SEC) 1992 53000000
Wellington Corpus 1993 1000000
Polytechnic of Wales Corpus 1993 65000000
British National Corpus 1995 100000000
Corpus of Spoken 1991 2000000
the International Corpus of Learner English 1997 200000000
Bank of English 1997 320000000
Национальный корпус русского языка 2004 364000000
Корпус позволяет в реальном времени получать результаты, требующие обработки громадных массивов данных. Ранее, для обработки (выписывания примеров, составление карточек) у исследователей уходили месяцы и годы. Одним из основных преимуществ внедрения компьютерных технологий в создание корпусов является возможность в несколько раз повысить эффективность, достоверность и проверяемость различных исследований языка. На современных корпусах могут быть решены такие задачи, которые ранее не ставились в виду их трудоёмкости и невыполнимости.
На основании применения различных статистических методов можно выделить различные устойчивые выражения и закономерности, присущие языку в целом, либо собранию произведений, использовавшихся при создании корпуса. Так, устойчивые выражения с семантической точки зрения представляют собой огромный интерес [5], так как их необходимо учитывать в лексикографии и при автоматизированной обработке текста.
Важную роль электронные корпуса играют для развития прикладных исследований[6-13]. Прикладные лингвистические технологии используются везде, где требуется извлечь информацию из большого массива данных на естественном языке. Именно на основании корпусов создаются практически все современные системы информационного поиска. Прежде всего, это касается информации в интернете. А также с помощью корпусов решаются задачи автоматического извлечения информации, автоматического анализа структуры текста, автоматического перевода (с использованием, так называемых параллельных корпусов на нескольких языках), автоматического распознавания речи (с использованием корпусов звучащей речи) и решается множество других задач.
В нынешнее время созданные корпуса представляют собой целые информационные ресурсы, направленные на предоставление обширного объёма данных пользователю. Информация из корпусов используется для получения данных о лексикографии, с их применением быстрее и легче создаются новые и редактируются существующие словари [14]. Имеется возможность фиксировать
текущее состояние языка, или анализировать состояние языка присущее некоторой эпохе, автору, либо группе авторов. Отдельным подвидом корпусов являются, так называемые monitor corpora [15] - открытые для пополнения новыми данными корпусы, позволяющие отслеживать изменение смысловых значений у существующих слов, а также появление неологизмов.
Большие корпуса, созданные для национальных языков, активно используются в социально-педагогической сфере [16]. Интернет-порталы, созданные для данных корпусов, позволяют людям, не имеющим профессионального лингвистического образования с помощью доступных средств самостоятельно находить ответы на многие возникающие вопросы по поводу прошлого и настоящего их родного языка. Таким образом, электронные корпуса текстов выполняют ещё и просветительскую роль, выражающуюся в повышении языкового сознания неспециалистов. Появление корпусов делает возможным применение корпусных методов в преподавании языка [17].
Отдельной прикладной задачей является использование корпусов для задач семантического анализа [18-21]. При помощи анализа употребления слова, его грамматических характеристиках, анализа окружающих слов и текстов, где это слово было использовано, можно установить определённые семантические признаки, характеризующие данную единицу. Не редки случаи, когда слово употребляется в нескольких семантических категориях. На основе анализа употреблений и окружающих слов может приниматься решение об отнесении слова к определённой категории.
Создаваемые корпуса активно используются для проверки различных систем автоматической обработки текстов, проверки различных лингвистических теорий. Примером выступает университет Nijmegen (Голландия) [221. Здесь на основе текстовых корпусов проверяются разрабатываемые формальные грамматики. Синтаксические анализаторы, создаваемые на основе данных грамматик, обрабатывают тексты из корпусов. Результаты обработки используются для оценки того, насколько полно и точно грамматика описывает данные.
Таким образом, создание, развитие и использование электронных корпусов - это одно из наиболее передовых направлений современной лингвистики. Именно в рамках этого направления наиболее вероятны инновационные результаты как в области теоретической лингвистики (получение новых знаний об устройстве языка), так и в области прикладной лингвистики (получение технологий нового поколения для автоматической обработки текстов и ускоренная модернизация методов лингвистических исследований).
Несмотря на то, что корпусная лингвистика малых и крупных языков имеет общие методологические основания и родственные исследовательские установки, корпуса малых языков имеют особую специфику. Параллельно выделению языковой вариативности для малых языков в практике их исследования, постепенно усиливался акцент на языковом документировании [23]. Это объясняется тем, что в отличие от ситуации изучения крупных языков, лингвисты в принципе не могут полагаться исключительно на собственную языковую интуицию. Исследователи неоднократно отмечали, что многие грамматические конструкции и явления обнаруживаются только при работе с текстами, а не с грамматическими анкетами. Это, в первую очередь, касается сложных, дискурсивно и прагматически ориентированных грамматических категорий, таких как вид или залог. Изучения малых языков аналогично филологической традиции изучения древних языков [24-26], которое практически всё было корпусным задолго до появления и широкого признания корпусных методов в теоретической лингвистике.
В процессе решения задач, связанных с корпусной лингвистикой, в последние годы сложилось успешно взаимодействующее научное сообщество, состоящее из мобильных коллективов высококвалифицированных специалистов, с большой долей молодых исследователей, обладающих всеми нужными знаниями и навыками, как в области современной теоретической лингвистики, так и в области ее приложений. Однако, организационные и финансовые возможности всех этих коллективов в настоящее время невелики - они явным образом не соответствуют масштабу задач, стоящих перед современной
корпусной лингвистикой. В частности, ни один из языков народов России, кроме русского, до сих пор не имеет своего полноценного электронного корпуса, что существенно затрудняет как научное исследование этих языков, так и создание единых государственных информационных систем, работающих со всеми языками народов России.
При построении корпусов текстов малой размерности, предназанченных для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.
При этом сложившаяся практика документирования малых языков такова, что для каждого языка создается отдельный корпус, не связанный с корпусами других языков. Создание корпуса - дело трудоемкое и затратное, и если «большие» языки в принципе могут мобилизовать исследовательские и финансовые ресурсы, чтобы позволить себе собственный корпусной инструментарий, малые языки остаются на обочине этого процесса. Каждым из таких корпусов, по отдельности, занимается небольшое число исследователей. Поэтому, создание полноценного, репрезентативного корпуса [27], в объеме аналогичном корпусам крупных языков, становится невозможным: чаще всего объем корпуса колеблется от нескольких тысяч до нескольких десятков тысяч предложений (т.е. остается в пределах ста тысяч словоупотреблений). Создание корпуса предусматривает владение навыками программирования, которыми, зачастую, лингвисты не обладают. Между тем, нужность и актуальность корпусных исследований для «малых» языков ничуть не меньше, чем для «больших» - только корпус глоссированных текстов делает языковой материал доступнее для типологов и, шире для теоретических лингвистов, то есть делает материал соответствующего языка доступным для академического сообщества.
После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять строить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокоренных слов, неоднородных включений, цитат. В качестве наиболее популярных запросов к создаваемым корпусам можно привести:
- Запрос частотного словаря употребления слов определенного автора, группы авторов;
- Запрос информации об употреблении определённой структуры в собрании текстов;
- Запрос всех, либо наиболее типичных контекстов для употребления определённых слов, словосочетаний, конструкций и устойчивых выражений.
Таким образом, существующие корпуса удовлетворяют не всем современным запросам специалистов, а значит, разработка инструментов для создания новых корпусов и поиска статистических закономерностей текстов является актуальной исследовательской задачей.
Степень разработанности. Имеющиеся корпуса опираются в основном на современный язык и разметку. В настоящем диссертационном исследовании разработана программная среда, которая позволяет создавать мультиязычные размеченные корпуса текстов. Используемые для их создания математические модели и алгоритмы существенно отличаются от применяемых в ранее созданных корпусах. В настоящее время практически отсутствуют специализированные инструменты глубокого статистического анализа текстов.
Цель диссертационной работы - построение и разработка моделей и методов создания размеченных корпусов текстов и нахождения статистических параметров, присущих как отдельным словам, предложениям, текстам и их частям, так и всему корпусу в целом. В работе исследуются следующие основные задачи:
• разработать структуры баз данных, необходимые для хранения
грамматической и синтаксической разметок;
• создать компьютерные системы поддержки грамматического и
синтаксического разборов;
• разработать компьютерную систему доступа к разобранным текстам,
хранящимся в базах данных;
• провести анализ методов разбиения текста/текстов на фрагменты
однородности.
Объект исследования - системы создания корпусов текстов, методы извлечения информации из текстов.
Методология и методы исследований. Для решения поставленных задач использовались методы прикладной и математической статистики, методы управления базами данных, а также методы человеко-машинного взаимодействия.
Научная новизна работы заключается в предложенных и исследованных в диссертации структурных моделях текста и анализе методов выявления неоднородных фрагментов текста.
Теоретическая и практическая значимость. Предложенные модели, методы и алгоритмы могут использоваться при создании разнообразных корпусов текстов, а также проведении исследований по анализу структуры языка, извлечению информации из текстов, выделению однородных фрагментов.
Положения, выносимые на защиту:
»Предложенные структурные и графовые модели позволяют создавать мультиязычные корпуса текстов, а также проводить различные исследования, направленные на выявление особенностей текста.
• Разработанные численные методы автоматизируют определение структурных
особенностей единиц текста (морфологического и синтаксического
разбора).
• Разработанные численные методы позволяют определить вид данных в
объединённом хранилище, который обеспечивает минимальное время доступа в зависимости от вида требуемой информации.
• Разработанные численные методы позволяют на основании статистических
характеристик выявлять фрагменты неоднородности. Полученные фрагменты могут быть полезны для решения задач поиска плагиата, задач атрибуции и распознавания.
• Разработанный программный комплекс ИС CMAJIT реализует предложенные
модели и численные методы и предназначен для создания информационных корпусов, предоставления статистической информации о них, а также проведения исследований по анализу однородности как корпуса в целом, так и отдельных его фрагментов.
Степень достоверности. Степень достоверности результатов выполненных исследований подтверждается на примере проведения исследований анализа однородностей в текстах XIX века, в том числе, в текстах Ф. М. Достоевского и В. И. Даля.
Апробация работы. Результаты работы были представлены и обсуждались на следующих конференциях:
• VI Международной научно-практической конференции «Информационная
среда вуза XXI века», 26-30 сентября 2012 г., Финляндия, Куопио
• Международной конференции «Компьютерные технологии и математические
методы в исторических исследованиях», 11-16 июля 2011 г., Петрозаводск
• XI Всероссийской научной конференции «Электронные библиотеки:
Перспективные методы и технологии, электронные коллекции», 17-21 сентября 2009 г., Петрозаводск,
• XL международной научной конференции аспирантов и студентов
«Процессы управления и устойчивость» Control Processes and Stability
(СР8'09), 6-9 апреля 2009 г., Санкт-Петербург
Разработанный программный комплекс был апробирован при создании корпуса русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат». Проект был поддержан грантами российского гуманитарного научного фонда № 05-04-12418в «Исследовательские базы данных «Грамматический словарь русского языка XIX века» (рук. Рогов А. А.), № 08-04-12105в «Синтаксически размеченный корпус текстов 19 века» (рук. Рогов А. А.).
По материалам диссертации опубликовано 10 работ
Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причем вклад диссертанта был значительным. Все представленные в диссертации результаты получены лично автором.
Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, списка использованной литературы и приложений.
Во введении приводится обоснование актуальности темы диссертации, формулируется цель диссертационного исследования, представляются основные результаты, научная новизна, сформулированы положения, выносимые на защиту, показана практическая значимость работы.
В первой главе проводится анализ существующих электронных словарей и текстовых корпусов. Рассматриваются принципы их построения и возникающие проблемы. Предложена модель построения корпуса. Рассмотрены модели морфологического и синтаксического разборов.
Во второй главе описываются процессы автоматизации грамматического и синтаксического разборов.
В третьей главе описывается выбор структур данных для хранения разборов и предоставления искомой информации пользователям.
В четвертой главе рассматриваются методы выделения однородных фрагментов в текстах на основании разработанных корпусов.
В заключении формулируются результаты диссертационного исследования.
Общий объем диссертации составляет 110 страниц. Список литературы включает 100 наименований.
Глава 1. Анализ существующих словарей и текстовых корпусов
1.1 Понятие корпуса
Лингвистическим корпусом называют совокупность текстов, собранных с определёнными принципами, имеющих общую, стандартизированную разметку. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Современные корпусы - это информационно-справочные системы, основанные на собрании текстов на некотором языке в электронной форме. Каждый корпус в обязательном порядке снабжается специальным лингвистическим аппаратом и программным обеспечением, необходимым для полноценной филологической работы с текстами.
Среди специалистов наиболее известными и общепризнанными образцами лингвистических корпусов являются Британский национальный корпус BNC (http://www.natcorp.ox.ac.uk/), Мангеймский корпус немецкого языка (http://www.ids-mannheim.de/kl/projekte/korpora/), Чешский национальный корпус (httpV/ucnk.ff.cuni.cz/X Корпус современного американского английского COCA (hltp://corpus.bvu.edu/coca/) и другие.
Развитие отечественной корпусной лингвистики до недавнего времени отставало от западной. Достаточно вспомнить, что буквально несколько десятилетий назад существовал единственный русскоязычный Уппсальский корпус русских текстов. Он был создан вне России в Институте славистики Уппсальского университета под руководством профессора Леннарта Лённгрена в 60-ые гг. прошлого века [28] и во многом уже морально устарел. Современные исследователи оценивают Уппсальский корпус следующим образом: «В первоначальном виде его объём составлял 1 млн. словоупотреблений, в нем отсутствовала лемматизация1 и морфологическая разметка. Тем самым ни по
В корпусной лингвистике под лемматизацией понимается операция
размеру, ни по составу информации, которой снабжены тексты, Уппсальский корпус, к сожалению, не отвечает современным стандартам составления корпусов. Во многом именно осознание его недостаточности для адекватного представления языка, ограниченной применимости для лингвистических исследований, а также устарелости материалов привело к активизации работы по созданию альтернативных корпусов» [29].
Сейчас в России существует немало интересных проектов такого рода. Самый масштабный из них - Национальный корпус русского языка (www.ruscorpora.ru).
Корпусная лингвистика - сравнительное молодое направление компьютерной и прикладной лингвистики. Корпусная лингвистика, являясь разделом языкознания, занимается выявлением закономерностей функционирования языка через его анализ и изучение с помощью лингвистического корпуса.
Корпусная лингвистика включает два аспекта:
• создание и разметка (аннотирование) корпусов текстов и разработка средств
поиска по ним;
• экспериментальные исследования на базе корпусов.
Отличительной чертой корпуса от простых собраний («библиотек», коллекций) текстов, которые представлены в современном интернете, является разметка. Среди наиболее популярных «библиотек» можно назвать Русскую виртуальную библиотеку (http://rvb.ru/). Библиотеку Максима Мошкова (http://lib.ru/). Публичную библиотеку (Электронные книжные полки Вадима Ершова) (http://publ.lib.ru /publib.html) и другие.
приведения слова к основной (исходной, словарной) форме. Лемматизация позволяет в рамках корпуса объединять различные словоформы (грамматические формы) одного и того же слова и далее работать с их общей статистикой, задавать поиск по различным параметрам - форме падежа, числа, рода, времени и т.п.
1.2 Типы корпусов
Современные корпуса можно разделять по различным наборам признаков:
• По хронологическому признаку:
1. Синхронический;
2. Мониторный (отслеживает текущее состояние языка);
3. Диахронический.
• По индексации:
1. Простой;
2. Аннотированный.
• По языку:
1. Одноязычный;
2. Двуязычный;
3. Многоязычный.
• По способу применения и использования корпуса:
1. Исследовательский;
2. Иллюстративный;
3. Параллельный.
• По способу существования корпуса:
1. Динамический;
2. Статический.
Различают корпуса с морфологической (грамматической), синтаксической, семантической, акцентной и прочими типами разметки. Во многих современных корпусах используется, как правило, смешанная разметка. Отметим основные синхронические (современного языка) и диахронические (истории языка) корпусы русских текстов, существующие на данный момент. Синхронические корпуса:
1. Национальный корпус русского языка (далее НКРЯ) - наиболее крупный и известный корпус русских текстов.
2. Хельсинкский аннотированный корпус русских текстов ХАНКО (далее
ХАНКО), созданный на Отделении славянских и балтийских языков и литератур Хельсинкского университета с участием специалистов и студентов ПетрГУ (http://www.slav.helsinki.fl/hanco/index.htm.l).
3. Корпус русского литературного языка (http ://www .narusco. ru/) - совместный проект Санкт-Петербургского университета и Института лингвистических исследований РАН.
4. Компьютерный корпус текстов русских газет конца XX века, разработанный Лабораторией общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова (http://www.philol.msu. ru/~lex/corpus/).
5. Открытый корпус OpenCorpora (http://www.opencorpora.org/) - находящийся в разработке корпус с открытым кодом.
Диахронические корпуса:
1. Корпус русских публицистических текстов второй половины XIX века «СМАЛТ» (http://smalt.karelia.ru/corpus/index.phtml), разработанный в ПетрГУ.
2. Корпус «Манускрипт» - совместный проект Удмуртского госуниверситета и Ижевского государственного технического университета, содержащий глаголические и славянские рукописи X - XIV вв., славянские Евангелия X -XIV вв. и проч. (http://mns.udsu.ru/7p lid=l).
3. Санкт-Петербургский корпус агиографических текстов СКАТ, созданный на кафедре математической лингвистики филологического факультета Санкт-Петербургского государственного университета (http://proiect.phil.spbu.ru/scat/page.php?page^proi ect).
Естественно, этот перечень является далеко не полным. Следует учитывать и тот факт, что некоторые крупные корпусы включают в свой состав ряд более мелких специализированных корпусов, или подкорпусов, ориентированных на определённый круг пользователей, которые ставят некоторые частные задачи. Например, в составе диахронического корпуса «Манускрипт» выделяется корпус
М. В. Ломоносова, в составе НКРЯ, помимо основного, выделяются еще 10 специализированных подкорпусов (подробнее об этом будет сказано ниже).
1.3 Конструирование и применение корпусов.
Единой методики для конструирования корпусов на всех языках нет. Это объясняется тем, что разные языки имеют разные традиции, технологические процессы. Но все же можно попытаться выделить основные требования на основании следующих вопросов:
1. Кто пользователь корпуса? (индивид, группа, лингвистическое общество).
2. Какова логическая идея, которая положена в основу корпуса?
3. С каким объёмом данных необходимо работать при составлении корпуса?
4. Что будет использовано: отрывки из текстов, полные тексты, или то и другое?
5. Какова процедура отбора текстов в корпусе?
Ниже приводится краткое описание некоторых корпусов. Для более детального рассмотрения этих корпусов, можно обратиться к статье [29], в которой даётся достаточно подробный сопоставительный анализ НКРЯ, корпуса ХАНКО, Тюбингенского корпуса русского языка, а также Компьютерного корпуса текстов русских газет конца XX века (на момент выхода статьи в 2005 году в интернете был опубликован лишь небольшой фрагмент корпуса, который и подвергается анализу).
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Методы разноуровневого анализа текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях2024 год, доктор наук Смирнов Иван Валентинович
Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки2023 год, кандидат наук Мовсесян Андрей Арсенович
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Список литературы диссертационного исследования кандидат наук Седов, Алексей Владимирович, 2013 год
Список литературы:
1. Нагель, О. В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении / О. В. Нагель // Язык и культура. -2008. - № 4. - С. 53-59.
2. Беляева JT. Н. Лингвистические автоматы в современных информационных технологиях / J1. Н. Беляева, - СПб.: Изд. Санкт-Петербургского университета, 2001.-98 с.
3. Рыков, В. В. Курс лекций по корпусной лингвистике. [Электронный ресурс] / В. В. Рыков. - Режим доступа : http://rykov-cl.narod.ni/c.html.
4. Захаров, В. П. Корпусная лингвистика : учебно-методическое пособие / В. П. Захаров - СПб: СПбГУ, 2005.
5. Чапайкина, Н. Е. Семантический анализ текстов. Основные положения / Н. Е. Чапайкина // Молодой ученый. — 2012. — №5. — С. 112-115.
6. Сысоев, П. В. Лингвистический корпус в методике обучения иностранным язы-кам / П. В. Сысоев // Язык и культура. - 2010. - № 1(9). - С. 99-111.
7. Чернякова, Т. А. Методика формирования лексических навыков студентов на основе лингвистического корпуса (английский язык, языковой вуз) : дис. ... канд. пед. наук. - М. : МГГУ им. М.А. Шолохова, 2012.
8. Рязанова, Е. А. Методика формирования грамматических навыков речи студен-тов на основе лингвистического корпуса (английский язык, языковой вуз) : дис. ... канд. пед. наук. - М. : МГГУ им. М.А. Шолохова, 2012.
9. Baker, М. The role of corpora in investigating the linguistic behavior of professional translators / M. Baker // International Journal of Corpus Linguistics. -1999,-№4.-P. 281-298.
10. Johansson, S. On the role of corpora in cross-linguistic research / S. Johansson // Corpora and cross-linguistic research. - Amsterdam : Rodopi, 1999. - P. 3-24.
11. Добровольский, Д. О. Корпус параллельных текстов в исследовании культурно-специфичной лексики / Д. О. Добровольский // Национальный корпус
русского языка: 2006—2008. Новые результаты и перспективы. - СПб.: Нестор-История, 2009 - С. 383—401.
12. Михайлов, M. Н. Параллельные корпуса художественных текстов. / M. Н. Михайлов. - Тампере, 2003
13. Добрушина, Н. Р. Корпусные методики обучения русскому языку / Н. Р. Добрушина // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. - СПб.: Нестор-История, 2009 - С. 335—352.
14. Сироткина, Т. А. Национальный корпус русского языка как материал для создания этнонимического словаря / Т.А. Сироткина // Национальный корпус русского языка и проблемы гуманитарного образования. - М.: Наука, 2007. - 159 с.
15. Corpus-based Language Studies: An Advanced Resource Book [Электронный ресурс]. / Tony McEnery, Richard Xiao, Yukio Tono // Routledge Applied Linguistics Series. - Режим доступа : http.V/www.lancaster.ac.uk/fass/projects/corpus/ cbls/corpora.asp (дата обращения 03.11.2013)
16. Бовтенко, M. А. Средства разработки электронных учебных материалов [Электронный курс] / М. А. Бовтенко // Информатизация системы образования. Интернет-поддержка профессионального развития педагогов. - 2004. - Режим доступа : http://forteacher07.ru/content/view/136/49
17. Хейлик, В. Д. (Запорожье) Реализация идей корпусной лингвистики в преподавании русского языка иностранным студентам нефилологического профиля [Электронный ресурс] / В. Д. Хейлик. - Режим доступа : http://uapryal.com.ua/training/v-d-heylik-zaporozhe-realizatsiya-idey-koфusnoy-lingvistiki-v-prepodavanii-russkogo-yazyika-inostrannyim-studentam-nefilologicheskogo-profilya/ (дата обращения 02.11.2013)
18. Latent Semantic Indexing Web Site [Электронный ресурс] - Режим доступа : http : //www .cs.utk.edu/-lsi/ (дата обращения 20.10.2013)
19. Latent Semantic Analysis [Электронный ресурс] - Режим доступа : http://lsa.colorado.edu (дата обращения 20.10.2013)
20. Зинин, С. В. Корпусный анализ семантических отношений иероглифов и ключей [Электронный ресурс] / С. В. Зинин. - Режим доступа : http://www.synologia.ru/a/Kopпycный_aнaлиз_ceмaнтичecкиx_oтнoшeний_иepoгли фов_и_ключей (дата обращения 15.10.2013)
21. Москин, Н. Д. О представлении знаний с помощью семантических сетей в интеллектуальной системе по исследованию фольклорных текстов / Н. Д. Москин // Материалы Международной научно-технической конференции «OSTIS-2011» (Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems). - Минск, 2011. - С. 115-124.
22. Linguistic Exploitation of Syntactic Databases: The Use of the Nijmegen Linguistic Database Program / Hans van Halteren, Theo van den Heuvel. // Amsterdam and Atlanta: Editions Rodopi (Language and Computers: Studies in Practical Linguistics 5). - 1990.
23. Малые языки и традиции: существование на грани. Вып. 1. Лингвистические проблемы сохранения и документации малых языков / под ред. А. Е. Кибрика. - М.: Новое издательство, 2005.
24. Котов, A.A. Информационная система для создания размеченных корпусов малой размерности / А. А. Котов, А. А. Рогов, М. Ю. Некрасов, А. В. Седов // Ученые записки ПетрГУ: Декабрь, 2012. - Серия: Естественные и технические науки. - Петрозаводск, 2012. - Т.1, вып. №8 (129). - С. 108-112.
25. Аникин, Д. В. Исследование языковой личности составителя "Повести временных лет" Автореф. дис.... канд. филолог, наук. - Барнаул, 2004.
26. Дыбо, В. А. Проблемы изучения отдалённого родства языков / В. А. Дыбо, И. И. Пейрос // Вестник Российской Академии Наук. - М., 1985. - № 2.- С. 55-66
27. Баранов, А. Н. Проблема репрезентативности корпуса данных (на примере политической метафорики) // Труды Международного семинара Диалог '2001 по компьютерной лингвистике и ее приложениям. - Аксаково, 2001.
28. Lönngren, Lennart (ed.) Частотный словарь современного русского языка (А FrequencyDictionary of Modern Russian) / Lennart Lönngren // Acta Universitatis Upsaliensis, Studia Slavica Upsaliensia 32. - Uppsala, 1993.
29. Резникова, Т. И. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) / Т. И. Резникова, М. В. Копотев // Национальный корпус русского языка: 2003-2005. - М., 2005. - С. 31-32. - Режим доступа: http://mscoфora.ru/sbornik2005/04reznikova.pdf
30. Сичинава, Д. В. Национальный корпус русского языка: очерк предыстории / Д. В. Сичинава // Национальный корпус русского языка: 2003-2005. - М.: Индрик, 2005.-С. 21-30.
31. Что такое национальный корпус русского языка? [Электронный ресурс] -Режим доступа : Ьир.7/8^югит.ги5С0ф0га,ш/^ех.рЬр?0р1юп=С0т content & view =article&id=49&Itemid=78 (дата обращения 20.10.2013)
32. Мустайокки, А. Теория функционального синтаксиса: от семантических структур к языковым средствам / А. Мустайокки. - М., 2006. - С. 411. - Режим доступа: http://www.helsinki.fi/slavicahelsingiensia/preview/fs/resume-ru.pdf
33. Хельсинкский аннотированный корпус русских текстов ХАНКО [Электронный ресурс] - Режим доступа : http://www.helsinki.fi/venaja/russian/e-material/hanco/index.htm (дата обращения 20.10.2013)
34. Корпус русского литературного языка [Электронный ресурс] - Режим доступа : http://narusco.ru/index.htm (дата обращения 20.10.2013)
35. Открытый корпус [Электронный ресурс] - Режим доступа : http://openo^pora.org (дата обращения 20.10.2013)
36. Рогов, A.A. Некоторые особенности грамматически размеченного корпуса по русской публицистике второй половины XIX века / А. А. Рогов, Г. Б. Турин, А. А. Котов // Труды международной конференции «Корпусная лингвистика - 2008». -СПб., 2008.-С. 326-333.
37. Волков, С. Св. Корпус текстов и исторический словарь / С. Св. Волков, В. П. Захаров // Русский язык конца XIX века: Проблемы изучения и лексикографического описания. - СПб., 2004. - С. 38-43
38. Волков, С. Св. Корпус текстов как особый тип лингвистической электронной библиотеки / С. Св. Волков, А. С. Герд, О. Н. Гринбаум и др. // Словарь русского языка XIX века. Проблемы. Исследования. Перспективы. -СПб., 2003.-С. 92-108
39. Стенограмма обсуждения «Проекта Словаря русского языка XIX века» // Словарь русского языка XIX века. Проблемы. Исследования. Перспективы. -СПб., 2003.-С. 109-154
40. Зализняк, А.А. Грамматический словарь русского языка / А.А. Зализняк. -М.: Русский язык, 1977
41. Апресян, Ю. Д Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю. Д. Апресян, И. М. Богуславский, Б. J1. Иомдин и др. // Национальный корпус русского языка: 20032005. - М., 2005. - С. 194, 196. - Режим доступа http://ruscorpora.ru/sbornik2005/12apresyan.pdf
42. Грамматика современного русского литературного языка / Под ред. Н.Ю. Шведовой. — М.: Наука, 1970.
43. Русская грамматика / Под ред. Н.Ю. Шведовой. — М.: Наука, 1980. - Т. 1,2.
44. Современный русский язык: Фонетика. Лексикология. Словообразование. Морфология. Синтаксис / Под общ. ред. Л. А. Новикова. - СПБ., 2003. - С. 631644.
45. Копотев, М. В. Принципы синтаксической идиоматизации / М. В. Копотев -Helsinki: Helsinki University Press. 2008
46. Петрова, А.А. Результаты совместного проекта РГНФ - АФ «перевод с финского на русский и с русского на финский в поликультурном мире»: создание лингвистического корпуса финноязычных текстов газеты «Karjalan sanomat» и его перспективы [Электронный ресурс] / А. А. Ленина, А. А. Петрова Петрозаводск, 2011. - Режим доступа : http://www.petrsu.ru/Faculties/Balfin/AAPetrova_201 l.html (дата обращения: 20.07.2012)
47. Копотев, М. В. Принципы синтаксической разметки Хельсинского аннотированного корпуса русских текстов ХАНКО / М. В. Копотев, Г. Б. Турин //
Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог-2006». - М.: РГГУ, 2006. - С. 280-284.
48. Чардин, И. С. Лингвистические корпуса с синтаксической разметкой и их применение / И. С. Чардин // Научно-техническая информация. - 2003. - Сер. 2. -№6.-С. 18-24.
49. Green, L. The Internet: An Introduction to New Media / L. Green. - New York: Berg, 2010
50. Silver, D. Critical Cyberculture Studies / D. Silver, A. Massanary. - New York: New York University Press, 2006
51. Браславский, П. И. Методы повышения эффективности поиска научной информации (на материале Internet). : автореф. дис. ... канд. тех. наук. / П. И. Браславский. - Екатеринбург, 2000. - 24 с.
52. Аброскин, А. А. Поиск по корпусу: проблемы и методы их решения / А. А. Аброскин // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. - СПб.: Нестор-История, 2009. - С. 277-282.
53. Бочаров, В. В. Программное обеспечение для коллективной работы над морфологической разметкой корпуса / В. В. Бочаров, Д. В. Грановский//Труды международной конференции «Корпусная лингвистика - 2011».- СПб.: С.-Петербургский государственный университет, 2011.
54. Захаров, В. Н. Программная система поддержки атрибуции текстов статей Ф.М. Достоевского. / В. Н. Захаров, А. А. Леонтьев, A.A. Рогов, Ю. В. Сидоров // Труды Петрозаводского государственного университета. Сер. "Прикладная математика и информатика". - Петрозаводск: Изд-во ПетрГУ, 2000. - Вып. 9. - С . 113-122.
55. Федорчук, А. Как создаются Web-сайты. Краткий курс. / А. Федорчук -СПб.: Питер, 2000. - 224 с.
56. Угринович, Н. Д. Разработка Web-сайтов и их публикация в Интернете / Н. Д. Угринович, И. С. Лаушкина - М.: Информатика и образование, 2000. - № 10.
57. Кирсанов, Д. Веб-дизайн: книга Дмитрия Кирсанова / Д. Кирсанов. - СПб.: Символ-Плюс, 2003. - 368 с.
58. Берд, Дж. Веб-дизайн. Руководство разработчика (The Principles of Beautiful Web Design, 2nd Edition.) / Дж. Берд. - П.: «Питер», 2012. - 224 с.
59. Нильсен, Я. Веб-дизайн: анализ удобства использования веб-сайтов по движению глаз (Eyetracking Web Usability) / Я. Нильсен, К. Перниче. -М.: «Вильяме», 2010. - 480 с.
60. Роббинс, Д. Web-дизайн. Справочник. / Д. Роббинс. - "КУДИЦ-ПРЕСС", 2008.-816 с.
61. Каллахан, И. Ваша WEB-страница. Проблемы и решения. / И. Каллахан -М.: "ЭКОМ", 2002-290 с.
62. Глушаков, С. В. Программирование Web-страниц / С. В. Глушаков, И. А. Жакин, Т. С. Хачиров. - Харьков: «Фолио», 2005. - 390 с.
63. Официальный сайт разработчиков PHP [Электронный ресурс]. - Режим доступа : http://www.php.net/docs.php (дата обращения 18.09.2013)
64. How to Use Wildcards [Электронный ресурс]. - Режим доступа : http://www.linfo.org/wildcard.html (дата обращения 15.07.2013)
65. Бородкин, JI. И. К вопросу о формальном анализе авторских особенностей стиля в произведениях / JI. И. Бородкин, JI. В. Милов, JI. Е. Морозова // Математические методы в историко-экономических и историко-культурных исследованиях. - М., 1977, - С. 298-326.
66. Tuldava, J. Stylistics, author identification / Edited by Reinhard Kohler, Gabriel Altmann, RaimondGenrikhovich Piotrovskii // Quantitative linguistics: an international handbook. - Berlin, New York: de Gruyter, 2005. - P. 368-387
67. Рогов, А. А. Математические методы атрибуции литературных текстов небольшого объема / А. А. Рогов, Ю. В. Сидоров, Т. Г. Суровцова // Материалы XIII Всероссийской конференции "Математические методы в распознавании образов". - М. : МАКС Пресс, 2007. - С. 525-528.
68. Чистяков, С. П. О построении статистических критериев для атрибуции авторства литературных текстов / С. П. Чистяков, Т. Г. Суровцова // Вестник СПбГУ. - СПб.: Изд. Санкт-Петербургского университета, 2009. - Сер. 10, Вып. 3. -С. 138-143.
69. Bouville, M. Plagiarism: Words and ideas / M. Bouville. // Science and Engineering Ethics. - Springer, 2008. - 14(3). - P. 311-322.
70. Марусенко, M. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. / М. А. Марусенко. - JI.: Изд-во Ленингр. ун-та, 1990. - 164 с.
71. Котельников, Е. В. Автоматический анализ тональности текстов на основе методов машинного обучения / Е. В. Котельников, М. В. Клековкина // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). - М.: Изд-во РГГУ, 2012. - Вып. 11 (18).
72. Рак, A. Language independent approach to sentimental analysis [Электронный ресурс]. / A. Pak, P. Paroubek // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог-2012» (Бекасово, 30 мая - 3 июня 2012г.). - М.: Изд-во РГГУ, 2012. - Вып. 11 (18). - Режим доступа: http://dialog-21.ru/digests/dialog2012/materials/pdf/70.pdf (дата обращения 14.11.2012).
73. Браславский, П. И. Распознавание стилей речи применительно к информационному поиску: постановка задачи / П. И. Браславский // Математические структуры и моделирование: Сб. научн. тр. под ред. А.К. Гуца. -Омск: Омск. гос. ун-т, 1999. - Вып. 3. - С. 134-140.
74. Дягилев, В. В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав / В. В. Дягилев, А. А. Цхай, С. В. Бутаков // Вестник НГУ. Серия: Информационные технологии. - Новосибирск, 2011.
75. Аушра, А. Научная электронная библиотека, как средство борьбы с плагиатом [Электронный ресурс] / А. Аушра // Международный форум Educational Technology & Society. — 2006. — Режим доступа : http://ifets.ieee.Org/russian/depository/v9_i3/html/3.html (дата обращения 03.11.2013)
76. Stein, В. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07 [Электронный ресурс] / В. Stein, M. Koppel, E. Stamatatos
// ACM SIGIR Forum. - Режим доступа : http://www.sigir.org/forum/2007D/ 2007d_sigirforum_stein.pdf (дата обращения 21.10.2013)
77. Dreher, Н. Automatic Conceptual Analysis for Plagiarism Detection [Электронный ресурс] / H. Dreher // Information and Beyond: The Journal of Issues in Informing Science and Information Technology. - 2007. - Режим доступа : http://proceedings.informingscience.org/InSITE2007/ IISITv4p601-614Dreh383.pdf (дата обращения 03.11.2013)
78. Gipp, В. Citation Based Plagiarism Detection - A New Approach to Identify Plagiarized Work Language Independently. [Электронный ресурс] / В. Gipp, J. Beel//ACM.- 2010. - Режим доступа : http://sciplore.org/wp-content/papercite-data/pdf/gipplOc.pdf (дата обращения: 17.04.2013)
79. Morton, A. Q. To Couple is the Custom. A General Solution to Problems of Authorship in English Texts and Documents. / A. Q. Morton, S. Michaelson, N. Hamilton-Smith. - University of Edinburgh, Departament of Computer Science, Internal Report, CSR, 1976
80. Winter, W. Styles as dialect / Edited by Lubomir Dolezel, Richard W. Bailey. // Statistics and style. - New York: American Elsevier Publishing Company, 1969. -
P. 3-9.
81. Somers, H. H. Statistical methods in literary analysis / Edited by Jacob Leed // The computer in literary style. Introductory essays and studies. - Kent, Ohio, USA: Kent State University press, 1966. - P. 128-140.
82. Филипенко, Т. В. Использование методов корпусной лингвистики при анализе семантики идиом / Т. В. Филипенко. - М: Вестник МГУ, 2004. - Сер. 19. Лингвистика и межкультурная коммуникация. - №1. - С.84-88
83. Александров, В. В. Структурный анализ диалога /' В. В. Александров, А. В. Арсентьева, А. И. Семенков. - Л.: Наука, 1983. - 49 с.
84. Александров, В. В., Горский Н.Д. Алгоритмы и программы структурного метода обработки данных. / В. В. Александров, Н. Д. Горский. - Л.: Наука. - 1983. -208 с.
85. Сидоров, Ю. В. "Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров" : дис. ... канд. тех. наук. / Ю. В. Сидоров. - Петрозаводск, 2002. -
19 с.
86. Вашак, П. Длина слова и длина предложения в текстах одного автора / Под ред. Б.Н. Головина // Вопросы статистической стилистики. - Киев, 1974.
87. Виноградов, В. В. Проблемы авторства и теория стилей. / В. В. Виноградов. - М.: ГосЛитИздат, 1961. - 263 с.
88. Бородкин, Л. И. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси / Л. И. Бородкин, Л. В. Милов, Л. Е. Морозова // Математические методы в историко-экономических и историко-культурных исследованиях. - М.: Наука, 1977. - С. 298-326.
89. Иванова, Т. В. Атрибуция нарративных источников второй половины XVIII в. при помощи формально-статистических методов (Атрибуция «Писем к Фалалею») : автореф. дис. ... канд. ист. наук. / Т. В. Иванова -М., 1989.
90. Неберекутина, Е. В. Методика атрибуции публицистических и исторических произведений русского средневековья середины XVI в. (Степенная книга. Вопросы авторства) : автореф. дис. ... канд. ист. наук. / Е. В. Неберекутина -М., 1987.
91. Полянская, И. В. Проблемы методики атрибуции риторических произведений Древней Руси (опыт количественного анализа). : автореф. дис. ... канд. ист. наук. / И. В. Полянская - М., 1992.
92. Саркисова, Г. И. Количественный анализ стиля политических сочинений Русского государства XVI в. : автореф. дис. ... канд. ист. наук. / Г. И. Саркисова -М., 1986.
93. Программа морфологического анализа текста на русском языке [Электронный ресурс]. - Режим доступа: http://company.vandex.rii/technologies/mvstem (дата обращения 14.11.2012).
94. Колесникова, С. И. Методы анализа информативности разнотипных признаков. / С. И. Колесникова // Вестник Томского государственного
университета. Сер. «Управление, вычислительная техника и информатика». -Томск, 2009. - №1(6). - С. 69-80
95. Справочник по прикладной статистике. В 2-х т. Пер. с англ. / Под ред. Э.Ллойда, У.Ледермана, Ю.Н.Тюрина. -М: "Финансы и статистика", 1989.
96. Ф. М. Достоевский. Полное собрание сочинений: канонические тексты / под редакцией проф. В. Н. Захарова. - Петрозаводск.: Изд. ПетрГУ, 2004. - Т. 5.
97. Даль В. И. Полное собрание сочинений: В 10 т. - СПб.-М.: Издание товарищества М.О. Вольф, 1897. - Т. 6.
98. Владиславлев, М. И. Записки Талейрана. - М: Время. - 1862. - №2.
99. Григорьев, А. А. Князь Серебрянный. - М: Время. - 1862. - №12.
100. Григорьев А. А. Тарас Шевченко. - М: Время. - 1861. - №4.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.