Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат наук Килеев, Вячеслав Васильевич
- Специальность ВАК РФ05.13.12
- Количество страниц 121
Оглавление диссертации кандидат наук Килеев, Вячеслав Васильевич
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ВЕРИФИКАЦИИ ОРФОГРАФИИ И ГРАММАТИКИ ТЕКСТОВ ФИННО-УГОРСКИХ ЯЗЫКОВ
1.1. Общая схема работы систем верификации орфографии и грамматики текстов естественных языков
1.2. Классификация методов и алгоритмов, применяемых в системах верификации орфографии и грамматики текстов естественных языков
1.2.1. Классификация методов верификации орфографии
1.2.2. Классификация методов ранжирования списка вариантов исправления ошибки
1.2.3. Классификация методов верификации грамматики
1.3. Особенности применения методов и алгоритмов в системах,
ориентированных на языки, для которых отсутствуют лингвистические корпуса
1.4. Архитектура автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков
Выводы
ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ КОМПОНЕНТОВ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ВЕРИФИКАЦИИ ОРФОГРАФИИ И ГРАММАТИКИ ТЕКСТОВ
2.1. Унифицированное обозначение лингвистических компонент автоматизированной системы
2.1.1. Модель прикрепления нескольких аффиксов в системе И.С. Ашманова («ОРФО»)
2.1.2. Модель прикрепления нескольких аффиксов в системе «НипвреП»
2.2. Новые лингвистические компоненты для верификации орфографии текстов
финно-угорских языков в автоматизированной системе
2.3. Модель распознавания предложения текста по правилам формальной грамматики, вводимым лингвистами
2.4. Правила вывода модели распознавания предложения марийского языка
Выводы
ГЛАВА 3. АЛГОРИТМ СТЕММИНГА В ПОДСИСТЕМЕ ВЕРИФИКАЦИИ ОРФОГРАФИИ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ
3.1. Использование алгоритмов стемминга для верификации орфографии
3.1.1. Алгоритм Ловинс
3.1.2. Алгоритм Портера
3.1.3. Алгоритм стемминга в системе И.С. Ашманова («ОРФО»)
3.1.4. Алгоритм стемминга в системе «НипвреИ»
3.2. Разработка алгоритма стемминга в автоматизированной системе верификации орфографии и грамматики финно-угорских языков
3.3. Алгоритм генерации подсказок в подсистеме верификации орфографии
3.4 Кодировка символов переменной длины в алгоритме Дамерау-Левенштейна
Выводы
ГЛАВА 4. ИНФОРМАЦИОННЫЕ И ЛИНГВИСТИЧЕСКИЕ КОМПОНЕНТЫ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ВЕРИФИКАЦИИ ОРФОГРАФИИ И ГРАММАТИКИ ТЕКСТОВ ФИННО-УГОРСКИХ ЯЗЫКОВ
4.1. Функциональные возможности автоматизированной системы
4.2. Представление лингвистических компонент в информационном обеспечении автоматизированной системе верификации орфографии и грамматики текстов
4.3. Программные интерфейсы информационного обмена в автоматизированной
системе
4.4. Оценка производительности системы верификации орфографии финно-угорских языков
Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей2000 год, доктор технических наук Сулейманов, Джавдет Шевкетович
Математическое, алгоритмическое и программное обеспечение автоматического предсинтаксического анализа текста в системах управления базами лингвистических знаний2016 год, кандидат наук Розанов, Алексей Константинович
Формирование орфографических навыков на основе углублённого изучения морфемики2006 год, доктор педагогических наук Куропаткина, Татьяна Ивановна
Методика обучения русской орфографии с использованием персональных компьютеров: На начальном этапе обучения студентов-иностранцев2004 год, кандидат педагогических наук Поляков, Владимир Николаевич
Коммуникативно-деятельностный подход к изучению орфографических правил в средней школе2005 год, доктор педагогических наук Ларионова, Людмила Геннадиевна
Введение диссертации (часть автореферата) на тему «Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков»
ВВЕДЕНИЕ
Актуальность темы диссертационного исследования
Представление текста на естественном языке согласно литературной норме является естественной характеристикой автоматизированных систем работы с текстом, в том числе и САПР. Результаты исследований показали, что научные и учебные источники содержат примерно 0,2% неправильно написанных слов[91]. Среди всех неправильно написанных слов в тексте 90% составляют опечатки, которые могут быть обнаружены и устранены компьютерной или автоматизированной системой верификации орфографии, остальные 10% требуют верификации грамматики.
Актуальным является вопрос разработки и исследования автоматизированных систем верификации орфографии и грамматики для языков с малым количеством носителей языка. Системы проверки орфографии и грамматики разрабатывались в основном для языков, для которых имеются лингвистические корпуса (английский, финский, русский и др.). Кроме того, эти системы реализованы либо только как стационарные информационные приложения, либо как дополнительная функция другого приложения (обычно текстового процессора). Реализация системы в виде веб-приложения расширяет функционал автоматизированной системы.
Сегодня исследования в направлении реализации языковых возможностей автоматизированных систем ведут такие ученые, как норвежский лингвист Т. Тростеруд[33,34,103-108] (финский, саамский языки), И.С. Ашманов[2] (русский язык). В то же время работы по созданию систем верификации орфографии и грамматики для языков с малым количеством носителей, таких как марийский, удмуртский, мордовский и др., являются важными и актуальными. В настоящее время известны различные методы верификации орфографии и грамматики, при этом для разных групп языков применяются разные методы. В этой области можно выделить работы следующих ученых-лингвистов: И. Луутонен, К. Н. Сануков[27] (марийский язык), К. Коскенниеми[73] (финский
язык). Также можно назвать работы, выполняемые по проекту «Нип8ре11»[63] (Венгрия). Вопросы распознавания языка представлены в трудах X. Зянга, А. Г. Коробейникова[8,23] (вьетнамский язык). Следует заметить, что исследования лингвистов без использования компьютерных систем малоэффективны.
Для построения систем проверки орфографии и грамматики языков, в том числе и финно-угорских, не существует больших лингвистических корпусов размером порядка 1 млрд словоупотреблений. Поэтому возникает необходимость исследования и разработки возможности применения для них методов, использующих алгоритмы, для которых все лингвистические данные языка предварительно задаются в специальных лингвистических конструкциях. Это алгоритмы стемминга. Также необходимо обратить внимание на реализацию морфоанализатора таких систем.
Перечисленные направления и задачи исследования являются актуальными для решения вопросов разработки алгоритмов, методов, архитектуры для систем верификации орфографии и грамматики финно-угорских языков и моделей представления лингвистических конструкций для языков с отсутствующими лингвистическими корпусами.
Цель и задачи исследования
Целью настоящей работы является исследование и разработка программного и лингвистического обеспечения автоматизированной системы верификации орфографии и грамматики языков финно-угорской группы.
Основные задачи данной работы:
• анализ лингвистических компонент языков финно-угорской группы;
• анализ и классификация методов автоматизированной верификации орфографии и грамматики текстов на языках, имеющих и не имеющих лингвистические корпуса;
• анализ и классификация алгоритмов проверки орфографии для осуществления верификации орфографии;
• разработка алгоритма стемминга для работы с неограниченно длинными последовательностями аффиксов и для работы с частицами наравне с аффиксами;
• разработка модели распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами, для естественных языков;
• разработка и исследование алгоритма генерации текстовых подсказок для правильных вариантов написания слова естественного языка в автоматизированных системах верификации орфографии текстов;
• разработка архитектуры и структуры программного обеспечения системы верификации орфографии и грамматики текстов финно-угорской группы;
• анализ особенностей лингвистического и программного обеспечения системы верификации орфографии и грамматики, реализующей человеко-машинный интерфейс через веб-приложение.
Объект исследования - программное и лингвистическое обеспечение автоматизированной системы верификации орфографии и грамматики текстов на языках финно-угорской группы.
Предметом исследования являются методы и алгоритмы верификации орфографии и грамматики текстов финно-угорских языков в автоматизированной системе.
Методы исследования базируются на использовании теории множеств, теории алгоритмов, теории принятия решений и методов объектно-ориентированного программирования, теории автоматизированного проектирования, методов системного анализа и формальных грамматик.
Научная новизна
• Предложены две новые лингвистические компоненты, отличающиеся от существующих функциональным назначением: инфлектион для согласования аффиксов и стема при генерации словоформ и параметры УАЯ8 (набор атрибутов) для согласования аффиксов между собой в длинных последовательностях.
• Разработан алгоритм стемминга, отличающийся от существующих использованием предложенных лингвистических компонент - инфлектионов и параметров УЛЯБ - с циклической обработкой последовательностей аффиксов, благодаря чему обеспечивается работа с неограниченно длинными
последовательностями аффиксов и сокращается количество их повторений для высоко-агглютинативных языков, а также отличающийся использованием различных способов написания групп аффиксов, благодаря которым возможно работать с частицами наравне с аффиксами, что позволяет проверять соответствие частиц словам.
• Предложена модификация алгоритма Дамерау-Левенштейна, которая благодаря вычислению длины каждого символа позволяет корректно рассчитывать меру разницы двух строк, представленных кодировкой с переменной длиной символов.
• Предложена модель распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами, отличающаяся от существующих тем, что лексемы группируются в токены с атрибутами, хранящими семантику лексемы. Это позволяет сократить начальный алфавит грамматики и сделать правила вывода более наглядными.
• Разработан алгоритм генерации текстовых подсказок для правильных вариантов написания слова естественного языка, отличающийся от существующих обработкой введенных специальных параметров VARS, хранящих лингвистические характеристики слова.
• Предложена архитектура автоматизированной системы верификации орфографии и грамматики текста, которая, в отличие от существующих, благодаря выделению подсистемы верификации орфографии и подсистемы верификации грамматики позволяет осуществлять распараллеливание процесса верификации текста большого размера.
Основные положения, выносимые на защиту
• Лингвистические компоненты - инфлектион, параметры VARS.
• Алгоритм стемминга, позволяющий работать с частицами наравне с аффиксами и с неограниченно длинными последовательностями аффиксов.
• Модификация алгоритма Дамерау-Левенштейна.
• Модель распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами.
• Алгоритм генерации текстовых подсказок для правильных вариантов написания слова.
Практическая значимость работы
Программная реализация автоматизированной системы проверки орфографии и грамматики финно-угорских языков, позволяющая осуществлять проверку текста на наличие орфографических и грамматических ошибок, имеет следующие преимущества:
а) возможность верификации текста в среде Интернет;
б) генерация подсказок по каждому варианту исправления неправильно написанного слова.
Программное обеспечение зарегистрировано в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (свидетельство № 2013615729 от 19 июня 2013 г.).
Апробация результатов работы
Основные положения и результаты диссертационной работы докладывались и обсуждались:
• на научно-технической конференции «Исследования. Технологии. Инновации», 22-25 марта 2011 г., Йошкар-Ола;
• всероссийской научно-практической конференции «Информационные технологии в профессиональной деятельности и научной работе», 22-23 апреля 2011 г., Йошкар-Ола;
• конгрессе по интеллектуальным системам и информационным технологиям «18&1Т'11», 2-9 сентября 2011 г., Дивноморское, Россия;
• программе «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.»), Йошкар-Ола;
• Первом Всероссийском фестивале науки в Республике Марий Эл, 7-9 октября 2011 г., Йошкар-Ола;
• ЙО Форуме «Форум твоих идей», 20 ноября 2011 г., Йошкар-Ола;
• пятнадцатых Вавиловских чтениях «Инновационные ресурсы и национальная безопасность в эпоху глобальных трансформаций», 8-9 декабря
Kj»
2011 г., Йошкар-Ола;
• XXVIII International Finno-Ugrist Students' Conference Tartu, 8-11 мая 2012 г., Тарту, Эстония;
• международной конференции «Автоматизация управления и интеллектуальные системы и среды», 9-15 октября 2012 г., Махачкала;
• конгрессе по интеллектуальным системам и информационным технологиям «IS&IT'13», 2-9 сентября 2013, Дивноморское, Россия.
Апробация и внедрение результатов диссертационной работы были проведены в ООО «ПешСайСофт», СГАУ РМЭ «Марийская база авиационной охраны лесов «Авиалесоохрана», ФГБОУ ВПО «ПГТУ», ФГБОУ ВПО «ЧТУ им. И.Н. Ульянова», ФГБОУ ВПО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им В.И.Ульянова (Ленина)».
Результаты диссертации использовались в проектно-конструкторской деятельности ФГБОУ ВПО «ПГТУ» при подготовке и проведении Международной интернет-олимпиады по информатике и программированию, НИР 12.17/12 (гос. контракт 12.741.11.0050 от 27 апреля 2012 г.).
Работа выполнена при поддержке программы ФСР МФП НТС «Участник молодежного научно-инновационного конкурса 2012» («У.М.Н.И.К.») № 10508р/16915 от 1 июня 2012 г.
Публикации
По материалам диссертации опубликовано 15 печатных работ, в том числе три - в рецензируемых журналах, включенных в перечень ВАК.
ГЛАВА 1. АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ВЕРИФИКАЦИИ ОРФОГРАФИИ И ГРАММАТИКИ ТЕКСТОВ ФИННО-УГОРСКИХ
ЯЗЫКОВ
1.1. Общая схема работы систем верификации орфографии и грамматики
текстов естественных языков
Системы верификации орфографии и грамматики изначально разрабатывались для английского языка - одного из самых простых для проверки орфографии (английский язык является аналитическим^]). В 80-х годах появились текстовые процессоры WordStar (через дополнение SpellStar)[53] и WordPerfect^ 8], которые включали в себя функции проверки орфографии не только английского языка, но и всех европейских. Среди европейских языков были уже и флективные языки - русский, немецкий, французский, чуть более сложные в морфологическом разборе, чем аналитические и, самые сложные, агглютинативные - два западных финно-угорских языка финский и венгерский[ 102].
Системы верификации орфографии и грамматики реализовываются либо как стационарные приложения, либо как дополнительная функция другого приложения, например, текстового процессора, почтового клиента или даже поисковика[25]. При этом, каждая подобная система имеет обязательный набор общих функций - это поиск ошибок, выделение ошибок в тексте (либо цветом, либо подчеркиванием ошибочных слов) и отображение вариантов исправления ошибки. Представим работу системы верификации орфографии в общем виде -диаграммой деятельности (см. рис. 1.1).
В запросе на верификацию в систему передается исходный текст, который необходимо проверить. Текст может состоять как из нескольких слов, так и из целых абзацев. Далее, в процессе парсинга текст разбивается, в зависимости от используемого алгоритма, на отдельные слова или на целые словосочетания (главные слова с принадлежащим им частицам).
Рис. 1.1. Диаграмма деятельности процесса верификации орфографии Далее, также в зависимости от используемых методов и алгоритмов, происходит поиск ошибок. Поиск ошибок заключается в проверке правильности написания отдельной единицы текста, которой в системах верификации орфографии являются отдельные слова, либо последовательность из слова и связанных с ним частиц.
Если ошибки обнаружены, тогда для каждого неправильно написанного слова, система должна сгенерироваться список возможных исправлений (англ. suggestion list). Список возможных исправлений генерируется по-разному, в зависимости от алгоритма, применяемого при поиске ошибок. Далее, все
варианты исправления должны быть отсортированы по какому-то признаку, например, по степени релевантности, т.е. самые подходящие и наиболее вероятные варианты должны быть выше в списке. Количество вариантов также ограничивается. Как правило, максимальное количество вариантов фиксировано в системе, но также оно может вычисляться на основе длины исправляемого слова.
Результаты верификации и список вариантов исправления обнаруженных ошибок отображается пользователю через интерфейс пользователя. Найденные ошибки могут отображаться либо подчеркиванием слова цветными волнистыми линиями, либо изменением цвета самого слова.
Общая схема работы системы верификации грамматики при всей схожести со схемой верификации орфографии, имеет небольшие отличия. Данные отличия схемы работы системы верификации грамматики представлены на рис. 1.2. Ключевые отличия заключаются в следующем.
На этапе парсинга текста, в системе верификации грамматики текст разбивается на отдельные предложения, в то время как в системах верификации орфографии, текст разбивается до отдельных слов или последовательности слов и относящихся к ним частиц.
Особенностью систем верификации грамматики, по сравнению с системами верификации орфографии, является также и то, что они получают данные об отдельных словах предложения, либо от систем верификации орфографии, либо самостоятельно. Набор данных может быть разный, и он зависит от применяемых в системах верификации орфографии и грамматики алгоритмов поиска ошибок.
Также, особенностью систем верификации грамматики является то, что система не предоставляет список возможных вариантов исправления грамматической ошибки, система предлагает лишь одну текстовую подсказку с примерным способом исправления ошибки.
Как видно из рис. 1.1 и рис. 1.2 схемы функционирования процесса верификации орфографии и грамматики схожи, хотя у них и есть ряд отличий. Из всех существующих систем верификации орфографии и грамматики естественных языков выделим следующие разработки:
Рис. 1.2. Диаграмма деятельности процесса верификации грамматики Работа Ксенофонта Санукова и Йормы Луутонена[27] посвящена построению компьютерного морфологического анализатора марийского языка. Он реализует набор лингвистических правил для работы системы верификации орфографии с использованием метода двухуровневой модели языка, разработанной Тиммо Коскенниеми (см. классификацию методов и алгоритмов верификации орфографии) и основанной на ней морфологии конечных автоматов (англ. Finite State Morphology)[36]. Данные модели состоят из пяти прикладных программ: xfst, lexc, lookup, tokenize и twolc, а все лингвистические компоненты для работы с языком сохраняются в информационной базе в файле. В работе Санукова и Луутонена выделены основные моменты, на которые следует обратить внимание при наполнении системы верификации орфографии
марийского языка лингвистическими данными. Это кириллический алфавит марийского языка, чередование звонких и глухих консонантов и так называемые «проблемные слова», точные парадигмы склонения и спряжения которых не установлены в литературной норме языке. Также в работе описываются трудности, возникающие при работе двухуровневой модели с такими аффиксами, как «-шамыч» и «-влак», для которых моделью генерируется множество грамматически невозможных форм. Это происходит из-за того, что эти аффиксы пишутся через дефис и могут изменять свое местоположение в слове, т.е. изменяется порядок аффиксов при генерации словоформ.
Работа Игоря Ашманова[2] представляет архитектуру и технологию промышленной реализации прикладных лингвистических систем для проверки правописания и электронных словарей. Верификация орфографии в работе Ашманова происходит с использованием алгоритма стемминга. В данной работе происходит верификация некоторых типов грамматических ошибок по заранее выделенным шаблонам, что позволяет отнести данную систему к системам, применяющим символьные методы. В архитектуре системы отметим то, что лингвистические компоненты для работы алгоритма стемминга хранятся в информационной базе в текстовом файле файловой системы компьютера. А весь функционал верификации орфографии и грамматики реализован в виде отдельного модуля комплекса прикладных программ «ОРФО».
Работа Табора Просеку[92-94] (венг. Gábor Prószéky) представляем построение системы лингвистических инструментов для венгерского языка, основанной на разработанном им морфологической модели «Humor» (High-speed Unification Morphology). К данным инструментам относятся система проверки орфографии, система расстановки переносов, система лемматизации, тезаурус, двуязычные словари, морфогенератор. Каждый из этих инструментов реализован в виде отдельного модуля в более крупной системе, работающей с текстом.
1.2. Классификация методов и алгоритмов, применяемых в системах верификации орфографии и грамматики текстов естественных языков
В работе систем верификации орфографии и грамматики выделим следующие группы методов и алгоритмов:
• Методы и алгоритмы верификации орфографии[21]. Осуществляют поиск ошибок и генерацию списка возможных исправлений в системах верификации орфографии (см. рис. 1.1).
• Методы ранжирования списка вариантов исправления неверно написанного слова в системах верификации орфографии[46,89,97] (см. рис. 1.1).
• Методы и алгоритмы верификации грамматики[20]. Осуществляют поиск ошибок и генерацию подсказок о способах их исправления в системах верификации грамматики (см. рис. 1.2).
1.2.1. Классификация методов верификации орфографии
На рис. 1.3 изображен фрагмент классификации методов и алгоритмов верификации орфографии[21]. Данная классификация не является полной и отражает лишь те методы и алгоритмы, которые были обнаружены во время исследования[75] и которые представляют интерес для систем верификации орфографии финно-угорских языков.
Одним из методов верификации орфографии является метод верификации по словарю. Словарь включает в себя все слова и все порождаемые из него словоформы. Если проверяемое слово существует в словаре, то, считается, что слово написано верно.
Другую группу методов представляют методы, применяющие алгоритмы стемминга[9]. Алгоритм стемминга осуществляет разбор проверяемого слова на аффиксы (суффиксы[58] и префиксы) для получения стема - корневого слова. Слово с аффиксами будет являться флективным по отношению к корневому. В словаре сохраняются только сами стемы. Если после проведения процедуры
стемминга получившийся стем содержится в словаре, то считается, что проверяемое слово написано верно. Т.к. словарь содержит только стемы, без различных вариаций флективных слов, данный метод значительно уменьшает размер словаря. Но данный метод подразумевает разработку алгоритма стемминга. На данный момент уже существует ряд подобных алгоритмов, в частности[70]:
Рис. 1.3. Фрагмент классификации методов и алгоритмов верификации
орфографии текстов естественных языков 1. Алгоритм Ловинс[77]. Данный алгоритм включает в себя список аффиксов (Ловинс рассматривала только окончания, не беря во внимание префиксы), список условий применения аффиксов и правил трансформации. Данный алгоритм считается самым первым алгоритмом стемминга, он был разработан Джули Бет Ловинс в 1968 году для английского языка. Особенностью данного алгоритма является то, что окончания не разбиваются на группы, а
записываются в таком виде, что включают в себя и грамматические окончания и грамматические суффиксы слова, из-за чего список аффиксов получается большим, но скорость работы алгоритма выше, например, по сравнению с алгоритмом Портера. Работа данного алгоритма подробно отражена в главе 3 параграф 1.
2. Алгоритм Портера[90]. Алгоритм был разработан Мартином Портером[113] в 1980 году для английского языка. Он работает только с суффиксами и его особенностью является то, что рассматриваются сложные суффиксы как компоновка из более простых. Последние убираются в несколько шагов рекурсивно. Набор шагов зависят от самого стема. За счет разбивки сложных суффиксов на более простые, список аффиксов у данного алгоритма получается значительно меньше, по сравнению с алгоритмом Ловинс. Данный алгоритм подробно рассмотрен в параграфе 3.1.
3. Алгоритм шаблонов[98]. Данный алгоритм иногда еще называют как «Брут форс» (от англ. brute force - грубая сила) или алгоритм с таблицей поиска (англ. lookup algorithms). Его особенностью является то, что он содержит таблицу всех отображений между корневой и флективной формами (таблицу шаблонов), из-за чего эта таблица становится даже больше чем у алгоритма Ловинс. Алгоритм хорошо работает с языками, где встречается много исключений в правилах орфографии. В классическом виде, таблица с отображениями заполняется вручную, но также существуют методы (например, Production technique) которые позволяют автоматически строить таблицу возможных отображений по эмпирическим и экспериментальным данным.
4. Алгоритм лемматизации определяет вначале часть речи слова (POS) по каким-то заранее заданным признакам и затем, зная часть речи, применяет правила удаления аффиксов[31]. Хорошо подходит для тех языков, у которых правила стемминга сильно зависят от части речи.
5. Алгоритм в системе И.С. Ашманова[2] («ОРФО») работает с русским языком. Имеет ограничение к количестве аффиксов, прикрепляемых к одному стему - не более двух, при этом первый аффикс отвечает за чередования,
происходящие в корне слова, а второй аффикс отвечает за образование словоформ. Данный алгоритм используется для верификации орфографии русского языка в программе Microsoft Word. Данный алгоритм подробно изучен в главе 3 параграф 1.
6. Алгоритм в системе «Hunspell», также как и алгоритм в системе И.С. Ашманова («ОРФО»), имеет ограничение - к одному стему можно прибавлять не более двух аффиксов. Работа данного алгоритма подробно рассмотрена в параграфе 3.1.
Еще одной группой методов верификации орфографии являются статистические методы. Они основаны на использовании математической статистики, для сбора которой требуется определенный набор начальных текстов[85]. В зависимости от конкретного метода, размер этого начального набора текстов будет разный. Из статистических методов следует отметить следующие:
1. Использование алгоритма n-gram уровня символов[87,99]. n-gram - это последовательность из п элементов. В данном методе в качестве элементов могут выступают отдельные символы. Последовательность может быть из 2-х, 3-х, 4-х или более элементов. Составляется таблица вероятности появления каждой из последовательности n-gram. Если в проверяемом слове появилась несуществующая последовательность n-gram, то считается, что в слове была допущена ошибка, и данный метод предлагает заменить несуществующую последовательность существующими в базе данных наиболее вероятными последовательностями n-gram.
2. Использование лингвистических корпусов больших размеров. Согласно исследованию, проведенному в Microsoft[39], при использовании данных объемом порядка 1 млрд. слов, можно полностью основываться на статистических методах при построении систем, работающих с естественными языками, в том числе и при построении систем проверки орфографии. Подобные исследования проводились также в Google[lll]. В настоящее время типичным размером лингвистического корпуса является размер в 1 млн. словоупотреблений, размера в
1 млрд. словоупотреблений нет ни в одном существующем корпусе, такой объем данных может быть получен только с веб. Данный метод подразумевает простое сравнение проверяемого слова со словами в базе данных, результат достигается за счет большого объема базы данных.
Еще одним методом проверки орфографии является использование двухуровневой модели языка[73] или основанной на ней морфологии конечных автоматов (англ. Finite State Morphology)[36]. Двухуровневую модель языка (Two-level morphology) разработал финский ученый Киммо Коскенниеми (Kimmo Koskenniemi). Двухуровневой модель называется потому, что работает как на морфологическом уровне, слова на котором в работе Коскенниеми называются поверхностными формами, так и на фонологическом уровне - глубинными формами. Эти два уровня ставятся в соответствие друг другу при помощи правил конечных автоматов. Было доказано[66,69], что итеративные правила, используемые в фонологии, переводятся однозначно. Также в двухуровневую модель входит словарь глубинных форм. Если проверяемое слово при помощи правил конечных автоматов разлагается в какую-либо глубинную форму из словаря, то тогда, согласно этому методу, слово считается написанным верно. Хотя изначально двухуровневая модель разрабатывалась для финского языка, в настоящее время она успешно применяется для многих других языков, в том числе для русского[110], турецкого[45].
Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации2009 год, кандидат технических наук Тарасенко, Антон Витальевич
Разработка системы формального морфологического анализа тюркской словоформы: на материале азербайджанского языка1982 год, кандидат филологических наук Махмудов, Масуд Ахмед оглы
Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами2013 год, кандидат технических наук Фаррохбахт Фумани Мехди
Синтаксические методы контекстной обработки в задачах распознавания текста2007 год, кандидат технических наук Шоломов, Дмитрий Львович
Разработка и исследование методов и системы семантического анализа естественно-языковых текстов2010 год, кандидат технических наук Мокроусов, Максим Николаевич
Список литературы диссертационного исследования кандидат наук Килеев, Вячеслав Васильевич, 2013 год
СПИСОК ЛИТЕРАТУРЫ
1. Аналитические языки // Большая советская энциклопедия: В 30 т. - М.: "Советская энциклопедия", 1969-1978.
2. Ашманов, И.С. Архитектура и технология промышленной реализации прикладных лингвистических систем (проверка правописания и электронные словари) [Текст]: дис. ... канд. техн. наук: 05.13.11. -Переславль-Залесский, 1995. - 144 с.
3. Болховитянов, А. В. Методика автоматического выделения структурных единиц в предложениях на русском языке [Текст] / А. В. Болховитянов, А. М. Чеповский // Информационные технологии, 2012. - № 2. - Москва: Издательство «Новые технологии», 2012. - С. 25—29. - ISSN 1684-6400.
4. Болховитянов, А. В. Модель и база знаний глагольного управления в предложениях на русском языке [Текст] / А. В. Болховитянов, С. В. Гусев, А. М. Чеповский // Информационные технологии. - № 12. - Москва: Издательство «Новые технологии», 2011. - С. 37-39. - ISSN 1684-6400.
5. Все факты о SaaS. [Электронный ресурс]. - Режим доступа: http://cloud.softline.ru/saas
6. Гладкий, А. В. Формальные грамматики и языки / А. В. Гладкий - М.: Наука, 1973-С. 368.
7. Гошокова, Ф. М. Разработка системы грамматик агглютинативного языка для автоматического определения основы слова [Текст] / Ф. М. Гошокова // Материалы третьей международной конференции Автоматизация управления и интеллектуальные системы и среды 9-15 октября, Махачкала, Россия - Том 2 -Нальчик: Издательство КБНЦ РАН, 2012г. - С. 138-139.
8. Зянг, X. Сегментация изображений для распознавания печатных документов [Текст] / X. Зянг, А. Г. Коробейников // Научно-технический вестник информационных технологий, механики и оптики - №56 - Санкт-Петербург: ФГБОУ ВПО "СПбНИУ ИТМО", 2008. - С. 52-57.
9. Килеев, В. В. Анализ алгоритмов стемминга для формализации компонентов языка финно-угорской группы [Текст] / В. В. Килеев, И. Г. Сидоркина // Труды конгресса по интеллектуальным системам и информационным технологиям «IS&IT'll». Научное издание в 4-х томах. - М.: Физматлит, 2011. - Т. 3. - С. 47-52.
10. Килеев, В. В. Анализ лингвистических конструкций формальной модели языка для верификации грамматики финно-угорского текста [Текст] / В. В. Килеев, И. Г. Сидоркина // Известия Кабардино-Балкарского научного центра РАН. - Вып. 1 (2013). - Нальчик: Кабардино-Балкарский научный центр РАН, 2013.-С. 14-20.
11. Килеев, В.В. Кодировка символов переменной длины в алгоритме Дамерау-Левенштейна [Текст] / В.В. Килеев, И.Г. Сидоркина // Вестник Чувашского университета. - Чебоксары: Чувашский государственный университет им. И.Н. Ульянова, 2013. - №3. - С. 285-292. - ISSN 1810-1909.
12. Килеев, В. В. Компоненты архитектуры компьютерной системы верификации орфографии финно-угорских языков [Текст] / В. В. Килеев // Программные системы и вычислительные методы № Г2012. - Москва: Издательство Nota bene, 2012. - С. 37-42.
13. Килеев, В. В. Лингвистические компоненты языка в системе верификации орфографии и грамматики, не использующей лингвистические корпуса [Текст] / В. В. Килеев // Информационные технологии в профессиональной деятельности и научной работе: сборник материалов Всероссийской научно-практической конференции с международным участием: в 2 ч. - Ч. 2. - Йошкар-Ола: Поволжский государственный технологический университет, 2013. - С. 125-129. - ISBN 978-5-8158-1205-5.
14. Килеев, В. В. Лингвистические особенности архитектуры компьютерной системы верификации орфографии финно-угорских языков [Текст] / В. В. Килеев, И. Г. Сидоркина // Вестник Волжского университета имени В.Н. Татищева. Научно-теоретический журнал. - Серия «Информатика». - Вып. 18. - Тольятти: Волжский университет им. В.Н. Татищева, 2011г. - С. 115-119.
15. Килеев, В. В. Моделирование синтаксических и грамматических правил для системы верификации текста [Текст] / В. В. Килеев // Информатика и вычислительная техника: сборник научных трудов 4-й Всероссийской научно-технической конференции аспирантов, студентов и молодых ученых ИВТ-2012 В 2 т.; под ред. Н. Н. Войта. - Т. 1. - Ульяновск: УлГТУ, 2012. - С. 302-304.
16. Килеев, В. В. Модель представления правил для системы верификации грамматики текстов языков финно-угорской группы [Текст] / Килеев В. В., Сидоркина И. Г. // Материалы третьей международной конференции Автоматизация управления и интеллектуальные системы и среды 9-15 октября. Махачкала, Россия. - Т. 2. - Нальчик: Издательство КБНЦ РАН, 2012г. - С. 159163.
17. Килеев, В. В. Модификация алгоритма Дамерау-Левенштейна для работы с символами переменной длины нечетких моделей компьютерной лингвистики [Текст] / В. В. Килеев, И. Г. Сидоркина // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов УП-й Международной научно-технической конференции (Коломна, 20-22 мая 2013 г.). В 3-х томах. - Т. 3. - М.: Физматлит, 2013. - С. 1249-1256.
18. Килеев, В. В. Практика использования инструментария разработки лингвистических компонентов системы проверки орфографии финно-угорских текстов [Текст] / В. В. Килеев // Инновационные ресурсы и национальная безопасность в эпоху глобальных трансформаций. Пятнадцатые Вавиловские чтения; постоянно действующая Всерос. междисципл. науч. конф. с международным участием: в 2 ч. / редкол.: В. П. Шалаев и др. - Ч. 2. - Йошкар-Ола: МарГТУ, 2012. - С. 267-268.
19. Килеев, В. В. Схема функционирования системы верификации грамматики языков [Текст] / В. В. Килеев // Информационные технологии в профессиональной деятельности и научной работе: сборник материалов Всероссийской научно-практической конференции с международным участием: в 2 ч.. - Ч. 2. - Йошкар-Ола: МарГТУ, 2012. - С. 107-111.
20. Килеев, В. В. Методы верификации грамматики естественных языков финно-угорской группы на уровне семантического представления [Текст] / В. В. Килеев, И. Г. Сидоркина // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2013): материалы III междунар. науч.-техн. конф. (Минск, 21-23 февраля 2013 года) / редкол.: В.В. Голенков (отв. ред.) [и др.]. - Минск: БГУИР, 2013. - С. 333-336.
21. Килеев, В. В. Методы проверки орфографии марийского языка в компьютерных системах [Текст] / В. В. Килеев // Информационные технологии в профессиональной деятельности и научной работе: сборник материалов Всероссийской научно-практической конференции: в 2 ч. - Ч. 2. - Йошкар-Ола: Марийский государственный технический университет, 2011.-С.35-39.
22. Кобзарева, Т.Ю. Модель сегментации русского предложения [Текст] / Т.Ю. Кобзарева, Д.Г. Лахути, И.М. Ножов // КИИ-2000. Труды конференции. -М.: Физматлит, 2000. - Т.1. - С. 339-344.
23. Коробейников, А. Г. Метод сегментации изображения для распознавания печатных документов [Текст] / А. Г. Коробейников, X. Зянг, С. Н. Кузнецова, И. Б. Троников, В. А. Семенов // Известия высших учебных заведений. Приборостроение - Т. 51, № 12 - Санкт-Петербург: ФГБОУ ВПО "СПбНИУ ИТМО", 2008. - С. 22-27.
24. Корпус (лингвистический) - Энциклопедия - Фонд знаний «Ломоносов» [Электронный ресурс]. - Режим доступа: http://lomonosov-fund.ru/enc/ru/encyclopedia:0127206
25. Панина, М.Ф. Автоматическое исправление опечаток в поисковых запросах без учета контекста [Текст] / М.Ф. Панина, A.B. Байтин, И.Е. Галинская // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). - М.: Издательство РГГУ, 2013. - Т.1. - С. 556-567.
26. Прозоров, А. Лекция 8. Проектирование архитектуры системы [Электронный ресурс]. - Режим доступа: http://rtlab.ru/lections/lec08/
27. Сануков, К. Н. Некоторые наблюдения по поводу построения компьютерного морфологического анализатора марийского языка [Текст] / К. Н. Сануков, И. К. Луутонен // Материалы X Международного конгресса финно-угроведов: Лингвистика: IV часть. - Йошкар-Ола: Марийский государственный университет, 2008. - С. 480-484.
28. Средства компьютерного представления лингвистической информации [Электронный ресурс]. - Режим доступа: http://old.kpfu.ru/eng/science/ittc/vol000/002/
29. Хант, Э. Б. Искусственный интеллект / Э. Б. Хант; под ред. В. Л. Стефанюка. - М.: Мир, 1978. - 558 с.
30. Хомский, Н. Введение в формальный анализ естественных языков. Кибернетический сборник / Н. Хомский, Дж. Миллер; под ред. А. А. Ляпунова и О. Б. Лупанова. - М.: Мир, 1965.
31. Яцко, В. А. Алгоритмы и программы автоматической обработки текста [Текст] / В. А. Яцко // Вестник Иркутского государственного лингвистического университета. - Т. 1. - № 17. - Иркутск: ГОУ ВПО Иркутский государственный лингвистический университет, 2012. - С. 150-161.
32. About WordNet. [Electronic resource]. - Access mode: http://wordnet.princeton.edu/
33. Antonsen, L. Interactive pedagogical programs based on constraint grammar [Text] / L. Antonsen, S. Huhmarniemi, T. Trosterud // Proceedings of the 17th Nordic Conference of Computational Linguistics. NODALIDA 2009. May 14-16, 2009 Odense, Denmark. - Tartu: Tartu University Library, 2009. - P. 10-17. - ISSN 17366305.
34. Antonsen, L. Next to nothing - a cheap South Saami disambiguator [Text] / L. Antonsen, T. Trosterud // Proceedings of the NODALIDA 2011 workshop. Constraint Grammar Applications. May 11, 2011 Riga, Latvia. - Tartu: Tartu University Library, 2011. - P. 1-7. - ISSN 1736-6305.
35. Bechet, N. Discovering Linguistic Patterns Using Sequence Mining [Text] / N. Bechet, P. Cellier, T. Chamois, B. Cremilleux // CICLing'12 Proceedings of the 13th
international conference on Computational Linguistics and Intelligent Text Processing. -Volume Part 1. - Berlin: Springer-Verlag, 2012. - P. 154-165.
36. Beesley, K. R. Finite State Morphology / K. R. Beesley, L. Karttunen. -Stanford: Center for the study of language and information, 2003. - ISBN 9781575864341
37. Bender, E. M. Arboretum: Using a precision grammar for grammar checking in CALL [Text] / E. M. Bender, D. Flickinger, S. Oepen, A. Walsh, T. Baldwin // Proceedings of the InSTIL/ICALL Symposium: NLP and Speech Technologies in Advanced Language Learning Systems, Venice, Italy 2004. - Baixas: International Specch Communication Association, 2004. - P. 83-86.
38. Berlinsky-Schine, A. Context-based detection of 'real word' typographical errors using markov models [Report] / A. Berlinsky-Schine: Technical report. - Ithaca: Cornell University, 2004.
39. Brill, E. Processing Natural Language without Natural Language Processing [Text] / E. Brill // Computational Linguistics and Intelligent Text Processing: 4th International Conference, CICLing 2003. Mexico City, Mexico, February 16-22, 2003. - Berlin: Springer, 2003. - P. 360-369. - ISBN 3-540-00532-3.
40. Budanitsky, A. Evaluating WordNet-based measures of lexical semantic relatedness [Text] / A. Budanitsky, G. Hirst // Computational Linguistics. - Vol. 32, № 1. - Cambridge: MIT Press, 2006. - P. 13-47.
41. CO Controls and Basic Latin [Electronic resource]. - Access mode: http://www.unicode.org/charts/PDF/U0000.pdf
42. Chomsky, N. Three Models for the Description of Languages [Text] / N. Chomsky // I.R.E. Transactions on Information Theory. - Vol. 2, № 3. - New York: Institute of Electrical and Electronics Engineers, 1956. - P. 113-124.
43. Corpus of the Finnish Language. Finnish Text Collection (CSC, Language Bank) [Electronic resource], - Access mode: http://lrt.clarin.eu/resources/corpus-of-the-finnish-language-finnish-text-collection-csc-language-bank
44. Cyrillic [Electronic resource]. - Access mode: http://www.unicode.org/charts/PDF/U0400.pdf
45. Cöltekin, C- A freely available morphological analyzer for Turkish. / Q. Qöltekin // LREC'10 Proceedings of the Seventh International Conference on Language Resources and Evaluation. - Paris: European Language Resources Association, 2010. -P. 820-827. - ISBN 2-9517408-6-7.
46. Damerau, F.J. A technique for computer detection and correction of spelling errors / F.J. Damerau // Communications of the ACM. - Vol. 7, Issue 3. - New-York: ACM, 1964.-P. 171-176.
47. Dumais, S.T. Using latent semantic analysis to improve access to textual information [Text] / S.T. Dumais, G.W. Furnas, T.K. Landauer, S. Deerwester, R. Harshman // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. - New York: ACM, 1988. - P. 281-285.
48. Estonian Dialect Corpus [Electronic resource]. - Access mode: http://www.murre.ut.ee/home/
49. Finish IT center for science [Electronic resource]. - Access mode: https://hotpage.csc.fi/log/in.phtml.en
50. Fossati, D. A mixed trigrams approach for context sensitive spell checking [Text] / D. Fossati, B. Eugenio // CICLing'07 Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing. - Berlin: Springer-Verlag, 2007. - P. 623-633. - ISBN 978-3-540-70938-1.
51. Fossati, D. I saw TREE trees in the park: How to correct real word spelling mistakes [Text] / D. Fossati, B. Eugenio // LREC'08 Proceedings of the Sixth International Conference on Language Resources and Evaluation. - Paris: European Language Resources Associatoin, 2008. - P. 896-901. - ISBN 2-9517408-4-0.
52. Gale, W. A. A method for disambiguating word senses in a large corpus [Text] / W. A. Gale, K. W. Church, D. Yarowsky // Computers and the Humanities. -Vol. 26, № 5-6. - Dordrecht: Kluwer Academic Publishers, 1993. - P. 415-439. - ISSN 1572-8412.
53. Garrison, P. Star power: Mastering WordStar, MailMerge, SpellStar, DataStar, SuperSort, CalcStar, InfoStar, Starlndex, CorrectStar, StarBurst, ReportStar & PlanStar / P. Garrison. - Blue Ridge Summit: TAB Books, 1985. - 310 p.
54. Garside, R. The Computational Analysis of English: a corpus based approach / R. Garside, G. Sampson, G. Leech. - London: Longman, 1987. - P. 196.
55. Golding, A. A bayesian hybrid method for context-sensitive spelling correction [Text] / A. R. Golding, A. I. Golding // Proceedings of the Third Workshop on Very Large Corpora. - Cambridge: Massachusetts Institute of Technology, 1995. -P. 39-53.
56. Golding, A. Combining trigram-based and feature-based methods for context sensitive spelling correction [Text] / A. Golding, Y. Schabes // ACL'96 Proceedings of the 34th annual meeting on Association for Computational Linguistics. - Stroudsburg: Association for Computational Linguistics, 1996. - P. 71-78.
57. Hamming, R. W. Error detecting and error correcting codes [Text] / R. W. Hamming // The Bell System Technical Journal - Vol. 29, № 2. - Short Hills: American Telephone and Telegraph Company, 1950. - P. 147-160.
58. Harman, D. How Effective is Suffixing [Text] / D. Harman // Journal of the American Society for Information Science. - Vol. 42, № 1. - New York: John Wiley & Sons, 1991.-P. 7-15.
59. Heidorn, G. E. The EPISTLE text-critiquing system [Text] / G. E. Heidorn, К. Jensen, L. A. Miller, R. J. Byrd, M. S. Chodorow // IBM Systems Journal. - Vol. 21, № 3. - Riverton: IBM Corp., 1982. - P. 305-326.
60. Hirst, G. An Evaluation of the Contextual Spelling Checker of Microsoft Office Word 2007 [Report] / G. Hirst. - Toronto: University of Toronto, 2008. - P. 9.
61. Hirst, G. Correcting real-word spelling errors by restoring lexical cohesion [Text] / G. Hirst, A. Budanitsky // Natural Language Engineering. - Vol. 11, № 1. -New York: Cambridge University Press, 2005. - P. 87-111.- ISSN 1351-3249.
62. Hungarian Academy of Science. Research Institute for Linguistics. Hungarian National Corpus [Electronic resource]. - Access mode: http://corpus.nytud.hu/mnsz/index_eng.html
63. Hunspell: open source spell checking, stemming, morphological analysis and generation under GPL, LGPL or MPL licenses [Electronic resource]. - Access mode: http ://hunspell. sourceforge.net/
64. Ingason, A. Context-Sensitive Spelling Correction and Rich Morphology [Text] / A. Ingason, S. Johannsson, H. Loftsson, S. Helgadottir // Proceedings of the 17th Nordic Conference of Computational. Linguistics, NODALIDA 2009, May 14-16, 2009, Odense, Denmark. - Linkoping: LiU Electronic Press, 2009. - P. 231-234.
65. ip(7) - Linux man page. [Electronic resource]. - Access mode: http://linux.die.net/man/7/ip
66. Johnson, C.D. Formal Aspects of Phonological Descriptions [Text] / C. D. Johnson // Monographs on Linguistic Analysis. - № 3. - The Hague: Mouton, 1972.
67. Jones, M. P. Contextual spelling correction using latent semantic analysis [Text] / M. P. Jones, J. H. Martin // ANCL'97 Proceedings of the fifth conference on Applied natural language processing. - Stroudsburg: Association for Computational Linguistics, 1997.-P. 166-173.
68. Joshi, A. K. Tree Adjunct Grammars [Text] / A. K. Joshi, L. S. Levy, M. Takahashi //Journal of Computer and Systems Science. - Vol. 10, № 1. - Orlando: Academic Press, 1975-P. 136-163.
69. Kay, M. When meta rules are not meta rules [Text] / M. Kay // Automatic Natural Language Parsing. Ellis Horwood series in artificial intelligence. - West Sussex: Ellis Horwood Limited, 1983. - P. 94-117.
70. Kileev, V. V. Models of Finno-Ugric languages' components in stemming algorithms / V. V. Kileev, I. G. Sidorkina // Interactive Systems and Technologies: the Problems of Human-Computer Interaction. - Collection of scientific papers. Ulyanovsk: U1STU, 2011.-P. 208-211.
71. Knuth, D. E. Semantics of context-free languages: Correction [Text] / D. E. Knuth //Mathematical Systems Theory. - Vol. 5, № 1. - Berlin: Springer, 1971. - P. 95-96.-ISSN 1432-4350.
72. Knuth, D. E. The genesis of attribute grammars [Text] / D. E. Knuth // WAGA Proceedings of the international conference on Attribute grammars and their applications. - New York: Springer-Verlag, 1990. - P. 1-12. - ISBN 0-387-53101-7.
73. Koskenniemi, K. M. Two-level morphology: a general computational model for word-form recognition and production [Text] / K. M. Koskenniemi - Helsinki: University of Helsinki, 1983. - 162 p. - ISBN 951-45-3201-5.
74. Koster, C. Affix Grammars [Text] / C. Köster // ALGOL 68 Implementation, proceedings of the IPIP working conference on ALGOL 68 implementation, Munich, 20-24 July 1970. - Amsterdam: North Holland Publishing Company, 1971. - P. 95-109.
75. Kukich, K. Techniques for automatically correcting words in text [Text] / K. Kukich // ACM Computing Surveys. - Vol. 24, № 4. - New York: ACM, 1992. - P. 377-439.
76. Levenshtein, V.l. Binary codes capable of correcting deletions, insertions, and reversals / V.l. Levenshtein // Soviet Physics Doklady: Proceedings of the Academy of Sciences of USSR, Physics section. - Vol. 10. - Woodbury: American Institute of Physics, 1966.
77. Lovins, J. B. Development of a stemming algorithm [Text] / J. B. Lovins // Mechanical Translation and Computational Linguistics. - Vol. 11 - Stroudsburg: Association for Machine Translation and Computational Linguistics, 1968. - P. 22-31.
78. Man page hunspell section 4 [Electronic resource]. - Access mode: http ://www.manpagez.com/man/4/hunspell/
79. Marshall, I. Choice of grammatical word-class without global syntactic analysis: tagging words in the LOB corpus [Text] / I. Marshall // Computers and the Humanities. - Vol. 17, № 3. - Osprey: Paradigm Press, 1983. - P. 139-150.
80. Mays, E. Context based spelling correction [Text] / E. Mays, F. J. Damerau, R. L. Mercer // Information Processing and Management: an International Journal. -Vol. 27, № 5. - Tarrytown: Pergamon Press, 1991. - P. 517-522.
81. Mitton, R. Ordering the suggestions of a spellchecker without using context [Text] / R. Mitton // Natural Language Engineering. - Vol. 15, № 2. - New York: Cambridge University Press, 2009. - P. 173-192.
82. Naber, D. A Rule-Based Style and Grammar Checker [Text] / D. Naber // Bielefeld: University of Bielefeld, 2003. - P. 75.
83. Nazar, R. Google books n-gram corpus used as a grammar checker [Text] / R. Nazar, I. Renau // Proceedings of the Second Workshop on Computational Linguistics and Writing (CLW 2012): Linguistic and Cognitive Aspects of Document Creation and Document Engineering. - Stroudsburg: Association for Computational Linguistics, 2012. - P. 27-34. - ISBN 978-1-937284-19-0.
84. Network-based spell checker [Текст]: пат. US 2002/0194229 A1 / авторы и заявители J. В. Decime, M. R. Nilson; патентообладатель Hewlett-Packard Company; заявл. 09/882,940; опубл. 19.01.2002.
85. Paik, J. A novel corpus-based stemming algorithm using co-occurrence statistics [Text] / J. Paik, D. Pal, S. Parui // SIGIR'll. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. - New York: ACM, 2011. - P. 863-872.
86. Pellegrini T. Error Detection in Broadcast News ASR Using Markov Chains [Text] / T. Pellegrini, I. Trancoso // Human Language Technology. Challenges for Computer Science and Linguistics: 4th Language and Technology Conference, LTC 2009. Poznan, Poland, November 2009. Revised Selected Papers. - Berlin: Springer, 2011.-P. 59-69.
87. Peng, F. Language and task independent text categorization with simple language models [Text] / F. Peng, D. Schuurmans, Sh. Wang // NAACL '03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. - Vol. 1. -Stroudsburg: Association for Computational Linguistics, 2003. - P. 110-117.
88. Pete Peterson, W. E. Almost Perfect. [Electronic resource]. - Access mode: http://www.wordplace.com/ap/
89. Pirinen, T. A. Improving Finite-State Spell-Checker Suggestions with Part-of-Speech N-grams [Electronic resource] / T. A. Pirinen, M. Silfverberg. - Access mode: http://www.helsinki.fi/~tapirine/publications/Pirinen-2012-cicling.pdf
90. Porter, M.F. An algorithm for suffix stripping [Text] / M. F. Porter // Program: electronic library and information systems. - Vol. 14. - № 3. - Bingley: Emerald Group Publishing, 1980. - P. 130-137. - ISSN 0033-0337.
91. Pollock, J. J. Collection and characterization of spelling errors in scientific and scholarly text [Text] / J. J. Pollock, A. Zamor // Journal of the American Society for Information Science. - Vol. 34, № 1. - Hoboken: Wiley Periodicals, 1983. - P. 51-58.
92. Proszeky, G. Computational Morphologies for Small Uralic Languages [Text] / G. Proszeky, A. Novak // Inquiries into Words, Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his 60th Birthday. - Stanford: CSLI Publications, 2005. -P. 116- 125.-ISSN 1557-5772.
93. Proszeky, G. Industrial applications of unification morphology [Text] / G. Proszeky // ANLC'94 Proceedings of the fourth conference on Appliedd natural language processing. - Stroudsburg: Association for Computational Linguistics, 1994. -213-214.
94. Proszeky, G. Language Technology Methods Inspired by an Agglutinative, Free Phrase-Order Language [Text] / G. Proszeky, C. Merenyi // Multilingual Processing in Eastern and Southern EU Languages: Low-resourced Technologies and Translation. - Cambridge: Cambridge University Press, 2012. - P. 182-206. - ISBN 9781443838788.
95. Rayson, P. Comparing corpora using frequency profiling [Text] / P. Rayson, R. Garside // WCC '00: Proceedings of the workshop on Comparing corpora. -Stroudsburg: Association for Computational Linguistics, 2000. - Vol. 9. - P. 1-6.
96. Rokaya, M. Context-Sensitive Spell Checking Based on Fieild Association Terms Dictionaries [Text] / M. Rokaya, A. Nahla, S. Aljahdali // IJCSNS International Journal of Computer Science and Network Securrity. - Vol. 12, № 5. - Seoul: IJCSNS, 2012.-P. 116-122.
97. Seth, D. SSCS: A smart spell checker system implementation using adaptive software architecture / D. Seth, M. M. Kokar // Self-Adaptive Software: Applications. Second International Workshop, IWSAS 2001, Balatonfured, Hungary, May 17-19, 2001 Revised. - Berlin: Springer, 2003 - P. 187-197. - ISBN 978-3-540-00731-9.
98. Spell checker. [Electronic resource]. - Access mode: http://staff.science.uva.nl/~andy/ProgC/spell-checker.pdf
99. Sureka, A. Detecting duplicate bug report using character n-gram-based features [Text] / A. Sureka, P. Jalote // APSEC '10 Proceedings of the 2010 Asia Pacific Software Engineering Conference. - Washington: IEEE Computer Society, 2010. - P. 366-374. - ISBN 978-0-7695-4266-9.
100. The Lovins stemming algorithm. - [Electronic resource]. - Access mode: http://snowball.taitams.org/algorithms/lovins/stemmer.html
101. The Porter stemming algorithm [Electronic resource]. - Access mode: http://snowball.1artaras.org/algorithms/porter/stemmer.html
102. Tordai, A. Four Stemmers and a Funeral: Stemming in Hungarian at CLEF 2005 [Text] / A. Tordai, Maarten de Rijke // Accessing Multilingual Information Repositories, 6th Workshop of the Cross-Language Evalution Forum, CLEF 2005, Vienna, Austria, 21-23 September, 2005. - Berlin: Springer, 2006. - P. 179-186.
103. Trosterud, T. Auxiliaries, Negative Verbs and Word order in the Sami and Finnic Languages [Text] / T. Trosterud // Minor Uralic Languages: Structure and Development. - Tartu: University of Tartu, 1994. - P. 173-181.
104. Trosterud, T. Consonant gradation in Estonian and Sami: two-level solution [Text] / T. Trosterud, H. Uibo // Inquiries into Words, Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his 60th Birthday. - Stanford: CSLI Publications, 2005. - P. 136 - 150. - ISSN 1557-5772.
105. Trosterud, T. Grammar-based Language Technology for the Sami Languages [Text] / T. Trosterud // Proceedings of the Lesser Used Languages and Computer Linguistics Conference. Bolzano, 27th-28th October 2005. - Bozen: EURAC, 2006. -P. 133-148. - ISBN 88-88906-24-X.
106. Trosterud, T. Parallel corpora as tools for investigating and developing minority languages [Text] / T. Trosterud // Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, Sweden, 22-23 April, 1999. - Amsterdam: Rodopi, 2002. - P. 111-122. - ISBN 90-4201530-6.
107. Trosterud, T. Usage of XSL Stylesheets for the Annotation of the Sami Language Corpora [Text] / T. Trosterud, S. Huhmarniemi, S. Nerstebo Moshagen // The
LAW Proceedings of Annual Meeting of the Association for Computational Linguistics. June 28-29. Prague, Czech Republic. - Stroudsburg: Association for Computational Linguistics, 2007. - P 45-48.
108. Tyers, F. Developing Prototypes for Machine Translation between Two Sâmi Languages [Text] / F. Tyers, L. Wiechetek, T. Trosterud // EAMT-2009. - Barcelona: Universität Politècnica de Catalunya, 2009. - P. 120-127. - ISBN 978-84-692-3943-8.
109. unix(7) - Linux man page. [Electronic resource]. - Access mode: http ://linux.die.net/man/7/unix
110. Vilkki, L. RUSTWOL: A Tool for Automatic Russian Word Form Recognition [Text] / L. Vikki // Inquiries into Words, Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his 60th Birthday. - Stanford: CSLI Publications, 2005. - P. 151 - 162. - ISSN 1557-5772.
111. Whitelaw, C. Using the web for language independent spellchecking and autocorrection [Text] / C. Whitelaw, B. Hutchinson, G. Chung, G. Ellis // EMNLP'09 Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. - Vol. 2. - Stroudsburg: Association for Computational Linguistics, 2009. -P. 890-899.
112. Wilcox-O'Hearn, A. Real-word spelling correction with trigrams: A reconsideration of the Mays, Damerau, and Mercer model [Text] / A. Wilcox-O'Hearn, G. Hirst, A. Budanitsky // CICLing'08, Proceedings of the 9th international conference on Computational linguistics and intelligent text processing. - Berlin: Springer-Verlag, 2008.-P. 605-616.
113. Willett, P. The Porter stemming algorithm: then and now [Text] / P. Willett // Program: electronic library and information systems. - Vol. 40, № 3. - Bingley: Emerald Group Publishing, 2006. - P. 219-223. - ISSN 0033-0337.
114. Yarowsky, D. Decision lists for lexical ambiguity resolution: Application to accent restoration in Spanish and French [Text] / D. Yarowsky // ACL'94 Proceedings of the 32nd annual meeting of the Association for computational Linguistics. -Stroudsburg: Association for Computational Linguistics, 1994. - P. 88-95.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.