Биграммные языки тема диссертации и автореферата по ВАК РФ 01.01.09, кандидат наук Петюшко Александр Александрович

  • Петюшко Александр Александрович
  • кандидат науккандидат наук
  • 2016, ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова»
  • Специальность ВАК РФ01.01.09
  • Количество страниц 121
Петюшко Александр Александрович. Биграммные языки: дис. кандидат наук: 01.01.09 - Дискретная математика и математическая кибернетика. ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова». 2016. 121 с.

Оглавление диссертации кандидат наук Петюшко Александр Александрович

Краткое содержание работы

Благодарности

1 Биграммные языки

1.1 Начальные определения

1.2 Свойства матрицы биграмм

1.3 Биграммные языки

1.4 Регулярные биграммные языки

1.5 Контекстно-свободные биграммные языки

1.6 Контекстно-зависимые биграммные языки

2 Мощность и асимптотические оценки

2.1 Мощность конечного биграммного языка

2.2 Асиптотика мощности Ь(кО)

2.3 Асимптотика количества матриц, задающих определенный класс биграммных языков

3 Расширение понятия биграммных языков

3.1 Свойства матрицы биграмм с закольцовыванием

3.2 Биграммные языки с закольцовыванием

3.3 Регулярные, контекстно-свободные и контекстно-зависимые биграммные языки с закольцовыванием

3.4 т-граммный язык

3.5 Возможные области применения

Заключение

Список литературы

Введение

Общая характеристика работы Актуальность темы

Ещё в начале 20 века выдающимся русским учёным Марковым Андреем Андреевичем (старшим) был создан математический аппарат цепей, впоследствии названных цепями Маркова. Цепи Маркова были опробованы при вычислении переходных вероятностей между соседними буквами (биграм-мами) в тексте поэмы А. С. Пушкина "Евгений Онегин" [1]. В дальнейшем этот аппарат получил широкое применение для распознавания речи [2] и статистического моделирования естественных языков [3].

Содержательно, биграммный язык — это формальный язык, в котором зафиксированы количества (кратности) биграмм слов языка.

В детерминированном случае для исследования формальных языков би-граммы практически не применялись. Во второй половине 70 годов 20 века в результате бурного развития методов генетики для изучения и секвени-рования ДНК были опубликованы работы по подсчёту [4] точного числа ДНК-последовательностей, заданных наборами кратностей биграмм и уни-грамм, а также была получена верхняя асимптотическая оценка числа ДНК-последовательностей [5].

В этой ситуации естественно было бы пойти не от языка к частотам пар букв, а наоборот и изучить формальные языки с фиксированной матрицей частот. Тем самым, получилась возможность увязать свойства языков со свойствами матрицы частот. Ранее, моделированием регулярных языков с фиксированными предельными свойствами частот занимались Д. Н. Бабин и А. Б. Холоденко [6,7].

Возможны модификации задачи исследований в области формальных

языков, заданных набором кратностей биграмм, такие как изучение спектральных свойств конечных формальных языков, заданных исключительно набором кратностей биграмм (без учёта кратностей униграмм). Или уточнение асимптотики — вместо верхней желательна асимптотически точная оценка по порядку роста.

На данный момент автору неизвестны работы по изучению бесконечных формальных языков, жёстко заданных набором кратностей биграмм. Заметим, что одним из способов задания таких бесконечных языков может служить сохранение частот пар соседних букв. В этом случае становится возможным классифицировать такие формальные языки согласно общепринятой иерархии Н. Хомского формальных языков [8].

Рекомендованный список диссертаций по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Биграммные языки»

Цель работы

• Исследовать на пустоту конечные языки, заданные набором кратностей биграмм.

• Получить аналитическую формулу для мощности конечного биграммнго языка как функцию от матрицы кратностей биграмм.

• Установить точную оценку числа слов в непустом конечном биграммном языке.

• Исследовать бесконечные языки, заданные набором кратностей биграмм, на пустоту, конечность и бесконечность.

• Найти место бесконечных биграммных языков в иерархии Н. Хомского, а также критерии, отделяющие один класс от другого.

• Исследовать биграммные языки не только на прямой, но и на окружности (т.н. биграммные языки "с закольцовыванием").

• Исследовать взаимосвязь между между т-граммными (т > 2) и би-граммными языками.

Научная новизна

Полученные в работе результаты являются новыми, получены автором самостоятельно. Среди них:

• Введено понятие как конечных, так и потенциально бесконечных би-граммных языков, заданных исключительно матрицей кратностей би-грамм.

• Получены условия пустоты, конечности и счётности биграммных языков.

• Приведена точная аналитическая формула для числа слов в конечном биграммном языке, а также точная асимптотическая оценка при длине слова, стремящейся к бесконечности.

• Получены критерии выделения в счётных биграммных языках подклассов из иерархии Н. Хомского: регулярные, контекстно-свободные и контекстно-зависимые языки. Также установлено, что других классов нет.

• Выведена асимптотика числа матриц кратностей биграмм, задающих тот или иной класс формальных языков в иерархии Н. Хомского (как конечных, так и бесконечных).

• Введено понятие биграммных языков с закольцовыванием. Установлена связь между биграммными языками с закольцовыванием и биграммны-ми языками в случае одинакового соответствующего эйлерова графа. Поставлены и решены те же задачи, что и для биграммных языков.

• Предложен метод сведения перечисленных выше задач для языков, заданных кратностями т-грамм при т > 2, к соответствующим задачам для биграммных языков.

Основные методы исследования

Основными методами исследования являются: теория автоматов, теория графов, комбинаторика.

Теоретическая и практическая значимость

Работа имеет теоретический характер. Полученные в ней результаты также могут быть использованы в прикладных задачах поиска похожих фрагментов данных в системах хранения в силу хорошей скорости (матрица кратностей биграмм вычисляется за линейное время от длины входного слова) и простоты реализации (для каждого класса из иерархии Н. Хомского существует соответствующий распознаватель).

Апробация результатов

Результаты диссертации докладывались на следующих научно-исследовательских семинарах:

• Общекафедральный семинар "Теория автоматов" под руководством академика, профессора В. Б. Кудрявцева, кафедра Математической теории интеллектуальных систем Механико-математического факультета МГУ им. М. В. Ломоносова (2012-2015 гг, неоднократно)

• Научный семинар "Теория дискретных функций и приложения" под руководством профессора Д. Н. Бабина, Механико-математический факультет МГУ им. М. В. Ломоносова (2009-2015 гг, неоднократно).

Также результаты докладывались на следующих всероссийских и международных конференциях:

• Х Международная конференция "Интеллектуальные системы и компьютерные науки", Москва, Россия, 5-10 декабря 2011.

• Международная научная конференция студентов, аспирантов и молодых учёных "Ломоносов-2012", Москва, Россия, 9-13 апреля 2012.

• XI Международный семинар "Дискретная математика и ее приложения", Москва, Россия, 18-23 июня 2012.

• XVII Международная конференция "Проблемы теоретической кибернетики", Казань, Россия, 16-20 июня 2014.

Структура диссертации

Диссертация состоит из введения, трёх глав, разбитых на параграфы, заключения и списка литературы, содержащего 37 наименований. Общий объем диссертации 121 страница.

Публикации

Результаты автора по теме диссертации опубликованы в 11 печатных работах [27-37], из них 7 [27-33] в научных журналах из перечня, рекомендованного ВАК РФ.

Краткое содержание работы

Во Введении описаны структура диссертации и история рассматриваемых в ней вопросов. Обосновываются актуальность темы и научная новизна полученных результатов. Описаны основные результаты диссертации.

В Главе 1 введены основные понятия, касающиеся биграммных языков. Основным результатом, описанном в Главе 1, является классификация счётных биграммных языков согласно иерархии Н. Хомского. Пусть А, где |А| = п < ж, — конечный алфавит.

Определение 1.1. Биграммой в алфавите А называется двухбуквенное слово

аЬ е А*,а,Ь е А.

Определение 1.2. Обозначим через ва.а.(а), где а е А*, отображение А* ^ N и {0}, сопоставляющее слову а число его подслов а^а^, т.е. количество различных разложений слова а в виде а = а'а^а^а" (а', а" е А*). Само же значение 9а.а (а) назовём кратностью биграммы в слове а.

Таким образом, по каждому слову а е А* можно построить квадратную матрицу кратностей биграмм О(а) = (@(а))/^=1 размера |А| х |А|, в которой на месте (г, j) будет стоять значение 9а.а.(а).

Пример. Пусть А = {0,1}, а = 01011100.

Т б п( ) (в««(а) (а)^ I1 2

Тогда матрица биграмм О(а) = =

\0ю(а) вп(а)) \2 2^

Пусть 2 — множество квадратных матриц размера | А| х | А| с элементами из N и {0}. Также, здесь и далее через 0(а) будем обозначать матрицу биграмм, построенную по конкретному слову а, а через О — просто некоторую матрицу из при этом будем считать, что на месте (г, j) матрицы О стоит значение

@ (цаз .

Введём понятие простейшего биграммного языка.

Определение 1.3. Назовём простейшим биграммным языком Ь(О), порождённым матрицей О е множество всех слов, имеющих одну и ту же матрицу кратностей биграмм О, т.е. Ь(О) = {/ е А* | О(/) = О}.

Лемма 1.1. Простейший биграммный язык Ь(в) состоит не более чем из конечного числа слов одинаковой длины I© = ^^ Оа.а. + 1.

Построим по матрице В(а) ориентированный граф С©(а) на плоскости (аналогично строится по произвольной матрице в € £ ориентированный граф С©). Вершины — буквы из алфавита А, ребра соответствуют биграммам с учётом их кратностей.

Пример. А = {0,1}, а = 01011100.

Чо(а) МаЛ А 2

в(а) =

#10(а) 0п(а)

2 2

в01 = 2

0ю - 2

Напомним важные известные определения [9], которые нам потребуются в дальнейшем.

Определение 1.6, 1.7. Простым циклом в ориентированном графе называется цикл, в котором, если два ориентированных ребра имеют одинаковое начало, то они имеют и одинаковый конец (и наоборот). Элементарным циклом в ориентированном графе называется простой цикл без повторяющихся рёбер.

Определение 1.10, 1.11. Полуэйлеров граф — граф, содержащий эйлеров путь, который не является эйлеровым циклом. Эйлеров граф — граф, содержащий эйлеров цикл.

Рассмотрим для начала условие непустоты Ь(О).

Лемма 1.5. Для того, чтобы существовало хотя бы одно слово а с данной матрицей кратностей биграмм О € достаточно, чтобы построенный по О ориентированный граф С© был либо эйлеровым, либо полуэйлеровым.

Следствие 1.5.1 (Алгоритмическая разрешимость). Задача определения того, существует ли хотя бы одно слово а с заданной матрицей кратностей биграмм О, алгоритмически разрешима.

пустой язык Ь(О), поскольку в любом его слове есть как буквы "0", так и "1", а при этом переходной биграммы ("01" или "10") — нет.

Рассмотрим язык, в котором отношения 9аь(а)/9са(а), где 0с<1(о1) > 0, зависят только от выбора букв а, Ь,с,(! € А, но не зависят от слова а из этого языка.

Определение 1.13. Назовём биграммным языком, заданным матрицей кратностей биграмм О € язык

т.е. язык, состоящий из всех таких слов @, что набор кратностей биграмм этих слов О(Р) кратен набору О, а именно, = € А* | Эк € N : О(Д) = кО}.

Получены условия непустоты, конечности или счетности языка Г© в зависимости от типа графа С©:

Теорема 1.8. 1) Если граф С© — эйлеров, то в биграммном языке Г© счётное множество слов;

2) Если граф С© — полуэйлеров, то биграммный язык Г© совпадает с Ь(О),

Пример. Пусть А = {0,1}. Тогда матрица биграмм О

задаёт

00

= и Ь(кО),

и в нём конечное ненулевое число слов; 3) Иначе биграммный язык Г© пуст.

Попробуем теперь выделить классы языков согласно иерархии Н. Хомского [8] среди счётных биграммных языков. Для этого нам потребуется следующее определение:

Определение 1.14. Назовем N ненулевых матриц О1,..., О^ из 2 линейно независимыми, если не существует ненулевых действительных коэффициентов С]^,..., с^ е К, (С]^,..., с^) = (0,..., 0), для которых ^^ 1 CiОi = О, где О — нулевая матрица из 2.

Критерий регулярности выглядит так:

Теорема 1.9. Пусть матрица биграмм О такова, что граф С© является эйлеровым. Тогда:

1) Если существует такое разложение О в сумму двух ненулевых линейно независимых матриц О = О1 + О2, что обе матрицы О1 и О2 задают эйлеровы графы С©1 и С©2, то язык Г© нерегулярен;

2) Иначе язык Г© регулярен.

Критерий контекстно-свободности:

Теорема 1.15. Пусть матрица кратностей биграмм О е 2, задающая эйлеров граф, разлагается в сумму не менее двух линейно независимых матриц, также задающих эйлеровы граф. Тогда:

1) Если О разлагается единственным образом в сумму двух линейно независимых матриц О = О1 + О2, соответствующих простым эйлеровым циклам, и не разлагается в сумму большего количества линейно независимых матриц, соответствующих эйлеровым циклам, то язык Г© — контекстно-свободный;

2) Иначе язык Г© — не контекстно-свободный.

Замечание. В п. 1) вышеприведённой Теоремы — детерминированный КС-язык (ЬЯ).

Выясняется, что все остальные счётные биграммные языки — контекстно-зависимые:

Теорема 1.17. Бесконечный язык , который при этом не является контекстно-свободным — контекстно-зависимый.

Замечание. В условиях вышеприведённой Теоремы — детерминированный КЗ-язык.

Пример. Пусть А = {0,1}. Тогда следующие матрицы кратностей биграмм

Л о\ /о о\ /о 1

задают регулярные языки : к I или

\о оу \0 1у ^10^

Пример. Пусть А = {0,1}. Тогда следующие матрицы кратностей биграмм

1 1 0 1

задают контекстно-свободные языки : или

V1 V V 1

Пример. Пусть А = {0,1}. Тогда следующая матрица кратностей биграмм

11

задаёт контекстно-зависимый язык :

11

Глава 2 посвящена мощностным формулам и оценкам для конечных биграммных языков. Также в Главе 2 рассматривается вопрос о том, какова доля (асимптотически) матриц, задающих тот или иной бигаммный язык из найденной классификации.

Для нахождения мощности языка Ь(О) нам потребуются следующие определения и лемма.

Определение 2.1. Матрицей Кирхгофа Н(О) [10], построенной по матрице биграмм О € 2, называется квадратная матрица размером |А| х |А|, т.ч. на

месте (г,]) стоит элемент =

=аг ^ага3 , ^ =

Замечание. det Н(в) = 0.

Лемма 2.2. Если С© — эйлеров, то все главные миноры Б(г >г )(в), полученные вычёркиванием из Н(в) 1-й строки и 1-го столбца, одинаковы (и равны

О(в)).

В итоге, мощность Ы© языка Ь(в) выражается следующими формулами:

Теорема 2.4. Пусть задана матрица биграмм в, которой соответствует эйлеров или полуэйлеров граф С©, причем для = г, т.ч. ва.а. > 0 или ва.а. > 0. Тогда:

1) Если 3, т.ч^а^А°ага, >Т,а^А°а-а, , то

ГЦеА ( ^а,еА 1 + Ь'г ) •

Ы© =-^-—->-' >(в);

11а»,а,-еА ^а%аз •

где Ь{ч — символ Кронекера, а знак "!" обозначает факториал; 2) Если У Л Т,агеА°аа =Т.а1еА°а3аг, то

Па»еА (^^/а,еА® агаз ^ •

Ы© = [ £ I-п 3 в • °т

Несмотря на то, что была получена точная аналитическая формула для мощности Ь(в), она слишком сложна для практических вычислений. Представляет интерес точная асимптотическая оценка для мощности Ь(кв) при достаточно большом к.

Определение 2.2. Матрица кратностей биграмм в называется положительной матрицей биграмм, если Уг,] : ва.а. е N.

Теорема 2.5. Пусть задана положительная матрица биграмм в с эйлеровым графом С©. Тогда при к ^ то для числа слов ^, т.ч. в(Д^) = кв,

выполняется

с\

Nke ~ C2 *

^п(п-1)/2'

где с1 = с1(О) > 1,с2 = с2(О), п = |Л|.

Пример. Пустц Л = {0,1}. Тогда для положительной матрицы кратностей

I Л

биграмм О = ( верна следующая точная асимптотическая оценка:

II

NkQ ~ 1Цт.

Рассмотрим теперь вопрос о том, каких же матриц "больше" (в асимптотическом смысле): задающих пустые, конечные, счётные биграммные языки, а также соотношение между регулярными, контекстно-свободными и контекстно-зависимыми языками.

Пусть Е — множество матриц размера |А| х |А|, каждый элемент которых % е N и{0},% < к, к е N.

EMPTY (к) — количество матриц кратностей биграмм в е Е, задающих пустые языки F©.

NONEMPTY (к) — количество матриц кратностей биграмм в е Е, задающих непустые языки F©.

FINITE (к) — количество матриц кратностей биграмм в е Е, задающих конечные (непустые) языки F©.

INFINITE (к) — количество матриц кратностей биграмм в е Е, задающих счётные языки F©.

REG(k) — количество матриц кратностей биграмм в е Е, задающих счётные регулярные языки F©.

NONREG(k) — количество матриц кратностей биграмм в е Е, задающих счётные нерегулярные языки F©.

CFL(k) — количество матриц кратностей биграмм в е Е, задающих счётные КС-языки F©, не являющиеся регулярными.

CSL(k) — количество матриц кратностей биграмм В £ Sk, задающих счётные КЗ-языки F©, не являющиеся контекстно-свободными. ALL(k) — общее количество матриц В £ S.

Замечание. ALL(k) = (к + 1)п .

Замечание. ALL(k) = EMPTY (к) + NONEMPTY (к), NONEMPTY (к) = FINITE (к) + INFINITE (к), INFINITE (к) = REG(k) + NONREG(k), NONREG(k) = CFL(&) +

Тогда взаимные асимптотические соотношения выглядят следующим образом:

Теорема 2.6. 1) ^ля любого к £ N п(п1_1) < < 1;

2)lim, INFINITE(k) =0.

2) limk^TO ALL(k) = 0;

о) l- REG(k) =0.

3) limk^TO NONREG(k) = 0;

4) lim^ = 0-

Следствие 2.6.1. lirn^^ N°NALUk)^= 0-

Глава 3 посвящена расширению понятия "биграммный язык". Сначала достаточно подробно рассматриваются так называемые "биграммные языки с закольцовыванием" (добавляется биграмма, состоящая из последней и первой буквы), а затем показано, как для m-граммных языков свести рассмотренные задачи к таковым для биграммных языков.

Перейдём теперь к рассмотрению языков, которые заданы не на прямой, как выше, а на окружности (будем называть их "с закольцовыванием"). В этом случае для подсчёта биграмм неважно, какая первая буква в слове, а какая — последняя. Определим такие языки.

Определение 3.3. Пусть а = а^а',а,а' £ А*,а,ь £ А. Назовём Q(a) матрицей кратностей биграмм с закольцовыванием для непустого слова а £ А* следующую матрицу: Q(a) =

Таким образом, биграммы подсчитываются не на "линейном" слове, а на слове, начало и конец которого объединены в кольцо. При этом на месте (г, j) матрицы О стоит значение

Пример. Пусть А = {0,1}, а = 0101110.

що(а) ^01 (а) \ /12

Тогда матрица биграмм О(а) = = в(01011100) =

\^1о(а) шц(а)1 у2 2^

Определение 3.4. Назовём простейшим биграммным языком с закольцо-выванием К (О) множество всех слов, имеющих одну и ту же матрицу О кратностей биграмм с закольцовыванием, т.е. К (О) = {/3 е А* | О(/) = О}.

Лемма 3.1. Простейший биграммный язык с закольцовыванием К (О) состоит не более чем из конечного числа слов одинаковой длины 1а = ^^ ^аа •

еА

Аналогично в построим по матрице О е 2 ориентированный граф Са. Условие непустоты К (О) несколько отличается от такового для простейших биграммных языков:

Лемма 3.3. Для того, чтобы существовало хотя бы одно слово а с данной матрицей кратностей биграмм О е 2 с закольцовыванием, достаточно, чтобы построенный по О ориентированный граф Са был эйлеровым.

Следствие 3.3.1 (Алгоритмическая разрешимость). Задача определения по матрице О е 2, существует ли хотя бы одно слово а, имеющее эту матрицу биграмм с закольцовыванием, алгоритмически разрешима.

Получено важное свойство о связи К (О) с Ь(в):

Теорема 3.5. Пусть матрица О е 2 такова, что соответствующий ориентированный граф Са — эйлеров. Тогда существует взаимно-однозначное соответствие между словами языков К (О) и Ь(в), где О = в.

Следствие 3.5.1. Пусть матрица О е 2 такова, что соответствующий ориентированный граф Са — эйлеров. Тогда количество слов в языках К (О) и Ь(в), где О = в, одинаково: |К(О)| = |£(в)|.

Таким образом, доказанные выше теоремы о мощности Ь(в) и его асимптотике без ограничений переносятся и на К (О), где О = в.

Аналогично Е©, попробуем расширить определение простейших биграмм-ных языков с закольцовыванием для задания счётных языков:

Определение 3.5. Назовём биграммным языком с закольцовыванием, заданным матрицей биграмм О е 2 с закольцовыванием, язык

то

Еа = У К(Ш), к=1

т.е. язык, состоящий из всех таких слов /, что набор кратностей биграмм с закольцовыванием этих слов О(/) кратен набору О, а именно, Еа = {3 е А* | Эк е N : О(/) = Ш}.

Получены условия непустоты, конечности или счётности в зависимости от типа графа Са:

Теорема 3.9. 1) Если ориентированный граф Са — эйлеров, то в биграмм-ном языке Е© с закольцовыванием счётное множество слов; 2) Если ориентированный граф Са — не эйлеров, то биграммный язык Е© с закольцовыванием пуст.

Замечание. В отличие от биграммных языков Е©, биграммный язык с за-кольцовыванием Еа не может быть конечным и непустым одновременно.

Попробуем теперь выделить классы языков согласно иерархии Н. Хомского среди счётных биграммных языков с закольцовыванием, подобно тому как это было сделано для биграммных языков. Выясняется, что, несмотря на

некоторые различия в доказательствах, основные результаты формулируются подобным образом.

Критерий регулярности:

Теорема 3.10. Пусть матрица биграмм О с закольцовыванием такова, что граф Са является эйлеровым. Тогда:

1) Если существует такое разложение О в сумму двух ненулевых линейно независимых матриц О = О1 + О2, что обе матрицы О1 и О2 задают эйлеровы графы Са1 и Са2, то язык Еа нерегулярен;

2) Иначе язык Еа регулярен.

Критерий контекстно-свободности:

Теорема 3.11. Пусть матрица кратностей биграмм О е 2 с закольцовыванием, задающая эйлеров граф, разлагается в сумму не менее двух линейно независимых матриц, также задающих эйлеровы граф. Тогда:

1) Если О разлагается единственным образом в сумму двух линейно независимых матриц О = О1 + О2, соответствующих простым эйлеровым циклам, и не разлагается в сумму большего количества линейно независимых матриц, соответствующих эйлеровым циклам, то язык Еа — контекстно-свободный;

2) Иначе язык Еа — не контекстно-свободный.

Замечание. В п. 1) вышеприведённой Теоремы Еа — детерминированный КС-язык (ЬЯ).

Выясняется, что все остальные счётные биграммные языки с закольцовыванием — контекстно-зависимые:

Теорема 3.12. Бесконечный язык Еа, который при этом не является контекстно-свободным — контекстно-зависимый.

Замечание. В условиях вышеприведённой Теоремы Еа — детерминированный КЗ-язык.

Рассмотрим, наконец, языки, заданные не матрицей кратностей биграмм, а набором кратностей т-грамм, где т > 2. В общем случае это т-мерная матрица в с пт неотрицательными элементами.

Построим по этому набору граф на плоскости. Для этого воспользуемся конструкциями для т. н. графов де Брёйна [11]. Для этого из любой т-граммы а1а2 ... ат-1ат составим две (т — 1)-граммы: "левую" а1а2 ... ат-1 и "правую" а2 ...ат—1ат. Теперь нанесём на плоскость в качестве вершин ориентированного графа С© все получившиеся таким образом (т — 1)-граммы, а количество ориентированных рёбер между а1а2 ... ат—1 иа2 ... ат—1 ат будет равно кратности т-граммы а1а2 ... ат—1ат. Заметим, что в случае т = 2 вышеописанная процедура приводит к построению ориентированного графа С©, соответствующего матрице биграмм в, который был описан в начале данной работы.

Таким образом, мы получаем ориентированный граф С©, для которого точно также могут ставиться и решаться те же вопросы, что и для биграммных языков, поскольку графовые критерии останутся точно такими же, также как и определение линейной независимости матриц (только теперь матрицы будут т-мерными). В качестве кратностей биграмм в формулах для мощностей нужно подставлять кратность т-грамм. Аналогично, можно рассматривать понятие т-граммного языка с закольцовыванием.

Единственное отличие — теперь вместо п вершин у графа С©, где п — мощность алфавита А, будет пт—1 вершин, соответствующих "левым" и "правым" (т — 1)-граммам.

В Заключении представлены основные результаты диссертации.

Благодарности

Автор выражает глубокую благодарность своему научному руководителю — доктору физико-математических наук, профессору Дмитрию Николаевичу Бабину за постановку задачи, постоянное внимание к работе и всестороннюю поддержку, а также заведующему кафедрой академику Валерию Борисовичу Кудрявцеву и всему коллективу кафедры Математической теории интеллектуальных систем за доброжелательную и творческую атмосферу.

1 Биграммные языки

1.1 Начальные определения

Напомним основные понятия, касающиеся формальных языков [12].

Алфавитом называется конечное непустое множество символов. Слово (или строка) над алфавитом А — конечная последовательность символов из А. Пустое слово, то есть слово, не содержащее символов вовсе, будем обозначать через Л. Обычно символы алфавита обозначаются латинскими буквами а, Ь, с или цифрами 0, 1, в то время как греческие буквы a, будут использоваться для обозначения слов.

Конкатенация двух слов — это слово, образованное сочленением этих слов, то есть второе слово приписано сразу за первым без никаких символов между ними (например, пробелов). Например, если задан алфавит А = {а,Ь} и два слова над ним а = aab, fí = baba, то конкатенацией слов а и fí будет слово 7 = = aabbaba.

Обозначим через А* множество всех конечных слов (включая пустое) над алфавитом А. Тогда для любого слова а £ А* и пустого Л будем иметь

Ла = аЛ = а.

Длина слова а, обозначаемая как |а| (или 1еп(а), чтобы не путать с мощностью множества), — это количество букв в этом слове. Очевидно, что len(a) ^ 0 для любого слова а £ А*.

Пусть к — неотрицательное целое число, а а — некоторое слово над алфавитом А. Тогда ак — тоже слово над А, которое строится по следующему рекурсивному правилу:

1) а0 = Л,

2) ак = аак-1 для к > 0.

Будем называть а подсловом 3, если существуют такие слова 7 е А*, 5 е А*, что 3 = 7а$.

Формальным языком (или просто языком) Ь над алфавитом А называется любое множество слов над А, то есть Ь — это любое подмножество А*. Пустой язык обозначается через 0. Если Ь — язык, то через |Ь| будем обозначать мощность множества Ь.

Конкатенацией Ь1Ь2 двух языков Ь1,Ь2 С А* называется множество

Ь1Ь'2 = {а1а2| а1 еЬьа2 е Ь2}.

При этом по определению полагается, что для любого языка Ь над алфавитом А верно

Ь0 = 0 Ь = 0.

Подобно тому, как было построено слово ак для неотрицательного целого числа к, определим к-ую степень языка Ь в следующей рекурсивной манере:

1) Ь0 = {Л},

2) Ьк = Ьк—1Ь для к> 0.

Звездой (или замыканием) Клини Ь* языка Ь называется следующее множество:

то

ь* = уь\

%=0

Таким образом, введенное вначале понятие А* полностью согласуется с определением замыкания Клини.

Пусть А (|А| < то) — конечный алфавит.

Определение 1.1. Биграммой в алфавите А называется двухбуквенное слово аЬ е А*, а, Ь е А (порядок вхождения букв в биграмму имеет значение, т.е. биграмма аЬ не равна биграмме Ьа при а = Ь).

Определение 1.2. Обозначим через 0р(а), где 3 е А*, а е А*, причем 3 —

23

непустое слово, отображение А* ^ N и {0}, сопоставляющее слову а число подслов 3 в слове а, т.е. количество различных разложений слова а в виде а = а'¡а'' (а' и а'' могут быть пустыми). При длине слова а, меньшей длины слова 3, значение 0/(а) положим равным 0. Само же значение 0/(а) при данных 3 и а назовем кратностью 3 в слове а.

С учетом введенных определений, по каждому слову а £ А* можно по-

строить квадратную матрицу биграмм О(а) = (0(а))^=1 размера |А| х |А|, которой на месте (г, j) будет стоять значение ва.а.(а) (при условии, что все буквы алфавита А = {а\,а2,..., Ща\} пронумерованы и нумерация зафиксирована).

Обозначим через £ множество квадратных матриц размера |А| х |А|, каждый элемент которых является целым неотрицательным числом. Т.о., Уа £ А* имеем ©(а) £ £. Также, здесь и далее через ©(а) будем обозначать матрицу биграмм, построенную по конкретному слову а, а через © — просто некоторую матрицу из £, при этом будем считать, что на месте (г, j) матрицы © стоит значение ва.а. (т.е. для произвольной матрицы из £ мы опустили зависимость от а как для самой матрицы биграмм, так и для отдельных ее элементов).

Определение 1.3. Назовем простейшим биграммным языком Ь(©), порожденным матрицей © £ £, множество всех слов, имеющих одну и ту же матрицу кратностей биграмм ©, т.е. Ь(©) = {3 £ А* | ©(3) = ©}.

Пример. Пусть А = {0,1}, а = 01011100.

Т б ©( ) (000(а) МаД I1 2

Тогда матрица биграмм ©(а) = =

\0ю(а) Ма)/ \2 2

1.2 Свойства матрицы биграмм

Лемма 1.1. Простейший биграммный язык Ь(©) состоит не более чем из конечного числа слов одинаковой длины

в

I© = о а.а. +1.

ел

Доказательство. Возьмем произвольное а е Ь(в), если таковое имеется (в противном случае язык Ь(0) пуст и доказывать нечего). Очевидно, что длина слова а будет не меньше 2, иначе в этом слове нельзя было бы выделить ни одной биграммы.

Пусть а = а11а12...а>Н(Э, где е А, 1 ^ ] ^ /©, а I© (I© ^ 2) — это длина слова а. Тогда в слове а можно выделить (I©---1) биграмму: а11щ2, а12а1з, ...,

I 1 1

. Каждая такая биграмма будет добавлять единицу в соответствующей ячейке матрицы биграмм 0(а) = 0. Значит, сумма всех элементов матрицы 0 есть ни что иное как

У^ в а^з = I© - 1,

а^ап еЛ

откуда и следует указанная в условии данной леммы формула. Т.о., Ь(0) в случае непустоты состоит из слов одинаковой длины I©, что для конечного алфавита означает конечность языка Ь(0).

Пусть а е А. Обозначим через п0п(а),а е А* количество всех двухбуквен-

ных подслов в а, заканчивающихся на а, т.е. пго0г(а) = ^ 9ъа(а), что будет

а е Л

равно сумме значений матрицы 0(а) в столбце, соответствующем символу а. Аналогичным образом определим и п0^1 (а),а е А*, как количество двухбук-

венных подслов в а, начинающихся на а, т.е. пОО^(а) = ^ 9аъ(а), что будет

а е Л

равно сумме значений матрицы 0(а) в строке, соответствующей символу а.

Пример. Рассмотрим то же слово, что и в предыдущем примере, а именно А = {0,1}, а = 01011100.

Тогда соответствующие значения будут вычисляться как

п11п (а) = 001 (а) + 0п(а) = 2 + 2 = 4;

(а) = 0ю(а) + 0П (а) = 2 + 2 = 4; п0п (а) = 0оо (а) + 0ю(а) = 1 + 2 = 3; п^ (а) = 0оо (а) + 001 (а) = 1 + 2 = 3.

Рассмотрим некоторые свойства матрицы ©(а).

Похожие диссертационные работы по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат наук Петюшко Александр Александрович, 2016 год

Список литературы

[1] А. А. Марков. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь. // Известия Императорской Академии наук, серия VI. - 1913. - Т. 10. - № 3. - C. 153-162.

[2] E. P. Giachin. Phrase bigrams for continuous speech recognition. // Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference on. - IEEE, 1995. - Vol. 1. - P. 225-228.

[3] U. Essen and V. Steinbiss. Cooccurrence smoothing for stochastic language modeling. // Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 International Conference on. - IEEE, 1992. - Vol. 1. - P. 161-164.

[4] J. P. Hutchinson and H. S. Wilf. On Eulerian Circuits and Words with Prescribed Adjacency Patterns. // Journal of Combinatorial Theory, Series A. - 1975. - Vol. 18. - № 1. - P. 80-87.

[5] K. H. Kim and F. Roush. Words with prescribed adjacencies. // Journal of Combinatorial Theory, Series B. - 1979. - Vol. 26. - № 1. - P. 85-97.

[6] Д. Н. Бабин. Частотные регулярные языки. // Интеллектуальные системы. - 2014. - Т. 18. - № 1. - С. 205-211.

[7] Д. Н. Бабин и А. Б. Холоденко. Об автоматной аппроксимации естественных языков. // Интеллектуальные системы. - 2008. - Т. 12. - № 1-4. - С. 125-136.

[8] N. Chomsky. Three models for the description of language. // Information Theory, IRE Transactions on. - 1956. - Vol. 2. - № 3. - P. 113-124.

[9] О. Оре. Теория графов. - М.: Наука, 1980.

[10] F. R. K. Chung. Spectral Graph Theory. - American Mathematical Soc., 1997.

[11] N. G. de Bruijn. A Combinatorial Problem. // Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen. Series A. - 1946. - Vol. 49. - № 7. - P. 758-764.

[12] G. Rozenberg and A. Salomaa. Handbook of formal languages, vol. 1: word, language, grammar. - Springer-Verlag, 1997

[13] S. C. Kleene. Representation of events in nerve nets and finite automata. //In Shannon, Claude E.; McCarthy, John. Automata Studies, Princeton University Press. - 1956. - P. 3-41.

[14] В. Б. Кудрявцев, С. В. Алешин и А. С. Подколзин. Введение в теорию автоматов. - M.: Наука, 1985.

[15] G. Kirchhoff. Über die Auflösung der Gleichungen, auf welche man bei der Untersuchung der linearen Verteilung galvanischer Strome geführt wird. // Annalen der Physik. - 1847. - Vol. 72. - P. 497-508.

[16] T. van Aardenne-Ehrenfest and N. G. de Bruijn. Circuits and trees in oriented linear graphs. // Simon Stevin: Wis-en Natuurkundig Tijdschrift. - 1951. -Vol. 28. - P. 203-217.

[17] C. A. B. Smith and W. T. Tutte. On unicursal paths in a network of degree 4. // American Mathematical Monthly. - 1941. - Vol. 48. - P. 233-237.

[18] Y. Bar-Hillel, M. Micha Perles and Eli Shamir. On formal properties of simple phrase-structure grammars. // Zeitschrift fur Phonetik, Sprachwissenschaft, und Kommunikationsforschung. - 1961. - Vol. 14. - № 2. - P. 143-172.

[19] Y. Bar-Hillel. Language and Information: Selected Essays on their Theory and Application. - Addison-Wesley, 1964.

[20] John E. Hopcroft and Jeffrey D. Ullman. Introduction to Automata Theory, Languages, and Computation. - Addison-Wesley, 1979.

[21] Sige-Yuki Kuroda. Classes of languages and linear-bounded automata. // Information and Control. - 1964. - Vol. 7. - № 2. - P. 207-223.

[22] Н. В. Смирнов, О. В. Сарманов и В. К. Захаров. Локальная предельная теорема для чисел переходов в цепи Маркова и ее применения. // Докл. АН СССР. - 1966. - Т. 167. - № 6. - С. 1238-1241.

[23] Н. В. Смирнов. Теория вероятностей и математическая статистика. Избранные труды. - М.: Наука, 1970.

[24] N. Chomsky. Context-free Grammars and Pushdown Storage. // MIT Res. Lab. Electron. Quart. Prog. Report. - 1962. - Vol. 65. - P. 187-194.

[25] R. J. Evey. Application of Pushdown-Store Machines. // Proceedings of the November 12-14, 1963, Fall Joint Computer Conference. - ACM, 1963. - P. 215-227.

[26] M. P. Schutzenberger. On Context-Free Languages and Push-Down Automata. // Information and Control. - 1963. - Vol. 6. - № 3. - P. 246-264.

Публикации автора по теме диссертации

[27] А. А. Петюшко. Частотные языки. // Интеллектуальные системы в производстве. - 2012. - Т. 19. - № 1. - С. 192-201.

[28] А. А. Петюшко. О частотных языках на биграммах. // Интеллектуальные системы. - 2013. - Т. 17. - № 1-4. - С. 363-365.

[29] А. А. Петюшко. О биграммных языках. // Дискретная математика. -2013. - Т. 25. - № 3. - С. 64-77.

[30] А. А. Петюшко. О мощности биграммных языков. // Дискретная математика. - 2014. - Т. 26. - № 2. - С. 71-82.

[31] А. А. Петюшко. О контекстно-свободных биграммных языках. // Интеллектуальные системы. Теория и приложения. - 2015. - Т. 19. - № 2. - С. 187-208.

[32] A. A. Petushko. On bigram languages. // Discrete Mathematics and Applications. - 2014. - Vol. 23. - № 5-6. - P. 463-477.

[33] A. A. Petushko. On cardinality of bigram languages. // Discrete Mathematics and Applications. - 2014. - Vol. 24. - № 3. - P. 153-162.

[34] А. А. Петюшко. О частотных языках на биграммах. // Материалы X Международной конференции "Интеллектуальные системы и компьютерные науки". - М.: Изд-во мех.-мат. фак-та МГУ, 2011. - С. 287-289.

[35] А. А. Петюшко. О мощности языка, заданного матрицей кратностей биграмм. // Материалы Международной конференции студентов, аспирантов и молодых учёных "Ломоносов-2012". - URL: http://lomonosov-msu. ru/archive/Lomonosov_2012/1793/32063_f0f1.pdf.

[36] А. А. Петюшко. Об асимптотических оценках для биграммных языков. // Материалы XI Международного семинара, посвящённого 80-летию со дня рождения академика О.Б.Лупанова "Дискретная математика и ее приложения". - М.: Изд-во мех.-мат. фак-та МГУ, 2012. - С. 363-365.

[37] А. А. Петюшко. О биграммных языках с закольцовыванием. // Материалы XVII Международной конференции "Проблемы теоретической кибернетики". - Казань: Отечество, 2014. - С. 226-229.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.