Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде тема диссертации и автореферата по ВАК РФ 05.13.05, кандидат наук Парамонов Павел Александрович
- Специальность ВАК РФ05.13.05
- Количество страниц 147
Оглавление диссертации кандидат наук Парамонов Павел Александрович
Введение
Глава 1 . Обзор методов распознавания речи и ассоциативных сред
1.1. Речевой сигнал и его описание
1.2. Общая структура системы автоматического распознавания речи
1.2.1. Построение блока выделения признаков. Выбор метода выделения признаков
1.2.2. Способы построения блока распознавания. Выбор метода распознавания
1.3. Выбор типа ассоциативной среды для реализации блока распознавания речи
Выводы
Глава 2 . Предварительная обработка речевого сигнала
2.1. Нормализация входного сигнала
2.2. Выделение участков с речью
2.2.1. Нахождение значений кратковременной энергии и частоты проходов через ноль
2.2.2. Метод выделения участков с речью на основе распределения локальных экстремумов
2.3. Выделение признаков речевого сигнала
2.3.1. Акустическая модель образования речи
2.3.2. Мел-кепстральные коэффициенты
2.4. Векторное квантование
Выводы
Глава 3 . Методы и алгоритмы распознавания речи в ассоциативной осцилляторной среде
3.1. Метод скрытых Марковских моделей в распознавании речи
3.2. Разработка блока распознавания на элементах ассоциативной осцилляторной среды
3.3. Модификация алгоритма распознавания и разработка реализации на элементах ассоциативной осцилляторной среды
3.4. Метод и алгоритм распознавания без учета порядка следования звуков в речи
Выводы
Глава 4 . Моделирование распознавания речи в ассоциативной осцилляторной среде. Оценка результатов
4.1. Описание программного комплекса
4.2. Формирование экспериментальной речевой базы
4.3. Распознавание русских слов и оценка результатов
Выводы
Глава 5 . Аппаратная реализация блока распознавания речи на ПЛИС
5.1. Аппаратная реализация метода распознавания без учета порядка звуков
5.2. Обзор типов программируемых пользователем микросхем
5.3. Упаковка разработанной аппаратной реализации в ПЛИС. Анализ аппаратных затрат и выбор ПЛИС для аппаратной реализации блока распознавания
Выводы
Заключение
Список литературы
Приложение 1. Словарь разработанной системы распознавания речи
Приложение 2. Исходный код разработанного программного комплекса
Приложение 3. УНОЬ-описания компонентов разработанной аппаратной реализации блока распознавания
Приложение 4. Акты об использовании результатов диссертационной работы
Рекомендованный список диссертаций по специальности «Элементы и устройства вычислительной техники и систем управления», 05.13.05 шифр ВАК
Распознавание изображений в ассоциативной осцилляторной среде2010 год, кандидат технических наук Сидорова, Надежда Андреевна
Методы, алгоритмы и программы решения задач идентификации языка и диктора2014 год, кандидат наук Ермилов, Алексей Валерьевич
Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации2017 год, кандидат наук Ниценко, Артём Владимирович
Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа2015 год, кандидат наук Вольф Данияр Александрович
Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи2016 год, кандидат наук Меденников Иван Павлович
Введение диссертации (часть автореферата) на тему «Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде»
Введение
Актуальность темы. Вопросы человеко-машинного взаимодействия являются одними из важнейших при создании новых компьютеров. Наиболее эффективными средствами взаимодействия человека с машиной были бы те, которые являются естественными для него: через визуальные образы и речь. Создание речевых интерфейсов могло бы найти применение в системах самого различного назначения [1]: голосовое управление для людей с ограниченными возможностями, надежное управление боевыми машинами, «понимающими» только голос командира, автоответчики, обрабатывающие в автоматическом режиме сотни тысяч звонков в сутки (например, в системе продажи авиабилетов) и т.д. При этом, речевой интерфейс должен включать в себя два компонента: систему автоматического распознавания речи для приема речевого сигнала и преобразования его в текст или команду, и систему синтеза речи, выполняющего противоположную функцию -конвертацию сообщения от машины в речь.
Однако, не смотря на стремительно возрастающие вычислительные мощности, создание систем распознавания речи остается чрезвычайно сложной проблемой. Это обуславливается как ее междисциплинарным характером (необходимо обладать знаниями в филологии, лингвистике, цифровой обработке сигналов, акустике, статистике, распознавании образов и т.д.), так и высокой вычислительной сложностью разработанных алгоритмов. Последнее накладывает существенные ограничения на системы автоматического распознавания речи - на объем обрабатываемого словаря, скорость получения ответа и его точность. Нельзя также не упомянуть о том, что возможности дальнейшего увеличения быстродействия ЭВМ за счет совершенствования интегральной технологии рано или поздно будут исчерпаны, а все возрастающая разница между быстродействиями памяти и процессора только усугубляет проблему.
Существуют области применения систем автоматического распознавания речи, где описанные проблемы проявляются особенно остро из-за жестко ограниченных вычислительных ресурсов, например, на мобильных устройствах [2]. Производители мобильных телефонов и планшетов нашли выход в переносе ресурсоемких вычислений с устройств пользователей на серверы в облаке, где, фактически, и производится распознавание. Пользовательское приложение только отправляет туда речевые запросы и принимает ответы, используя подключение к интернету. По этой схеме успешно работают системы Siri от Apple и Google Voice Search от Google [3, 4]. Однако, для такой реализация необходимы определенные условия, например, непрерывный доступ к интернету, которые в ряде случаев недостижимы, и требуется создать компактное и надежное самостоятельное устройство, эксплуатирующее только доступные «на месте» вычислительные мощности. Описанные трудности возникают при создании интеллектуальных устройств как в военной сфере, так и в гражданской. Примером таких устройств может служить робот REX, разработанный израильским концерном Israel Aerospace Industries [5]. REX предназначен для транспортировки боеприпасов, продуктов питания и другой амуниции, что позволяет разгрузить солдата. При этом робот способен следовать за ведущим его человеком, а управляется он полностью голосовыми командами. Другим примером активного использования технологий распознавания речи в боевых комплексах является внедрение модулей голосового управления (или прямого голосового ввода - Direct Voice Control) в кокпиты современных истребителей, таких, как Eurofighter Typhoon1, Dassault Rafale2, JAS 39 Gripen [6]. Это позволило значительно разгрузить пилота для того, чтобы он мог сосредоточиться только на выполнении задания. В невоенной сфере распознавание речи широко внедряется в автомобилестроении (например, BMW, Ford), когда часть функционала машины, для которого
1 URL: http://www.eurofighter.com/the-aircraft
2 URL: http://www.dassault-aviation.com/wp-content/blogs.dir/1/files/2012/08/Fox_Three_nr_1.pdf
6
ошибка распознавания не приведет к аварийным ситуациям (климат-контроль, навигация, мультимедиа и проч.), контролируется с помощью голоса3. Как и в случае применения голосового управления в военных самолетах, эта технология дала возможность снять часть нагрузки с водителя, чтобы он мог сосредоточить внимание только на дороге. Наконец, необходимо отметить актуальность реализации речевого интерфейса для людей с ограниченными физическими возможностями, например, в инвалидных креслах [7].
Все описанные выше примеры объединяет необходимость создания компактного, надежного, самостоятельного и максимально быстродействующего устройства. Над решением обозначенной задачи работает множество специалистов. Можно выделить следующие направления исследований и разработок в области повышения быстродействия и реализации самостоятельных модулей распознавания речи:
1. Внедрение аппаратной поддержки алгоритмов предварительной обработки и выделения признаков (например, реализация в программируемых логических микросхемах (ПЛИС) блока нахождения мел-кепстральных коэффициентов) [8, 9];
2. Аппаратная реализация алгоритмов распознавания.
Последнее направление представлено множеством работ. При этом заметна общая тенденция в разработках аппаратных реализаций блока распознавания: во-первых, в качестве микросхем используются программируемая пользователем логика из-за их доступности и универсальности, во-вторых, все они сфокусированы на введении аппаратной поддержки алгоритмов скрытых Марковских моделей - алгоритма прямого хода и алгоритма Витерби. В качестве предпосылки для этого указывается высокая вычислительная сложность обозначенных алгоритмов. Для решения этой проблемы в [10] предлагается построение систолической матрицы для выполнения вычислений по алгоритмам прямого хода и Витерби;
3 URL: http://www.bmw.com/com/en/insights/technology/technology_guide/articles/voice_control_system.html
7
разработанная структура описана на языке УИОЬ и размещена в ПЛИС фирмы Xilinx. В [11] рассмотрена аппаратная поддержка алгоритма Витерби для решения задачи обнаружения и сопровождения движущихся объектов. Предложен вычислительный элемент (в терминологии авторов - «узел СММ») для нахождения значения частичной вероятности по Витерби для каждого состояния на каждом временном шаге. В [12] предложено введение аппаратной поддержки для вычисления гауссиана в непрерывной СММ, входящей в комплекс распознавания слитной речи. Реализация в ПЛИС фирмы Xilinx позволила выполнять распознавания в режиме реального времени. Другие варианты добавления аппаратной поддержки и применения для этого ПЛИС можно найти в [13, 14, 15, 16, 17]. Однако во всех разработанных на сегодняшний день решениях используются традиционные способы реализации арифметики с плавающей точкой, что влечет существенные аппаратные затраты и накладывает ограничения на быстродействие
Таким образом, поиск новых архитектурных решений, не базирующихся на архитектуре фон Неймана, является актуальной темой, особенно в ее приложении к решению задач искусственного интеллекта, к которым относится и распознавание речи. Одним из перспективных направлений является разработка и исследование ассоциативных сред и построению с помощью них неоднородных клеточных автоматов.
Ассоциативный доступ осуществляется, в противовес адресному, по содержимому информации, а не по ее адресу в запоминающей среде. Это позволяет выполнять обработку информации непосредственно в логико-запоминающей среде, а время ассоциативного поиска практически не зависит от емкости накопителя. При этом, ассоциативная осцилляторная среда состоит из простых ячеек, каждая из которых имеет свой закон функционирования, а вместе эти ячейки производят потоковую обработку информации.
Исследования и разработка ассоциативных сред ведутся на кафедре Вычислительной Техники ФГБОУ ВО НИУ «МЭИ» под руководством профессора Огнева И. В., среди решенных задач стоит отметить следующие:
• распознавание символов (букв русского алфавита) на основе метода сравнения с прототипом в ассоциативной осцилляторной среде [18];
• реализация генетического алгоритма для формирования базы нечетких правил в ассоциативной осцилляторной среде [19];
• предварительная обработка методами математической морфологии и распознавание изображений в ассоциативной осцилляторной среде [20, 21].
Успешное решение вышеупомянутых задач, а также прогресс вычислительной техники в целом, позволили обратиться к решению одной из задач искусственного интеллекта - автоматическому распознаванию речи.
Цель работы состоит в разработке методов распознавания речи в ассоциативных средах и построении системы распознавания в этих средах. Для достижения этой цели решаются следующие задачи:
• выбор метода выделения и предварительной обработки речи, извлечения признаков;
• программная реализация выделения речи и ее предварительной обработки;
• выбор метода распознавания речи;
• выбор ассоциативной среды для реализации в ней распознавания;
• разработка блока распознавания на элементах ассоциативной среды;
• создание речевой базы для обучения и тестирования системы;
• создание программной модели разработанных методов распознавания речи в среде;
• моделирование и оценка аппаратных затрат предложенной реализации.
• выбор типа и модели ПЛИС;
• аппаратная реализация на ПЛИС блока распознавания. Имитационное моделирование составленной аппаратной реализации.
Объектом исследования являются методы распознавания речи и способы их аппаратной поддержки. Предметом исследования являются методы и алгоритмы распознавания речи и пути их реализации в ассоциативных средах.
Научная новизна работы состоит в следующем:
• разработан метод выделения участков с речью на основе анализа распределения локальных экстремумов;
• впервые аппарат скрытых Марковских моделей для распознавания речи реализован в ассоциативной осцилляторной среде. Для этого был разработан метод проведения вычислений по алгоритму прямого хода в среде, основанный на представлении вероятности с помощью интенсивности потока спайков;
• модифицирован алгоритм распознавания путем перехода к упрощенному вычислению логарифма значения вероятности, что позволило заменить операции перемножения на сложение. На основе клеточного ансамбля «Дифференциал» построен новый клеточный ансамбль «Компаратор», выбирающий поток спайков с максимальной интенсивностью. Благодаря этому удалось полностью реализовать его на элементах ассоциативной осцилляторной среды и успешно применить для распознавания русских слов;
• разработан новый метод распознавания, основанный на подборе наиболее подходящей скрытой Марковской модели без учета порядка следования звуков в произнесении слова. Это позволило упростить аппаратную реализацию, выполненную на элементах ассоциативной осцилляторной среды, и повысить скорость распознавания. Метод был успешно применен для распознавания русских слов;
Практическая ценность работы состоит в следующем:
• разработан метод выделения участков с речью в исходном сигнале;
• разработаны методы распознавания речи в ассоциативной среде;
• сформирована экспериментальная речевая база русских слов, которую можно использовать как для обучения систем распознавания, так и для их тестирования;
• разработан программный комплекс, включающий средства для составления речевой базы и программные модели предложенных методов распознавания речи в среде.
• исследовано практическое применение предложенной реализации распознавания речи в ассоциативной осцилляторной среде на примере распознавания русских слов;
• разработана аппаратная реализация на языке VHDL клеточных ансамблей ассоциативной осцилляторной среды и всего блока распознавания.
В ходе работы над диссертацией были использованы следующие методы исследований: методы проектирования и анализа программных средств, имитационного моделирования, теории вероятностей и математический статистики.
Обоснованность научных результатов и выводов, представленных в работе, определяется корректным применением использованных методов исследования. Достоверность научных положений, выводов и практических рекомендаций, сформулированных в диссертации, подтверждается вычислительными экспериментами и данными, полученными при имитационном моделировании.
Реализация результатов работы. Результаты исследований были использованы в учебном процессе ФГБОУ ВО НИУ «МЭИ», а именно:
- в лекционном курсе «Организация ЭВМ и периферийных устройств» программы подготовки бакалавров 09.03.01 - «Информатика и вычислительная техника.
- в лекционном курсе «Функциональные узлы и процессоры» программы подготовки бакалавров 09.03.01 - «Информатика и вычислительная техника.
Апробация работы. Основные результаты работы докладывались на
международных научно-технических конференциях «Информационные
11
средства и технологии» 2011, 2013 гг., на 11-ой международной конференции «Распознавание образов и анализ изображений» 2013 г., на 11-ой международной конференции «Students' Science Conference» 2013 г., на международной конференции «2014 Intl. Conference on Soft Computing & Machine Intelligence» в 2014 г.
Публикации. Основные результаты диссертации опубликованы в 8 печатных работах, 2 из которых опубликованы в изданиях, рекомендованных ВАК.
Структура и объем диссертационной работы. Диссертационная работа изложена на 147 страницах, из них 127 страниц основного текста, 64 рисунка, 10 таблиц и состоит из введения, 5 глав, заключения, списка литературы из 81 наименования на 9 страницах и приложений на 11 страницах.
Основные положения, выносимые на защиту:
1. Метод выделения участков с речью на основе анализа распределения локальных экстремумов.
2. Метод реализации в ассоциативной осцилляторной среде аппарата скрытых Марковских моделей для распознавания речи.
3. Реализация на элементах ассоциативной осцилляторной среды вычисления функции вероятности прямого распространения. Клеточный ансамбль «Компаратор», выполняющий выбор потока с максимальной интенсивностью.
4. Метод распознавания речи без учета порядка следования звуков и его реализация на элементах ассоциативной осцилляторной среды
Глава 1 . Обзор методов распознавания речи и ассоциативных сред
1.1. Речевой сигнал и его описание.
Речь - это исторически сложившаяся форма общения людей
посредством языковых конструкций, создаваемых на основе определенных правил [22, 23]. Если в качестве проводящей среды для передачи информации (общения) используется воздух, то получается устная речь -звуковое колебание, которое характеризуется частотой и амплитудой. Речь является носителем информации, используемый человеком для передачи сообщений - сигналом. По физической природе это акустический сигнал, непрерывно изменяющийся во времени. Желая подчеркнуть природу этого сигнала и отличить его от сигналов других типов, в технической литературе речь называют речевым сигналом. Далее термины «речь», «речевой сигнал» и «устная речь» будут употребляться как синонимы, за исключением случаев, когда нужно будет выделить смысл отдельного термина.
Большинство сигналов (речевых в том числе) имеют аналоговую природу, поэтому для обработки их на цифровых компьютерах они преобразовываются в дискретные сигналы посредством аналого-цифрового преобразования (АЦП). С помощью этой процедуры получают набор отсчетов 5 [п] - снятых в моменты Д t • п мгновенных значений непрерывного сигнала, которые уже лишены физической природы, а их максимальное и минимальное значение задается разрядностью АЦП. Например, если разрядность АЦП равна 2 байтам, то все значения в отсчетах укладываются в промежуток [216-1,216-1 — 1] При этом важнейшим параметром преобразования является частота дискретизации, определяющая, сколько мгновенных значений непрерывного сигнала (отсчетов) будет сохранено за одну секунду. Частота дискретизации - величина, обратная шагу дискретизации Д^ По теореме Котельникова, из дискретного сигнала можно восстановить без потерь только такой аналоговый сигнал, верхняя частота Д спектра которого вдвое меньше частоты дискретизации ^:
ÍS >2 •Гн.
(1.1)
Для описания и преобразования дискретных сигналов применимы средства цифровой обработки сигналов (ЦОС). Важнейшей процедурой ЦОС является дискретное преобразование Фурье (ДПФ) [24]:
где N - количество отсчетов, по которым строится ДПФ;
У - мнимая единица.
ДПФ позволяет перейти из временной области в частотную, т.е. разложить 5 [п] на набор гармоник и найти зависимость амплитуды (энергии) гармоники от ее частоты. На рисунке 1 представлен участок речевого сигнала с гласным звуком «а» во временной области. При этом для того, чтобы абстрагироваться от разрядности АЦП, отсчеты оцифрованного сигнала принято изображать в относительных величинах: либо в долях от максимального значения (для 2 байт это 5[п]/ 216-1), либо в децибелах. В данной работе используется первый способ представления. Для нахождения ДПФ был выделен участок размером N=1024 отсчета; результат представлен на рисунке 2. При этом по горизонтали откладывается частота гармоник, а по вертикали - |5[т]|, что является амплитудой гармоники.
(1.2)
-О 8-1-1-1-и
0.0907029 0.181406 0.272109 0.362В12
I, мс
Рис. 1. Участок речи с гласным звуком «а».
Речь является нестационарным сигналом, т.е. его характеристики изменяются во времени. Можно наглядно изобразить эти изменения, построив графики модулей ДПФ для идущих подряд фрагментов (фреймов) речевого сигнала. Получившееся изображение называется спектрограммой (рисунок 3.б). На рисунках 2 и 3 видно, что наибольшее количество энергии несут частоты до 8 КГц. Поэтому при оцифровке речевого сигнала типичным выбором частоты дискретизации является 16 КГц.
(Л
60
50
40
30
20
10
1
1 л л - 1
3125.44 6250.89 9376.33 12501.8 15627.2 18752.7 21878.1
F, Нг
Рис. 2. ДПФ для участка речевого сигнала с гласным звуком «а».
а) б)
Рис. 3. Осциллограмма слова «Вперед» и его спектрограмма.
Как слова в письменной речи образуются из конечного набора
символов - алфавита языка, так и устная речь при всей ее вариативности
включает в себя ограниченный набор звуковых «букв». Минимальной
смыслоразличимой единицей речи является фонема [22, 23, 25]. В русском
языке 42 фонемы, из которых 6 гласных и 36 согласных. Дальнейшей единой
классификации фонем, к сожалению, не существует, поэтому на рисунке 4
16
приведен один из совмещенных вариантов, содержащий пересекающиеся классы, например, звонкие (voiced) и фрикативные, глухие (unvoiced) и взрывные и т.п.
Рис. 4. Классификация фонем русского языка.
1.2. Общая структура системы автоматического распознавания речи
В работе системы автоматического распознавания речи (САРР)
выделяют три этапа: выделение признаков, обучение и распознавание (рис. 5). На первом этапе из исходного сигнала получают вектор признаков -сжатое описанию речевого сигнала, в котором присутствует только значащая для распознавания информация. Для этого используются методы, работающие как в частотной области (мел-кепстральные коэффициенты, коэффициенты линейного предсказания), так и во временной (например, на кратковременном значении энергии), при этом проблема представления речи не решена до конца и исследования ведутся в том числе и авторами данной работы [27, 28]. Последовательность векторов признаков длиной Т называют акустической или наблюдаемой последовательностью О = (о1, о2,..., от). С помощью этой последовательности человек передает цепочку слов Ш = (ш1, ..., ) . Сама задача распознавания речи ставится следующим образом: необходимо отыскать цепочку слов Ш, которая соответствует акустической последовательности О [26, 29, 30].
Рис. 5. Общая схема системы автоматического распознавания речи.
Для решения этой задачи на этапе обучения составляется модель Я, которая способна порождать все возможные последовательности О для всех возможных W. Пусть функция h(W, Я) возвращает все возможные О только для заданной W. Тогда распознаванием будет нахождение такой цепочки слов W* , которая, согласно модели Я , породит акустическую последовательность, наиболее близкую к рассматриваемой О:
W* = ArgMinWeWd{h{W, Я), О) (1.3)
где d{0', О) — дистанция между О и О.
Таким образом, в идеале нужно проверить все цепочки слов W, что, естественно, недостижимо на практике. Для облегчения этой задачи вводят различные ограничения с помощью грамматики языка либо решается более узкая задача, например, распознавание только изолированных слов.
Далее рассматриваются подробнее оба блока САРР - блок выделения признаков и блок распознавания.
1.2.1. Построение блока выделения признаков. Выбор метода выделения признаков
Задача блока выделения признаков - составить цепочку векторов признаков О = (ох, о2,..., от). исходного сигнала. Как было отмечено выше, речь - нестационарный сигнал. Однако, из-за инертности речевого тракта в пределах достаточно короткого промежутка времени от 10 до 40 мс его характеристики не меняются, т.е. его можно считать стационарным [29, 30, 34, 35]. Поэтому блок выделения признаков сканирует входной сигнал
кратковременным скользящим окном, в пределах которого и составляется один вектор признаков о1 (рис. 6). Эти окна могут пересекаться.
признаков
Рис. 6. Выделение признаков. Разбиение входного сигнала на цепочку окон.
Исследования показали, что наилучшим образом речь представляется признаками, полученными в частотной области [31, 32]. К таким признакам относятся коэффициенты линейного предсказания (Linear Predictive Codes -LPC), перцепционные коэффициенты линейного предсказания (Perceptual Linear Prediction - PLP), мел-кепстральные коэффициенты (Mel-Frequency Cepstral Coefficients - MFCC) [31, 32, 33, 36]. Эти три признака основываются на акустической модели речеобразования, согласно которой речевой сигнал можно представить в виде сигнала на выходе линейной системы с изменяющимися во времени параметрами, возбуждаемой квазипериодическими импульсами (при произнесении вокализованного звука) или случайным шумом (при невокализованных звуках) [32, 33]. Оценка параметров этой линейной системы и есть задача методов нахождения признаков в частотной области. Основной идеей методов линейного предсказания является возможность аппроксимации текущего отсчета речевого сигнала с помощью линейной комбинации предшествующих отсчетов [32]:
б(п) = ^ акБ(п — к), (1.4)
к=1
где { ак} - коэффициенты линейного предсказания. Погрешность предсказания определяется как
р
е(п) = б(п) — ^ акБ(п — к). (1.5)
к=1
Ошибка е(п) представляет собой сигнал на выходе системы с передаточной функцией А (г):
А(г) = 1 — ^акг—к. (1.6)
к
ик^ к=1
Передаточная функция линейной системы, в которую входят возбуждение и речевой сигнал, описывается следующим образом:
Н(г) = , ^ „ „—к, (1.7)
в
1 — Ик=1 ак2'
где в - коэффициент усиления возбуждения. Таким образом, определение параметров { ак} позволит оценить спектральные свойства речевого сигнала. Составление вектора признаков из коэффициентов линейного предсказания и есть метод LPC.
PLP отличается от описанного выше подхода тем, что пытается учесть особенности восприятия различных частот человеком [33]. Установлено, что разрешение человеческого уха неравномерно распределено по спектру: в области низких частот оно выше, чем в области высоких. Этот эффект описывается с помощью психоакустической барк-шкалы. Поэтому перед нахождением коэффициентов линейного предсказания речевой сигнал пропускается через фильтры, полосы пропускания которых изменяются в соответствии с барк-шкалой.
р
Методом MFCC стремятся отделить сигнал возбуждения от параметров речевого тракта, используя гомоморфные преобразования [32, 33, 34]. Для этого с помощью ДПФ переходят в частотную область, где вычисляют логарифм спектра входного сигнала, а затем выполняют ОДПФ либо дискретное косинусное преобразование. Как и в PLP, для моделирования восприятия речи человеком перед нахождением логарифма на спектр входного сигнала накладывают набор мел-фильтров, полосы пропускания которых выбираются по мел-шкале, понижая разрешение в сторону высоких частот (аналог барк-шкалы).
Достоинством MFCC по сравнению с LPC и PLP является простота реализации при аналогичных показателях по качеству распознавания. Быстродействие метода обуславливается наличием эффективной процедуры нахождения ДПФ и ОДПФ - быстрого преобразования Фурье (БПФ). Анализ состояния области распознавания речи показал, что на сегодняшний день MFCC применяется наиболее широко. Эти факторы позволяют выбрать мел-кепстральные коэффициенты для использования в данной работе.
Существует также группа признаков во временной области. К ним относятся частота проходов через ноль (Zero-Crossing Frequency - ZCR) и кратковременная энергия сигнала (Short-Time Energy - STE) [32, 38]. Первый метод позволяет грубо и быстро оценить спектральные характеристики речевого сигнала. С помощью подсчета ZCR можно отличить вокализованные звуки от невокализованных, т.к. высокие частоты приводят к большему числу переходов через ноль, а низкие - к малому. Кратковременная энергия позволяет выявлять изменения в громкости сигнала, что также может быть использовано при классификации звуков речи. Признаки этой группы используется либо как сопутствующие описанным выше из частотной области, либо для задачи выделения речи (как это описано в главе 2).
1.2.2. Способы построения блока распознавания. Выбор метода распознавания
Как было отмечено выше, на этапе распознавания работа ведется с последовательностью векторов признаков длиной Т О = (о1; о2,..., от) , с помощью которой передается цепочка слов Ш = (ю-^, w2,..., wN). Используя общую для распознавания образов терминологию, цепочка О называется образом - областью в пространстве признаков [39, 40]. Для распознавания рассматриваемой О необходимо с помощью модели речи Л, в которой установлена связь между всеми возможными О и всеми возможными Ш, найти такую цепочку слов Ш*, для которой Л породит последовательность признаков, наиболее близкую к О (формула (1.3)).
Похожие диссертационные работы по специальности «Элементы и устройства вычислительной техники и систем управления», 05.13.05 шифр ВАК
Метод, алгоритмы и устройства фрагментарного сжатия видеопотока2014 год, кандидат наук Горьков, Алексей Геннадьевич
Алгоритмы распознавания речевых команд в управляющих системах2006 год, кандидат технических наук Литвиненко, Сергей Леонидович
Разработка средств исследования и повышения помехоустойчивости систем автоматического распознавания голосовых команд в телефонии2014 год, доктор наук Левин Евгений Калманович
Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович
Система разделения дикторов на основе вероятностного линейного дискриминантного анализа2014 год, кандидат наук Кудашев, Олег Юрьевич
Список литературы диссертационного исследования кандидат наук Парамонов Павел Александрович, 2015 год
Список литературы
1. A. Ronzhin, A. Karpov, Russian Voice Interface // Pattern Recognition and Image Analysis, 2007. Vol. 17, No. 2, pp. 321-336.
2. A. Schmitt, D. Zaykovskiy, W. Minker, Speech recognition for mobile devices// International Journal of Speech Technology, Springer, 2008. Vol. 11, Pp. 63-72.
3. M. Pinola, Speech recognition through the decades: how we ended up with Siri, [Электронный ресурс] // PCWorld, 2011. URL: http://www.techhive.com/article/243060/speech_recognition_through_the_d ecades_how_we_ended_up_with_siri.html?page=0.
4. B. Johnson, How Siri works, [Электронный ресурс] // How Stuff Works. URL: http: //electronics. howstuffworks .com/gadgets/high-tech-gadgets/siri2.htm.
5. A. Egozi, IAI's REX robot to face first operational trial, [Электронный ресурс] // Israel Defence, 2012. URL: http://www.israeldefense.com/?CategoryID=411 &ArticleID=1515.
6. C. Englund, Speech recognition in the JAS 39 Gripen aircraft - adaptation to speech at different G-loads. Master degree thesis / Royal Institute of Technology, Stockholm, 2004.
7. M. Mazo, F. J. Rodriguez, J. L. Lazaro, J. Urena, J. C. Garcia, E. Santiso, P. Revenga, J. J. Garcia, Wheelchair for Physically Disabled People with Voice, Ultrasonic and Infrared Sensor Control // Autonomous Robots, 1995. Vol. 2. - pp. 203-224.
8. V. V. Ngoc, J. Whittington, J. Devlin, Real-time Hardware Feature Extraction
with Embedded Signal Enhancement for Automatic Speech Recognition // Speech Technologies, Intech, 2011. - Pp. 29-54.
9. M. Bahoura, H. Ezzaidi, Hardware implementation of MFCC feature extraction for respiratory sounds analysis // 8th Workshop on Systems, Signal Processing and their Applications, 2013. - Pp. 226-229.
10. Mosleh M., Setayeshi S., Mehdi Lotfinejad M., Mirshekari A., FPGA implementation of a linear systolic array for speech recognition based on HMM // The 2nd International Conference on Computer and Automation Engineering (ICCAE), 2010. Vol. 3, - pp. 75-78.
11. Fahmy S.A., Cheung P.Y.K., Luk W., Hardware Acceleration of Hidden Markov Model Decoding for Person Detection // Design, Automation and Test in Europe, 2005. Vol. 3. - Pp. 8-13.
12. Veitch R., Aubert L.-M., Woods R., Fischaber S., FPGA Implementation of a Pipelined Gaussian Calculation for HMM-Based Large Vocabulary Speech Recognition // International Journal of Reconfigurable Computing, 2011 Vol. 2011.
13. Stephen J. Melnikoff, Steven F. Quigley, Martin J. Russell, Implementing a Hidden Markov Model Speech Recognition System in Programmable Logic // 11-th International Conference on Field Programmable Logic and Applications, Lecture Notes in Computer Science. Vol. 2147. - SpringerVerlag, 2001. - Pp. 81-90.
14. J.J. Rodríguez-Andina, R.D.R. Fagundes, D.B. Junior, A FPGA-based Viterbi algorithm implementation for speech recognition systems // Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP '01). 2001 IEEE International Conference on. Vol. 2. - Pp. 1217-1220.
15. Haitao Zhou, Xiaojun Han, Design and Implementation of Speech Recognition System Based on Field Programmable Gate Array. Modern Applied Science, vol.3, no. 8, 2009. - pp. 105-111.
16. G. Tamulevicius, V. Arminas, E. Ivanovas, D. Navakauskas, Hardware Accelerated FPGA Implementation of Lithuanian Isolated Word Recognition System // Electronics & Electrical Engineering, no. 3 (99), 2010. - Pp. 57-62.
17. Sujuan Ke, Yibin Hou, Zhangqin Huang, Hui Li, A HMM Speech Recognition System Based on FPGA // Image and Signal Processing, 2008. CISP '08. Congress on, vol. 5, 2008. - pp. 305-309.
129
18. Огнев И. В., Подолин П. Б. Распознавание символов в ассоциативной осцилляторной среде // Известия высших учебных заведений Поволжского региона. Технические науки № 6 (27). 2006. - с. 55-65.
19. Огнев И. В., Сидорова Н. А. Реализация генетического алгоритма формирования нечетких логических правил в ассоциативной осцилляторной среде // Информационные средства и технологии: труды Международной научно-технической конференции (18 - 20 октября 2005 г.): в 3 т. - М.: Янус-К, 2005. - 1 т. - с. 55-58.
20. Огнев И. В., Сидорова Н. А., Обработка изображений методами математической морфологии в ассоциативной осцилляторной среде // Известия высших учебных заведений. Поволжский регион. - 2007. -Вып. 4. - С. 87 - 97. - (Технические науки).
21. Огнев И. В., Сидорова Н. А. Реализация методов математической морфологии в ассоциативной осцилляторной среде / И. В. Огнев, Н. А. Сидорова // Информационные средства и технологии: труды Международной научно-технической конференции (16 - 18 октября 2007 г.): в 3 т. - М.: МЭИ, 2007. - 1 т. - с. 25-29.
22. Искусственный интеллект, книга 1: Системы общения и экспертные системы, под ред. Э. В. Попова, М. - Радио и Связь, 1990. - 464 с.
23. Винцюк Т.К., Анализ, распознавание и интерпретация речевых сигналов, — Киев: Наукова думка, 1987. - 264 стр.
24. А. Оппенгейм, Р. Шафер, Цифровая обработка сигналов, М.: Техносфера, 2006. - 856 с.
25. Бондаренко Л. В., Вербицкая Л. А., Гордина М. В., Основы общей фонетики. - М.: Академия, 2004. - 160 с.
26. X. Huang, A. Acero. Spoken language processing: a guide to theory, algorithm, and system development, Prentice Hall. - 2001, 1008 p.
27. Огнев И.В., Огнев А.И., Парамонов П.А., Классификация речевых образов на основе анализа распределений их локальных экстремумов //
труды XXI международной научно-технической конференции "Информационные средства и технологии". - М.: МЭИ, 2013 - с. 53-57.
28. I.V. Ognev, A.I. Ognev, P.A. Paramonov, N.A. Sutula, The use of extrema distribution as a feature vector for speech patterns recognition // The 11th International Conference "Pattern Recognition and Image Analysis: New Information Technologies", Vol. 1, 2013. - pp. 114-117.
29. Claudio Becchetti, Lucio Prina Ricotti, Speech Recognition. Theory and C++ Implementation - Wiley. - 1999, 428 p.
30. Rabiner L., Juang B.-H. Fundamentals of speech recognition - Prentice Hall. - 1993, 507 p.
31. Anusuya M.A., Katti S.K., Front end analysis of speech recognition: a review // International Journal of Speech Technology, Vol. 14, 2011, pp. 99145.
32. Л. Рабинер, Р. Шафер, Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с.
33. Т.В. Шарий, О проблеме параметризации речевого сигнала в современных системах распознавания речи // Вюник Донецького Нащонального Университету, 2008, вып. 2, стр. 536-541.
34. Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, Springer handbook of speech processing. - Springer, 2008. - 1176 p.
35. Ian McLoughlin, Applied Speech and Audio Processing With Matlab Examples - Cambridge University Press, 2009. - 218 p.
36. Маркел Дж. Д., Грэй А. Х., Линейное предсказание речи. - М.: Связь, 1980. - 308 с.
37. Рабинер Л., Гоулд Б., Теория и применение цифровой обработки сигналов. - М.: Мир, 1978 - 848 с.
38. Mikael Nilsson, Marcus Ejnarsson, Speech Recognition using Hidden Markov Model. Performance evaluation in noisy environment. Master degree thesis, 2002 - 98 c.
39. Загоруйко Н. Г., Методы распознавания и их применение. - М.: Советское радио, 1972. - 208 с.
40. Загоруйко Н. Г., Прикладные методы анализа данных и знаний. -Новосибирск: ИМ СО РАН, 1999. - 270 с.
41. О.С. Агашин, О.Н. Корелин, Методы цифровой обработки речевого сигнала в задаче распознавания изолированных слов с применением сигнальных процессоров // Труды Нижегородского государственного технического университета им. Р.Е. Алексеева № 4, 2012, с. 32-44.
42. Хайкин С. Нейронные сети: полный курс, 2-е издание: Пер. с англ. -М.: Издательский дом «Вильямс», 2008. - 1104 с.
43. Trentin E., Gori M., A survey of hybrid ANN/HMM models for automatic speech recognition // Neurocomputing, 2001. Vol. 37, No. 1-4. - Pp. 91-126.
44. M.A.Anusuya, S.K.Katti, Speech Recognition by Machine: A Review // International Journal of Computer Science and Information Security, 2009. Vol. 6, No. 3. - Pp. 181-205.
45. Baker J.K., The DRAGON system: an overview // IEEE Transactions on Acoustics, Speech and Signal Processing, 1975. Vol. 23 - Pp. 24-29.
46. Alotaibi Y. A., Comparing ANN to HMM in implementing limited Arabic vocabulary ASR systems // International Journal of Speech Technology, 2011. Vol. 15, No.1. - Pp. 25-32.
47. Patel I., Rao Y.S., Speech recognition using hidden markov model with MFCC-subband technique // International Conference on Recent Trends in Information, Telecommunication and Computing, 2010. - Pp. 168-172.
48. Рабинер Л. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // Труды института инженеров по электротехнике и радиоэлектронике, т. 77, № 2. - М.: Мир, 1989. - с. 86-120.
49. Д.А. Гефке, П.М. Зацепин, Применение скрытых марковских моделей для распознавания звуковых последовательностей // Известия
Алтайского государственного университета. - Вып. 1(73), т. 2. -Барнаул: Известия АГУ, 2012. - с. 72-76.
50. Ронжин А.Л., Ли И. В. Автоматическое распознавание русской речи // Вестник Российской академии наук, 2007, том 77, № 2, с. 133-138.
51. Baker J.M, Deng L., Glass J., Knudanpur S., Lee C., Morgan N., O'Shgughnessy, Research developments and directions in speech recognition and understanding, part 1 // IEEE Signal Processing Magazine, 2009. Vol. 26, No. 3. - Pp. 75-80.
52. Dahl G.E., Yu D., Deng L., Acero A., Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition // IEEE Transactions on Audio, Speech, and Language Processing, 2012. Vol. 20, No. 1. - Pp. 30-42.
53. Mohamed A., Dahl G.E., Hinton G., Acoustic modeling using deep // IEEE Transactions on Audio, Speech, and Language Processing, 2012. Vol. 20, No. 1. - Pp. 14-22.
54. Огнев И.В., Борисов В.В. Ассоциативные среды. - М.: Радио и связь, 2000. - 312 с.
55. Огнев И.В., Борисов В.В. Интеллектуальные системы ассоциативной памяти. - М.: Радио и связь, 1996. - 176 с.
56. Кохонен Т. Ассоциативные запоминающие устройства: Пер. с англ. -М.: Мир, 1982. - 384 с.
57. Комаров А. Н. Исследование и разработка ассоциативных сред и методов обработки информации. Диссертация на соискание учёной степени кандидата технических наук. - М.: МЭИ(ТУ), 2002. - 194 с.
58. Огнев И. В., Парамонов П.А. Исследование способов представления числа для реализации арифметических операций в ассоциативной среде с командным управлением // Информационные средства и технологии: труды Международной научно-технической конференции (19 - 21 октября 2010 г.): в 3 т. - М.: МЭИ, 2010. - 1 т. - с. 54-60.
59. Огнев И. В., Парамонов П.А. Реализация арифметических операций в ассоциативной среде с командным управлением // Информационные средства и технологии: труды Международной научно-технической конференции (19 - 21 октября 2010 г.) : в 3-ч т. - М.: МЭИ, 2010. - 1 т. - с. 61-68.
60. Комаров А.Н., Огнев И.В., Подолин П.Б. Базовые клеточные ансамбли ассоциативных осцилляторных сред и возможности их расширения // Вычислительные системы и технологии обработки информации: межвузовский сборник научных трудов. - Вып. 5(30). - Пенза: Информационно-издательский центр ПГУ, 2006. - 200 с.
61. Огнев И. В., Парамонов П.А. Предварительная обработка речевого сигнала для построения базы произношений одиночных слов // Информационные средства и технологии: труды Международной научно-технической конференции (20 - 22 октября 2012 г.) : в 3 т. - М.: МЭИ, 2012. - 1 т. - с. 53-58.
62. Lori F. Lamel, Lawrence R. Rabiner, Aaron E. Rosenberg, Jay G. Wilpon, An Improved Endpoint Detector for Isolated Word Recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 29, no. 4, 1981. - pp. 777-785.
63. Шелепов В.Ю., Ниценко А.В., Структурная классификация слов русского языка. Новые алгоритмы сегментации речевого сигнала и распознавания некоторых классов фонем, Искусственный интеллект, 2007, № 1. Стр. 139-147.
64. Дорохин О.А., Старушко Д.Г, Федоров Е. Е., Сегментация речевого сигнала, Искусственный интеллект, 2000, № 3. Стр. 450-458.
65. Sunil Kumar R.K., Lajish V.L. Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN // International Journal of Speech Technology, 2013. - Vol. 16, No. 1. - Pp. 125-131.
66. Огнев И.В., Огнев А.И., Парамонов П.А., Метод выделения речи на
основе анализа распределения локальных экстремумов сигнала в
системах автоматического распознавания // Информационные технологии в проектировании и производстве, 2014. - № 2. - с. 35-40.
67. S. Kumar, M. Rao, Design Of An Automatic Speaker Recognition System Using MFCC, Vector Quantization And LBG Algorithm // International Journal on Computer Science and Engineering, 2011. Vol. 3, No. 8. - Pp. 2942-2954.
68. Огнев И.В., Парамонов П.А., Распознавание речи методами скрытых марковских моделей в ассоциативной осцилляторной среде. // Известия высших учебных заведений. Поволжский регион. Технические науки -2013. - Вып. 3. - С. 115 - 126.
69 Гнеденко Б.В., Курс теории вероятностей: Учебник, - 6-е изд., - М.: Наука, 1988. - 448 с.
70 Гмурман В.Е., Теория вероятностей и математическая статистика. - 9-е изд., - М.: Высшая школа, 2003. - 479 с.
71. Bertsekas D., Tsitsiklis J., Introduction to probability, 2nd edn. - Athena Scientific, Belmont, 2008, - 544 p.
72. Борисов В. В., Полячков А.В. Реализация многокоординатной ассоциативной среды на основе программируемых логических схем // Математическая морфология. Электронный математический и медико-биологический журнал. - Т. 9. - Вып. 4. - 2010.
73. Борисов В.В., Полячков А.В., Тихонова Е.А. Модели ассоциативной среды для распределенного представления и анализа информации // Информационные средства и технологии.: Тр. межд.науч.-практ.конф., в 3-х т. - М.: Издательский дом МЭИ. - 2009.
74. Кривнова О. Ф., Захаров Л. М., Строкин Г. С., Речевые корпусы (опыт разработки и использование) [Электронный ресурс] // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям, Т. 2, 2001, режим доступа: http://www.dialog-21.ru/digest/archive/2001/?year=2001&vol=22725&id=6928.
75. Газин А. И., Методики формирования баз голосовых образов для оценки стойкости систем голосовой аутентификации личности. Диссертация на соискание учёной степени кандидата технических наук. - Пенза: ПГУ, 2011. - 184 с.
76. Murphy K.P., Machine learning: a probabilistic perspective. - The MIT Press, 2012. - 1104 p.
77. Бибило П.Н., Основы языка VHDL, - М.: СОЛОН-Р, 2002. - 224 с.
78. Поляков А. К., Языки VHDL и Verilog в проектировании цифровой аппаратуры. - М.: СОЛОН-Пресс, 2003. - 320 с.
79. Сидорова Н. А. Распознавание изображений в ассоциативной осцилляторной среде. Диссертация на соискание учёной степени кандидата технических наук. - М.: МЭИ(ТУ), 2010. - 188 с.
80. Максфилд К., Проектирование на ПЛИС. Курс молодого бойца. - М.: Издательский дом «Додэка-XXI», 2007. - 408 с.
81. Стешенко В. Б., ПЛИС фирмы Altera: проектирование устройств обработки сигналов. - М.: ДОДЭКА, 2000. - 128 с.
Приложение 1. Словарь разработанной системы распознавания речи
Словарь разработанной системы распознавания речи:
№ Слово Обозначение в САРР
1. после AFTER
2. всегда ALWAYS
3. и AND
4. быть BE
5. потому BECAUSE
6. перед BEFORE
7. между BETWEEN
8. большой BIG
9. случай CASE
10. ребенок CHILD
11. город CITY
12. общий COMMON
13. день DAY
14. делать DO
15. восемь EIGHT
16. конец END
17. каждый EVERY
18. глаз EYE
19. лицо FACE
20. отец FATHER
21. первый FIRST
22. пять FIVE
23. для FOR
24. сила FORCE
25. четыре FOUR
26. друг FRIEND
27. идти GO
28. земля GROUND
29. рука HAND
30. иметь HAVE
31. он HE
32. голова HEAD
33. тут HERE
34. дом HOME
35. как HOW
36. человек HUMAN
37. если IF
38. в IN
39. знать KNOW
40. последний LAST
41. жизнь LIFE
42. жить LIVE
43. машина MACHINE
44. я ME
45. деньги MONEY
46. должен MUST
47. мой MY
48. новый NEW
49. девять NINE
50. не NOT
51. сейчас NOW
52. конечно OFCOURSE
53. на ON
54. раз ONCE
55. один ONE
56. только ONLY
57. или OR
58. наш OUR
59. часть PART
60. мир PEACE
61. место PLACE
62. вопрос QUESTION
63. русский RUSSIAN
64. сказать SAY
65. видеть SEE
66. семь SEVEN
67. она SHE
68. сторона SIDE
69. просто SIMPLY
70. сидеть SIT
71. шесть SIX
72. система SYSTEM
73. взять TAKE
74. потом THEN
75. они THEY
76. думать THINK
77. это THIS
78. три THREE
79. время TIME
80. тоже TOO
81. через TROUGH
82. два TWO
83. под UNDER
84. очень VERY
85. вид VIEW
86. хотеть WANT
87. вода WATER
88. что WHAT
89. когда WHEN
90. где WHERE
91. который WHICH
92. кто WHO
93. с WITH
94. женщина WOMAN
95. слово WORD
96. работа WORK
97. год YEAR
98. да YES
99. ты YOU
100. ноль ZERO
Приложение 2. Исходный код разработанного программного комплекса
Реализация в Matlab исходного алгоритма прямого хода:
function [al, S] = hmm alpha prob(A matr, O vect, Time) p vect, B matr,
al = zeros(Time, length(A matr(1, : ) ));
al(1, : ) = p vect'.*B matr(:,O vect( 1))';
S = zeros(Time, 1); S(1) = 1/sum(al(1, : )); al(1, : ) = al(1, : ).*S(1);
for t=1:Time-1 al(t+1, : ) = (al(t, : )*A matr). O_vect(t+1))'; *B matr(:,
S(t+1) = 1/sum(al(t+1, : )); al(t+1, : ) = al(t+1, : ).*S(t+1) end end ;
Реализация в Matlab модифицированного алгоритма прямого хода с
упрощенным вычислением логарифма суммы:
function [log_prob_t_j] = hmm_alpha_prob_log_approx(A_matr, p_vect, B_matr, O_vect, Time)
log_prob_t_j = zeros(Time, length(A_matr(1, : ))); log_prob_t_j(1, : ) = log(p_vect') + log(B_matr(:,O_vect(1))');
for t=1:Time-1
for j=1:length(A_matr(1, : ))
log_prob_t_j(t+1, j ) = log(B_matr(j, O_vect(t+1))') + max(log(A_matr( : , j)') + log_prob_t_j(t, : )); end
end
end
Реализация в Matlab разработанного метода распознавания без учета порядка следования звуков:
function [ log_score ] = hmm_markov_assumption_scores( A_matr, B_matr, O_vect, Time )
STATES = length(A_matr(1, : )); SYMBOLS = length(B_matr(1, : ));
% Вероятность нахождения в j-м состоянии найдем из СЛАУ:
A = zeros(STATES + 1, STATES);
A(STATES + 1, : ) = ones(1, STATES);
A(1:STATES, : ) = A_matr( : , : )';
for i=1:STATES
A(i, i) = A(i, i) - 1;
end
B = zeros(STATES + 1, 1); B(STATES+1) = 1; P_assumption = linsolve(A, B);
B_assumption = zeros(SYMBOLS, 1); for k = 1:SYMBOLS
B_assumption(k) = P_assumption' * B_matr( : , k, 1);
end
log_score = 0; for t=1:Time
log_score = log_score + log(B_assumption(O_vect(t)));
end
end_
Реализация в Matlab функции-генератора потоков спайков для СММ
Я = (А, В, п):
function [ A spikes, B spikes, p spikes ] = aom create spike flows( A matr, B matr, p vect, spikes flow length ) %Генерая последовательстей спайков - носителей вероятностей A, B, p О.
О
% ИНИЦИАЛИЗАЦИЯ
% Генерация последовательностей спайков для моделирования
Aij, pi m Bj k:
STATES = length(A matr( : , 1));
CODEBOOK SIZE = length(B matr(1, : ));
A spikes = false(STATES, STATES, spikes flow length
B spikes = false(STATES, CODEBOOK SIZE, spikes flow length);
p spikes = false(STATES, spikes flow length);
for i=1:STATES
if isnan(p vect(i)) | | isinf(p vect(i))
% maximal intensity for Inf:
p spikes(i, : ) = logical(binornd(1, 1, [1
spikes flow length]));
else
p spikes(i, : ) = logical(binornd(1, p vect(i), [1
spikes flow length]));
end
for j=1:STATES
if isnan(A matr(i , j)) || isinf(A matr(i, j))
141
A spikes(i, j , : ) = logical(binornd(1, 1, [1
spikes flow length]));
else
A spikes(i, j , : ) = logical(binornd(1,
A matr(i, j), [1 spikes flow length]));
end
end
for k=1:CODEBOOK SIZE
B spikes(i, k, : ) = logical(binornd(1, B matr(i,
k), [1 spikes flow length]));
end
end
end
Реализация в Matlab функции-генератора потоков спайков для массива
S ={logВ(ст)}, В(ст) - вероятность испускания символа ст данной СММ:
function [ B_assumption_spikes, B_assumption_log_spikes ] = aom_create_markov_assumption_vectors( A_spikes, B_spikes, A_i_j, B_j_k, spikes_flow_length ) STATES = length(A_spikes( : , 1, 1)); SYMBOLS = length(B_spikes(1, : , 1));
% Вероятность нахождения в j-м состоянии найдем из СЛАУ: A = zeros(STATES + 1, STATES);
for i=1:STATES
for j=1:STATES
A(i, j ) = A_i_j( i , j);
end
end
A(1:STATES, : ) = A(1:STATES, : )'; A(STATES + 1, : ) = ones(1, STATES);
for i=1:STATES
A(i, i) = A(i, i) - 1;
end
B = zeros(STATES + 1, 1); B(STATES+1) = 1;
P_assumption = linsolve(A, B);
B_assumption = zeros(SYMBOLS, 1); for k = 1:SYMBOLS
B_assumption(k) = P_assumption' * B_j_k( : , k);
end
B_assumption_spikes = false(1, SYMBOLS, spikes_flow_length); B_assumption_log_spikes = zeros(1, SYMBOLS, spikes_flow_length); correct = 10;
for k=1:SYMBOLS
B assumption spikes(1, k, : ) = logical(binornd(1,
B assumption(k), [1 spikes flow length]));
B assumption log spikes(1, k, : ) = logical(binornd(1,
correct*abs(log(B assumption(k) )/spikes flow length), [1
spikes flow length]));
end
end
Реализация в Matlab разработанного метода распознавания без учета
порядка следования звуков на программной модели АОС:
function [ score_intensity ] = aom_markov_assumption_scores_log( B_assumption_log, O_vect, Time, spikes_flow_length )
score_flow = false(1, 1, spikes_flow_length); correct = 10; for t=1:Time
score_flow(1, 1, : ) = score_flow(1, 1, : ) | (B_assumption_log(1, O_vect(t), : )); end
score_intensity = (-
spikes_flow_length/correct)*aom_intensity(score_flow(1, 1, : )); end
Приложение 3. VHDL-описания компонентов разработанной аппаратной реализации блока распознавания
VHDL-описание аппаратной реализации арифметического блока модуля Aw, описанного в разделе 5.1:
library IEEE;
use ieee.std_logic_1164.all;
entity aom_adder is generic (
spikes_flow_length: natural:=256
);
port (
CLK, CNT, RST, SRD: in std_logic;
DI: in std_logic_vector(spikes_flow_length-1 downto 0);
serial_out: out std_logic
);
end aom_adder;
architecture behavior of aom_adder is begin
process(CLK)
-- кл. ансамбли "сумматор" ариф. блока:
variable sum_buff: std_logic_vector(spikes_flow_length-1 downto 0); begin
if rising_edge(CLK) then if (RST='1') then
sum_buff := (others=>'0'); serial_out <= '0'; elsif (SRD='1') then
-- Чтение старшего разряда выходного регистра: serial_out<=sum_buff(spikes_flow_length-1); -- Сдвиг вправо выходного регистра: for i in spikes_flow_length-1 downto 1 loop
sum_buff(i):= sum_buff(i-1); end loop; elsif (CNT='1') then
sum_buff := DI or sum_buff;
end if;
end if; end process;
end behavior;_
VHDL-описание аппаратной реализации клеточного ансамбля «Дифференциал»:
library IEEE;
use ieee.std_logic_1164.all; entity aom_differential is
generic (charge_size: natural := 4); port (
Q, S, CLK, EN, RST: in std_logic; out_q, out_s: out std_logic
);
end aom_differential;
architecture behavior of aom_differential is
shared variable queue_q, queue_s: std_logic_vector(charge_size-1 downto 0);
begin
q_proc: process(CLK)
variable q_buf: std_logic;
begin
if rising edge(CLK) then
if (EN='1') then
if (RST= ='1') then
queue_q:=(others=>'0');
out_q <= queue_q(0);
else
q_buf := (Q and (not queue_s(charge_size-1))) or
((not Q) and (not queue_s(charge_size-1)) and
queue_q(charge_size-1)) or
(Q and queue_q(charge_size -1) and
queue_s(charge_size -1));
-- сдвиг замкнутого осциллятора:
for i in charge_size-1 downto 1 loop
queue_q(i) := queue_q(i-1);
end loop;
queue_q(0) :=q_buf;
out_q <= queue_q(0);
end if;
end if;
end if;
end process q_proc;
s_proc: process(CLK)
variable s_buf: std_logic;
begin
if rising edge(CLK) then
if (EN='1') then
if (RST= ='1') then
queue_s:=(others=>'0');
out_s <= queue_s(0);
else
s_buf := (S and (not queue_q(charge_size-1))) or
((not S) and (not queue_q(charge_size-1)) and
queue_s(charge_size-1)) or
(S and queue_s(charge_size-1) and
queue_q(charge_size-1));
-- сдвиг замкнутого осциллятора:
for i in charge_size-1 downto 1 loop
queue_s(i) := queue_s(i-1);
end loop;
queue_s(0) := s_buf;
out_s <= queue_s(0);
end if;
end if;
end if;
end process s_proc;
end behavior;
Приложение 4. Акты об использовании результатов диссертационной работы
УТШ-РЖДАЮ
АКТ
о внедрении результатов диссертационной работы в учебный процесс
В учебный процесс на кафедре Вычислительной техники внедрены следующие результаты диссертационной работы Парамонова П.А. по теме «Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде»:
• Метод выполнения вычислений в ассоциативной осцилляторной среде, основанный на представлении дробных чисел с помощью интенсивностей потоков спайков;
• Реализация клеточных ансамблей «Дифференциал» и «Компаратор» на ПЛИС.
Указанные результаты включены в курсы «ЭВМ и периферийные устройства» и «Функциональные узлы и процессоры» направления подготовки бакалавров 09.03.01 «Информатика и вычислительная техника». На основании решения кафедры (протокол
№ / от « ¿< » Р<? 2013 г.).
Зам. заве.
3/ » /Уой
. заведующего
то кафедрой ВТ, к.т.н. доц.
/ Андреева И.Н. / 201^г.
д.т.н. проф
« 3 { »
КА/Ч / Огнев И.В. / 1 о? 201^"У.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.