Технология автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Хусаинов, Айдар Фаилович
- Специальность ВАК РФ05.13.11
- Количество страниц 162
Оглавление диссертации кандидат наук Хусаинов, Айдар Фаилович
СОДЕРЖАНИЕ
Глоссарий
Введение
Глава 1. Анализ требований и подходов к анализу речи на малоресурсных
языках
.»1.1 Малоресурсные языки
1.1.1 Понятие малоресурсных языков
1.1.2 Основные проблемы исследований малоресурсных языков
1.1.3 Анализ технологий анализа речи для малоресурсных языков
1.2 Автоматическое распознавание речи для малоресурсных языков
1.2.1 Классификация задач распознавания речи
1.2.2 Подходы к построению программных средств распознавания речи
"1.2.3 Существующий программный инструментарий для распознавания речи
1.3 Постановка цели и задач исследования
1.4 Выводы по главе 1
Глава 2. Модель комплекса автоматизации создания и оценки качества программных средств автоматического распознавания речи для малоресурсных языков
2.1 Основные требования к программным средствам анализа речи
2.2 Используемые принципы проектирования программных продуктов
2.3 Общее строение программных средств распознавания речи
2.3.1 Вычисление признаков речевого сигнала
2.3.2 Акустическое и лексическое моделирование
2.3.3 Языковая модель
2.3.4 Распознавание речи
"2.4 Модель комплекса автоматизации создания и оценки качества программных
средств автоматического распознавания речи для малоресурсных языков
2.5 Оценка качества работы программных средств распознавания речи
2.6 Выводы по главе 2
Глава 3. Программная реализация комплекса автоматизации создания и оценки качества программных средств распознавания речи и анализ
эффективности его использования на примере татарского языка
v3.1 Разработка программного обеспечения комплекса автоматизации создания и оценки качества программных средств анализа речи
3.1.1 Пользователи, права доступа к функциональности комплекса
3.1.2 Проекты комплекса
3.1.3 Модули проектов комплекса
3.1.4 Тестирование работоспособности программных средств анализа речи
3.1.5 Система логирования комплекса
"3.2. Программные средства автоматического распознавания речи для
малоресурсных языков в рамках комплекса автоматизации
3.2.1 Модуль «Акустические особенности языка»
3.2.2 Модуль «Анализ текстов»
3.2.3 Модуль «Запись»
3.2.4 Модуль «Акустические модели»
3.2.5 Модуль «Распознавание фонем»
3.2.6 Модуль «Грамматика»
3.2.7 Модуль «Распознавание речи»
3.3 Анализ эффективности комплекса автоматизации на примере создания и
оценки качества программных средств распознавания татарской речи
3.3.1 Разработка программных средств распознавания фонем татарского языка
'3.3.2 Разработка программных средств распознавания слитной татарской
речи
3.3.3 Анализ эффективности использования комплекса при построении программных средств анализа речи на татарском языке
3.4 Выводы по главе 3
Заключение
Литература
Глоссарий
Корпус речи
Фонетическое ¿глнотирование, разметка корпуса
Текстовый корпус
Ы-грамм
Фонема
Дифон
Трифон
Морфема
Структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса
Процесс задания соответствия между речевыми фрагментам корпуса и информацией о произнесенных фонемах
Массив текстов, собранных в единую систему по определенным признакам (языку, жанру, времени создания текста и т.п.)
Последовательность из п элементов (элементом последовательности может быть, например, звук, слог, слово, буква)
Единица звукового строя языка, служащая для опознавания и различения значимых единиц — морфем, в состав которых она входит в качестве минимального сегментного компонента, а через них — и для Опознавания и различения слов
Сегмент речи между серединами двух соседних фонем
Контекстная реализация фонемы
Мельчайшая значимая единица языка, выделяемая в составе слова и выполняющая функции словообразования и формообразования
Графем-фонемное преобразование
Фонетический транскрибатор
К^алоресурсные языки
Переход от графемной (буквенной) записи слов к их фонетическим транскрипциям
Программная система, осуществляющая графем-фонемное преобразование
Категория языков, развитие информационных технологий для которых является недостаточным
Период основного Период импульсов голосового источника, тона возникающих в результате колебаний голосовых
складок
Флективные языки Языки, в которых доминирует словоизменение при
* ч? -
помощи элементов (формантов), сочетающих сразу несколько значений
Агглютинативные Языки, в которых при словообразовании каждый языки элемент (формант) несет только одно значение
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи2011 год, кандидат технических наук Кипяткова, Ирина Сергеевна
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий2013 год, кандидат наук Богданов, Дмитрий Степанович
Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации2017 год, кандидат наук Ниценко, Артём Владимирович
Распознавание звучащей русской речи в теоретическом и экспериментальном освещении: семейные, возрастные и гендерные аспекты лингвистической идентификации личности2013 год, кандидат наук Грачев, Александр Михайлович
Введение диссертации (часть автореферата) на тему «Технология автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков»
Введение
Актуальность темы диссертации. Развитие и широкое внедрение информационных технологий делает актуальной задачу развития более совершенных видов человеко-машинных интерфейсов. Одним из подходов к решению данной задачи является использование речи в качестве канала взаимодействия человека с компьютером. Для практической реализации данного подхода необходимо наличие средств автоматического анализа речи, задача создания которых лежит в области речевых технологий. В целом, в области речевых технологий можно выделить следующие основные направления:
т «»у
• автоматическое распознавание речи;
• идентификация и верификация языка;
• идентификация и верификация диктора;
• распознавание эмоций диктора;
• синтез речи;
• распознавание тематики разговора.
В настоящее время разработано множество моделей и алгоритмов анализа речи, создано и успешно используется множество коммерческих систем [6, 37, 85, 87], однако, несмотря на это, существуют задачи, которые не решены до конца, например, задача распознавания слитной и спонтанной речи [40]. Кроме того, степень развития речевых технологий сильно отличается между различными языками. Так, высокое качество работы речевых систем для английского,
испанского, французского, китайского и некоторых других языков сочетается со
* *
слабым развитием или даже их полным отсутствием для многих других языков. На примере России можно говорить о развитии программных средств распознавания речи, примерно сопоставимых по качеству работы с мировыми аналогами, только для русского языка [9, 13, 14,100]. Однако в то же время по данным переписи 2010 года в России насчитывается 38 языков, на каждом из которых разговаривает более 100 тысяч человек, и 7 языков, помимо русского, на
которых говорят более миллиона человек. Следует отметить, что в последние »■оды предпринимались редкие попытки создания систем распознавания речи для некоторых из данных языков [1, 17], однако проведенные работы не позволяют говорить о системном подходе к решению задач на уровне ведущих мировых образцов.
В настоящий момент в мире выделяется класс малоресурсных языков, отличающихся слабым уровнем развития информационных технологий. Для данных языков не создано средств автоматического распознавания речи, что препятствует их использованию в современных информационных системах и способствует их вытеснению ведущими мировыми языками.
Факт слабого развития речевых технологий для малоресурсных языков как в России, так и в мире, может быть объясним целым рядом причин. Во-первых, данная ситуация объясняется научной сложностью стоящих перед исследователями задач. Во-вторых, высокими финансовыми затратами на подготовку необходимых программных инструментов, речевых и текстовых корпусов [24]. Однако важным также является тот факт, что существующие на данный момент способы моделирования и создания комплексов распознавания речи, чаще всего, стремятся к решению узкого спектра задач, не учитывая при этом все особенности разработки в контексте работы с малоресурсными языками. Это приводит к тому, что разрабатывать и оценивать качество работы систем анализа большинства малоресурсных языков приходится с нуля, используя лишь базовый набор имеющегося инструментария, сталкиваясь и решая схожие для многих других языков проблемы.
Гипотеза, проверяемая в данной работе, состоит в том, что использование технологии ии реализующего её программного комплекса автоматизации, учитывающих специфику обработки малоресурсных языков, существенно сократит время создания средств распознавания речи для множества малоресурсных языков, сопоставимых по качеству работы с существующими мировыми аналогами.
В диссертации сформулированы основные требования, стоящие при создании и оценке качества систем распознавания речи для малоресурсных языков. На основе выделенных требований создана модель комплекса автоматизации, функциональность которого позволяет создавать и производить тестирование работы программных средств распознавания речи. Программная реализация данного комплекса, таким образом, может быть применена для создания программных средств анализа речи для множества малоресурсных языков, позволяя использовать как универсальные подходы и алгоритмы, так и особенности конкретного языка.
Объект исследования: процесс создания и оценки качества программных средств автоматического анализа речи.
Предмет исследования: разработка технологии автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков.
Цель работы и задачи исследования. Основной целью диссертационной работы является разработка технологии автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, которая позволила бы повысить скорость создания данных средств при условии сохранения качества их работы на уровне соответствующих мировых аналогов.
Для достижения поставленной цели в ходе диссертационной работы поставлены и решены следующие задачи:
1. Разработка технологии построения программных средств распознавания речи, позволяющей повысить скорость создания и качество работы данных средств для множества малоресурсных языков.
2. Разработка модели комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков.
3. Программная реализация комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, включающего средства решения вспомогательных задач, таких как
проектирование и запись текстовых и речевых корпусов, вычисление параметров речи.
4. Создание программных средств распознавания фонем и слитной речи на татарском языке на базе разработанного комплекса автоматизации.
5. Исследование эффективности разработанного комплекса автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков.
Методы исследования. Для решения поставленных задач в работе используются методы статистического анализа, теории вероятности, математической статистики, математического моделирования в лингвистике. Программная реализация основана на объектно-ориентированном подходе.
Положения, выносимые на защиту.
1. Технология построения и оценки качества программных средств распознавания речи для малоресурсных языков, основанная на использовании моделей, учитывающих специфику обработки данного класса языков и позволяющих одновременно осуществлять проектирование и верификацию прикладных систем распознавания речи специалистам из разных областей знаний.
2. Модель комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, основанная на учете особенностей решения всех основных подзадач области распознавания речи в контексте работы с малоресурсными языками и позволяющая существенно ускорить процесс создания программных средств анализа речи для малоресурсных языков.
3. Программная реализация комплекса автоматизации создания и оценки качества программных средств анализа речи, а также инструментальных средств решения вспомогательных задач автоматического распознавания речи, основанных на использовании разработанной технологии и позволяющих существенно ускорить процесс создания программного обеспечения анализа речи малоресурсных языков при сохранении качества и скорости его работы на уровне мировых аналогов.
4. Программные средства распознавания фонем и слитной речи на Татарском языке, созданные сазе разработанного комплекса автоматизации и позволяющие использовать их для обеспечения речевого интерфейса взаимодействия человека с компьютером.
Научная новизна.
1. Разработана технология автоматизации создания и оценки качества программных средств анализа речи малоресурсных языков, отличающаяся применением моделей, учитывающих специфику обработки малоресурсных
•у ,
языков и обеспечивающих совместную работу экспертов в области языка, анализа речи, программистов и других специалистов при многоэтапной процедуре проектирования и верификации прикладных систем распознавания речи.
2. Разработана модель комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, отличающаяся от существующих аналогов охватом всех основных подзадач области распознавания речива также возможностью их настройки для работы с конкретным малоресурсным языком, что позволяет существенно ускорить процесс создания программных средств анализа речи для малоресурсных языков.
3. Разработан программный комплекс автоматизации создания и оценки качества программных средств анализа речи малоресурсных языков и инструментальные средства выполнения алгоритмов автоматического анализа речи малоресурсных языков, отличающиеся использованием созданной технологии, обеспечивающей • существенное ускорение процесса создания программного обеспечения анализа речи малоресурсных языков при сохранении качества и скорости его работы на уровне мировых аналогов.
4. Впервые созданы программные средства распознавания фонем и слитной речи на татарском языке на базе разработанного программного комплекса средств, позволяющие использовать их для обеспечения речевого интерфейса взаимодействия человека с компьютером.
Обоснованность и достоверность научных положений, основных выводов и результатов обеспечена за счет анализа состояния исследований в данной
области, подтверждается корректностью предложенных моделей, а также апробацией основных теоретических и экспериментальных положений диссертации в печатных трудах и докладах на международных научных конференциях. Новизна технических предложений подтверждается полученным свидетельством о государственной регистрации программы для ЭВМ.
Практическая ценность. Разработанные модели и программные реализации направлены на решение проблем в области речевых технологий, возникающих при построении и оценке качества программных средств распознавания речи для малоресурсных языков. Предложенная модель позволяет использовать выявленные особенности процессов создания и оценки качества программных средств распознавания речи. Например, учитывая междисциплинарный характер области речевых технологий, предоставляется возможность одновременной7 работы специалистам по фонетике, лингвистике, алгоритмам, программистам с возможностью предоставления настраиваемого для каждого из специалистов доступа к функционалу. Реализация в рамках комплекса автоматизации модели программных средств распознавания речи для малоресурсных языков позволяет автоматизировать процессы решения стандартных задач распознавания речи и, таким образом, заметно ускорить процесс создания конечных систем для множества малоресурсных языков.
* ts '
Апробация и внедрение результатов работы. Разработанный программный комплекс был использован в рамках проекта по созданию онлайн-школы обучения татарскому языку «Ана Теле»; данный проект осуществляется совместно с Министерством образования и науки Республики Татарстан и компанией «English First». Результаты работы внедрены в учебный процесс кафедры математической лингвистики и информационных систем в филологии Института филологии и меж:-еул*лурной коммуникации Казанского федерального университета.
Основные результаты диссертационного исследования представлялись на Международных конференциях: «Речь и Компьютер» SPECOM (Казань 2011; Пльзень, Чехия 2013), «Ореп Semantic Technologies for Intelligent Systems» OSTIS
(Белоруссия, 2013), «Computer Science and Information Technologies» CSIT (Австрия, Венгрия, Словакия, 2013), «Computer processing of Turkic languages» (Казахстан, 2013).
Публикации. По результатам выполненных исследований опубликовано 10 работ, в том числе в двух научных журналах из перечня ВАК («Доклады Томского государственного университета систем управления и радиоэлектроники», «Программные продукты и системы»), одном журнале, цитируемом SCOPUS («Speech and Computer, Lecture Notes in Computer Science», издательство Springer), а также получено свидетельство о государственной регистрации программы для ЭВМ.
Структура и объем работы. Диссертационная работа включает введение, три главы, заключение, список литературы. Материал диссертации изложен на 162 страницах текста, включающих в себя 42 рисунка и 26 таблиц. Количество
библиографических ссылок - 104.
*
ф Глава 1. Анализ требований и подходов к анализу речи на
малоресурсных языках
Область автоматического анализа речи представляет собой совокупность множества различных направлений, включая такие направления как распознавание произнесенных цифр, слитной речи, идентификация диктора, языка, эмоций, качества произношения [30]. Для множества языков, например, английского или немецкого, программные средства автоматического анализа речи уже созданы и успешно применяются на практике. Но существует целый спектр других языков, развитие речевых систем для которых находится на несравнимо более низком уровне.
В первой главе даётся определение понятию малоресурсных языков, описывается состояние развития речевых технологий для данных языков. Приводится обзор программных средств автоматического создания систем
~ V
анализа речи, отмечены функциональные возможности, наличие которых следует
реализовать при построении системы, а также выявлены существующие
недостатки, которых следует избегать при построении системы.
Анализ существующих подходов к созданию программных средств анализа
речи позволяет выделить их основные особенности, области применения,
достоинства и недостатки.
* ч> -
1.1 Малоресурсные языки
1.1.1 Понятие малоресурсных языков
Говоря о понятии малоресурсных языков, необходимо отметить, что понятие языка само по себе является сложным. Язык используется для общения с другими людьми, выражения чувств, мыслей, как средство воздействия на других людей [10]. Однако даже задача оценки количества существующих в мире языков является отдельным направлением исследований, так, например, необходимо
решить, учитывать ли диалекты в качестве отдельных языков, и если нет, то каким образом разделять эти понятия [39].
Исследованиями в области оценки количества и состояния мировых языков занимается проект «Ethnologue. Languages of the world» [56]. Данный проект при расчете количества языков учитывает те языки, которые хотя бы один человек в
У -
мире считает для себя родным. Основываясь на данном подходе, по последним данным в мире выделяют 7105 языков, из которых 1481 языку присвоен статус «имеющий проблемы», а 906 — «умирающий». Также о неравномерности развития и распределения языков в мире говорит статистика, представленная в таблице 1, на основании которой видно, например, что более 94 % населения Земли разговаривает, используя лишь 5,5 % языков мира.
Таблица 1 - Распределение количественного состава языков мира
Количество Количество Процент Общее Процент
человек, языков языков количество говорящих
владеющих языком накопленным говорящих накопленным
итогом на данных языках итогом
100,000,000- 8 0,1 % 2,528,029,108 40,5 %
* 999,999,999 Tt •
10,000,000- 11 1,2% 2,381,969,581 78,7 %
99,999,999
1,000,000- 308 5,5 % 962,536,721 94,2 %
9,999,999
10,000-999,999 2726 43,9 % 355,780,848 99,81 %
0 - 9,999 * 3986 зг 100 % 8,105,309 100%
Итого 7105 100% 6,236,421,567 100%
Существующее расслоение языков мира в разные времена побудило исследователей вводить термины «вымирающих» языков, которыми владеют небольшое количество людей, «миноритарных» языков, являющихся
второстепенными на определённых территориях распространения. Однако с развитием информационных технологий и возникновением интереса к всестороннему исследованию языков и речи, данные термины оказались не в состоянии описать возникшее разделение языков по степени развития информационных средств и технологий. Так, например, каталонский язык является миноритарным на территории Испании, однако с 2012 года для данного языка поддерживается голосовой поиск [96] и онлайн переводчик [11] компании Google, имеется отдельный раздел в Викисловаре [4]. В то же время многие официальные языки государств, на которых разговаривает большое количество ?лодей, существенно уступаю^ ему в развитии технологий.
Понятие малоресурсных языков было введено Krauwer [53] и Berment [25] для обозначения категории языков, развитие информационных технологий для которых в определённом смысле является недостаточным. Бермент в своей работе «Методы компьютерной обработки малоресурсных языков и их групп» [53], руководствуясь приведенной выше мотивацией, вводит следующие категории языков:
1. Языки — 7ü: оценка 0-9,99, низкая компьютеризация язык;
2. Языки - ц: оценка 10-13,99, промежуточный этап развития;
3. Языки - т: оценка 14-20, хорошее обеспечение языка информационными ресурсами.
Согласно данной классификации, Бермент называет малоресурсными категорию языков - тс, оценка которых меньше 10 баллов. Оценка, на основе которой предлагается производить данную классификацию, рассчитывается на основании заполнения экспертами специальной таблицы, пример заполнения которой для бирманского языка приведен в таблице 2. Экспертам предлагается задать вес для 14 критериев и оценить степень развития языка по данным критериям. Полученная оценка для бирманского языка, равная 5,46, позволяет причислить его к малоресурсным языкам и говорить о слабой информатизации данного языка.
Таблица 2 - Таблица расчета оценки обеспеченности бирманского языка
технологиями и ресурсами
Сервисы/ресурсы Коэффициент (0-10) Значение (0-20) Сумма баллов (коэффициент * значение)
Обработка текстов
Простой ввод 10 16 160
Просмотр / печать 10 16 160
Поиск и замена 8 0 0
Выделение текста 8 16 128
Лексикографическая сортировка 6 0 0
Проверка орфографии 4 0 0
Проверка грамматики ^ - 4 0 0
Проверка стилистики 2 0 0
Обработка речи
Синтез речи 2 0 0
Распознавание речи 2 0 0
Перевод
Автоматический перевод > - 6 0 0
Распознавание символов
Оптическое распознавание символов 8 0 0
Ресурсы
Двуязычные словари 8 0 0
Использование словарей 4 0 0
Зсего т 82 - 448
Средний балл 448 / 82 - 5,46
1.1.2 Основные проблемы исследований малоресурсных языков
Сам принцип обособления множества малоресурсных языков, как языков с недостаточным развитием информационных ресурсов, свидетельствует о трудности применения к ним стандартных подходов распознавания речи, ^снованных во многом на специально подготовленных и размеченных массивах текстовых и речевых корпусов. При создании данных корпусов необходимо совместное участие ученых-фонетистов, лингвистов, алгоритмистов. Однако для малоресурсных языков редким является случай наличия эксперта в области языка (лингвиста, фонетиста), обладающего необходимыми техническими знаниями и навыками для участия в процессе создания программных средств распознавания речи на родном для него языке.
Учеными отмечается недостаток исследований, описывающих необходимые для учета при распознавании аспекты малоресурсных языков. Также существует недостаток научной литературы, которую можно было бы использовать на начальном этапе создания акустических и лингвистических моделей, необходимых для распознавания. В связи с этим во многих случаях для начала работ по созданию систем распознавания речи бывает оправдано выбрать близкий язык, для которого доступно большее количеств ресурсов. Далее, осуществляется попытка установить необходимые взаимосвязи между аппаратами языков и ответить на вопросы о применимости имеющихся подходов к распознаванию данного конкретного языка. Всё это, наряду с трудностями сбора текстовых и речевых данных, делает проблему создания программных средств распознавания речи на малоресурсных языках мультидисциплинарной, технически и научно сложной.
1.1.3 Анализ технологий анализа речи для малоресурсных языков
Первый наиболее заметный рост числа исследований в области анализа малоресурсных языков был отмечен в 90е годы 20 века. Именно в это время впервые осуществляются попытки использовать уже созданные системы распознавания речи для анализа малоресурсных языков. Так, например, были
т
использованы для анализа других языков системы следующих компаний [77]:
IBM [32], BBN [28], Cambridge [102], Philips [38], MIT [43], LIMSI [55]. Известная
" » »
в области распознавания речи компания Dragon ещё в 1996 году в своей работе [23] привела результаты экспериментов по использованию своих систем распознавания для анализа английского, французского, немецкого, итальянского и испанского языков. Результаты свидетельствовали о применимости схожих методик распознавания речи для разных языков, что открывало перспективы использования лучших образцов систем распознавания для анализа множества малоресурсных языков. Однако в то же время исследователи сделали вывод о том, что, во-первых, качество распознавания для разных языков существенно отличается, а во-вторых, при решении сложной задачи распознавания слитной речи качество работы для множества языков оказалось очень низким.
Первые результаты подчеркнули, в первую очередь, важность создания качественных акустических моделей для новых анализируемых языков. Опыт по созданию речевых баз, их разметке и анализу для крупнейших мировых языков Свидетельствовал о высокой стоимости, сложности и продолжительности данных работ. Поэтому возросло число исследований, направленных на упрощение процесса создания акустических моделей, которые можно было бы использовать для распознавания новых языков. Одним из возникших подходов стало создание и использование языконезависимых акустических моделей в качестве начального приближения для новых языков. Языконезависимость данных моделей
подразумевает под собой способность данных моделей описывать акустические
* ?
особенности языков, вошедших в обучающую выборку. Именно такие языконезависимые модели, построенные на данных доступных в большом объёме речевых корпусов, оказались наилучшим образом применимы для адаптации к моделированию новых малоресурсных языков [77]. Для адаптации при этом используется имеющееся небольшое количество речевых фрагментов целевого языка.
В настоящий момент ^ро.ектами, направленными на развитие технологий адаптации акустических моделей распознавания, занимаются все ведущие центры
*
речевых технологий мира, среди которых проекты Университета Карлсруе, Университет Карнеги Меллон. На постоянной основе проводятся специализированные конференции (SLTU [88, 89, 90], COLING [16]) и отдельные секции конференции (Interspeech [15]), посвященные исключительно проблемам создания речевых технологий для малоресурсных языков.
Анализ тематик научных работ последних лет позволяет выделить 'несколько основных направлений развития технологий для малоресурсных языков:
1. Создание программных средств распознавания речи для малоресурсных языков, создание новых специфичных для данной группы языков алгоритмов.
1.1. Использование данных другого языка (out-of-language data) для улучшения качества распознавания малоресурсного языка. Например, исследование по улучшению качества распознавания языка Afrikaans за счет
ЗГ у
использования в качестве основы корпусов для немецкого языка [49]. Для полного сравнения были использованы различные векторы признаков речи, а также разные подходы к построению акустических моделей. В результате применения данного подхода было продемонстрировано 12%-ое улучшение качества работы за счет использования речевых данных на немецком языке.
1.2. Использование специфических для языка базовых единиц при создании акустических, лингвистических и лексических моделей для языка Amharic (Эфиопия) позволило улучшить результат, полученный на основе классического трифонного подхода [84].
1.3. Решение проблемы создания текстовых корпусов для малоресурсных языков за счет использования текстовых корпусов конкретной предметной области на другом языке и применении алгоритмов машинного перевода [35].
1.4. Для группы малоресурсных языков с богатой морфологией и со свободным порядком слов предложены подходы построения языковых моделей [50, 83].
1.5. Созданы программные средства распознавания речи с очень большим словарем слов для русского языка, которые после нескольких модификаций могут быть применены для распознавания восточнославянских языков [51].
2. Вопросы использования существующих программных средств распознавания и анализа речи в контексте малоресурсных языков.
2.1. Создание расширяемой архитектуры программных средств распознавания речи для мобильных устройств. В работе [20] предлагается использование клиент-серверного приложения для распознавания эстонского языка в устройствах на базе операционной системы Android.
2.2. Развитие методов, которые позволяют осуществлять перенос
*" с*
ресурсов с одного языка на другой, являются составными частями некоторых подходов по созданию программных средств распознавания речи. Наиболее важным направлением является создание текстовых корпусов на основе уже имеющихся, для чего необходимо развитие корректных моделей машинного перевода, учитывающих различие в исходном и целевом языках [52].
На настоящий момент крупнейшими мировыми центрами в области речевых технологий созданы- программные инструменты, облегчающие и автоматизирующие те или иные процессы создания систем распознавания речи. Выделим основные особенности существующих на данный момент проектов в области автоматизации процесса создания систем анализа речи:
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах2023 год, кандидат наук Аксёнов Александр
Информационный поиск речевых документов на основе модели с фонемным представлением содержания2019 год, кандидат наук Татаринова Александра Геннадьевна
Математические модели морфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений1984 год, доктор технических наук Бондаренко, Михаил Федорович
Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи2016 год, кандидат наук Меденников Иван Павлович
Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных2003 год, кандидат технических наук Ронжин, Андрей Леонидович
Список литературы диссертационного исследования кандидат наук Хусаинов, Айдар Фаилович, 2014 год
1. Амиргалиев, E.H., Мусабаев, P.P. Разработка методов и алгоритмов синтеза речи на примере казахского языка [Текст] / E.H. Амиргалиев, P.P. Мусабаев. // Математический журнал. - 2010. - №3(37). - С.20-28.
2. Беллман, Р. Динамическое программирование [Текст] / Р. Беллман. - М.: Иностранная литература, I960. -400 с.
3. Бондарко, JI.B.. Спонтанная речь и организация системы языка [Текст] / J1.B. Бондарко. // Бюллетень фонетического фонда русского языка. - СПб: Бохум. - 2001. - С.17-23.
4. Викисловарь. Раздел на каталонском языке [Электронный документ]. http://ca.wiktionary.org/wiki/Portada [Дата обращения: 25.08.2013]
5. Винцюк, Т.К. Распознавание слов устной речи методами динамического программирования [Текст] / Т.К. Винцюк. // Кибернетика. - 1968. - № 1. - С.81-88.
6. Голосовой поиск [Электронный документ]. URL: http://www.google.com/insidesearch/features/voicesearch/index-chrome.html [Дата обращения: 21.08.2012]
7. Карпов, A.A. Модели и программная реализация распознавания русской ^ечи на основе морфемного^анализа: дис. канд. техн. наук: 05.13.11 [Текст] / Алексей Анатольевич Карпов. - СПб., 2007. - 132 с.
8. Кипяткова, И.С., Карпов, A.A. Разработка и исследование статистической модели русского языка [Текст] / И.С. Кипяткова, A.A. Карпов. // Труды СПИИРАН. -2010. - Вып. 1(12). С.35-49.
9. Лаборатория распознавания и синтеза речи [Электронный документ].
URL: http://ssrlab.by/ [Дата обращения: 10.03.2011]
* if
10. Ожегов, С.И. Словарь русского языка [Текст] / Под. ред.
Н.Ю. Шведовой. - М.: Русский язык, 1989. 611с.
11. Онлайн переводчик Google [Электронный документ]. URL: http://translate.google.ru/about/intl/ru_ALL [Дата обращения: 21.08.2012]
12. Сажок, Н.Н. Кластеризация слов при построении лингвистической модели для автоматического распознавания речевого сигнала [Текст] / Н.Н. Сажок. // Кибернетика if вычислительная техника. - 2012. - вып. 170. С.59-66.
13. Синтез и распознавание речи. Компания «Сакрамент» [Электронный документ]. URL: http://www.sakrament.com / [Дата обращения: 10.03.2011]
14. Центр речевых технологий [Электронный документ]. URL: http://www.speechpro.ru / [Дата обращения: 10.03.2011]
15. 12th Annual Conference of the Speech Technology for Under-Resourced Languages. International Speech Communication Association. Interspeech 2011, Florence [Electronic resource]. URL: http://www.interspeech2011.org/specialsessions/ss-7.html [Дата обращения: 15.04.2012]
16.24th International Conference on Computational Linguistics [Electronic resource]. URL: http://portal.aclweb.org//content/24th-international-conference-iomputational-linguistics [Датагоб.ращения: 18.01.2014]
17. Abbasov, A., Fatullayev, R., Fatullayev, A. HMM-based large vocablary continuous speech recognition system for Azerbaijani / A. Abbasov, R. Fatullayev, A. Fatullayev. // Proceedings of PCI - 2010. - Baku, 2010, - Vol.1, - P.23-26.
18. Ablimit, M. Uyghur Morpheme-based language models and ASR / M. Ablimit, G. Neubig, M. Mimura, S. Mori, T. Kawahara, A. Hamdulla. // IEEE 10th International Conference on Signal Processing (ICSP). - Beijing, China, 2010. - P.581-
* -V f
584.
19. Aggarwal, R.K., Dave, M. Acoustic modelling problem for automatic speech recognition system: advances and refinements (Part II) / R.K. Aggarwal, M. Dave. // International Journal of Speech Technology. - Springer, 2011. - no. 14. -P.309-320.
20. Alumae, Т., Kaljurand, K. Open and extendable speech recognition application architecture for mobile environments / Tanel Alumae, Kaarel Kaljurand. //
SLTU'12: 3rd International Workshop on Spoken Language Technologies for Under-resourced Languages. - Cape Town, South Africa, 2012. - P. 15-18.
21. Analysis of Dysphonia in Speech and Voice (ADSV™) [Electronic resource].
URL:
http://www.kaypentax.com/index.php?option=com_product&view=product&Itemid=3 &controller=product&cid[]=129&task=pro_details [Дата обращения: 20.08.2013]
22. Audacity: software for recording and editing sounds [Electronic resource]. URL: http://audacity.sourceforge.net [Дата обращения: 17.08.2013]
23. Barnett, J. Multilingual speech recognition at Dragon Systems / J. Barnett, A. Corrada, G. Gao, L. Gillik, Y. Ito, S. Lowe, L. Manganaro, B. Peskin. // Fourth International Conference ICSLP. - Philadelphia, 1996. - Vol.4. - P.2191-2194.
24. Benesty, J., Sondhi, M.M., Huang, Y. Springer Handbook of Speech Processing / Jacob Benesty, M.M. Sondhi, Yiteng Huang. - New York: Springer, 2008. - 1176p.
25. Berment, V. Me'thodes pour informatiser des langues et des groups de langues peu dote'es.: Ph.D. Thesis, J. Fourier University. - Grenoble I, 2004.
26. Besacier, L., Barnard, E., Karpov, A., Schultz, T. Automatic speech recognition for under-resourced languages: A survey / Laurent Besacier, Etienne Barnard, Alexey Karpov, Tanja Schultz. // Speech Communication archive. - North-Holland, 2014. - Vol. 56. - P.85-100.
27. Bhanuprasad, K., Svenson, M. Errgrams - a way to improving ASR for highly inflective Dravidian languages / K. Bhanuprasad, M. Svenson. // 3rd International Joint Conf. on Natural Language Processing IJCNLP'08. - India, 2008. - P.805-810.
28. Billa, J. Multilingual speech recognition: the 1996 Byblos Callhome system / J. Billa, K. Ma, J. McDonough, G. Zavaliagkos, D.R. Miller, K.N. Ross, A. El-JaroudiEurospeech. // ESCA Eurospeech. - Rhodes, 1997. - P.363-366.
29. Chen, F. Goodman, J. An empirical study of smoothing techniques for language modeling. Computer speech and language (1999). 13, - P.359-394. [Electronic resource]. URL: http://www.ideallibrary.com [Дата обращения: 02.07.2012]
~ . 155
л» *
30. Chen, F., Jokinen, К. Speech Technology: Theory and Applications / Fang Chen, Kristina Jokinen. - New York: Springer, 2010. - 358p.
31.CMU Spice [Electronic resource]. URL: http://csl.ira.uka.de/spice/Text.php [Дата обращения: 15.05.2013]
32. Cohen, P. Towards a universal speech recognizer for multiple languages / P. Cohen, S. Dharanipragada, J. Gros, M. Monkowski, C. Neti, S. Roukos, T. Ward. //
* •я -
Automatic Speech Recognition and Understanding (ASRU). - St.Barbara, CA, 1997. -P.591-598.
33. Computerized Speech Lab (CSL), Model 4150B [Electronic resource]. URL: http://www.kaypentax.com/index.php?option=com_product&view=product&Itemid=3 &controller=product&cid[]=73&task=pro_details [Дата обращения: 20.08.2013]
34. Creutz, M. Morph-based speech recognition and modeling of out-of-yocabulary words across languages / M. Creutz, T. Hirsimaki, M. Kurimo, A. Puurula, J. Pylkkonen, V. Siivola, M. Varjokallio, E. Arisoy, M. Saraclar, A. Stolcke. // ACM Transactions on Speech and Language Processing. - 2007. - Vol.5(l). - Article No3.
35. Cucu, H., Buzo, A., Besacier, L., Burileanu, C. SMT-based ASR domain adaptation methods for under-resourced languages: Application to Romanian / Horia Cucu, Andi Buzo, Laurent Besacier and Corneliu Burileanu. // Speech Communication archive. - North-Holland, 2014. - Vol.56.-P. 195-212.
36. Deller, R. Jr., Hansen" H. L., Proakis, G. Discrete -Time Processing of Speech Signals / John R. Deller, Jr., John H.L. Hansen, John G. Proakis. - Wiley-IEEE Press, 1999.-936p.
37. Dragon Naturally Speaking Premium Edition [Electronic resource]. URL: http://www.nuance.com/for-individuals/by-product/dragon-for-pc/premium-version/index.htm [Дата обращения: 04.04.2013]
38. Dugast, С., Aubert, X., Kneser, R. The Philips large-vocabulary recognition
*
system for American English, French, and German / C. Dugast, X. Aubert, R. Kneser. // Eurospeech. - Madrid, 1995. - P. 197-200.
39. Finegan, Ed. Language: Its Structure and Use: 5th ed / Edward Finegan. -Boston, MA, USA: Thomson Wadsworth, 2007. 348p.
40. Furui, S. Recent advances in spontaneous speech recognition and understanding / Sadaoki Furui. // IEEE Workshop on Spontaneous Speech Processing and Recognition. - Tokyo, 2003. - P. 1-6.
? 41. Gales, M.J.F. Discrin%:.nntive models for speech recognition / M.J.F. Gales. // ITA Workshop. - University San Diego, USA, 2007.
42. Ghai, W., Singh, N. Literature Review on Automatic Speech Recognition / Wiqas Ghai, Navdeep Singh. // International Journal of Computer Applications. -Foundation of Computer Science (USA), 2012. - Vol.41(8).
43. Glass, J. Multilingual spoken language understanding in the MIT Voyager system / J. Glass, G. Flammia, D. Goodine, M. Phillips, J. Polifroni, S. Sakai, S. Seneff, V. Zue. // Speech Communication! - North-Holland, 1995. - Vol.17. - P. 1-18.
44. Gruhn, R.E., Minker, W., Nakamura, S. Statistical Pronunciation Modeling for Non-Native Speech Processing 2011 [Electronic resource]. URL: http://www.springer.com/engineering/signals/book/978-3-642-19585-3 [Дата обращения: 09.03.2012]
45. Hahn, S., Vozila, P., Bisani, M. Comparison of Grapheme-to-Phoneme Methods on Large Pronunciation Dictionaries and LVCSR Tasks / Stefan Hahn, Paul Vozila, Maximilian Bisani. // Interspeech 2012, ISCA. - Portland, OR, USA, 2012. -P.2537-2540.
46. Hermansky, H. History of modulation spectrum / Hynek Hermansky. // International Conference on Acoustics, Speech, and Signal Processing - ICASSP. -Dallas, TX, United States, 2010. -P.5458-5461.
47. Hermansky, H., Wellis, D., Sharma, S. Tandem connectionist feature extraction for conventional HMM systems / H. Hermansky, D. Wellis, S. Sharma. // ICASSP. - Istanbul, Turkey, 2000. -P.1635-1638.
48. Huang, Ch. Accent modeling based on pronunciation dictionary adaptation for large vocabulary Mandarin speech recognition / Chao Huang, Eric Chang, Jianlai Zhou, Kai-Fu Lee. // INTERSPEECH. - Beijing, China, 2000. -P.818-821.
49. Imseng, D, Motlicek, P., Bourlard, H., Garner P.N. Using out-of-language data to improve an under-resourced speech recognizer / David Imseng, Petr. Motlicek,
Herve' Bourlard and Philip N. Garner. // Speech Communication. - North-Holland, 2013. - Vol.56. - P. 142-151.
50. Karpov, A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling / Alexey Karpov, Konstantin Markov, Irina Kipyatkova, Daria Vazhenina and Andrey Ronzhin. // Speech Communication. - North-Holland, 2013.- Vol.56. -P.213-228.
51. Karpov, A., Kipyatkova, I., Ronzhin, A. Speech recognition for East Slavic
languages: the case of Russian / A. Karpov, I. Kipyatkova, A. Ronzhin. // 3rd
$ *
International Workshop on Spoken Languages Technologies for Under-resourced Languages SLTU'2012. - Cape Town, RSA, 2012. - P.84-89.
52. Khalilov, M. English-Latvian SMT: The Challenge of Translating Into A Free Word Order Language / Maxim Khalilov, José A.R. Fonollosa, Inguna Skadina, Edgars Bràlltis, Lauma Pretkalnina. // SLTU'10. -Penang, Malaysia, 2010. -P.87-94.
53. Krauwer, S. The basic language resource kit (BLARK) as the first milestone tor the language resources roadf.iap / S. Krauwer. // International Workshop Speech and Computer SPEECOM. - Moscow, Russia, 2003. - P.8-15.
54. Kurimo, M. Unlimited vocabulary speech recognition for agglutinative languages / M. Kurimo, A. Puurula, E. Arisoy, T. Alumae, M. Saraclar. // HLT-NAACL. - NY, USA, 2006. -P.487^194.
55.Lamel, L., Adda-Decker, M., Gauvain, J.L. Issues in large vocabulary multilingual speech recognition / L. Lamel, M. Adda-Decker, J.L. Gauvain. // Eurospeech. - Madrid, 1995. - P. 185-189.
56. Lewis, M. Paul, Gaiy F. Simons, Charles D. Fennig (eds.). Ethnologue: Languages of the World. Seventeenth edition. Dallas, Texas: SIL International. 2013 [Electronic resource]. URL: http://www.ethnologue.com. [Дата обращения: ]
57. Liu, W. Weisheng, H.. Improved Viterbi algorithm in continuous speech recognition / Wei Liu, Han Weisheng. // Computer Application and System Modeling ¿ICCASM). -Taiyuan, China, 2010. - Vol.7. -P.207-209.
58. Manning, C.D. Foundations of Statistical Natural Language Processing / C.D. Manning, H. Schutze. - Cambridge, Massachusetts: MIT - Press, 1999. - 704p.
■С .
59. Martin, S., Liermann, J., Ney, H. Algorithms for bigram and trigram word clustering / S. Martin, J. Liermann, H. Ney. // Eurospeech. - Madrid, 1995. - Vol.2. -P.1293-1256.
60. Milner, B. A Comparison of Front-End Configurations for Robust Speech Recognition / B.Milner. // In International Conference on Acoustics, Speech and Signal Processing. - Orlando, USA, 2tf02.' - Vol.1. - P.797-800.
61. Mori, R., De, Brugnara, F. HMM methods in speech recognition. Survey of the state of the art in human language technology / Renato De Mori, Fabio Brugnara. -New York, NY, USA: Cambridge University Press, 1997. - P.21-30.
62. Multi-Dimensional Voice Program (MDVP), Model 5105 [Electronic resource]. URL: http://www.kaypentax.com/index.php?option=com_product&Itemid=3&controller=pro duct&taskHearn^ore&cidn^e [Дата обращения: 20.08.2013]
63. Multi-Speech, Model 3700 [Electronic resource]. URL: http://www.kaypentax.corn/index.php?option=:com_product&view=product&Itemid=3 &controller=product&cid[]=57&task=pro_details [Дата обращения: 20.08.2013]
64. Nakagawa, S. Development of large vocabulary continuous speech recognition system for Mongolian language / Seiichi Nakagawa, Turmunkh Erdenebat, Hiroshi Kibishi, Kengo Ohfe", - Yasuhisa Fujii, Masatoshi Tsuchiya, Kazumasa Yamamoto. // SLTU'12. - Monkey Valley Resort, South Africa ,2012.
65. Nanjo, H., Kawahara, T. A new ASR evaluation measure and minimum Bayes-risk decoding for open-domain speech understanding / H. Nanjo, T. Kawahara. // IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP-2005. - PA, USA, 2005. - P. 1053-1056.
66. OGI corpus [Electronic resource]. URL:
14 !?
http://www.cs.cmu.edu/~tanja/GlobalPhone/index-e.html [Дата обращения: 14.04.2013]
67. Open-Source Large Vocabulary CSR Engine Julius [Electronic resource]. URL: http://julius.sourceforge.jp/en_index.php [Дата обращения: 10.02.2012]
68.Praat: doing phonetics by computer [Electronic resource]. URL: http://www.fon.hum.uva.nl/praat/ [Дата обращения: 15.02.2012]
69. Processing Speech Recognition Results With Wit.AI [Electronic resource]. URL: http://cmusphinx.sourceforge.net/ [Дата обращения: 23.08.2013]
70. Radha, V., Vimala, C., Krishnaveni, M. Continuous Speech Recognition system for Tamil language using monophone-based Hidden Markov Model / V. Radha, C. Vimala, M. Krishnaveni. // Second International Conference on Computational Science, Engineering and Information Technology. - New York, NY, USA ©2012. -P.227-231.
71. Robeiko, V., SazhokJ:,M . Real-time spontaneous Ukrainian speech recognition system based on word acoustic composite models / V. Robeiko, M. Sazhok. // UkrObraz 2012. -Kyiv, 2012. -P.77-81.
72. Ronzhin, A., Karpov, A. Russian Voice Interface / A. Ronzhin, A. Karpov. // Pattern Recognition and Image Analysis, Springer. - 2007. - Vol. 17(2). - P.321-336.
73. Sak, H., Saraclar, M., Gu"ngo"r, T. Morphology-based and sub-word language modeling for Turkish speech recognition / H. Sak, M. Saraclar, T. Gu"ngo"r. // fCASSP. - Dallas, TX, United States, 2010. - P.5402-5405.
74. Sazhok, M., Robeiko. V. Language Model Comparison for Ukrainian RealTime Speech Recognition System / M. Sazhok, V. Robeiko. // SPECOM 2013. -Switzerland, 2013. - P.211 -218.
75. Scannell, K.P. The Crubadan Project: Corpus building for under-resourced languages / Kevin P. Scannell. // Building and Exploring Web Corpora.
WAC3 sommairel. - Cahiers du Cental. - 2007. - Vol. 4. P.5-16.
- t? -
76. Schlippe, Т., Ochs, S., Schultz, T. Grapheme-to-phoneme model generation for Indo-European languages / Tim Schlippe, Sebastian Ochs, Tanja Schultz. // ICASSP 2012. - Kyoto, Japan, 2012. -P.4801-4804.
77. Schultz, Т., Waibel, A., Mellon, C. Language Independent and Language Adaptive Acoustic Modeling for Speech Recognition / Tanja Schultz, Alex Waibel, Carnegie Mellon. // Speech communication. - North-Holland, 2001. - Vol.35. - P.31-51. « •
* 78. Speech Recognition^ Grammar Specification Version 1.0 [Electronic resource]. URL: http://www.w3.org/TR/speech-grammar/ [Дата обращения: 01.04.2013]
79. Srinivasan, A. Speech Recognition Using Hidden Markov Model / A. Srinivasan. // Applied Mathematical Sciences. - Bulgaria: Hikari Ltd, 2011. -Vol.5(79). - P.3943-3948.
80. Statistical Language Modeling Toolkit [Electronic resource]. URL: iittp://www.speech.cs.cmu.edu/.?;LM/toolkit.htmI [Дата обращения: 09.11.2011]
81. Stevens, S. A scale for the measurement of the psychological magnitude pitch / Stevens, Stanley Smith; Volkman; John; Newman, Edwin B. // Journal of the Acoustical Society of America. - American Institute of Physics, 1937. - Vol.8(3). -P.185-190.
82. Stolcke, A. Cross-domain and cross-lingual portability of acoustic features estimated by multilayer perceptrons / A. Stolcke, F. Grezl, M.-Y. Hwang, X. Lei, N. Morgan, D. Vergyri. // ICASSP2006. - Toulouse, France, 2006. - P.321-324.
83. Tachbelie, M.Y., Abate, S.T., Menzel, W. Morpheme-based automatic speech recognition for a morphologically rich language - Amharic / Martha Yifiru Tachbelie, Solomon Teferra Abate, Wolfgang Menzelln. // SLTU'10. - Penang, Malaysia, - P.68-73.
84. Tachbelie, M.Y., Teferra, A.S., Besacier, L. Using different acoustic, lexical and language modeling units _for ASR of an under-resourced language. Amharic / Martha Yifiru Tachbelie, Solomon Teferra Abate and Laurent Besacier. // Speech Communication archive. - North-Holland, 2014. - Vol.56. - P. 181-194.
85. Talktyper. Free speech to text dictation software in a browser [Электронный документ]. URL: http://talktyper.com/ [Дата обращения: 15.03.2012]
86. Tarjan, В., Mihajlik, P. On morph-based LVCSR improvements / B. Tarjan, P. Mihajlik. // 2nd International Workshop on Spoken Language Technologies for Under-resourced languages SL'fU -2010. - Malaysia, 2010. - P.10-16.
87. Tazti 3.2.0 speech recognition software [Electronic resource]. URL: http://www.tazti.com/index.php [Дата обращения: 16.03.2012]
88. The first International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU). Hanoi University of Technology, Vietnam, 2008 [Electronic resource]. URL: http://www.mica.edu.vn/sltu/index.php?pid=ll [Дата обращения: 02.07.2013]
89. The second Internationa] Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU'10). University Sains Malaysia (USM), Penang, Malaysia, 2010 [Electronic resource]. URL: http://www.mica.edu.vn/sltu-2010/index.php [Дата обращения: 02.07.2013]
90. The third International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU'12). Monkey Valley Resort, Cape Town, South Africa, 2012 [Electronic resource]. URL: http://www.mica.edu.vn/sltu2012/index.php [Дата обращения: 02.07.2013]* '
91. The US NIST 2009 (RT-09) Rich Transcription Meeting Recognition Evaluation Plan [Electronic resource]. URL: http://www.itl.nist.gov/iad/mig/tests/rt/2009/docs/rt09-meeting-eval-plan-v2.pdf [Дата обращения: 02.07.2013]
92. The World Wide Web Consortium [Electronic resource]. URL:
http://www.w3.org / [Дата обращения: 01.04.2013]
* •
93. Types of Speech Recognition [Electronic resource]. URL: http://www.lumenvox.com/resources/tips/types-of-speech-recognition.aspx [Дата обращения: 03.03.2013]
94. Uoung, S.J., Evennann, G. The НТК Book (Version 3.4) / S.J. Young, G. Evermann, M.J.F. Gales, D. Kershaw, X. Liu, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev and P.T. Woodland. - Cambridge University, 2006. - 360p.
95. Virtanen, T. Techniq*ss for noise robustness in automatic speech recognition / Tuomas Virtanen, Rita Singh, Bhiksha Raj. - John Wiley & Sons, Ltd, 2012. - 514p.
96. Voice Search arrives in 13 new languages. Google Official Blog [Электронный документ], http://googleblog.blogspot.be/2012/08/voice-search-arrives-in-13-new-languages.html [Дата обращения: 10.11.2012]
97. Vries, N.J. de A smartphone-based ASR data collection tool for under-resourced languages / Nic J. de Vries, Marelie H. Davel, Jaco Badenhorst, Willem D.
Г7 y. e
Basson, Febe de Wet, Etienne Barnard and Alta de Waal. // Speech Communication. -North-Holland, 2014. - Vol.56. - P.l 19-131.
98. Weber, B. MISTRAL+: Dedicated Tool for Under-Resourced Languages Study / Benoit Weber, Genevieve Caelen, Do Dat Tran and Binh Hai Pham. // SLTU'12: 3rd International Workshop on Spoken Language Technologies for Under-resourced Languages. - Cape Town, South Africa, 2012. - P. 15-18.
99. Whittaker, E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English.: PhD thesis. - Cambridge University, 2000. -140p.
100. Yandex SpeechKit [Electronic resource], URL: http://api.yandex.ru/speechkit/ [Дата обращения: 15.01.2014]
101. Young, S., Kershaw, D., Odell, J., OHason,D., Valtchev,V., Woodland, Ph. The НТК Book [Electronic resource]. URL: bttp://nesl.ee.ucla.edu/projects/;«4adge/docs/ASR/htk/htkbook.pdf [Дата обращения: 29.05.2011]
102. Young, S.J. Multilingual large vocabulary speech recognition: The European SQALE project / S.J. Young, M. Adda-Decker, X. Aubert, C. Dugast, J.L. Gauvain, D.J. Kershaw, L. Lamel, D.A. Leeuwen, D. Pye, A J. Robinson, H.J.M. Steeneken, P.C. Woodland. // Computer Speech and Language. - Elsevier, 1997. - Vol.l 1. - P.73-89.
103. Zahra, A. Carsori-Berndsen, J. LIMA: A Spoken Language Identification Framework / Amalia Zahra, Julie Carson-Berndsen. // SPECOM, 2013. - Pilsen, the Czech Republic, 2013. - P.211-218.
104. Zwicker, E. Subdivision of the audible frequency range into critical bands / E. Zwicker // The Journal of the Acoustical Society of America. American Institute of Physics, 1961. - Vol.33(2). -P.48-248.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.