Информационный поиск речевых документов на основе модели с фонемным представлением содержания тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Татаринова Александра Геннадьевна
- Специальность ВАК РФ05.13.17
- Количество страниц 145
Оглавление диссертации кандидат наук Татаринова Александра Геннадьевна
ВВЕДЕНИЕ
ГЛАВА 1. Анализ методов поиска речевой информации
1.1 Введение
1.2 Методы поиска речевой информации
1.2.1 Поиск речевой информации без распознавания речи
1.2.2 Поиск речевой информации с распознаванием речи
1.3 Модели поиска речевой информации
1.3.1 Булева модель
1.3.2 Векторная модель
1.3.3 Вероятностная модель
1.3.4 Языковая модель
1.3.5 Классификация моделей поиска речевой информации
1.3.6 Общая схема поиска речевых документов
1.4 Сравнение слов
1.4.1 Текстовое сравнение слов
1.4.2 Фонетическое сравнение слов
1.4.3 Классификация методов поиска по способу сравнения слов
1.5 Фонемное транскрибирование
1.5.1 Классификация алгоритмов фонемного транскрибирования
1.5.2 Графемно-фонемное выравнивание
1.6 Системы поиска речевой информации
1.7 Показатели эффективности поиска
Выводы
ГЛАВА 2. Разработка метода текстового поиска речевых документов
2.1 Постановка задачи
2.2 Распознавание спонтанной слитной речи
2.3 Анализ алгоритмов приближённого сравнения слов
2.4 Булева модель на основе приближённого сравнения слов
2.5 Векторная модель на основе приближённого сравнения слов
2.6 Вероятностная модель на основе приближенного сравнения слов
Выводы
ГЛАВА 3. Разработка метода фонемного поиска речевых документов
3.1 Постановка задачи
3.2 Фонемное транскрибирование
3.2.1 Понятие фонемы
3.2.2 Алгоритм фонемного транскрибирования на основе дерева
альтернатив
3.2.3. Рекуррентный алгоритм фонемного транскрибирования
3.2.4 Алгоритм фонемного транскрибирования на основе скрытой марковской модели
3.3 Оценка вероятностей фонем
3.3.1 Графемно-фонемное выравнивание на основе правил
2
3.3.2 Графемно-фонемное выравнивание на основе алгоритма DTW
3.3.3 Расширение алфавита фонем и подсчет условных вероятностей
3.4 Меры сходства фонем
3.5 Расширенный алгоритм нахождения наибольшей общей подстроки
3.6 Производительность алгоритмов фонемного транскрибирования
3.7 Анализ эффективности фонемного поиска
Выводы
ГЛАВА 4. Реализация программной модели
4.1 Архитектура программной модели
4.2 Основные компоненты системы
4.2.1 Классы моделей
4.2.2 Распознавание
4.2.3 Языковая модель
4.2.4 Клиентская сторона системы поиска
4.3 Обучающий словарь
4.4 Разработка тестовой коллекции
Выводы
ЗАКЛЮЧЕНИЕ
Список используемой литературы
Приложение 1а
Приложение 1б
Приложение
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи2011 год, кандидат технических наук Кипяткова, Ирина Сергеевна
Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации2017 год, кандидат наук Ниценко, Артём Владимирович
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Разработка алгоритмов для распознавания речи1999 год, кандидат технических наук У Вэньцань
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Введение диссертации (часть автореферата) на тему «Информационный поиск речевых документов на основе модели с фонемным представлением содержания»
ВВЕДЕНИЕ
Актуальность. Исторически, первые информационно-поисковые системы (ИПС) были ориентированы, в основном, на обработку документов текстового формата. Однако, широкое распространение профессиональных и бытовых технических устройств, таких как: видео- и фотокамеры, смартфоны и т.п., позволяющих создавать, хранить и распространять контент медиа-формата в совокупности с быстрым развитием информационно-коммуникационных систем привели, начиная с 90-х годов XX века, к взрывному росту количества документов с мультимедийным, в том числе и речевым содержанием. Представление информации посредством речи при использовании компьютерных технологий является более удобным для восприятия по сравнению с текстом. Примерами мультимедийных документов с речевым содержанием (МДРС) являются радио- и видео-новости, аудиокниги, записи докладов конференций и, в последнее время, образовательные ресурсы в виде аудио- и видео-лекций, интерактивные учебные фильмы и мультимедийные методические разработки.
Поиск речевой информации находится на пересечении таких научных областей как обработка естественного языка (Natural Language Processing, NLP) и цифровая обработка сигналов (Digital Signal Processing, DSP). Анализу проблем в области поиска речевой информации и разработке методов их решения посвящено большое количество как отечественных (Галунов В.И., Карпов А.А., Кипяткова И.С., Потапова Р.К., Савченко В.В., Утробин В.А., Фархадов М.П., Хейдоров И.Э.) так и зарубежных (Glass J., Hauptmann A., Jones G.J.F., Rose R.C., Spark-Jones K., Wechsler M., Zue V.W.) научных исследований.
Часть исследований посвящена поиску речевой информации на низком уровне, использующем только акустические признаки речевого сигнала. К недостаткам такого подхода можно отнести высокую зависимость от состояния
ВВЕДЕНИЕ
и параметров речи диктора. Обработка речевого сигнала только по акустическим признакам не позволяет учесть лингвистическую информацию.
Большая часть исследований связана с разработкой методов поиска речевой информации на основе автоматического распознавания речи (АРР). В процессе АРР речевой сигнал обрабатывается на акустическом, фонемном и языковом уровнях. Использование лингвистической информации снижает влияние вариабельности параметров речи дикторов, таких как интонация, темп, на качество распознавания речи, а значит повышает эффективность поиска речевой информации при условии произношения речи различными дикторами. Основным недостатком использования АРР является наличие ошибок распознавания, которые искажают полученное содержание речевой информации. В качестве причин появления ошибок распознавания выступают различные факторы, например, такие как зашумлённость сигнала, наличие акцента у диктора. Также традиционно распознавание происходит по ограниченному словарю слов. Поэтому отдельно стоит выделить ошибки. связанные с распознаванием несловарных слов - Out-Of-Vocabulary (OOV) проблема. Способы решения OOV проблемы связаны с изменением единиц распознавания речи от слов на подслова (^^АУ^-признаки, морфемы, N граммы) или фонемы, что приводит к усложнению моделей, используемых при распознавании, значительному увеличению времени распознавания, а также снижению точности распознавания слов входящих в словарь распознавания. Поэтому актуальной является научно-практическая задача разработки и исследования моделей и методов информационного поиска речевых документов по содержанию, позволяющих снизить влияние ошибок распознавания речи, с целью повышения эффективности поиска.
Объектом исследования являются тексты, полученные в результате автоматического распознавания содержания речевых документов.
Предметом исследования являются модели и алгоритмы поиска речевых документов по содержанию.
Целью работы является повышение эффективности поиска речевых документов путём разработки модели информационного поиска на основе фонемного представления содержимого речевых документов и запросов пользователя.
Для достижения указанной цели поставлены и решены следующие задачи:
• анализ и классификация моделей информационного поиска речевых документов;
• разработка векторной модели информационного поиска речевых документов, в том числе:
о разработка функции релевантности основанной на нечетком сравнении слов при текстовом или фонемном представлении слов,
о разработка механизма ранжирования речевых документов по релевантности, оценивание которой выполняется по их текстовому и фонемному представлениям;
• разработка метода фонемного поиска речевых документов, в том числе:
о разработка алгоритмов фонемного транскрибирования, использующих вероятностные характеристики букв и фонем, полученные на основе обучающего словаря, о разработка меры близости фонем, используемой при
сравнении фонемных транскрипций слов, о разработка алгоритма графемно-фонемного выравнивания;
• составление тестовой коллекции, содержащей речевые документы на русском языке;
ВВЕДЕНИЕ
• разработка программной модели системы информационного поиска речевых документов на основе разработанных алгоритмов;
• экспериментальные исследования влияния разработанных моделей и алгоритмов фонемного транскрибирования, графемно-фонемного выравнивания на эффективность информационного поиска речевых документов по запросу.
Методы исследования. Для решения поставленных в работе задач используются методы алгебры, математической статистики, теории вероятностей, теории информации, теории графов и динамического программирования.
Научная новизна диссертационной работы:
1. Предложен метод информационного поиска речевых документов по содержанию, отличающийся алгоритмом сравнения слов по фонемным транскрипциям и использованием вероятностной меры сходства фонем.
2. Предложена вероятностная мера сходства фонем, используемая при сравнении фонемных транскрипций слов и отличающаяся: описанием фонем посредством условных распределений графем, ассоциированных со сравниваемыми фонемами (тогда как известные подходы основаны на описании фонем в виде векторов акустических признаков); способом количественной оценки указанной меры сходства на основе расстояния Кульбака-Лейблера.
3. Разработана модель поиска речевых документов, использующая функцию релевантности на основе приближенного сравнения слов при их текстовом и/или фонемном представлении, в отличие от существующих моделей, основанных на точном сравнении слов. Модель позволяет частично учитывать ошибки распознавания слов в речевых документах, что повышает эффективность поиска при низком качестве распознавания речи.
ВВЕДЕНИЕ
4. Разработан рекуррентный алгоритм фонемного транскрибирования текстовых последовательностей на основе математического аппарата конечных цепей Маркова.
Соответствие диссертации паспорту специальности. Работа соответствует паспорту специальности 05.13.17 - «Теоретические основы информатики» по техническим наукам в пунктах: п.2 - «Исследование информационных структур, разработка и анализ моделей информационных процессов и структур» и п.5 - «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений».
Обоснованность и достоверность результатов диссертационной работы подтверждается полученными в результате эксперимента значениями эффективности поиска по коллекции речевых документов, составленной из реальных данных, и обеспечиваются корректным использованием математического аппарата.
Практическая значимость работы. Полученные в диссертационной работе теоретические и практические результаты показывают:
- повышение средней точности поиска при использовании приближённого сравнения слов по фонемным транскрипциям на основе 2-связной цепи Маркова относительно приближенного поиска, реализованного в сторонней библиотеке Lucene, в среднем на 4% и системы поиска ключевых слов речевых документов VoiceDigger на 0,5%;
- повышение средней точности поиска речевых документов от 1% до 15% при использовании разработанного алгоритма фонемного транскрибирования на основе многосвязной цепи Маркова относительно алгоритма фонемного транскрибирования на основе скрытых марковских моделей при искажении и замене слов в результате распознавания;
ВВЕДЕНИЕ
- целесообразность использования приближенного сравнения слов на основе фонемных транскрипций для поиска речевых документов по содержанию при низком качестве распознавания речи;
- эффективность применения математического аппарата многосвязных дискретных цепей Маркова для построения фонемных транскрипций при информационном поиске речевых документов по содержанию.
Реализация и внедрение результатов работы. Теоретические и практические результаты, полученные при выполнении диссертационной работы, использованы в НИР по темам «Разработка и исследование интеллектуальной системы информационного поиска и анализа тональности текстовых и речевых документов» (проект РФФИ № 16-07-00342а), «Разработка и исследование словарей оценочной лексики для анализа тональности текстов» (государственное задание Минобрнауки России, проект № 34.2092.2017/4.6); внедрены в АО «НИИ СВТ» (г. Киров) в виде технических предложений при доработке автоматизированного комплекса информационного анализа материалов на базе перспективных технологий обработки неструктурированной информации. Разработанная система поиска речевых документов зарегистрирована в Реестре программ для ЭВМ, свидетельство № 2015617364 от 08.07.2015 г. Разработанный программный модуль фонемного транскрибирования на основе нелинейного рекуррентного алгоритма зарегистрирован в Реестре программ для ЭВМ, свидетельство № 2018660458 от 23.08.2018 г.
Апробация работы. Основные результаты докладывались и обсуждались на следующих конференциях: международной конференции «15th IEEE East-West Design & Test Symposium» (Сербия, Нови-Сад, 2017); международной конференции «9th IEEE International Conference on Application of Information and Communication Technologies» (Ростов-на-Дону, 2015); международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2013);
ВВЕДЕНИЕ
всероссийской научно-практической конференции «Общество, наука, инновации» (Киров, 2013-2017).
Основные положения, выносимые на защиту:
1. Модель информационного поиска на основе текстового и фонемного представления содержания речевых документов позволяет повысить эффективность поиска по коллекции документов при низком качестве распознавания речи.
2. Алгоритмы приближенного сравнения слов, отличающиеся от традиционных использованием фонемных транскрипций, обеспечивают снижение влияния ошибок распознавания речи на эффективность поиска речевых документов.
3. Рекуррентный алгоритм фонемного транскрибирования на основе оценки апостериорной вероятности состояний многосвязной цепи Маркова.
4. Результаты экспериментальных исследований.
Публикация результатов. По результатам исследования опубликовано 19 работ, в том числе: 4 статьи в рецензируемых научных изданиях, рекомендуемых ВАК, 3 статьи в издательствах, индексируемых в базе Web of Science и Scopus. Получено 2 свидетельства официальной регистрации программы для ЭВМ.
Личный вклад автора. Автору принадлежит разработка методов текстового и фонемного поиска речевых документов по текстовому запросу, алгоритмов фонемного транскрибирования и меры сходства фонем. Автор принимал непосредственное участие в программной реализации алгоритмов.
Структура и объем работы. Диссертация состоит из введения, четырёх глав, списка использованной литературы из 119 наименований. Общий объем работы составляет 145 страниц текста, 43 рисунка и 35 таблиц.
ГЛАВА 1. Анализ методов поиска речевой информации ГЛАВА 1. Анализ методов поиска речевой информации
Поиск речевой информации находится на пересечении таких научных областей как обработка сигналов и обработка естественного языка. В данной главе даны основные понятия, представлена общая схема информационно-поисковых систем речевой информации, приведены типы ошибок распознавания и классификация моделей поиска. Проведён сравнительный анализ описанных методов поиска, а также сделан обзор систем поиска речевой информации.
1.1 Введение
Широкое распространение профессиональных и бытовых технических устройств, таких как: видео- и фотокамеры, смартфоны и т.п., которые позволяют создавать, хранить и распространять контент медиа-формата, в совокупности с быстрым развитием информационно-коммуникационных систем [1] привели к взрывному росту количества документов с мультимедийным, в том числе с речевым содержанием. Примерами мультимедийных документов с речевым содержанием (МДРС) являются радио-и видео-новости, аудиокниги, записи докладов конференций и, в последнее время, образовательные материалы в виде аудио- и видео-лекций, интерактивные учебные фильмы и мультимедийные методические разработки [2].
Задача поиска МДРС в широком смысле относится к т.н. области поиска
речевой информации (Spoken Content Retrieval, SCR) [3, 4]. Анализу проблем в
области SCR и разработке методов их решения посвящено большое количество
как зарубежных [3-11, 17-26, 37-40], так и отечественных [12-16, 27-36]
научных исследований. В общем случае SCR задача заключается в определении
«соответствия содержания» речевого сигнала текстовому или устному запросу
пользователя. Понятие «соответствие содержания» может подразумеваться как
11
ГЛАВА 1. Анализ методов поиска речевой информации
семантическое (смысловое) сходство, так и обнаружение слов запроса в произносимой речи. В первом случае говорят о семантическом поиске речевой информации (Semantic Retrieval of Spoken Content), во втором - об обнаружении речевых терминов (Spoken Term Detection, STD). Существует задача обнаружения ключевых слов (Keyword Spotting, KWS), которая отличается от задачи STD тем, что поиск ключевых слов выполняется по запросам, составленным из слов заранее заданного множества, настроенного для поиска по конкретным речевым данным [4, 16, 17]. Отдельно выделяется поиск документов с речевым содержанием, соответствующих запросу пользователя, и называется Spoken Document Retrieval (SDR) [3, 6, 11]. Также существует голосовой поиск (Voice Search), который заключается в поиске по тексту при устном запросе [18].
Таким образом, существует три вида поиска, связанного с обработкой речевой информации:
• поиск речевой информации по текстовому запросу,
• поиск речевой информации по устному запросу,
• поиск по тексту при устном запросе.
Рассмотрим основные методы поиска речевой информации по запросу пользователя.
1.2 Методы поиска речевой информации
Выделяют две группы методов поиска речевой информации [4]. Первая группа методов представляет поиск речевых документов на акустическом уровне. При этом существенным недостатком является недоступность лингвистической информации на акустическом уровне обработки речевой информации. Методы второй группы заключаются в поиске по содержанию, полученному в результате автоматического распознавания спонтанной слитной речи. Трудность поиска по распознанному содержанию речевых документов
заключается в возможном наличии ошибок распознавания.
12
ГЛАВА 1. Анализ методов поиска речевой информации
Начальная обработка речевой информации, независимо от используемого метода, состоит в извлечении акустических признаков речевого сигнала.
1.2.1 Поиск речевой информации без распознавания речи
Поиск речевой информации без распознавания речи заключается в использовании акустических признаков для определения степени соответствия слов запроса пользователя словам, произносимых в обрабатываемом речевом сигнале. Методы поиска такого подхода обычно применяются при устном запросе на естественном языке [4, 19-24]. Акустические признаки извлекаются непосредственно из оцифрованной версии аудио-сигнала. Слова, произносимые в речевых документах и слова запроса, сравниваются на «низком» уровне.
Сравнивать два речевых сигнала, соответствующих документу и запросу, без распознавания фонетических и лингвистических единиц позволяет широко известный алгоритм динамической трансформации временных рядов (Dynamic Time Warping, DTW) [25]. Посредством алгоритма DTW определяется оптимальное соответствие между речевым документом и устным запросом на акустическом уровне. Сопоставление выполняется непосредственно между речевыми сигналами или последовательностями, состоящими из векторов энергетических, спектральных (мел-кепстральные коэффициенты - MFCC), статистических (коэффициенты линейного предсказания) или других параметров фрагментов речевых сигналов. Алгоритм DTW относится к алгоритмам динамического программирования и позволяет вычислить меру отличия двух временных рядов в виде расстояния в евклидовой метрике. Существуют различные модификации алгоритма DTW для поиска речевой информации, которые учитывают различие темпа произношения слов в устном запросе и речевом документе, например [20].
При сопоставлении речевых последовательностей на основе алгоритма DTW не учитывается лингвистическая информация, содержащаяся в речевом сигнале. Поэтому использование алгоритма DTW может приводить к
пропускам ключевых слов в том случае, если акустические характеристики голоса диктора МДРС (частота основного тона, темп речи, отношение гармоник основного тона к шуму и т.д.) существенно отличаются от акустических характеристик голоса пользователя ИПС при устном запросе.
Можно также отметить метод поиска [4], в которых, вместо распознавания фонетических или лингвистических единиц речи на основе акустической модели, требующей обучения по размеченным вручную данным, выполняется автоматическая кластеризация и обобщение признаков речевого сигнала. Сходные кластеры формируют «акустические паттерны». Речевые сигналы делятся на кадры, каждый из которых характеризуется распределением апостериорных вероятностей полученных акустических паттернов. Описанный способ параметризации также позволяет использовать алгоритм DTW для поиска МДРС.
Отсутствие этапа АРР в методах данного подхода позволяет исключить влияние ошибок распознавания речи на эффективность поиска ключевых слов. С другой стороны использование только акустических признаков приводит к необходимости учитывать высокую вариабельность и статистическую избыточность, зависимость от состояния и параметров речи диктора [16] при поиске. Поиск только на основе акустических признаков не позволяет учесть лингвистическую информацию произносимых слов в речевом сигнале.
1.2.2 Поиск речевой информации с распознаванием речи
Методы данного подхода ориентированы на восстановление произнесенных в речевых документах слов путём автоматического распознавания речи (АРР). В результате АРР акустический сигнал преобразуется в последовательность слов, что позволяет при поиске учитывать языковую структуру распознанных слов и фраз. Использование лингвистической информации снижает влияние различающихся параметров речи дикторов на эффективность поиска в целом [26]. Чаще всего методы
ГЛАВА 1. Анализ методов поиска речевой информации
поиска на основе АРР применяются при текстовом запросе пользователя, но могут использоваться и при устном [4].
Речевой сигнал складывается из звуков (аллофонов), произношение и представление которых зависит от фонетического окружения, качества записи речи, дикции говорящего, коартикуляции и прочих условий, что приводит к высокой вариабельности речевых сигналов и усложняет задачу распознавания [26].
Распознавание речи выполняется последовательно на нескольких уровнях [15]. Результаты текущего уровня являются входными данными для следующего. Для решения задачи распознавания обычно используются скрытые марковские модели (Hidden Markov Models, HMM) или нейронные сети [3, 4, 15]. Соответствие извлеченных акустических признаков аллофонам задается акустической моделью. Последовательности аллофонов определяют фонемные транскрипции, характеризующие произношение слов «в среднем». Затем выбираются возможные варианты произнесенных слов по словарю, содержащем слова с фонемными транскрипциями, также называемый лексиконом. Окончательный вариант распознавания слова определяет используемая языковая модель (N-граммная статистическая модель языка) или грамматика (набор правил), которые накладывают ограничения на возможные последовательности слов в конкретном языке. Приемлемое качество распознавания достигается использованием большого объёма акустической, языковой моделей и лексикона, что значительно увеличивает вычислительные затраты на обработку данных.
Также существует метод АРР, использующий теорию активного восприятия [27] из области обработки изображений, который применим в условиях априорной неопределённости множества акустических признаков [28, 29].
Отдельно можно выделить метод фонетического декодирования слов [30], позволяющий исключить на этапе предобработки акустического сигнала
процедуру динамического выравнивания слов по темпу речи диктора, что повышает скорость распознавания. Данный метод опирается на информационную теорию восприятия речи [31], основной которой служит критерий минимального информационного рассогласования и кластерная модель речевых единиц [32-34]. Информационная теория восприятия речи применима во многих приложениях обработки и анализа речи [35, 36].
Основным недостатком использования АРР для поиска речевой информации является наличие ошибок распознавания, которые искажают содержание речевых документов и снижают эффективность поиска в целом [6]. Качество распознавания при этом зависит от акустических параметров речевого сигнала (например, шум, темп речи, интонация, акцент), а также от разнообразия произносимых слов.
Особый случай при распознавании представляют слова, не входящие в лексикон. Проблема распознавания несловарных слов известна в литературе под названием «Out-Of-Vocabulary» (OOV) [3, 6], один из способов решения которой заключается в распознавании составных частей слов. В качестве распознаваемых частей могут выступать CVC/VCV-признаки [7, 37], N-граммы [10, 11] или морфемы [38]. Такой способ позволяет снять ограничение на множество распознаваемых слов лексикона. Но при этом требуется определение взаимосвязей между распознаваемыми единицами так, чтобы распознанная последовательность частей представляла слово, являющимся основной единицей языка и представляющим сложное смысловое, звуковое и грамматическое единство, каждая из сторон которого не может существовать изолированно [12]. В результате усложняются модели, значительно увеличивается время распознавания, а также снижается точность распознавания входящих в лексикон слов.
Иногда распознанные слова (части слов) представляют вместо последовательности посредством ориентированного графа, содержащего несколько вариантов распознавания [14, 39]. Узлы такого графа соответствуют
16
словам (частям слов), а дуги - значениям вероятности перехода к следующему узлу. Данный граф называется решёткой (lattice).. Обычно одна решётка соответствует нескольким вариантам распознавания одной фразы или документа в целом. Заметим, что при большом количестве вариантов результатом распознавания может стать некорректная последовательность слов.
Другим способом решения OOV-проблемы является распознавание речи в последовательность фонем [6, 40], используя фонемную модель языка, при этом общая точность распознавания обычно ниже, чем при традиционном подходе.
Возможно после распознавания речи в текст выполнение последующего фонемного транскрибирования [11], заключающееся в преобразовании слова, записанного в виде последовательности букв, в последовательность фонем, отображающую произношение этого слова. Транскрибирование может выполняться по словарю фонемных транскрипции, например, для английского языка - по словарю произношений от университета Карнеги-Меллон [41] или на основе правил [6].
На рисунке 1.1 приведены форматы представления результата АРР.
Рисунок 1.1 - Форматы представления результата АРР
ГЛАВА 1. Анализ методов поиска речевой информации
Поиск происходит по распознанному содержанию речевых документов. Запрос пользователя преобразуется в формат представления распознанного содержания (Рисунок 1.1). В процессе поиска оценивается соответствие содержания речевых документов запросу пользователя. Основной трудностью определения соответствия, как отмечалось выше, является возможное наличие ошибок распознавания.
Выделяют следующие типы ошибок распознавания:
• изменение части слова
(например, бивалютный ^ валютный, информации ^ информация);
• замена слова
(например, олимпийском ^ политическом, этого ^ итогам);
• разбиение слова
(например, обеспечения ^ на посещении, босую ^ бас волю);
• объединение слов и предлогов (союзов)
(например, в студии ^ вступил, сочи и ^ случае).
Определение соответствия выполняется на основе различных алгоритмов сравнения, использующие, например, УСУ-признаки, расстояние Левенштейна, К-граммы фонем. Алгоритм сравнения может учитывать вероятности ошибок распознавания фонем, полученные при фонемном распознавании обучающего множества данных, для которого распознанные фонемные последовательности выровнены с эталонными. Другим примером является алгоритм, использующий соответствующие сегментам речевых документов решётки слов, который оценивает правдоподобие появления слова в речевом документе.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Исследование методов и разработка алгоритмов обработки сигналов для систем автоматического распознавания телефонной речи в республике Йемен2019 год, кандидат наук Аль-Дайбани Абдулгани Мохаммед Салех
Распознавание звучащей русской речи в теоретическом и экспериментальном освещении: семейные, возрастные и гендерные аспекты лингвистической идентификации личности2013 год, кандидат наук Грачев, Александр Михайлович
Разработка алгоритмов построения оценок достоверности для систем распознавания речи2008 год, кандидат технических наук Нгуен Минь Туан
Исследование и разработка методов автоматического синтеза речи по фонемному тексту1984 год, доктор технических наук Лобанов, Борис Мефодьевич
Звуковая форма современного бурятского языка: Теоретические и практические аспекты качественного и количественного анализа2003 год, доктор филологических наук Раднаева, Любовь Дашинимаевна
Список литературы диссертационного исследования кандидат наук Татаринова Александра Геннадьевна, 2019 год
Список используемой литературы
Список используемой литературы
1. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск // М.-Спб.-К.: изд-во Вильямс, 2011. - 520 с.
2. Шемончук Д.С. Разработка и исследование методов улучшения функционала сетевых мультимедийных порталов в сфере управления образовательными процессами: дис. Москва, канд. тех. наук, МИЭМ, 2009.
3. Larson M., Jones G. J. F. Spoken Content Retrieval: A Survey of Techniques and Technologies // Foundations and Trends in Information Retrieval - Vol. 5, Nos. 4-5 (2011) - pp. 235-422.
4. Lee L.-s., Glass J., Lee H.-y, Chan C.-a. Spoken content retrieval - beyond cascading speech recognition with text retrieval // IEEE ACM Transactions on Audio, Speech and Language Processing, vol.23., no.23. - 2015. - pp.1389-1420.
5. Brown M., Foote J., Jones G., Jones K.S., Young S. Open-vocabulary speech indexing for voice and video mail retrieval // ACM Multimedia conference, Boston. -1996.
6. Wechsler M., Munteanu E., Schauble P. New Approaches to Spoken Document Retrieval // Information Retrieval, v.3. - 2000. - pp.173-188.
7. Glavitsch U., Schauble P. A system for retrieving speech documents // In Proceedings of ACM. SIGIR. - 1992. - pp. 168-176.
8. Rose R.C. Techniques for Information Retrieval from Speech Messages // The Lincoln Laboratory Journal - vol. 4. - 1991.
9. Hauptmann A. Automatic spoken document retrieval // 2006. -http://repository.cmu.edu/compsci/960/
10. Ng K., Zue V. Subword Unit Representations for Spoken Document Retrieval // Proceedings of Eurospeech 97. - 1997. - pp. 1607-1610.
11. Ng C., Wilkinson R., Zobel J. Experiments in spoken document retrieval using phoneme N-grams // Speech Communication, vol.32. - 2000. - pp. 61-77.
Список используемой литературы
12. Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н. Общая и прикладная фонетика // М.: Изд-во МГУ. - 1997.
13. Мазуренко И.Л. Компьютерные системы распознавания речи. Интеллектуальные системы, т.3. вып. 1-2 - Москва, 1998 г. - C. 117-134
14. Янь Цзинбинь, Хейдоров И.Э., Ткаченя А.А. Исследование характеристик системы поиска ключевых слов на основе минимального интервала редактирования и мер доверительности // Речевые технологии -2009. - С. 5-14.
15. Кипяткова И.С., Ронжин А.Л.б Карпов А.А. Автоматическое распознавание русской речи // СПИИРАН. - СПб: ГУАП. - 2013. - 314 с.
16. Гусев М.Н. Методы и модели распознавания русской речи в информационных системах: дисс. СПб., д-ра. тех. наук, СПб ГУТ, 2014.
17. A. Moyal et al., Phonetic Search Methods for Large Speech Databases // SpringerBriefs in Electronical and Computer Engineering. - 2013.
18. Wang Y.-Y., Yu D., Ju Y.-C., Acero A. An Introduction to Voice Search // IEEE Signal Process. Mag., vol. 25, no. 3, - 2008. - pp. 28-38.
19. Zhang Y., Glass J. R. Unsupervised Spoken Keyword Spotting via Segmental DTW on Gaussian Posteriorgrams // in Proc. ICASSP. - 2010. - pp.398403.
20. Anguera X., Ferrarons M., Memory Efficient Subsequence DTW for Query-by-Example Spoken Term Detection // in Proc. ICME. - 2013. - pp. 1-6.
21. Chan C.-A., Lee L.-s. Unsupervised hidden Markov modeling of spoken queries for spoken term detection without speech recognition // in Proc. Interspeech. -2011.
22. Wang H., Leung C.-C., Lee T., Ma B., Li H. An acoustic segment modeling approach to query-by-example spoken term detection // in Proc. ICASSP. - 2012. -pp. 5157-5160.
Список используемой литературы
23. Chan C.-a., Lee L.-s. Model-based unsupervised spoken term detection with spoken queries // IEEE Trans. Audio, Speech, Lang. Process. - vol.21., no.7. - 2013. -pp. 1330-1342.
24. Chung C.-T., Chan C.-a., Lee L.-s. Unsupervised spoken term detection with spoken queries by multi-level acoustic patterns with varying model granularity // IEEE Acoustics, Speech and Signal Processing (ICASSP). - 2014. -http://ieeexplore.ieee.org/document/6855121
25. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition // IEEE Trans. Acoust., Speech, Signal Process. - vol. ASSP-26, no.1. - 1978. - pp.43-49.
26. Цзуэ В.В. Лингвистический подход к автоматическому распознаванию речевых сигналов // ТИИЭР. - т.73, №11. - 1985.
27. Утробин В.А. Введение в теорию активного восприятия // Датчики и системы. - 2013. - № 7 (170). - С. 34-39.
28. Гай В.Е. Информационный подход к описанию звукового сигнала // Труды Московского физико-технического института. - 2014. - Т. 6. № 2 (22). -С. 167-173.
29. Гай В.Е., Утробин В.А., Лукьянчикова А.В., Поляков И.В Распознавание изолированных речевых команд с позиций теории активного восприятия // Системы управления и информационные технологии. - 2015. -Т. 61. № 3. - С. 75-79.
30. Савченко В.В., Савченко А.В. Метод фонетического декодирования слов в информационной метрике Кульбака - Лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием // Информационно-управляющие системы. - 2013. - № 2 (63). -С. 7-12.
31. Савченко В.В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - Т. 6. - С. 3-8.
Список используемой литературы
32. Савченко В.В. Фонема как элемент информационной теории восприятия речи // Известия вузов России. Радиоэлектроника. - 2008. - Т. 4 -С. 3-10.
33. Савченко В. В., Акатьев Д. Ю. Адаптивная кластерная модель минимальных речевых единиц в задачах анализа и распознавания речи // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. - 2013. - № 2. - С. 323334.
34. Савченко В.В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - Т. 4. -С. 35-42.
35. Савченко В.В., Акатьев Д.Ю. Информационная технология речевого профайлинга // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. - 2017. - Т. 42. № 9 (258). -С. 157-165.
36. Акатьев Д.Ю. Информационная система фонетического анализа речи в задачах обучения языку и постановки произношения // Информационные технологии моделирования и управления. - 2013. - № 4 (82). - С. 379-385.
37. Glavitsch U. The First Approach to Speech Retrieval // 1995. - URL: http://e-collection.library.ethz.ch/eserv/eth:3328/eth-3328-01.pdf
38. Rotovnik T. et al. Large Vocabulary Continuous Speech Recognition of an Inflected Language using Stems and Endings // SPECOM. - Volume 49, Issue 6. -2007. - pp. 437-452.
39. Chia T.K., Sim K.C., Li H., Ng H.T. Statistical lattice-based spoken document retrieval // ACM Transactions on Information Systems (TOIS). - Vol.28, N. 1. - 2010.
40. Ng K., Zue V. Phonetic recognition for spoken document retrieval // In Proceedings of ICASSP 98. - 1998. - pp. 325-328.
Список используемой литературы
41. Carnegie Mellon University Pronouncing Dictionary, 1995. - URL: http://www.speech.cs.cmu.edu/cgi-bin/cmudict.
42. E. Greengrass «Information Retrieval: A Survey» // 2000. - URL: https://www.csee.umbc.edu/csee/research/cadip/readings/IR.report.120600.book.pdf
43. Сегалович И.В. Как работают поисковые системы // Мир Internet. 2002. № 10. С. 24-32.
44. Robertson S.E. Sparck J.K. Relevance weighting of search terms // Journal of the American Society for Information Science 27, 129-46 (1976). URL: http://www. staff.city. ac.uk/~sb317/pubs.html
45. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing and Management. 1988. - Vol. 24, N. 5. -pp. 513-523.
46. Huang C-L., Hori C. Semantic Context Inference for Spoken Document Retrieval Using Term Association Matrices // IEEE International Conference on Acoustic, Speech and Signal Processing. - 2014. - pp.4144-4148.
47. Sidorov G., Gelbukh A., Gómez-Adorno H., Pinto D. Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model // Computacióny Sistemas. 2014. V. 18, N 3.
48. Rijsbergen C.J., Information Retrieval // 2nd ed. London. - 1979. - pp. 208.
49. Robertson S.E. The Probability Ranking Principle in IR // Journal of Documentation. - v.33. - 1977. - pp.294-304.
50. Robertson S.E., Rijsbergen van C.J., Porter M.F. Probabilistic models of indexing and searching // In R.N. Oddy: Information Retrieval Research, Butterworths. - 1981. - pp. 35-56.
51. Ponte J. M., Croft W. B. A language modeling approach to information retrieval // in Proc. SIGIR. - 1998.
52. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности // М.: Финансы и статистика, 1989.
Список используемой литературы
53. Bilenko M., Mooney R., Cohen W., Ravikumar P. and Fienberg S. Adaptive name matching in information integration // IEEE Intelligent Systems. - 2003
54. Cohen W. W., Ravikumar P., Fienberg S. E. A comparison of string distance metrics for name matching tasks // In Proc. IJCAI-03 Workshop on Information Integration on the Web. - 2003.
55. Гасфилд Д. Строки, деревья и последовательности в алгоритмах / Пер. с англ. - Спб: изд-во Невский диалект, 2003. - 653 с.
56. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест, Рональд Л., Штайн Клиффорд Алгоритмы: построение и анализ // 3-е издание. Пер. с англ. -М.:Издательский дом «Вильямс». - 2014. - 1328 с.
57. Knuth D. Morris J.H., Pratt J.V. Fast pattern matching in strings // SIAM Journal on Computing 6 (2). - 1977. - pp. 323-350.
58. Boyer R. S., Moore J. S. A fast string searching algorithm // Comm. ACM 20 - 1977. - pp. 762-772.
59. Aho A.V., Corasick M.J. Efficient string matching: An aid to bibliographic search // Communications of the ACM. - V. 18, No 6. 1975. - pp. 333-340.
60. Karp R.M.; Rabin M.O. Efficient randomized pattern-matching algorithms //IBM Journal of Research and Development. - 31 (2). - 1987. - pp. 249—260.
61. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР - 1965.
62. Wagner R.A., Fischer M.J. The string-to-string correction problem // J. ACM 21 - 1974. - P. 168-173.
63. Damerau F.J. A technique for computer detection and correction of spelling errors // Communications of the ACM (ACM) - 7 (3). - 1964. - pp. 171-176.
64. Jaro, M. A. Advances in record linkage methodology as applied to the 1985 census of Tampa Florida // Journal of the American Statistical Association. - 1989. -pp. 14-20.
65. Winkler W.E. The State of Record Linkage and Current Research Problems // Statistics of Income Division, Internal Revenue Service Publication - 1999.
137
Список используемой литературы
66. Ukkonen E. Approximate String-Matching with q-grams and Maximal Matches // Theoretical Computer Science - 1992. - pp. 191-211.
67. Tiskin A. Semi-local String Comparison: Algorithmic Techniques and Applications // Mathematics in Computer Science. - 2008, V. 1, № 4. - pp. 571-603.
68. Кнут Д. Э. Искусство программирования. Сортировка и поиск / под ред. В. Т. Тертышного (гл. 5) и И. В. Красикова (гл. 6). - 2-е изд. - Москва: Вильямс, 2007. - Т. 3. - 832 с.
69. Zobel J. Dart P. Phonetic string matching: lessons from information retrieval // In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '96) - 1996. - pp. 166172.
70. Tissot H., Peschl G., Fabro M. Fast Phonetic Similarity Search over Large Repositories // DEXA. - 2014. - pp. 74-81.
71. Каньковски П. «Как ваша фамилия?» или русский Metaphone. Программист. - №8, 2002. - С. 36-39.
72. Успенский В.А. Одна модель для понятия фонемы // Вопросы языкознания - № 6. - 1964. - С. 39-53.
73. Белоозеров В.Н. Формальное определение фонемы // Вопросы языкознания - № 6. - 1964. - С. 54-60.
74. Лингвистический энциклопедический словарь // URL: http: //tapemark.narod. ru/les/index. html
75. Кодзасов С.В., Кривнова О.Ф. Общая фонетика // Москва. - 2001.
76. Бондарко Л. В. Фонетика современного русского языка : учебное пособие для вузов / Л. В. Бондарко. - Санкт-Петербург: Изд-во СПбУ, 1998.
77. Bisani M., Ney H. Joint-sequence models for grapheme-to-phoneme conversion // SPECOM. - 2008.
78. Широкова А.М. Буквенно-звуковое преобразование в системах автоматической обработки речи // Структурная и прикладная лингвистика. СПб.: межвуз.сб. под редакцией Герда А.С.- вып.10. - 2014. - 384 с.
138
Список используемой литературы
79. Богданова Н.В. Живые фонетические процессы русской речи: пособие по спецкурсу // СПб. - 2001.
80. Кривнова О.Ф., Захаров Л.М., Строкин Г.С. Многофункциональный автоматический транскриптор русских текстов // Труды Международного конгресса исследователей русского языка. - М. - 2001.
81. Hunnicutt S. Grapheme-to-phoneme rules: A review // Speech Transmission Laboratory, Royal Institute of Technology, Stockholm, Sweden, QPSR 2-3. - 1980. -pp. 38-60.
82. Смирнов В.А., Гусев М.Н., Фархадов М.П. Функция лингвистического процессора в системе автоматического анализа неструктурированной речевой информации // Автоматизация и современные технологии. - № 8. - 2013. -С. 20-28.
83. Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект - 2008. - URL: http://www.nbuv.gov.ua/ portal/natural/ii/2008_4/JournalAI_2008_4/Razdel9/00_Kipyatkova_Karpova.pdf
84. Novak J., Minematsu N., Hirose K. WFST-based Grapheme-to-Phoneme Conversion: Open Sourse Tools for Alignment, Model-Building and Decoding // Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing. - 2012. - pp.45-49.
85. Text REtrieval Conference // URL: http://trec.nist.gov/
86. Brown M. G., Foote J. T., Jones G.J.F., Sparck K.J., Young S.J. Video Mail Retrieval by Voice: An Overview of the Cambridge:Olivetti Retrieval System // 1994. - URL: citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.18.1832&rep= rep1&type=pdf
87. Witbrock M., Hauptmann A.G. Speech Recognition and Information Retrieval: Experiments in Retrieving Spoken Documents // 1997. - URL: http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.137.8095&rep=rep1&type=pdf
Список используемой литературы
88. Logan B., Prasangsit P., Moreno P. Fusion of Semantic and Acoustic Approaches for Spoken Document Retrieval // 2003. - URL: http: //www.hpl. hp.com/techreports/2003/HPL-2003-55.pdf
89. Mamou J., Carmel D., Hoory R. Spoken Document Retrieval from Call-Center Conversations // 2006. - URL: http://researcher.watson.ibm.com/researcher /files/il-MAMOU/sigir06.pdf
90. Dharanipragada S., Franz M., Roukos S. Audio-Indexing for Broadcast News // in Proceedings of TREC6, 1997. - URL: http://citeseerx.ist.psu.edu/ viewdoc/summary? doi=10.1.1.50.7018
91. Система VoiceDigger // URL: https://www.speechpro.ru/product/sistemy-upravleniya-kachestvom-i-avtomatizatsii/voice-digger
92. Речевые технологии компании «Стэл - Компьютерные Системы» // URL: speech. stel. ru/main/технологии/поиск-ключевых-слов/
93. Решение 3i Technologies: комплексный анализ речевых сообщений большого объема // URL: http://3itech.ru/production/obrabotka-rechi/kompleksnyy-analiz-rechevykh-soobshcheniy-bolshogo-obema
94. Поиск ключевых слов в аудиозаписях компании Speech Drive // URL: http: //speech-drive. ru/analyze/
95. Smirnov V., Ignatov D., Gusev M., Farkhadov M., Rumyantseva N., Farkhadova M. A Russian Keyword Spotting System Based on Large Vocabulary Continuous Speech Recognition and Linguistic Knowledge // Journal of Electrical and Computer Engineering - 2016. URL: https://www.hindawi.com/journals/ jece/2016/4062786/
96. Common Evaluation Measures // URL: http://trec.nist.gov/pubs/trec10/ appendices/measures.pdf
97. Российский семинар по Оценке Методов Информационного Поиска // URL: http://romip.ru/
98. Утилита оценивания эффективности информационного поиска // URL: http: //trec .nist. gov/trec_eval/
Список используемой литературы
99. Основные принципы распознавания речи // URL: https: //cmusphinx.github. io/wiki/tutorialconcepts/
100. CMU Sphinx. Open Source Toolkit For Speech Recognition // URL: http://cmusphinx.sourceforge.net
101. Hatcher E., Gospodnetic O., McCandless M. Lucene in Action // URL: https://www.manning.com/books/lucene-in-action-second-edition
102. Lucene.NET // URL: https://www.nuget.org/ packages/Lucene.Net
103. Терехов С.А.. Введение в байесовы сети //Школа-семинар «Совр. пробл. нейроинформатики», 29-31 января 2003. МИФИ, Москва.-V Всеросс. конф. «Нейроинформатика-2003»/0тв.ред. Ю.В. Тюменцев - Часть I: Лекции по нейроинформатике. - М.: МИФИ, 2003. - 188 с. (149-186).
104. Doob J.L. Stochastic processes // New York: Wiley, 1990.
105. Kemeny J.G. Finite Markov chains // New York: Springer-Verlag, 1976.
106. Яншин В.В. Многосвязные цепи Маркова и их свойства // Радиотехника и электроника, Наука. - 1993. - Том 38. - № 6 - С. 1081-1091.
107. Прозоров Д.Е., Плетнёв К.В., Яшина А.Г. Апостериорная оценка состояний многосвязной цепи Маркова // Информация и космос. - 1(6), 2016. -URL: http: //openbooks. ifmo. ru/read/15422/15422. pdf
108. Рабинер Л.Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР. Т. 77, № 2. - 1989. - C. 86-120
109. Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. - Vol.22. № 1. - 1951. - pp. 79-86.
110. Accord.Net Framework // URL: http://code.google.com/p/accord/
111. Yandex SpeechKit // URL: https://tech.yandex.ru/speechkit/
112. Акустические и языковые модели русского языка // URL: https://sourceforge.net/projects/cmusphinx/files/Acoustic and Language Models/Russian/
113. Проект ru4sphinx // URL: https://github.com/zamiron/ru4sphinx
141
Список используемой литературы
114. Ляшевская О., Шаров С. Новый частотный словарь русской лексики // М: Азбуковник, 2009. - URL: http://dict.ruslang.ru/freq.php
115. Словари, созданные на основе национального корпуса русского языка // URL: http://dict.ruslang.ru/
116. Новости Первый канал // URL: https://www.1tv.ru/news
117. Проект FestLang // URL: http://sourceforge.net/projects/festlang.berlios
118. Коллекция radio_news // URL: https://goo.gl/4TzU8T
119. Утилита анализа текстовых корпусов AntConc // URL: http: //www.laurenceanthony.net/software. html
Приложение 1а
Свидетельство о государственной регистрации программы для ЭВМ
Приложение 1б
Свидетельство о государственной регистрации программы для ЭВМ
Приложение 2
Акт об использовании результатов диссертационной работы АО «НИИ СВТ»
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.