Модель и алгоритмы анализа и сегментации речевого сигнала

Конев, Антон Александрович

Модель и алгоритмы анализа и сегментации речевого сигнала тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Конев, Антон Александрович

Конев, Антон Александрович
кандидат технических наук
2007

Специальность ВАК РФ05.13.18

Количество страниц 142

Конев, Антон Александрович. Модель и алгоритмы анализа и сегментации речевого сигнала: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Самара. 2007. 142 с.

Оглавление диссертации кандидат технических наук Конев, Антон Александрович

Введение.

Глава 1. Подходы к моделированию системы речевосприятия.

1.1 Иерархическая структура языка и системы речевосприятия.

1.2 Структура речевого сигнала.

1.3 Структура параметрического описания речевого сигнала.

1.4 Особенности анализа структуры речевого сигнала в системе речевосприятия.

1.5 Постановка задачи.

Выводы по главе:.

Глава 2. Модель обработки речевого сигнала на периферической части слуховой системы.

2.1 Структура внутреннего уха.

2.2 Критические полосы и шкала частот.

2.3 Система фильтров.

2.4 Тело неопределенности.

2.5 Одновременная маскировка.

Выводы по главе:.

Глава 3. Сегментация речевого сигнала и измерение частоты основного тона.

3.1 Алгоритм определения наличия периодической структуры сигнала

3.2 Алгоритм сегментации речевого сигнала по наличию голосового источника.

3.3 Экспериментальные исследования алгоритма сегментации.

3.4 Исследование погрешности определения частоты основного тона.

Выводы по главе:.

Глава 4. Программный комплекс для исследования структуры речевых сигналов дикторов с патологиями речеобразующей системы.

4.1 Особенности голосообразования при заболеваниях гортани.

4.2 Существующие методы диагностики и лечения рака гортани.

4.3 Структура медико-технического комплекса по исследованию речевого сигнала при нарушениях голосообразования.

4.4 Экспериментальные исследования.

Выводы по главе:.

Введение диссертации (часть автореферата) на тему «Модель и алгоритмы анализа и сегментации речевого сигнала»

Анализ речевых сигналов применяется, прежде всего, при проектировании систем распознавания речи и идентификации дикторов.

Большой вклад в развитие речевых технологий внесли такие ученые, как: Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.

Одним из основных направлений создания систем распознавания является распознавание слов и фраз в диалоговых системах, а при наличии большого словаря (от 20000 слов) - в системах по распознаванию речи.

На сегодняшний день существует множество диалоговых систем, используемых в различных областях:

1. информационно-справочные службы (VCDMS, SPEECHLIS [70]);

2. банковские расчёты и оплата услуг по телефону [112];

3. управление компьютерами, роботами;

4. управление бытовыми приборами (Труффальдино [96]) и др.

Распознавание слитной речи и идентификация человека по голосу особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью.

Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов - от 26% до 38%, для лекционных залов - от 28% до 52%, для новостных передач - 9,9% [56]. Ещё одна проблема - отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.

Для русского языка на рынке существует считанное количество программных продуктов: Горыныч, Диктограф, VoiceCom (Труффальдино, DiVo), Sakrament ASR Engine.

У VoiceCom точность распознавания 98%. Подобное качество достигается при 100-200 команд с настройкой на диктора, 30-50 - без настройки [96].

Sakrament по заявленным характеристикам распознает слитную речь с максимальной точностью 95-98% [88]. Но качество распознавания зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, от уровня фонового шума, от параметров используемых каналов связи и характеристик микрофонов и т.д., что не позволяет данному продукту получить распространение.

В то же время системы распознавания речи для английского языка получили распространение, особенно в узкоспециализированных областях. У программного продукта Dragon NaturallySpeaking точность распознавания достигает 99%. Для надиктовки текста медицинской тематики создан Dragon NaturallySpeaking Medical. Также одним из лидеров рынка распознавания речи является IBM ViaVoice. Стоимость подобных программных продуктов в полной комплектации словарей составляет около 1000$ [114].

В распознавании речи используются различные методы:

1. скрытые марковские модели [44, 75];

2. динамическое программирование [1, 34];

3. нейронные сети [65, 71];

4. генетические алгоритмы [81].

Основным методом, используемым при распознавании, является применение скрытых марковских моделей (СММ) и основанных на нем алгоритмах: Витерби, Баума-Уэлша и др. [108, 109]. Но данный метод дает хорошие результаты только при небольших объемах словаря и достаточно коротких фразах. Например, SPIRIT [44] при тестировании на базе, состоящей из английских цифр, при распознавании изолированных цифр показал точность распознавания 99,9%, а при распознавании цепочек - 97,9%. Программа распознавания, представленная в [75], при тестировании на речевой базе, состоящей из 500 слов, показала надежность 87%.

Из зарубежных продуктов по идентификации диктора можно выделить: Anovea SVLib (3499$) [102]. Из российских систем идентификации наиболее популярна система экспресс-исследований фонограмм речи TPAJI-M, надежность которой изменяется в интервале 82-92% в зависимости от длительности сравниваемых сигналов и канала связи [96].

Еще одна область применения анализа речевых сигналов - выделение ключевых слов. Метод выделения ключевых слов - один из эффективных способов автоматического поиска фрагментов фонограмм в звуковых базах или звуковых потоках. Практическое применение продуктов, реализующих данный метод, может быть в системах национальной безопасности, телефонных сервисах, системах контроля качества, системах речевых фильтров и др.

Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка -это распознавание голосовых команд и синтез речи [91].

Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью и дальнейшей сегментацией на однородные участки.

Низкоскоростное кодирование складывается из двух основных процессов:

1. параметрическое представление речевого сигнала минимальным набором параметров, относящихся к определённому типу сегмента;

2. дискретизация параметров для их передачи по каналу связи при использовании минимальной ёмкости канала.

По имеющимся оценкам сегментное кодирование позволит снизить скорость передачи данных до 300 бит/сек [36]. Для сравнения - при скалярном квантовании сколько-нибудь удовлетворительное качество декодированной речи может быть достигнуто при скоростях более 2400 бит/сек, использование векторного квантования может понизить скорость до 800 бит/сек. Векторное квантование, используемое совместно с учётом динамики развития спектра во времени, может позволить передачу данных со скоростью около 400 бит/сек.

Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова [54, 79, 83].

Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона [55].

На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Ликлайдер, Молчанов, Фланаган и др. [13, 19, 57, 61, 77, 93]. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план.

В настоящее время вновь стали предприниматься попытки создания адекватной модели анализа речи на периферии слуховой системы [43, 46]. Это связано с тем, что многие исследователи считают наиболее перспективным подход к анализу речи, при котором учитываются особенности восприятия речи человеком, установленные в психоакустике. Так в [46] описан подход к первичной обработке сигнала, основанный на математической модели улитки. На необходимость использования моделей восприятия речи для построения систем автоматического распознавания указывает Галунов в работах [35, 37]. Соответственно, для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.

Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной и может быть использована в различных сферах: распознавании слитной речи, идентификации диктора по голосу, поиске ключевых слов в слитной речи, сжатии речевых сигналов, медицине при диагностике, а также реабилитации пациентов с патологиями органов речеобразования.

Цель исследований - построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.

Для достижения поставленной цели необходимо решить следующие задачи:

1. анализ особенностей слухового восприятия (по существующим литературным источникам);

2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;

4. исследование модели и алгоритмов;

5. сопоставление модели с имеющимися данными по функционированию слуховой системы.

Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.

Научную новизну, полученных в работе результатов определяют:

1. алгоритм и численные методы измерения частоты основного тона;

2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;

3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.

Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.

Положения, выносимые на защиту:

1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;

3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК). Результаты работы представлялись на: 11-й международной конференции «Речь и компьютер» (SPECOM'06, г. Санкт-Петербург); XVI и XVII сессиях Российского акустического общества (Москва, 2005 и 2006 гг.); Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов «Научная сессия ТУСУР'2005».

Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем - д.т.н., проф. В.П. Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений. Общий объем работы составляет 129 страниц, в том числе 58 рисунков и 19 таблиц.

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Конев, Антон Александрович

Выводы по главе:

1. Обосновано применение анализа речевых сигналов в сфере диагностики заболеваний органов речеобразования. Приведена классификация изменений, происходящих в органах речеобразования при раке гортани.

2. На уровне блоков и на уровне модулей представлена структура программного комплекса для исследования речевых сигналов, включая речевые сигналы дикторов с заболеваниями органов речеобразования.

3. Приведены результаты исследований, направленных на установление стадии заболевания при раке гортани.

ЗАКЛЮЧЕНИЕ

Данная работа направлена на решение задач, возникающих при построении систем распознавания речи, идентификации диктора, сжатия речевых сигналов, диагностики заболеваний органов речеобразования и реабилитации больных после полного удаления гортани. Использование разработанных модели и алгоритмов позволяет сегментировать речевой сигнал на вокализованные и невокализованные участки, а также выделять частоту основного тона. Предложенный подход к анализу речевых сигналов также может использоваться для диагностики заболеваний системы речеобразования.

Цель, выделенная для работы как: "построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека", достигнута по следующим разделам:

1. Обоснован подход к моделированию механизмов восприятия звуковых сигналов, основанный на построении модели периферической части слуховой системы человека.

2. Проанализированы экспериментальные данные по психоакустики восприятия и установлена на основе этих данных зависимость между шириной критических полос и частотной шкалой восприятия.

3. Предложено расширение системы фильтров - аналога основной мембраны внутреннего уха человека, определены параметры этой системы фильтров на основе установленной зависимости между шириной критических полос и частотной шкалой восприятия.

4. Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала.

5. Разработан алгоритм сегментации речевого сигнала по наличию голосового источника. Исследования алгоритма показали, что надежность его работы составляет 0,89-0,93.

6. Разработаны алгоритм и численные методы измерения частоты основного тона. Исследования алгоритма и методов показали, что погрешность измерения составляет не более 0,6%.

7. Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний органов речеобразования, в том числе рака гортани.

Анализ особенностей слухового восприятия показал, что на периферической части слуховой системы происходит предварительная обработка и предварительная сегментация речевого сигнала.

При моделировании механизмов восприятия звуковых сигналов был применен подход, основанный на модели черного ящика, т.е. адекватность модели устанавливалась по соответствию входных и выходных характеристик аналогичным характеристикам различных элементов слуховой системы.

Одним из основных моментов, позволяющих учитывать особенности восприятия, является установление зависимости между шириной критических полос и частотной шкалой восприятия, а также добротностью системы фильтров и шириной критических полос. На основе этих установленных зависимостей были уточнены параметры системы фильтров, реализующей внутреннее представление сигнала в координатах интенсивность-время-частота. За счет реализованного механизма одновременной маскировки, осуществлено выделение наиболее значимых для слуховой системы участков речевого сигнала.

Разработанный алгоритм сегментации на вокализованные и невокализованные участки позволяет проводить данную сегментацию в автоматическом режиме с надежностью 0,89-0,93. Относительное количество пропущенных границ составляет 0-0,03, а относительное количество лишних границ-0,04-0,11.

При этом надежность алгоритма не зависит от длительности речевого сигнала, от скачков частоты основного тона, от пола диктора, а также от языка диктора, что подтверждается анализом частоты встречаемости исследуемых классов звуков в различных языках.

Разработанные алгоритм и численные методы измерения частоты основного тона позволяют измерять частоту основного тона с погрешностью не более 0,6%. Погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся частоты модуляции (до 10 Гц) и индекса модуляции (до 0,5) не превышает 5 Гц или 6%, при амплитудной модуляции -не превышает 1 Гц или 1,5%.

Созданный программный комплекс, предназначенный для анализа речевых сигналов, включает в себя все разработанные алгоритмы и численные методы. В данном программном комплексе предусмотрена возможность проведения анализа различных параметров речевого сигнала, как посредством визуализации получаемых параметров, так и оценки их числовых значений.

Реализованный программный комплекс может служить основой для создания реально работающих систем в различных сферах применения речевых технологий. Кроме этого, возможно применение этого комплекса для анализа изменения параметров речевого сигнала в случае изменения речеобразующей системы диктора вследствие различных болезней. Подобный анализ дает возможность создать программные продукты, позволяющие диагностировать болезни речеобразующего тракта.

Список литературы диссертационного исследования кандидат технических наук Конев, Антон Александрович, 2007 год

1. Аграновский А. В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / А. В. Аграновский, Д. А. Леднов М.: Радио и связь, 2004. - 164 с.

2. Алдошина И. А. Основы психоакустики, (часть 3). Слуховой анализ консонансов и диссонансов // Звукорежиссер. 1999. - №9.

3. Алдошина И. А. Основы психоакустики (часть 9). Слуховые пороги // Звукорежиссер. 2000. - №6.

4. Алдошина И. А. Основы психоакустики. Часть 1 // Звукорежиссер. -1999.-№6.

5. Альтман Я. А. Тенденции развития физиологии слуха / Я. А. Альтман, И. А. Вартанян. Вестник РФФИ, 2005. - №1. Электронный ресурс. - Режим доступа: www.rfbr.ru/pics/20850ref/st-9.pdf

6. Аляутдинов И. Таджвид. Правила чтения Корана / И. Аляутдинов Электронный ресурс. Режим доступа: http://www.uinma.ru/bookshelf/tadivid/

7. Бабкин В. В. Помехоустойчивый выделитель основного тона речи / В. В. Бабкин Электронный ресурс. Режим доступа: http://www.dsp-sut.spb.ru/rus/research/pda/download/2005dspa robustpda.pdf

8. Балацкая Л. Н. Особенности речевого сигнала при опухоли гортани / Л. Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л. Чойнзонов // Известия ВУЗов «Физика». Т. 49 Вып.9. - С. 290-293.

9. Балацкая Л. Н. Особенности речевого сигнала у больных с опухолью гортани / Л. Н. Балацкая, А. А. Конев, Е. Л. Чойнзонов // Сборник трудов XVII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 5-8.

10. П.Баскаков С. И. Радиотехнические цепи и сигналы: учеб. для вузов по спец. «Радиотехника» / С. И. Баскаков. 3-е изд., перераб. и доп. - М.: Высшая школа, 2000. - 462 с.

11. Бахлаев И. Е. Классификация злокачественных опухолей по стадиям и системе TNM / И. Е. Бахлаев, А. П. Толпинский. Электронный ресурс. -Режим доступа: http://media.karelia.ru/~resource/oncology7/intro.htm

12. Бекеши Г. Механические свойства уха // Экспериментальная психология: в 2 т. / Г. Бекеши, В. А. Розенблат М.: Иностранная литература, 1963.-Т. 2-С. 682-723.

13. Биологическая обратная связь при обучении устной речи / JI.H. Балацкая, В.П. Бондаренко, АЛО. Корнилов и др. // Сборник трудов XVI сессии Российского акустического общества. Том III — М.: ГЕОС, 2005. С. 7-10.

14. Бондаренко В. П. Адаптивный анализ голосового сигнала / В. П. Бондаренко, В. П. Коцубинский, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. Томск, 2004. - Вып.З. - С. 5861.

15. Бондаренко В. П. Выделение особенностей структуры речевого сигнала / В. П. Бондаренко, В. П. Коцубинский, Р. В. Мещеряков // Сборник трудов XII сессии Российского акустического общества. М., 2003. - Т.З. - С. 63-66.

16. Бондаренко В. П. Модель периферии слуховой системы человека / В. П. Бондаренко, В. М. Разин // VI Всесоюзный семинар "Автоматическое распознавание слуховых образов" (APCO-VI) Таллин, 1972 - С. 26-29.

17. Бондаренко В. П. Обработка речевых сигналов в задачах идентификации / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Известия ВУЗов «Физика». Т. 49 Вып.9. - С. 207-210.

18. Бондаренко В. П. Особенности структуры вокализованных звуков в слитной речи / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. -Томск, 2006.-Вып.5.-С. 111-116.

19. Бондарко JI. В. Звуковой строй современного русского языка: учеб. пособие для студентов пед. ин-тов по специальности «Рус. яз. и литература» / JI. В. Бондарко. М.: Просвещение, 1977. - 175 с.

20. Бондарко JI. В. Некоторые статистические характеристики русской речи / J1. В. Бондарко, П. Р. Зиндер, А. С. Штерн // Слух и речь в норме и патологии: Сб. статей.-JI., 1977.-Вып. 2.-С. 3-16.

21. Бочаров А. В. Распознавание речевых сигналов на основе метода спектрального оценивания / А. В. Бочаров, Д. Ю. Акатьев Электронный ресурс. Режим доступа: zhurnal.gpi.ru/articles/2003/130.pdf

22. Бронштейн И. Н. Справочник по математике для инженеров и учащихся втузов / И. Н. Бронштейн, К. А. Семендяев. М.: Наука, 1980. - 976 с.

23. Буланин JI. JI. Фонетика современного русского языка / JI. J1. Буланин -М.: Высшая школа, 1970. 206 с.

24. Вартанян И. А. Звук слух - мозг / И. А. Вартанян. - JI.: Наука, 1981. -176 с.

25. Великоцкий Д. Н. Сегментация речевого сигнала / Д. Н. Великоцкий, А.

26. A. Конев // Научная сессия ТУ СУР 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов -Томск: Издательство ТУСУРа, 2005. - С. 208-210.

27. Величко В. М. Алгоритм распознавания изолированных слов / В. М. Величко // Тезисы докладов и сообщений 13-й Всесоюзной школы-семинара АРСО. Новосибирск, 1984. - 4.2 - с.85-86.

28. Виницкий А. С. Модулированные фильтры и следящий прием ЧМ сигналов/А. С. Виницкий. -М.: Советское радио, 1969.-548 с.

29. Винников Я. А. Кортиев орган. Гистофизиология и гистохимия / Я. А. Винников, Л. К. Титова. Л.: Изд-во АН СССР, 1961. - 260 с.

30. Винцюк Т. К. Алгоритмы распознавания слов и слитных фраз и результаты их моделирования / Т. К. Винцюк, О. Н. Гаврилюк, Н. Г. Пучкова. Тезисы докладов VIII Всесоюзного семинара АРСО. Львов, 1974. - Ч.З - с.33-37.

31. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк. Киев: Наук, думка, 1987. - 264 с.

32. Галунов В. И. Актуальные проблемы речевой акустики / В. И. Галунов // Сборник трудов XII сессии Российского акустического общества. М., 2003. -Т.З.-С. 16-19.

33. Галунов В. И. Аналитический обзор по проблеме кодирования речевых сигналов / В. И. Галунов, А. Б. Викторов Электронный ресурс. Режим доступа: http://www.auditech.ru/article/cntrid/click.php?action=download&id=6

34. Галунов В.И. Современные проблемы в области распознавания речи /

35. B. И. Галунов, А. Н. Соловьев // Информационные технологии и вычислительные системы. 2004. - № 2. - С. 41-45.

36. Гершуни Г. В. О механизме слуха ( в связи с исследованием временных и временно-частотных характеристик слуховой системы) / Г. В. Гершуни // Механизмы слуха. Л.: Наука, 1967. - С. 3-32.

37. Гитлин В. Б. Алгоритм поиска оптимального значения коэффициента асимметрии в выделителе основного тона по методу GS / В. Б. Гитлин, Д. А. Лузин // Сборник трудов XVIII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 11-14.

38. Гласман К. Ф. Формат МРЗ. Слуховая система человека: основные свойства / К. Ф. Гласман // Звукорежиссер. 2005. - №3.

39. Гренандер У. Лекции по теории образов. Регулярные структуры. / У. Гренандер М.: Мир, 1981. - Т. 3 - 432 с.

40. Дубровский В. В. О спектрах гласных на периферии слуха / В. В. Дубровский, А. И. Егоров // Труды международной конференции "Диалог 2001". М.: Изд-во РГГУ, 2001. Электронный ресурс. - Режим доступа: http://www.dialog-21.ru/Archive/2001/volume2/2 18.htm

41. Иконин С. Ю. Система автоматического распознавания речи SPIRIT ASR Engine / С. Ю. Иконин, Д. В. Сарана // Цифровая обработка сигналов. -2003. №3. Электронный ресурс. - Режим доступа: http://www.spirit.ru/articles/asr.html

42. Искусственный интеллект: в 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под ред. Э. В. Попова. М.: Радио и связь, 1990.- 464 с.

43. Кнеллер Э. Г. Анализ параметров речевого сигнала, создающих восприятие элементарных звуков речи / Э. Г. Кнеллер // Труды международной конференции "Диалог 2006". М.: Изд-во РГГУ, 2006. - С. 220-222.

44. Колоколов А. С. Измерение основного тона речевого сигнала / А. С. Колоколов // Автоматика и телемеханика. 2003. - №8. - С. 122-134.

45. Конев А. А. Выделение вокализованных звуков в слитной речи / А. А. Конев, В. И. Тихонова // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 47-50.

46. Конев А. А. Выделение ключевых слов / А. А. Конев // Научная сессия ТУ СУР 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск: Издательство ТУ СУР, 2005.-С. 128-130.

47. Конев А. А. Параметрическое описание гласных звуков / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. -Томск, 2006.-Вып.5.-С. 108-111.

48. Конев А. А. Программный комплекс для исследования речи / А. А. Конев, Е. Ю. Костюченко, А. А. Пономарев // Сборник трудов XVII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 23-27.

49. Конев А. А. Сегментация речевого сигнала / А. А. Конев, А. А. Пономарёв // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 44-47.

50. Конев А. А. Сопоставительный анализ звукового строя речевых сигналов / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. Томск, 2006. - Вып.5. - С. 102-107.

51. Корнилов А. Ю. Управление процессом речевой реабилитации на основе биологической обратной связи: автореф. дис. на соиск. учен. степ. канд. тех. наук / А. 10. Корнилов. Томск, 2005. - 20 с.

52. Левкович-Маслюк JI. И. Корыстный интерес к человеческим звукам / JL И. Левкович-Маслюк // Компьютерра. 2007. - №8. Электронный ресурс. -Режим доступа: http://www.cornputerra.ru/313046/

53. Ликлайдер Дж. К. Р. Основные корреляты слухового стимула // Экспериментальная психология: в 2 т. / Дж. К. Р. Ликлайдер М.: Иностранная литература, 1963. - Т. 2. - С. 580-642.

54. Ломтев Т. П. Фонология современного русского языка / Т. П. Ломтев -М: Высшая школа, 1972. 224 с.

55. Лузин Д. А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу GS / Д. А. Лузин // Сборник трудов XVIII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. -С. 21-23.

56. Маркус С. Теоретико-множественные модели языков / С. Маркус; пер. с англ. М. В. Арапова. М.: Наука, 1970. - 332 с.

57. Молчанов А. П. Электрические модели механизмов улитки органа слуха / А. П. Молчанов, Л. Н. Бабкина. Л.: Наука, 1978. - 108 с.

58. Моттль В. В. Алгоритмическая реализация лингвистического подхода к анализу экспериментальных кривых / В. В. Моттль, И. Б. Мучник, В. Г. Яковлев // Автоматика и телемеханика. 1984. - №4. - С. 5-25.

59. Моттль В. В. Лингвистический анализ экспериментальных кривых / В. В. Моггль, И. Б. Мучник // ТИИЭР. 1979. - Т. 67. - №5. - С. 12-39.

60. Мучник И. Б. Алгоритмы формирования языка для описания экспериментальных кривых / И. Б. Мучник, Р. Б. Мучник // Автоматика и телемеханика. 1973.-№5.-С. 86-98.

61. Норк О. А. Фонетика современного немецкого языка. Нормативный курс (для ин-тов и фак. иностр. яз.): учеб. пособие / А. О. Норк, Н. Ф. Адамова. М.: Высшая школа, 1976. - 212 с.

62. Общая и прикладная фонетика: учеб. пособие / JT. В. Златоустова, Р. К. Потапова, В. В. Потапов, В. Н. Трунин-Донской. 2-е изд., перераб. и доп. -М.: Изд-во МГУ, 1997.-416 с.

63. Огородников А. Н. Выбор интервалов анализа сигнала при распознавании речи / А. Н. Огородников // Вестник Томского государственного университета. Томск, 2003. - №280. - С. 295-304.

64. Пачес А. И. Опухоли головы и шеи / А. И. Пачес. М.: Медицина, 2000.-479 с.

65. Потапова Р. К. Лингвистические знания и новые технологии / Р. К. Потапова // Сборник трудов XI сессии Российского акустического обществаМ., 2001. -Т.З. С.4-13.

66. Проект Speech Analysis System (SAS). Электронный ресурс. Режим доступа: http://alexmoshp.chat.ru/sas/sas.htm

67. Противораковое общество России. Электронный ресурс. Режим доступа: http://www.pror.ru/foims big larynx.shtml

68. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд -М.: Мир, 1978. 848 с.

69. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер, Р. В. Шафер М.: Радио и связь, 1981. - 496 с.

70. Разработка программы распознавания русской речи для процессора SuperH RISK (Hitachi) Электронный ресурс. Режим доступа: http://leader.cs.msu.su/~luk/ContinuousSpeech rus.html

71. Рапанович А. Н. Фонетика французского языка. Курс нормативной фонетики и дикции: для фак. иностр. яз. пед. ин-тов / А. Н. Рапанович 3-е изд., испр. - М.: Высшая школа, 1980. - 284 с.

72. Распознавание слуховых образов / Под ред. Н. Г. Загоруйко, Н. Я. Волошина. Новосибирск: Наука, 1966. - 338 с.

73. Рид Р. Основы теории передачи информации / Р. Рид М.: Вильяме, 2004.-304 с.

74. Романова Е. С. Оценка звонкости/глухости согласных после резекции гортани / Е. С. Романова, Л. Г. Кожанов, В. Н. Сорокин // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 2225.

75. Сапожков М. А. Речевой сигнал в кибернетике и связи / М. А. Сапожков. -М.: Связьиздат, 1963.-450 с.

76. Сапунов Г. В. Система автоматического распознавания речевых команд для параллельных архитектур: автореф. дис. на соиск. учен. степ. канд. тех. наук / Г. В. Сапунов, Москва, 2006. - 28 с.

77. Слуховая система / Под ред. Я. А. Альтмана. Л.: Наука, 1990. - 620 с.

78. Сорокин В. Н. Сегментация и распознавание гласных / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. Т.4. - №2. - С. 202-220.

79. Сорокин В. Н. Теория речеобразования / В. Н. Сорокин. М.: Радио и связь, 1985.-312 с.

80. Тестирование выделителей основного тона речи. Электронный ресурс. Режим доступа: www.dsp-sut.spb.ru/rus/research/pda/pda.html

81. Технологии-ЗакгатеЩ-Распознавание речи. Электронный ресурс. -Режим доступа: http://www.sakrament.com/?Lang=ru&TopId=20&Category=2

82. Титова Л. К. Развитие рецепторных структур внутреннего уха позвочных / Л. К. Титова. Л.: Наука, 1968. - 192 с.

83. Унгиадзе Г.В. Эндоскопическая диагностика и лазерная деструкция рака гортани / Г. В. Унгиадзе, Б. К. Поддубный, Н. В. Белоусова, А. Ю.

84. Концевая // Современная онкология, 2005- Т. 07. №3. Электронный ресурс. - Режим доступа: http://www.consiliumrnedicum.com/media/onkology/0503/122.shtml

85. Устройства, управляемые голосом. Новшества на рынке. Электронный ресурс. Режим доступа: http://www.point.ru/techno/2007/02/22/4617

86. Физиология речи. Восприятие речи человеком / Л. А. Чистович, А. В. Венцов, М. П. Гранстрем и др. Л.: Наука, 1976. - 388 с.

87. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган; пер. с англ. под ред. А. А. Пирогова. М.: Связь, 1968. - 396 с.

88. Харкевич А. А. Спектры и анализ / А. А. Харкевич. М.: Гос. изд-во физ.-мат. лит., 1962. - 236 с.

89. Цемель Г. И. Автоматическое опознавание речевых сегментов / Г. И. Цемель // VI Всесоюзный семинар "Автоматическое распознавание слуховых образов" (APCO-VI)-Таллин, 1972-С. 182-189.

90. Центр речевых технологий Электронный ресурс. Режим доступа: http://www.speechpro.ru/

91. Цыплихин А. И. Анализ и автоматическая сегментация речевого сигнала: автореф. дис. на соиск. учен. степ. канд. тех. наук / А. И. Цыплихин. -М„ 2006. 22 с.

92. Черри Е. К вопросу о логическом описании языков в их фонологическом аспекте / Е. Черри, М. Халле, Р. Якобсон // Новое в лингвистике. 1962. - Вып.2.

93. Чиссов В. И. Злокачественные образования в России в 2001 году: заболеваемость и смертность / В. И. Чиссов, В. В. Старинский, Г. В. Петрова. -М.: МНИОИ им. П. А. Герцена, 2003. 238 с.

94. Чойнзонов Е. Л. Рак гортани. Современные аспекты лечения и реабилитации / Е. Л. Чойнзонов, М. Р. Мухаммедов, Л. Н. Балацкая. Томск: Изд-во НТЛ, 2006.-280 с.

95. Шевченко А. И. Проблемы сегментации речевого сообщения при построении систем автоматического распознавания речи / А. И. Шевченко //

96. Труды Междунар. семинара. "Диалог'2000" по компьютерной лингвистике и ее приложениям. Протвино, - 2000. - Т.2. - С.370-373.

97. Anovea Authentication Technology-SVLib. Электронный ресурс. -Режим доступа: http://www.anovea.com/www/products lib.htm

98. Bondarenko V. P. The analysis of speech perception mechanisms on the models of auditory system / V. P. Bondarenko, V. R. Moor, A. N. Chabanets // Proceedings Xlth ICPhS. Tallinn, 1987. - V. 2. - P.77-80.

99. Huang X. Spoken language processing: a guide to theory, algorithm and system development / X. Huang, A. Acero, H.-W. Hon New Jersey, 2001. - 965 p.

100. Huggins-Daines D. A constrained Baum-Welch algorithm for improved phoneme segmentation and efficient training / D. Huggins-Daines, Rudnicky A. Электронный ресурс. Режим доступа: www.cs.cmu.edu/~dhuggins/Publications/phlab.pdf

101. Kocharov D. Sonority measure for automatic speech recognition / D. Kocharov // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006. - P. 359-362.

102. Meister E. Spoken dialogue system for mobile parking / E. Meister, B. Lobanov, R. Vahisalu, T. Levkovskaya, V. Kisialou, P. Tatter, J. Lasn // Proceedings of the 6th International Conference "Speech and Computer" SPECOM'2001. -Moscow, 2001-P. 123-126.

103. Nakatani N. Mel-LSP parameterization for HMM-based speech synthesis / N. Nakatani, K. Yamamoto, H. Matsumoto // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006. - P. 261264.

104. Nuance-Dragon Naturallyspeaking 9. Электронный ресурс. Режим доступа: http://www.nuance.com/naturallyspeaking

105. Petrushin V. A. Adaptive algorithms for pitch-synchronous speech signal segmentation / V. A. Petrushin // Proceedings of the 9th International Conference "Speech and Computer" SPECOM'04. St. Petersburg, 2004. - P. 146-153.

106. Rosales H. G. Spectral distance costs for multilingual unit selection in speech synthesis / H. G. Rosales, O. Jokisch, R. Hoffman // Proceedings of the 11th1.ternational Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 270-273.

107. RP phonemes in the advanced learner's dictionary Электронный ресурс. Режим доступа: http://pages.britishlibrary.net/marlodge/wordlist/phonfreq.html

108. Rublev D. Embedding binary data to audio streams based on discrete wavelet transform / D. Rublev, V. Fedorov, O. Makarevich // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 215-220.

109. Strecha G. Low resource TTS synthesis based on cepstral filter with phase randomized excitation / G. Strecha, M. Eichner // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 284-287.

110. Tubach J.-P. Quantutative knowledge on word structure, from a phonetic corpus, with application to large vocabularies recognition systems / J.-P. Tubach, L. Вое //ICASSP'86. 1986. - Vol. П. - P.61-64.

111. Электронный ресурс. Режим доступа: http://festvox.org/examples/cstr us ked timit

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Модель и алгоритмы анализа и сегментации речевого сигнала тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Конев, Антон Александрович

Оглавление диссертации кандидат технических наук Конев, Антон Александрович

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Модель голосообразования и анализ речевого сигнала в норме и при патологии2007 год, кандидат технических наук Квасов, Алексей Николаевич

Модели и алгоритмы в системах анализа речевых сигналов2013 год, кандидат технических наук Трубицын, Владимир Геннадьевич

Математические модели образования звучной речи2004 год, кандидат технических наук Коцубинский, Владислав Петрович

Введение диссертации (часть автореферата) на тему «Модель и алгоритмы анализа и сегментации речевого сигнала»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Конев, Антон Александрович

Список литературы диссертационного исследования кандидат технических наук Конев, Антон Александрович, 2007 год