Управление просодией при синтезе речи по печатному тексту

Мещеряков, Роман Валерьевич

Управление просодией при синтезе речи по печатному тексту тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Мещеряков, Роман Валерьевич

Мещеряков, Роман Валерьевич
кандидат технических наук
2000

Специальность ВАК РФ05.13.01

Количество страниц 158

Мещеряков, Роман Валерьевич. Управление просодией при синтезе речи по печатному тексту: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Томск. 2000. 158 с.

Оглавление диссертации кандидат технических наук Мещеряков, Роман Валерьевич

ВВЕДЕНИЕ

I МНОГОУРОВНЕВАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ

1.1. АНАЛИЗ СОСТОЯНИЯ ПРОБЛЕМ, ВОЗНИКАЮЩИХ ПРИ СИНТЕЗЕ, РАСПОЗНАВАНИИ РЕЧИ И В СМЕЖНЫХ

ОБЛАСТЯХ

1.2. КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ

1.2.1. СТРАТИФИЦИРОВАННОЕ ПРЕДСТАВЛЕНИЕ РЕЧИ

1.2.2. ИСПОЛЬЗОВАНИЕ ИЕРАРХИЧЕСКИХ ПРЕДСТАВЛЕНИЙ ДЛЯ РЕШЕНИЯ ПРЯМОЙ И ОБРАТНОЙ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ПЕЧАТНОГО ТЕКСТА В РЕЧЬ

1.3. ПОСТАНОВКА ЗАДАЧИ

1.3.1. ОСНОВЫ ПОСТРОЕНИЯ МОДЕЛЕЙ УПРАВЛЕНИЯ

1.3.2. МОДЕЛЬ КАНАЛА УПРАВЛЕНИЯ ПРОСОДИЕЙ

1.3.3. МОДЕЛЬ КАНАЛА УПРАВЛЕНИЯ АРТИКУЛЯЦИЕЙ,

1.3.4. МОДЕЛЬ ИНФОРМАЦИОННОЙ СТРУКТУРЫ ЯЗЫКА

ВЫВОДЫ ПО ГЛАВЕ

2. АНАЛИЗ ВЫСКАЗЫВАНИЙ И ПОСТРОЕНИЕ МОДЕЛЕЙ ПРОСОДИИ

2.1. ПОСТРОЕНИЕ МОДЕЛИ РАЗМЕТКИ ВЫСКАЗЫВАНИЙ И

ФОНЕТИЧЕСКИХ СЛОВ

2.2. МОДЕЛЬ РАССТАНОВКИ УДАРЕНИЙ

2.3. ТРАНСКРИБИРОВАНИЕ ТЕКСТА

2.4. МОДЕЛЬ ДЛИТЕЛЬНОСТЕЙ ЗВУКОВ

2.5. МОДЕЛЬ ФОРМИРОВАНИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА

2.6. ОБОБЩЕННАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ

ВЫВОДЫ ПО ГЛАВЕ

3. СИНТЕЗ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК С УЧЕТОМ ОГРАНИЧЕНИЙ

3.1. МОДЕЛЬ ЛЕГКИХ КАК ОБЪЕКТА УПРАВЛЕНИЯ

3.2. МОДЕЛЬ ИЗМЕНЕНИЯ ОБЪЕМА ЛЕГКИХ

3.3. ИЗМЕНЕНИЕ ОБЪЕМА ЛЕГКИХ ПРИ ФОРМИРОВНИИ

ИНТОНАЦИОННОЙ КАРТИНЫ ВЫСКАЗЫВАНИЯ И ПАУЗ

3.4. УПРАВЛЕНИЕ ЛЕГКИМИ ПРИ ГЕНЕРАЦИИ РЕЧЕВОГО СИГНАЛА С УЧЕТОМ РИТМИКИ

3.5. ВЛИЯНИЕ ПРОВОДИМОСТИ НА ИЗМЕНЕНИЕ ОБЪЕМА

ЛЕГКИХ

3.6. ОБЩАЯ СТРУКТУРА УПРАВЛЕНИЯ ПРОСОДИЕЙ

ВЫВОДЫ ПО ГЛАВЕ

4. КОМПЛЕКС ПРОГРАММ СИНТЕЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК

4.1 ПРОГРАММА СИНТЕЗА ПРОСОДИЧЕСКИХ

ХАРАКТЕРИСТИК

4.1.1. ОПИСАНИЕ ПРОГРАММЫ

4.1.2. СИНТЕЗ ПРОСОДИИ ДЛЯ ЗАДАННЫХ

ВЫСКАЗЫВАНИЙ

4.1.3. СИНТЕЗ ПРОСОДИИ НЕПРЕРЫВНОЙ РЕЧИ

4.2. СИСТЕМА ТРАНСКРИБИРОВАНИЯ ТЕКСТА ДЛЯ АНГЛИЙСКОГО И РУССКОГО ТЕКСТА

4.3. ПРОГРАММНЫЕ СРЕДСТВА ПОДДЕРЖКИ ЛОГОПЕДИИ И ФОНИАТРИИ И СИСТЕМА ПРОВЕРКИ СЛУХА

4.4. ИССЛЕДОВАТЕЛЬСКИЙ КОМПЛЕКС КОНКУРСНОЙ

ПРОГРАММЫ «ШАГ В БУДУЩЕЕ»

Введение диссертации (часть автореферата) на тему «Управление просодией при синтезе речи по печатному тексту»

В системах общения человека и машины, в информационных системах обычно используется письменная речь. Это не всегда удобно, так как зрительный канал восприятия информации в большинстве случаев бывает очень нагружен. Для некоторых категорий людей слуховой канал является основным источником информации (например, у людей, имеющих нарушения зрения).

Синтез речевого сигнала может найти свое применение и находит на различных производствах и в сферах человеческой деятельности. Например, возможно использование синтеза речи для выдачи оперативной информации о состоянии объекта в АСУТП, для выдачи информации по справочным службам (в кассах и справочных бюро, подробнее см. [9, 12, 24, 36, 37, 44, 45, 48, 52, 53, 58-62, 80, 82, 84, 85, 96, 100, 104, 108, 115, 120, 124, 125, 132, 155, 156]). На этих примерах наблюдаем, что будет использоваться свободный информационный канал — слуховой для передачи сведений, для дублирования информации, передаваемой другими каналами (зрением, ощущением и другими). Представляется перспективным использование систем синтеза речи для людей, страдающих немотой или с нарушениями голосового аппарата. Это позволит им свободно произносить слова, высказывания и доносить мысль до собеседника.

В плане практической реализации автоматический синтез речи явно опережает её автоматическое распознавание. В работе [58] указывается: "Современные системы автоматического синтеза, разработанные для русского языка, могут быть по своим возможностям уподоблены иностранцу, который при изучении русского языка овладел (не в совершенстве) только его фонетикой и может вслух прочесть текст, если в нём размечены словесные ударения и фразовые акценты, выделены синтагмы и указаны способы их интонационного оформления".

В настоящее время в автоматическом синтезе речи пока что моделируются только небольшие фрагменты процесса чтения текста человеком, некоторые из которых будут приведены ниже. Качество звучания синтезируемой речи невысокое. Результаты тестирования её разборчивости скорее свидетельствуют об удивительной способности человека эффективно обрабатывать неполноценный речевой сигнал: восстанавливать полезную недостающую информацию и отбрасывать ошибочную. Особенно важным представляется исследование процесса речеобразования у человека. Он (человек) предварительно формирует модель изменения характеристик речевого сигнала и параметров речеобразующей системы и при произнесении корректирует, чтобы произносимый сигнал соответствовал созданной модели высказывания. Таким образом, возникают вопросы создания моделей управления параметрами синтеза.

Необходимо отметить, что устная речь появилась раньше письменной, т.е. письмо было создано на основе речи. Таким образом, речь и письмо являются взаимно зависимыми. Следовательно, закономерности, найденные при исследовании речевого сигнала и печатного текста могут быть использованы в обоих случаях. Ограничениями будут являться специфичные факторы, которые не могут быть переданы устно или письменно. Например, не может быть воспроизведен при синтезе речи фактор почерка, которым было создано произведение. В свою очередь, на бумагу не может быть передано все многообразие эмоционального состояния человека и скорость его изменения. Необходимо отметить, что при написании текста человек внутренне произносит его [66].

Результаты решения задачи синтеза речи могут быть использованы и в смежных областях, например, в машинном переводе и при передаче речевого сигнала по каналам связи (вокодерах). Решение задачи синтаксического анализа предложений и морфологического анализа слов Имеет большое значение для решения задач в машинном переводе. Необходимо отметить, что анализ типов высказывания при машинном переводе и синтезе речи ведется аналогичным образом. Поэтому решение проблем полного синтеза речевого сигнала по печатному тексту является одной из актуальных задач, имеющей существенное значение в смежных областях. Вокодерная связь — особый вид связи, которую можно отнести к проблемно-ориентированным системам. Наибольшего качества ее можно достичь при использовании мощных алгоритмов анализа, распознавания и синтеза речи. Особенно актуальна она в защищенных системах передачи данных.

Этим актуальность не исчерпывается, так как некоторые результаты могут быть использованы при дальнейшем развитии науки. К таким можно отнести возможность исследования истории развития языка, социальных аспектов языка, психологические аспекты восприятия человеком синтезированной речи, медицинские исследования физиологии органов речи и слуха и другое.

Проведенный поиск по системам синтеза речи показал, что реальных систем синтеза и распознавания речевого сигнала в нашей стране и за рубежом имеется немного. В таблице приведены организации РАН и высшей школы, имеющие значительные достижения в области речевых технологий [59]:

Организация Руководитель Примечание

Вычислительный центр РАН Ю.И. Журавлев, В.Я. Чучупал

Институт проблем передачи информации РАН В.Н. Сорокин &

Институт математики СО РАН и Новосибирский государственный университет Н.Г. Загоруйко, В.М. Величко A.B. Кельманов +

Московский государственный университет им. М.В. Ломоносова Н. Зиновьева О.Ф. Кривнова *

МГТУ им. Н.Э. Баумана Ю.Н. Жигулевцев +

Московский энергетический институт А.И. Евсеев

Московский I осударственный лингвистический университет Р.К. Потапова 'к

Московский технический университет связи и информатики Ю.Н. Прохоров

Санкт-Петербургский государственный университет В.И. Галунов

Знаком - в примечании обозначены организации, практически не занимающиеся проблемами синтеза речи, либо незначительно, либо нет сведений.

Знаком + в примечании обозначены организации, косвенно занимающиеся проблемами синтеза речи наряду с другими речевыми технологиями (передача речевого сигнала, распознавание речи, верификация говорящего, голосовая экспертиза, шумоочистка и другие)

Знаком * в примечании обозначены организации, непосредственно занимающиеся проблемами синтеза речи.

Выделим основные разработки и организации, где они были выпонены. В Белорусском институте кибернетики проблемами синтеза речи занимается Б.М. Лобанов (синтезатор "Фонемафон"). В Московском государственном университете им. М.В. Ломоносова создан синтезатор "Голосовая мышь", "Агафон" [56]. В Новосибирском институте математики СО РАН разрабатывается синетзатор речи "Текстофон". В Санкт-Петербурге существует компания "Центр Речевых Технологий (ЦРТ)", которая занимается обработкой речи за исключением синтеза речи.

Из зарубежных организаций необходимо выделить Creative Technologies, которая на основе системы DECTalk (разработанного корпорацией Digital Equipment при участии известного американского фонетиста Денниса Клатта) разработала программу TextAssist. Еще одним из наиболее распространенных продуктов синтеза речи является программа Monologue, использующая систему Pro Voice, разработанной компанией FirstByte. Подробнее основы систем будут приведены в главе 1, см. Приложение 1.

Некоторые особенности русского языка хорошо исследованы (например, транскрибирование речи [13, 19, 34, 40, 42, 58, 110]), но сложнее дело состоит с разделами русского языка, которые не поддаются, или в малой степени поддаются формализации (например, интонирование сигнала). Долгое время (с

1965 года) в нашей стране проводятся семинары-конференции Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов", на которых и рассматривались данные проблемы. Было проведено 19 семинаров. На этих семинарах были представлены решения многих частных проблем, но еще до сих пор не создано ни системы синтеза речи, которую можно было бы по произношению перепутать с человеческой речью, ни систем распознавания речи, которые бы без настройки на диктора смогли бы распознать естественную речь (см. материалы АРСО [2-6, 134] и подобные семинары [1, 155, 156]). Наибольшее развитие получили исследования параметров речевого сигнала ([19, 21, 32, 43, 44, 47, 55, 59, 81, 88, 92, 109, 115, 118-121, 130]). Материалы, описывающие последовательность синтеза речевого сигнала по печатному тексту или описывающие детальное описание конкретной системы синтеза речи, отсутствуют и, в большинстве случаев, не выходят за пределы организации-разработчика, либо приводятся общие сведения.

В литературе филолого-лингвистического направления также описываются различного рода нерешенные задачи, связанные с формированием просодии. Например, сведения о длительности звуков (по материалам [8, 19, 40, 41, 43, 44, 88, 118, 119]) различаются. Приведенная информация описывается в общем виде для использования человеком, т.е. в виде, не пригодном для создания алгоритмов, основывающихся только на тексте как последовательности букв и знаков препинания. Так, в [99] описываются правила постановки логических ударений в высказывании. Логическое ударение выделяет слова, наиболее важные по смыслу. Логические ударения могут быть и бывают на любых частях речи, в том числе и на служебных. Иногда логически ударными оказываются не целые слова, а лишь их части, например, приставка или окончание. И, в завершении, смысловой вес слов определяется не тем, какими членами предложения они являются, а лишь той ролью, какую они играют в выполнении коммуникативного задания, в выявлении того нового, ради которого произносится каждая фраза в конкретной ситуации.

Факты иностранных исследователей по данной тематике могут быть использованы ограниченно ввиду того, что звуковой строй русского языка имеет значительные отличия от других. Так, например, правила интонирования предложений отличаются от правил, принятых в других языках. При передаче информации по типу предложения в русском языке наибольшее значение имеет тип предложения, а не порядок слов. В некоторых работах зарубежных исследователей, например в [136, 138-143, 151, 158, 161-163, 165, 166, 168], проводятся попытки введения новых моделей синтеза речи.

Подводя итог, отметим, что система синтеза речевого сигнала по печатному тексту должна рассматриваться как сложная система преобразования различных видов информации с использованием информации о системе речеобразования человека и особенности языка. В настоящее время она не решена и заслуживает пристального внимания со стороны исследователей. Подчеркнем, что проблемой синтеза речи по печатному тексту занимались известные ученые Сорокин В.Н., Загоруйко Н.Г., Лобанов Б.М., Златоустова Л.В. и другие. Основным недостатком исследований являлось отсутствие разграничения того, что определяется языком и что определяется диктором. Как правило, исследования не объединялись общей идеологией языка применительно к синтезу речи.

Чаще всего решались узкие задачи синтеза речи (исследования длительностей звуков, транскрибирования), мало уделялось внимания просодии речи. Исследования задачи в смежных областях (машинный перевод, вокодерная связь) показало актуальность исследования, т.к. решаемые вопросы взаимосвязаны между собой. Кроме того, необходимо отметить, что к настоящему времени не создано моделей формирования просодических характеристик речевого сигнала при синтезе речи по правилам с учетом влияния параметров речеобразующего тракта и легких.

Целью данной работы является построение моделей формирования просодии и определение параметров управления просодией при синтезе речи по печатному тексту с учетом особенностей языка и характеристик диктора. В качестве задач выделим:

1. Анализ структур описания речи и формирование баз данных на разных уровнях иерархии языка для системы синтеза речи.

2. Разработка алгоритмов формирования просодии по печатному тексту с учетом ограничений и особенностей русского языка.

3. Анализ характеристик диктора, влияющих на параметры просодии и определяющих его индивидуальность.

4. Создание модели легких при управлении просодии при синтезе речи по печатному тексту.

В качестве объекта исследования выделим модели формирования просодии по печатному тексту. Управление легкими подразумевает формирование параметров изменения объема легких и моментов перестройки артикуляторных органов.

Автор выносит на защиту:

1. Структуру описания речи, учитывающую особенности языка и конкретного диктора.

2. Модель легких, отражающая процесс формирования просодии при генерации речи человеком.

3. Комплекс методов и алгоритмов формирования просодических характеристик речи по тексту.

13

Структура данной работы основывается на последовательном изложении проведенных исследований по решению поставленных задач. В главе 1 приводится анализ состояния проблемы, предлагается концептуальная модель синтеза речи, рассматриваются основы построения моделей и формируются требования к ним. Приводится постановка задачи исследования. Глава 2 посвящена анализу высказываний и типов характеристик просодии. Создаются и исследуются модели по формированию основных просодических параметров речи. В 3 главе описывается синтез просодических характеристик с учетом ограничений, позволяющий ввести управление моделью легких по каналам синтеза просодии и артикуляции. Рассматривается модель легких как объекта управления. В 4-й главе предлагаются реализации системы синтеза параметров просодии и описываются результаты работы на примере реальных программных средств. В заключении приводятся результаты выполненной работы и делаются основополагающие выводы по итогам диссертационной работы.

1. МНОГОУРОВНЕВАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Мещеряков, Роман Валерьевич

ВЫВОДЫ ПО ГЛАВЕ

Исследования показали, что информация о параметрах речеобразующего тракта и легких имеет существенное влияние на реализацию управления просодией. По прогнозируемой просодии, созданной на этапе анализа текста по особенностям языка и обобщенным характеристикам диктора производится управление моделью легких.

Проверка адекватности созданных моделей проведена по граничным и средним значениям и характеру изменения кривых избыточного давления и расхода воздуха. В литературе [121, 131] приводятся лишь оценки значений

99 параметров просодии. Созданные модели [14, 15, 17, 72, 79, 81, 82] соответствуют приведенным в данной литературе. Синтезированные параметры просодии соответствуют параметрам, измеренным на реальном речевом сигнале.

Отличительной особенностью созданных моделей является применение на первом этапе информации об особенностях языка, использующих средние и граничные характеристики диктора. На втором этапе производится управление просодией посредством уточнения конкретных характеристик звуков.

Таким образом, остаются вопросы реализации созданных моделей и алгоритмов с использованием разработанной методологии.

4. КОМПЛЕКС ПРОГРАММ СИНТЕЗА ПРОСОДИЧЕСКИХ

ХАРАКТЕРИСТИК

В данной главе приводится иллюстративный материал по возможной реализации синтезатора речи и других близких областей. В ходе работы была создана система синтеза просодических характеристик и смежных задач в виде комплекса программ. Данный комплекс программ был разработан в среде программирования Borland Pascal for DOS и Delphi for Windows95/98/NT.

4.1 ПРОГРАММА СИНТЕЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК

4.1.1. ОПИСАНИЕ ПРОГРАММЫ

Созданная программа реализует алгоритмы, разработанные на основе проведенных исследований. Выходом работы является параметры управления легкими, ритмика, моменты времени перестройки артикуляторных органов. Для различных типов синтеза речи генерируются различные модели изменения: частоты основного тона и изменения объема легких. Алгоритмы, на которых основывается программа соответствуют приведенным в главе 2.

Требования к аппаратному обеспечению:

• IBM PC совместимый компьютер, процессор не ниже Pentium 166ММХ.

• ОЗУ 16 Мб, рекомендуется 32Мб

• Объем памяти на жестком диске — 1,2 Мб (1,1 Мб — программа, 0,1 Мб — базы данных)

• Поддержка видеорежима 800x600x256. Операционная система Windows 95/98/NT.

В качестве входных данных используется текстовый файл с орфографически правильным текстом. Выходными данными являются: последовательность изменения частоты основного тона, моменты времени перестройки артикуляторных органов, фонетическая транскрипция. Программа представляет собой блоки взаимосвязанных модулей, каждый из которых отвечает за каждый этап преобразования (13) и владеет только ограниченным объемом информации в соответствии со схемой, приведенной на рис.10.

Работа первого модуля может быть описана в виде упрощенного алгоритма:

1. Преобразование входных данных во внутреннее представление программы.

2. Расчет количество слов, символов, гласных в каждом слове; убираются управляющие символы.

3. Оценка длительностей в соответствии с моделью разметки высказываний и фонетических слов (см. раздел 2.1.).

4. Проверка условия (14). В качестве общей допустимой длительности высказывания принято граничное условие, равное 5 секундам. В качестве входной информации по длительностям звуков принимаем данные, пример которых приведен в приложении 3 (база данных для женского голоса, нормального темпа).

5. Если условие не выполняется, то производится автоматическое разбиение высказывания на два и более до тех пор, пока условие (14) не будет выполнено.

Результатом работы данного модуля являются возможные высказывания.

Следующий модуль выполняет расстановку ударений. Для расстановки ударений используется словарь, пример которого приведен в приложении 4. Структура словаря имеет взаимно однозначное соответствие между словом и номером ударного слога. Упрощенно алгоритм можно записать:

1. Автоматически находятся слова, имеющиеся в словаре, им приписывается наибольшая сила ударного слога. Слова без гласных звуков пропускаются. Словам с единственным гласным звуком приписывается номер ударного гласного — 1 без поиска его в словаре.

2. Для слов, у которых не найдены ударения производится расстановка ударений в наиболее вероятных местах. Им приписывается меньшая, чем в первом случае сила ударных слогов.

3. Рассчитываются ритмические структуры для данного высказывания. В соответствии с ними расставляются ударения в оставшихся словах. Эти ударения имеют самую меньшую силу.

Для коррекции ударения, либо для ручной расстановки предусмотрена возможность изменения как номера ударного гласного (от первого до последнего слога), так и силы ударения (от 0 до 3). Результатом работы является получение слов с номерами ударных слов и силой ударения.

Фонетическое транскрибирование производится согласно с правилами русского языка [40, 42, 101, 110, 121, 122]. Предварительно производится корректировка последовательностей, приведенная в приложении 6. Во входной буквенной последовательности производится поиск строки символов, которую надо заменить. Затем производится запись в выходную последовательность символов. Следующим важным этапом является собственно транскрибирование.

ЗАКЛЮЧЕНИЕ

Данная работа направлена на решение задач, стоящих перед разработчиками систем синтеза речи по печатному тексту. Использование выбранных методов исследования позволило выделить необходимый и достаточный набор факторов, влияющих на процесс преобразования печатного текста в речевой сигнал. Предложенные структуры могут быть использованы и в других смежных областях.

Цель, выделенная для работы как: построение моделей формирования просодии и определение параметров управления просодией при синтезе речи по печатному тексту с учетом особенностей языка и характеристик диктора" достигнута по следующим разделам:

1. Проанализирована информационная структура высказываний языка (в данном случае русского), подробно рассмотрено стратифицированное представление речи.

2. Сформулированы рекомендации по организации баз знаний в процессе преобразования печатного текста в речевой сигнал.

3. Создана концептуальная модель синтеза речи, в частности, моделей каналов управления просодией и артикуляцией.

4. Установлены характерные зависимости между характеристиками печатного текста и просодией, определена структура баз данных.

5. Разработаны алгоритмы синтеза просодических характеристик с учетом ограничений.

6. Предложены модели синтеза речи по печатному тексту, в частности, формирования просодии.

Рассмотренные в данной работе подходы к синтезу речи показывают необходимость рассмотрения текста как некоего целостного единства, в котором изменения в одной части приводят к изменениям в других частях этого единства, причем четко прослеживается иерархическая структура печатного текста и речевого сигнала. Структура этого типа позволяет использовать упрощенные методы для анализа и синтеза схем управления.

Проведенный анализ информационной структуры языка рассмотрен применительно к синтезу и распознаванию речевого и сигнала, а с учетом областей машинного перевода, проблем передачи информации по каналам связи. Система печатный текст — речь была рассмотрена на трех стратах — семантической, синтаксической, фонетической. Данное исследование привело к необходимости использования иерархической структуры обработки печатного текста и речи (см. Рис.2, Рис.3). На основе данной структуры была создана концептуальная модель синтеза речи, включающая в себя: стратифицированное представление речи; иерархические структуры речи, печатного текста, системы обработки; математические основы; модели каналов управления просодией и артикуляцией с обратными связями; введены ограничения по использованию созданной модели. Модель управления легкими имеет два канала. Первый, инерционный канал управления формирует прогнозируемое изменение объема легких при генерации интонации. Второй канал управления отвечает за реализацию ритмики и перестройку артикуляторных органов.

Принимая в качестве базовой концептуальную модель синтеза речи проведен анализ высказываний и построение моделей просодии. Исследования проводились для прогнозирующей модели верхнего уровня формирования просодических характеристик по печатному тексту. Были исследованы и построены модели разметки высказываний и фонетических слов; модель расстановки ударений; транскрибирования текста; модель длительностей звуков; модель формирования частоты основного тона. Данные модели последовательно формируют прогнозирующее изменение просодических характеристик при генерации высказывания.

Созданные алгоритмы соответствуют моделям, созданные при анализе высказываний (см. главу 2) скомпонованы в обобщенную модель синтеза речи (см. Рис.10), которая может быть использована в качестве методологических основ для синтеза речи по правилам. В каждой модели определены базы данных, используемые для формирования параметров управления и настройки модели. Все сведения о параметрах основываются на физиологических и анатомических данных речеобразующей системы человека и информационных параметрах языковой системы.

В работе сформированы базы данных на разных уровнях иерархии языка для системы синтеза речи, а также сформулированы требования к ним (см. раздел 2.6.). Базы данных скомпонованы с учетом требований, присущим языковым системам (см. раздел 1.3.4 и 2.6.), а также с учетом анатомии и I физиологии человека.

Согласно созданной методологии был исследован синтез просодических характеристик с учетом ограничений. Легкие рассматриваются как объект управления. Управляя легкими, определяем функции изменения избыточного давления в легких и изменения объема легких в процессе формирования просодических характеристик. Имеющиеся два канала управления вводят необходимость коррекции объема легких, так как воздух из легких тратится дополнительно на произношение звуков. Таким образом, создается прогнозируемое управляющее воздействия на легкие для формирования просодических характеристик по заданному типу высказывания и расставленным моментам времени ударным гласным.

Проведены исследования по влиянию различных моделей на изменение избыточного давления и расхода воздуха. Определены зависимости изменения расхода воздуха при различных интонационных картинах. Определено, что на избыточное давление и расход воздуха в легких влияют два фактора — собственно интонация высказывания и ритмика. Таким образом, подтверждено наличие двух каналов обратных связей при управлении просодией: канала по просодии (определяющего характер изменения интонации) и канал по артикуляции (определяющего расход воздуха при различных звуках).

Отдельное место отводится влиянию проводимости речеобразущего тракта на расход воздуха в легких. При формировании прогнозирующего изменения расхода воздуха принимаются средние значения, но при реализации должны быть учтены различные значения проводимости при произнесении звуков (например, при произнесении гласных проводимость выше, чем при согласных). Оценки влияния проводимостей приведены в общем случае, т.к. требуют детального исследования. Но, в частности, при сопоставительном экспериментальном исследовании выявлены резкие скачки частоты основного тона после взрывных звуков, которые полностью объясняются разработанной моделью управления легкими при формировании просодии.

Получены следующие практические результаты:

Создан комплекс программ по формированию просодических характеристик и ритмики по печатному тексту. Заложенные в ее основу сведения и получаемые результаты не противоречат приведенным в [121, 131]. Данный комплекс программ может служить основой для реальной системы синтеза речи. Предполагается использовать в системе синтеза речи по правилам.

Создана программа автоматического транскрибирования для русского и английского языков, которая по размеченному печатному тексту позволяет получить фонетическую транскрипцию. Данная программа применяется на кафедре иностранных языков БТИ АлтГТУ.

Программные средства поддержки логопедии и фониатрии и система проверки слуха используются в Реабилитационно-диагностическом центре "Мать и дитя" для проверки произношения пациентов и слуха. Практически

121 программные средства оказывают помощь врачу в установке диагнозов и назначении лечения.

Автором проведено руководство исследовательскими работами в программе «Шаг в будущее», в основу которых положены сведения о структуре речевого сигнала и печатного текста. Данные исследования служат основой для развития научного творчества школьников и на занятиях по предметам: физика (акустика), математика, русский язык и другие.

Дальнейшее развитие исследований должно быть направлено на уточнение значений проводимостей и учет расхода воздуха при артикуляции звуков. Перспективным является соединение данной модели формирования просодических характеристик с моделью артикуляции для создания рабочей системы синтеза речи. Также важным является уточнение влияния различных моделей при формировании просодических характеристик на синтезированную речь.

Список литературы диссертационного исследования кандидат технических наук Мещеряков, Роман Валерьевич, 2000 год

1. Автоматическое распознавание и синтез речевых сигналов. //Сборник статей. - Киев, 1989

2. Автоматическое распознавание слуховых образов (АРСО-Ю). Тбилиси. 1978

3. Автоматическое распознавание слуховых образов АРСО-13. № 1. Новосибирск: МГУ, 1984

4. Автоматическое распознавание слуховых образов АРСО-13. № 2. Новосибирск: НГУ, 1984

5. Автоматическое распознавание слуховых образов АРСО-6. Талин. Институт кибернетики. 1972

6. Автоматическое распознавание слуховых образов АРСО-8. Львов. 1974

7. Агеенко Ф.Л., Зарва М.В. Словарь ударений для работников радио и телевидения. М: Русский язык, 1984

8. Аксютина И.В., Карневская Е.Б., Лобанов Б.М., Марченков М.А. Многофакторная модель ритмики и ее реализация при синтезе речи по тексту. / АРСО 15, Талин, 1989 с.135-136

9. Антонова Д.Н., Краснова Л.С. Использование автоматизированных обучающих систем (АОС) для овладения звуковым строем неродного языка. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Po 4.14, p 197-199

10. Ахо A.B., Уильман Д.К. Теория синтаксического анализа, перевода и компиляции.

11. Барковский М.М. Русское словесное ударение. Изд 2-е, испр. и дополн. Минск:- "Вышэйшая школа", 1974

12. Белоногов Г.Г. Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983 288с.

13. Березин Ф.М. История лингвистических учений. Учебник для филолог, спец. вузов. 2-е изд., испр. и доп. - М.: Высш. шк., 1984 - 319 е., ил.

14. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Модель управления просодией при синтезе речи //Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с., с 10-11

15. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Синтез речи по печатному тексту / Природные и интеллектуальные ресурсы Сибири

16. Сибресурс-3-97. Тезисы докладов международной научно-практической конференции, Красноярск, 13-15 октября, 1997, Томск: ТУСУР, 1997 -232с, с156-157

17. Бондаренко В.П., Маркивский И.О. Оценка параметров системы фильтров модели анализа речевых сигналов / Методы и алгоритмы автоматизации технологических процессов. Томск.: Изд-во Том. Ун-та, 1995. - с.120-131

18. Бондаренко В.П., Мещеряков Р.В. Иерархическая система синтеза речи по правилам/ Сборник: Автоматическое и автоматизированное управление сложными системами: Сб. статей / Под. Ред. В.П.Тарасенко. Томск: Изд-во Том. ун-та, 1998. - 236с, с.218-227

19. Бондарко Л.В. Звуковой строй современного русского языка. М.: Просвещение, 1977 175с.

20. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. СП.: Издательство С-П университета, 1991

21. Бондарко Л.В., Вербицкая Л.А., Щербакова Л.П. Об определении места ударения в слове. // Известия АН СССР. Серия литературы и языка, 1973 -т.32, вы п.2. с. 141-153.

22. Бракер г Э., Миноу М., Течнер У. Система с трехуровневой программой для преобразования текста в речь. / Электроника 1983. - № 8, с. 36-42.

23. Бровченко Т.А., Волошин В.Г., Камбуленко Н.С., Труханова Н.Л. Интонационная организация естественной и синтезированной речи. / АРСО 15, Таллин, 1989 с.256-258

24. Брызгунова Е.А. Звуки и интонация русской речи. М.: Русская литература. 1982 -279с.

25. Варламова О. Помехоустойчивые кодеки — будущее цифровой телефонии // Network World, Сети, №10, 1997, стр 26-32

26. Вартанян И.А. Физиология сенсорных систем: Руководство / Серия "Мир медицины". Спб.: Издательство "Лань", 1999. - 224с.

27. Велиновская Е.С. Системы распознавания и понимания речи/ Приборы и элементы автоматики и ВТ, 1994 № 2 - с. 11-14.

28. Вербицкая Л.А. Русская орфоэпия. 1976

29. Вильсон Д.К. Нарушения голоса у детей: 11 ер.с англ. М.: Медицина,1990, 448с, ил.

30. Вопросы просодики и звукового состава // Сборник статей, Головной Иркутский гос.пед.ин-т. -Иркутск: ИГПИ, 1983- 175 с.

31. Ворсано Д. Кодирование речи в цифровой телефонии // Сети и системы связи №1 1996

32. Герасимова Т.И. Мелодическая структура испанской одночленнойодносинтагменной повествовательной фразы //Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - 175с. с. 99103.

33. Годин Р. Система речевого ввода и вывода информации /обзорЮлектроиика, 1983 № 8 - с.27-29.

34. Гренандер У. Лекции по теории образов: Т.1 Синтез образов / Под ред. Журавлева; пер. с англ. М.: Мир, 1979. - 383с.

35. Давыдова И.М., Давыдов Ю.М. Основы математической технологии. М.: МФТИ, 1979

36. Донгаузер Л.С. Межсинтагменная пауза в сложноподчиненном подчинении // Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - с. 16-24.

37. Журавлев А.П., Пав люк H.A. Язык и компьютер. М.: Просвещение, 1989

38. Загоруйко Н.Г. АРСО и речевые технологии. Выч ислител ьн ые системы № 153- Новосибирск, 1995

39. Златоустова Л.В Интонация и просодия в организации текста //Звучащий текст. М.: Институт научной информации по общественным наукам, 1983-с 11-21.

40. Златоустова Л.В. Фонетическая структура слова в потоке речи. Казань: Издательство Казанского университета, 1962

41. Златоустова Л.В. Фонетические единицы русской речи. М.: Издательство МГУ, 1981

42. Златоустова Л.В., Кодзасов C.B., Кривнова О.Ф., Фролова И.Г. Алгоритмы преобразования орфографических текстов в фонетическую запись. М.: МГУ, 1970

43. Златоустова Л.В., Кузнецов В.Б., Отт А. Длительность гласного как результат взаимодействия 2-х факторов: ритмической структуры слова и его положения в синтагме // АРСО-13, Новосибирск: НГУ, 1984 с. 3-5.

44. Златоустова Л.В., Потапова Р.К., Трунин-Донской В. 11. Общая и прикладная фонетика. М.: Издательство МГУ, 1986. 304с.

45. Итоги науки и техники. Сб. "Вычислительные науки", т.6. М.:ВИНИТИ. 1991

46. Калынь Л.Э. Фонетическая программа слова как основнаяпроизносительная единица. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.3, Po 2.9, p 230- 233

47. Кантер. Системный анализ речевой интонации // Фонетика спонтанной речи.

48. Карневская Е.Б. Лингвистические принципы просодической организации речи при многоязычном синтезе. // Сборник научных трудов "Автоматическое распознавание и синтез речевых сигналов". Киев, 1989 -с. 124-126.

49. Карпов Н.П. Фраза основная единица речевого высказывания/7Вопросы просодики и звукового состава - Иркутск: Издательство ИркРПедИ, 1983 с. 159-173.

50. Коперда Ф. Система распознавания речи. /Компьютеры: Справочное руководство т.З,- М., 1986 гл. 30,- с.358-391.

51. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение Ленинградское отделение, 1989. - 143с., ил.

52. Крейнес А. Компьютерная телефония как средство общения // Nets № 7 1996 с. 75-78

53. Кривнова О.Ф. Количественная оценка воздействия супрасегментных факторов на длительность ударных гласных в синтагме. // АРСО-13, 1984, НГУ, с. 6-7.

54. Кривнова О.Ф., Гладков С.М., Чардин И.С., Бабкин А.В. Узнайте его по голосу // Компьютерра. 1997 - №49 - с.40-43

55. Крил П. API для распознавания речи для WINDOWS 95 И WINDOWS NT //Computerworld №20 1996, СТ 48/97

56. Кузнецов В.Б., Отт А.В. Автоматический синтез речи. Алгоритм преобразования "буква-звук" и управление длительностью речевых сегментов. Таллин: "Валгус" 1989

57. Кутуков Г.П., Матюнин С.Н. Состояние исследований в академических и учебных институтах страны в области автоматического распознавания исинтеза речи // Информационные технологии. 1998. - №6. - с.21-26

58. Кучеров В .Я., Лобанов Б.М. Синтезированная речь в СМО. М.: Радио и связь 1983 132с.

59. Кюннап. Синтез речи. Таллин: Академия наук Эстонской ССР, 1988

60. Липченко В. Я., Самусев Р.П. Атлас нормальной анатомии человека: Учебное пособие. 2-е изд., перераб. и доп. - М.: Медицина, 1988. - 320с., ил., ISBN 5-225-00026-6

61. Лобанов Б.М. Принципы автоматического синтеза интонационных структур. /7АРСО-Ю, Тбилиси, 1978, с 159.

62. Лобанов Б.М. Теоретические основы систем речевого общения. // Искусственный интеллект: в 3 кн. Кн.1 Системы общения и экспертные системы: Справочник / под ред. Э.В. Попова М.: Радио и связь, 1990. -464с., ил.

63. Лупина Е.Д. Мелодические характеристики сегментированного вопроса с постпозитивным сегментом во французском языке. // Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - с. 47-56.

64. Лурия А.Р. Язык и сознание. Под.ред. Е.Д. Хомской. Ростов н/Д.: изд-во "Феникс", 1998. -416с.

65. Маковский М.М. Лингвистическая комбинаторика: Опыт топологической стратификации языковой структуры. М.: Наука, 1988

66. Марголис А.Л. Использование принципов слухового восприятия человека в автоматическом распознавании речи.

67. Математическая лингвистика. Сборник переводов. /Под ред. Шрейдера Ю.А., Ревзина И.И, Лахути Д.Г. и Финна В.К., М.: Мир, 1964

68. Мессарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем./пер. с англ. под ред. И.Ф.Шахнова/ М.: Мир, 1973 -311с.

69. Методы автоматического распознавания речи, к.1 Под ред. У.Ли. М.: Мир 1983

70. Мещеряков Р.В. Модель системы синтеза параметров речи по печатному тексту с использованием информационных представлений // Ползуновский альманах №2, 1999г., Барнаул, изд-во АлтГТУ им. И.И.Ползунова, с 62-68

71. Мещеряков Р.В. Синтез просодии /Компьютерные технологии в науке,проектировании и производстве. Тезисы докладов I Всероссийской научно-технической конференции. В 19 частях. Часть 13 Нижний Новгород: НГТУ, 1999, 43с, с.7

72. Мещеряков Р.В., Бондаренко В.П. Иерархическая система полного синтеза речи по правилам / Измерения, контроль и автоматизация производственных процессов/ сборник докладов четвертой международная конференции. Том 2. Барнаул: Из-во АлтГТУ, 1997 с 128-130

73. Мещеряков Р.В., Бондаренко В.П., Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с., с 37-38

74. Миллер Д.Ж. Магическое число семь плюс или минус два: О некоторых пределах нашей способности перерабатывать информацию // Инженерная психология / Под.ред. А.Н. Леонтьева М.: Прогресс, 1964.

75. Мир ПК 9.98 Автоматическая офисная телефонная система речевая почта.

76. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. /Под редакцией М.А. Сапожкова/- М.: Радио и связь. 1987 168с.

77. Николаева Т.М. Алгоритм независимого грамматического анализа русского текста. М.: Наука 1961

78. Николаева Т.М. Интонация сложного предложения в славянских языках. Опыт экспериментального исследования. М.: Наука, 1969

79. Николаева Т.М. Классификация таблицы русских графем (к проблеме построения читающего устройства) М.: Наука, 1961

80. Николаева Т.М. Семантика акцентного выделения. М.: Наука, 1982 104с.

81. Николаева Т.М. Фразовая интонация славянских языков М.: Наука, 1977

82. Николаева Т.М. Функции частиц в высказывании (на материале славянских языков). М.: Наука, 1985

83. Ожегов С.И. Словарь русского языка. Ок. 57000 слов / Под ред. чл.-корр. АН СССР Н.Ю. Шведовой. 19-изд., испр,- М.: Русс.яз., 1987 - 750с.

84. Организация взаимодействия человека с техническими средствами АСУ. В 7 кн. Кн. 2, Языковые средства диалога человека с ЭВМ. Практ. пособие/

85. Ю.Н. Филиппович, E.B. Родионов, Г.А. Чаркасова; Под ред. В.Н. Четверикова,- М.: Высш. шк., 1990. 159с.

86. Основы автоматического управления. Под редакцией В.С.Пугачева. М.:Наука, 1967, 680с

87. Основы логопедии. / Филичева Т.Б., Чевелева. H.A., Чиркина Г.В. М.: Просвещение, 1989. - 223с., ил.

88. Осокин В.В. Логическое ударение Томск: Изд-во ТГУ, 1968

89. Пайнен Д. Распознавание речи: завтра уже наступило? /Мир ПК, 1995 -№13 с.38-44.

90. Панов М.В. Занимательная орфография. М.: Просвещение, 1984 159с., ил.

91. Пиотровский Р.Г. и др. Математическая лингвистика. М.: Высшая школа, 1977- 387с. с ил.

92. Пиотровский Р.Г. Текст, машина, человек. Л.: Наука 1975

93. Плотников В.Н., Суханов В.А., Жигулевцев Речевой диалог в системах управления. М.: Машиностроение, 1988.

94. Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь издательство, 1976 391с.

95. Популярная медицинская энциклопедия. Гл.ред. Б.В. Петровския. М.: "Советская энциклопедия", 1987 704с., ил.,

96. Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989. -246с., ил.

97. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учеб. пособие для вузов. М.: Радио и связь. - 1997. - 528с.

98. Потапова Р.К. Система делимитативных средств звучащего текста /'/Звучащий текст. М.: Институт научной информации по общественным наукам, с.22-60.

99. Практическая фонетика английского языка (на английском языке). / М.А. Соколова, К.П. Гинтовт, Л.А.Кантер, Н.И. Крылова, И.С. Тихонова, Г.А. Шабадаш М.: Гуманит. изд. центр ВЛАДОС, 1997. - 384с., ил.

100. Пустовалов П.С., Сенкевич М.П. Пособие по развитию речи: Уч.пособие -2-изд., доп.и перераб. М.: Просвещение, 1987. - 288с

101. Пфанцагль (при участии В.Баумана и Г.Хубера) Теория измерений. / пер. с англ. В.Б.Кузьмина. М.: Мир, 1976 250с

102. Савкова З.В. Техника звучащего слова: Мет. пособие. М.: ВИНИНТИ КПР МК СССР, 1988

103. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.452с

104. Светозарова Н.Д., Щербакова Л.П. Роль изменения частоты основного тока в восприятии ударения в изолированных словах и предложениях./ АРСО -VI, Таллин: Институт кибернетики, 1972

105. Светозарова Н.Д. Интонационная система русского языка Л.: Издательство ЛГУ, 1982 175с.

106. Сорокин В.Н. Временные параметры элементов русской речи. Речевая информатика М.: Наука, 1974 - 223с.

107. Сорокин В.Н. Некоторые вопросы построения общей модели речеобразования. Труды АРСО-8, Львов, 1974 с.97-100.

108. Сорокин В.Н. Синтез речи М.: Наука, 1992 -392с.

109. Сорокин В.Н. Теория речеобразования. М.: Радио и связь. 1985- 312с.

110. Структура и семантика текста. Изд. Воронеж, университета, 1988

111. Теоретическая фонетика английского языка (на английском языке): Учеб. для студ. ин-тов и фак.иностр. яз. / М.А. Соколова, К.П. Гинтовт, И.С. Тихонова. М.: 1 уманит, изд. центр ВЛАДОС, 1996. - 286с.

112. Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с.

113. Трунин-Донской В.Н. Автоматический синтез звучащего текста //Звучащий текст. М.: Институт научной информации по общественным наукам 1983 -с. 218-250с.

114. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир 1978 /пер. с англ. И.Б. Гуревича, под ред. О.И. Журавлева. М.: Мир, 1978. - 411с.

115. Тузов В.А. Математическая модель языка. Л.: Издательство ЛГУ, 1984

116. Фирсанова Г.И. Описание интонационных особенностей вопросно-ответных предложений в современном русском языке. //Синтаксис и интонация. Уфа, 1973 с. 106-114.

117. Флейшман Б.С. Элементы теории потенциальной эффективности сложных систем. М.: Советское радио, 1971. -223с.

118. Фонетика спонтанной речи /под. ред. Светозаровой/.

119. Фониатрия и фонопедия / Дмитриев Л.Б., Теляева Л.М., Таптапова СЛ., Ермакова К.И. М.: Медицина, 1990. 272с., ил,

120. Хоэнстейн Л. Вывод звуковой информации: воспроизведение музыки и речи. / Компьютеры: Справочное руководство т.З. -М., 1986 гл.29-с.342133134135136137138139140141142143144145146

121. Черемисина Н.В., Вельц Р.Я. Информативная ёмкость синтаксического ударения в художественной речи. //Синтаксис и интонация. Уфа, 1973 с. 192-196.

122. Ясова Е. О некоторых функциях русского словесного ударения. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 16.2.1 p 315-318

123. Bagshaw P.C. An investigation of acoustic events related to sentential stress and pitch accent, in English Speech Communication 1993 13(3-4): 333-342

124. Bagshaw P.C., Hiller S.M., Jack M.A. Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching. Pages 10031006 of: Proc. 3rd. European Conference on Speech Communication and Technology, vol. 2. Berlin 1993

125. Bagshaw P.C., Williams B.J. Criteria for labeling prosodic aspects of English speech. Pages 859-862 of: Proc. International Conference on Spoken Language Processing, vol. 2. Banff, Canada. 1992

126. Black Alan W. Finite State Machines from Feature Grammars. Proceedings of the International Workshop on Parsing Technologies, Pittsburgh, 1989

127. Black Alan W., Campbell Nick Predicting the intonation of discourse segments from examples in dialogue speech, in "Computing Prosody," Springer Verlag, 1997.

128. Black Alan W., Hunt Andrew J. Generating F0 contours from ToBI labels using linear regression. Proceedings of ICSLP 96, Philadelphia, Penn 1996

129. Black Alan W., Taylor P. Assign phrase breaks from part-of-speech sequences. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece

130. Black Alan W., Taylor P. CHART: a Generic Speech Synthesis System.

131. Black Alan W., Taylor P. Synthesizing Conversational Intonation from a Linguistically Rich Input. In Second ESCA/IEEE Workshop on Speech Synthesis, New York, USA

132. Cecilia Ole A perceptual analysis of Russian intonation: some aspects. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.2, Se 51.5, p. 194-197

133. House Jill, Johnson Michael Enlivening the intonation in text-to speech synthesis: an 'accent-unit' model. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 6.5, p.134-137

134. Knipper A. A SYLLABLE APPROACH TO THE SPEECH INFORMATICS. V.l Se 2.5., p.56-59147.148149150.151.152153,154155156157158159160

135. Kohler Klaus J. Microprosody in segment perception Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 4.1, p.80-83

136. Kosarev Yu., Osipov A., Machovikov A. Natural spoken language understanding: integration of heterogeneous knowledge. Processing "SPECOM'98" International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998.

137. Kosarev Yu.A. The model of oral speech semantic interpretation: quantitative processing and integration of acoustic, syntactic, semantic and pragmatic data. Proc. German Acoustics Conference DAGA-94. Drezden, 1994, p 1281-1284

138. Kowtko J.C. The function of Intonation in Spontaneous and Read Dialogue. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece

139. Metcherjakov R. V., Bondarenko V.P. Control Structure Of Speech Syntheses System // Processing "SPECOM'98". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998. - 360p. pp.353-356

140. Neil P. McAnglus Todd. Guy J.Brown A computation model of prosody perception. Proceeding of the International Conference on Spoken Language Processing (ICLSP-94), Yokohama, Japan, 18th-22nd September 1994, pp. 127130

141. Nikolayeva T. The typology of sentence intonation systems. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Se 102.3, p. 106-109

142. Ottesen Georg E. Adding natural prosody to a phoneme synthesizer. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V. 3, Se 52.4, p. 260-261

143. Processing "SPECOM'96". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1996. - 194p.

144. Processing "SPECOM'98". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998. - 360p.

145. Ruch W.J. An Atlas of Common Subluxations of the Human Spine and Pelvis. CRC Press 1996 178p

146. Sanders E., Taylor P. Using statistical models to predict phrase boundaries for speech synthesis. Proceedings of the Fourth European Conference on Speech Communication and Technology (Eurospeech 95), September 1995, Madrid, Spain

147. Slootwerg A.M. Word stress in prosodic context. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Se 102.5, p. 114-117

148. Sproat R., Taylor P., Tanenblatt M., Isard A. A Markup Language for Text-To-Speech Synthesis. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece.133

149. Svetozarova N.D. LINGUISTIC FACTORS IN SENTENCE STRESS (EVIDENCE FROM RUSSIA) Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6 Se 102.4, p 110-113

150. Taylor P. Synthesizing Intonation using the RFC Model. In Proc. ESCA Workshop on Prosody, Lund, Sweden, 1993

151. Taylor P. The Rise/Fall/Connection model of intonation. Speech Communications, forthcoming, 1994, 15: pp 169-186

152. Taylor P., I sard A. SSML: A Speech Synthesis Markup Language. Speech Communication 21

153. Taylor Paul. Shimodaira Hiroshi, I sard Stephen, King Simon, Kowtko Jaqueline Using Prosodic Information to Constrain Language Models for Spoken Dialogue.

154. Taylor P. A. The Tilt Intonation Model, Proceedings of the Fifth International Conference on Spoken Language Processing (ICSLP 98), November 1998, Sydney, Australia.

155. Willams B. Diphone synthesis for Welsh Proceedings of the IOA, vol. 16, part 5 (1994): 359-365.

156. Wright H., Taylor P. Modeling Intonational Structure Using Hidden Markov Models ESCA workshop on intonation, September 1997, Athens, Greece.

157. Zlatoustova L., Kozlenko N., Khitina M., Zakharov L., Automatic word stress detector. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 4.5, p. 96-99

158. Автосемантический знаменательный (автосемантические части речи: существительное, глагол, прилагательное, наречие)

159. Аккомодация взаимное приспособление, в частности, звуков речи в речевой цепи

160. Актант любой член предложения, обозначающий лицо, предмет, участвующий в процессе обозначенном глаголом

161. Акцент выделение наиболее семантически важного слова посредством наиболее сильного ударения

162. Акцентное выделение обозначение активной для восприятия выделенности просодическими средствами какого-либо слова во фразе. Феномен АВ называется логическим ударением

163. Аллофон конкретная речевая реализация звуков единицы, определяемая фонетическим округлением (минимальным контекстом), позицией и т.д.

164. Валентность способность языковой единицы вступать в синтаксические связи с другими языковыми единицами

165. Вокодер устройство кодирования и декодирования речи, включающее анализатор, синтезатор, преобразованный (например, компрессированный) сигнал, восстановленный (экспандированный) сигнал. Различают полосный, сканирующий, формантный, фонемный вокодеры

166. Высказывание минимальный продукт текстовой деятельности, включающий психическую, физиологическую, интеллектуальную и лингвистическую способность говорящего (пишущего)

167. Грамматика наука о строе языка, вкл. морфологию (учение о формах слов) с синтаксис (учение о сочетании слов в предложении)

168. Графема основания единица, входящая в систему письма того или иного языка

169. Делимитативный признак зубная артикуляция

170. Дифон двухэлементная последовательность звуков сегментов, включающая участок: середина квазистационарного участка предшествующего звука, переход к последующему звуку, часть до середины квазистационарного участка последующего звука

171. Дифтонг сложный гласный звук, образуемый скользящей артикуляцией, в которой различают два элемента

172. Микросегментация речевого сигнала сегментация речевого сигнала на минимальные участки, меньшие звука, а также звуки, иногда слоги

173. Монофтонг артикуляторно и акустически однородный гласный звук. Устойчивость качества обеспечивается стабильной артикуляцией

174. Парадигматика аспект системного изучения языка, определяемый выделением и противопоставлением группы (класса) языковых единиц по какому-либо признаку

175. Периферический речевой аппарат части речеобразующего аппарата, находящиеся на его периферии (губы, зубы, кончик языка)

176. Позиционные аллофоны варианты звуковых реализаций, обусловленные позицией в фонемной цепочке

177. Прагматика раздел языкознания, изучающий функционирование языковых знаков в речи и отношение к знакам говорящего

178. Проклитика примыкание безударного слога (слогов) к последующему ударному слогу

179. Просодема семиологически значимая (знаковая) просодически оформленная единица языка

180. Просодемика семиологически значимое фонетическое оформление средствами просодии слов, цепочки слогов

181. Просодика семиологически незначимое фонетическое оформление средствами просодии слога, цепочки слогов

182. Ритмическая схема синтагмы условная запись данной синтагмы в виде последовательности типов составляющих ее ритмическую структуру

183. Ритмо-мелодическая схема синтагмы условная запись данной синтагмы в виде последовательности типов ритмических структур, объединенных одним мелодическим контуром

184. Семантика: 1) информация, предаваемая с помощью языка или каких-либо языковых единиц; 2) раздел языкознания, изучающий эту информацию; 3) один из основных разделов семиотики

185. Синтагма ритмико-мелодическая единица слитной речи, грамматически оформленная и выраженная в пределах балле сложного целого (предложения) относительно законченную мысль

186. Синтагматика аспект системного изучения языка, определяемый отношениями языковых единиц в их линейной последовательности

187. Синтаксис: 1) правила структурирования речевого высказывания; 2) раздел грамматики, изучающий процессы структурирования речи (сочетаемость и порядок следования слов)

188. Слой уровень сложности принимаемого решения Страта - уровень описания или абстрагирования

189. Такт среднее число слогов, объединенных одним полным словесным ударением

190. Темп среднее число слогов в единицу времени, определенное на данном интервале времени

191. Тембр качество или окраска звука речи, воспринимаемые на слух как впечатление от совокупности и соотношения спектральных составляющих

192. Транскрипция способ однозначной фиксации на письме звуковых единиц речи (сегментная транскрипция) и интонационных единиц (супрасегментная транскрипция)

193. Факультативные аллофоны варианты звуковых реализаций, возникающие в конкретной ситуации общения или стиле речи

194. Фонация процесс голосообразования от источника - голосовых связок

195. Фонема наименьшая единица звукового строя языка, служащая для опознания и различения морфем, слов. Реализуется в речи в ряде вариантов, оттеков

196. Фонетика раздел языкознания, изучающий звуковую сторону языка в физическом, артикуляторном и перцептивном аспектах

197. Фонетическое слово группа слов, включающих главноударный слог и относящиеся к нему предшествующие (проклитика) и последующие (энклитика) слоги

198. Фоноабзац иерархически предельная семантико-просодическая единица устного текста, способная адекватно репрезентировать модель просодической структуры определенного типа текста в целом

199. Фонология раздел языкознания, изучающий структурные и функциональные закономерности звукового строя языка

200. Фонотактика раздел фонологии, изучающий правила комбинаторики и сочленения фонем

201. Форманта максимум спектральной энергии, область концентрации энергии в спектре звука речи

202. Фраза высказывание или последовательность высказываний, представляющих собой смысловое и просодическое единство

203. Частота основного тона (ЧОТ) самая низкая частота, присутствующая в спектре речевого сигнала

204. Хезитация нерешительность, неуверенность, раздумье передаваемое в речи средствами паузации (незаполненной, заполненной)

205. Эмфаза совокупность фонетических средств выделения отдельных слогов (слов)

206. Энергетика текущее изменение интенсивности звука Энклитика - примыкание безударного слога (слогов) к предшествующему ударному слогу

207. Эшелон организационный уровень иерархии

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Управление просодией при синтезе речи по печатному тексту тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Мещеряков, Роман Валерьевич

Оглавление диссертации кандидат технических наук Мещеряков, Роман Валерьевич

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Просодическая организация высказывания и интонационная система языка1983 год, доктор филологических наук Светозарова, Наталия Дмитриевна

Особенности слого-ритмической организации английской речи носителями китайского языка2001 год, кандидат филологических наук Завьялова, Виктория Львовна

Просодическая организация фонетического слова и синтагмы в русском и корейском языках2000 год, кандидат филологических наук Бен Енг Сук

Просодические параметры локальной речи: На материале г. Красноярска2003 год, кандидат филологических наук Гришина, Ольга Анатольевна

Просодия фразы в корейской региональной разновидности английского языка2011 год, кандидат филологических наук Шевчук, Нелли Михайловна

Введение диссертации (часть автореферата) на тему «Управление просодией при синтезе речи по печатному тексту»

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Сегментное и просодическое устройство корейского многосложного слова2005 год, кандидат филологических наук Николаева, Татьяна Леонидовна

Акцентно-ритмические особенности русской словоформы в речи китайских учащихся2006 год, кандидат филологических наук Логашева, Елена Сергеевна

Слого-ритмическая структура английской речи носителей корейского языка2004 год, кандидат филологических наук Уютова, Евгения Викторовна

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Мещеряков, Роман Валерьевич

Список литературы диссертационного исследования кандидат технических наук Мещеряков, Роман Валерьевич, 2000 год