Комплекс программ синтезирования таджикской речи по тексту тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Худойбердиев, Хуршед Атохонович

  • Худойбердиев, Хуршед Атохонович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2009, Душанбе
  • Специальность ВАК РФ05.13.18
  • Количество страниц 113
Худойбердиев, Хуршед Атохонович. Комплекс программ синтезирования таджикской речи по тексту: дис. кандидат физико-математических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Душанбе. 2009. 113 с.

Оглавление диссертации кандидат физико-математических наук Худойбердиев, Хуршед Атохонович

Введение.

Концептуальная модель синтеза речи по тексту.

Глава 1. О многообразии слогов таджикского языка.

§1.1. Краткие сведения о таджикском языке.

§ 1.2. Случайная выборка текстовой информации.

§ 1.3. Слоговая структура слов.

§ 1.4. Статистические закономерности текстовой информации.

§ 1.5. Многообразие структур слогов.

§ 1.6. Алгоритм разбиения слова на слоги.

§ 1.7. Многообразие слогов таджикского языка.

§ 1.8. О распознавании ударного слога в таджикском слове.

Дополнение к главе

§ 1.9. Алгоритм морфоанализа таджикских слов.

§ 1.10. О слоговой структуре русских слов.

Глава 2. Компьютерные основы синтеза таджикской речи.

§ 2.1. Формирование базы "слог-звук".

§ 2.2. Описание базы "слог-звук".

§ 2.3. Алгоритм озвучивания слова.

§ 2.4. Алгоритм озвучивания чисел. Озвучивание символов.

§ 2.5. Алгоритм безударного озвучивания текста.

§ 2.6. Алгоритм ударного озвучивания текста.

Дополнение к главе

§ 2.7. Алгоритм морфемного озвучивания слова.

- § 2.8. Об алгоритме озвучивания таджикского текста с русизмами.

Глава 3. Программный комплекс Tajik Text-to-Speech.

§ 3.1. Структурная схема программного комплекса.

§ 3.2. Интерфейс программного комплекса.

§ 3.3. Технические средства озвучивания.

§ 3.4. Настройка качества озвучивания слогов и слов.

§ 3.5. Вычислительные эксперименты. Оценка полноты множества слогов для формирования синтетической речи.

§ 3.6. Вычислительные эксперименты. Реализация просодического облика таджикского слова.

Дополнение к главе

§ 3.7. Вычислительные эксперименты. Морфемное озвучивание.

§ 3.8. Вычислительные эксперименты. Озвучивание таджикского текста с русизмами.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Комплекс программ синтезирования таджикской речи по тексту»

Настоящая диссертация посвящена разработке и созданию прототипа компьютерного синтезатора таджикской речи по тексту. Потребность в таком синтезаторе обуславливается тем, что его аналоги для других языков не только оказывают помощь людям с дефектами зрения и речи, но также находят все большее применение в технике связи, в информационно-справочных системах, а в обозримом будущем займут надлежащее место в широком акустическом диалоге человека с автоматами и робототехникой в разнообразных сферах человеческой деятельности.

1. Обзор исследований. Синтезируемая речь ныне воспроизводится различными методами, обладающими как определенными достоинствами, так и недостатками. Всякий речевой синтезатор оценивается по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи. При проектировании синтезаторов пытаются учесть именно эти две характеристики. Одни синтезаторы речи лучше передают естественность звучания, другие - понятность. В зависимости от того, для каких целей они предназначаются, в основу их проектирования закладываются различные методы синтеза речи. Методы эти обычно разделяются на три группы, называемыми

• артикуляционным синтезом,

• формантным синтезом,

• конкатенативным синтезом.

Артикуляционный синтез считается одним из самых трудных методов. Его представители [1-11] в Европе и США пытаются численно смоделировать работу человеческой гортани и происходящих в ней артикуляторных процессов настолько точно, насколько это возможно с тем, чтобы воспроизвести высококачественную синтетическую речь. До не давнего времени артикуляционный синтез развивался в основном для научных целей и не привлекал особого внимания коммерческих организаций. И лишь недавно некоторые из разработанных моделей начали появляться в речевых синтезированных системах. Определенное представление о ранних и более поздних моделях артикуляционного синтеза можно получить из [12-16].

Формантный синтез, не используя никаких образцов человеческой речи, подражает ей, производя искусственные спектрограммы. Речевое сообщение синтезированной речи создается им при помощи акустической модели. Параметры такие, как собственная частота, озвончение и уровни шума варьируются со временем и создают форму сигнала искусственной речи. Многие системы, в основе которых лежат технологии формантного синтеза, генерируют искусственную речь с "роботоподобным" звучанием, так что синтезированное речевое сообщение никак нельзя спутать с естественной человеческой речью. Системы формантного синтеза имеют некоторые преимущества перед конкатенативными системами, поскольку в них, во-первых, формантно-синтезированная речь может быть очень понятной по причине того, что в ней нет акустических шумов, присущих конкатенативным системам. Во-вторых, формантные синтезаторы - это часто программы, меньшие по размеру, чем конкатенативные системы, так как у них нет базы речевых образцов. Они могут использоваться во встроенных компьютерных системах, требующих минимальную память и мощность процессора. И, наконец, так как формантный синтез осуществляет общий контроль всех аспектов создаваемого речевого сообщения, то его достижением может стать широкое разнообразие просодии (систем произношения ударных и неударных, долгих и кратких слогов в речи) или интонации, передающей не только вопросы и утверждения, но и спектр эмоций и тонов голоса.

Самые известные из Аэгтаг^-синтезаторов связаны с именем Клатта (Б. Н.КЛаИ), [17-23], определенные представления о более ранних £огтап1-синтезаторах можно получить из работ [24-26].

В основе конкатенативного синтеза лежит соединение (или же конкатенация) заранее записанных сегментов естественной речи. Такой синтез является, вероятно, самым простым способом воспроизведения понятной и естественно звучащей синтетической речи. В нем одним из самых важных моментов является выбор звуковых фрагментов подходящей длины. Такой выбор производится между короткими и длительно звучащими единицами. С более длинными единицами достигается хорошая артикуляция и высокая степень естественности речи, уменьшается число потребных соединений в пунктах стыковки звуковых единиц. Вместе с тем проявляется и недостаток -неизбежное увеличение изначально резервируемой памяти компьютера. Работа с более короткими звуковыми единицами (фрагментами) требует меньше памяти, однако процесс автоматического синтезирования их становится более трудным и сложным. В существующих конкатенативных синтезаторах в качестве звуковых единиц используются фонемы, дифоны, слоги, морфемы, слова, фразы и даже предложения. На первый взгляд может показаться, что в сравнении с другими именно слову следует отдать преимущество, однако, из-за наличия в каждом языке необозримого множества различных слов и имен собственных, а также из-за неодинакового звучания слова в непрерывной речи и изолированно, нельзя признать такой выбор приемлемым.

Идеи, положенные в основу конкатенативного синтеза, потвидимому, впервые были высказаны Харрисом (С.М. Harris ) в его статье о строительных блоках разговорной речи, см. [27]. Современное состояние вопроса можно получить из работ [28-39].

Наиболее распространенными вариантами конкатенативного синтеза являются параметрический синтез и синтез по правилам. Первый из них является более гибким в силу параметризации на основе мелких фонетических единиц (аллофонов, дифонов, слогов.). Он позволяет манипулировать параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах становятся незаметными. Варьирования такого параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется1 для синтеза. При этом требуется больше вычислений, и возникают трудности коартикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора.

Синтез по правилам работает с так называемым "неограниченным словарем". Его элементами являются фонемы или слоги, которые соединяются по вполне определенным правилам. Обнаружено, что для синтеза речи высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации. По этой причине процесс синтеза приобретает абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического-описания. Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов (например, гласные и-согласные) со знаками ударения, обозначениями тона и временных характеристик. Этот метод предоставляет свободу моделирования параметров, хотя сами правила моделирования остаются несовершенными. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности.

Следует отметить, что среди упомянутых синтезов формантный и конкатенативный нашли себе широкое применение, причем первый из них доминировал в течение долгого времени в прошлом, однако сегодня более популярным становится синтез конкатенативный. На их фоне артикуляционный синтез представляется слишком сложным для высококачественного воспроизведения, но не исключено, что он может оказаться особо перспективным методом в недалеком будущем.

Другими менее популярными синтезами речи являются гибридный и синтез на основе НММ (Hidden Markov Models - НММ). Гибридный синтез объединил в себе черты формантного и конкатенативного синтеза с целью максимального уменьшения акустических шумов в процессе звучания речевых сегментов. В системе синтеза на основе НММ речевой частотный спектр (речевой тракт), собственная частота (синтезатор речи) и длительность (просодия) моделируются одновременно при помощи скрытых марковских моделей. Речевые формы сигнала генерируются из скрытых марковских моделей, которые в свою очередь базируются на критерии максимального правдоподобия.

В России наиболее заметные достижения в области автоматического синтезирования речи связаны с Вычислительным центром РАН (Ю. И. Журавлев, В. Я. Чучупал); Институтом проблем передачи информации РАН (В. Н. Сорокин), Институтом математики СО РАН и Новосибирским государственным университетом (Н. Г. Загоруйко и В. М. Величко), МГУ им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), МЭИ (А. И. Евсеев), Московским государственным лингвистическим университетом (Р. К. Потапова), Московским техническим университетом связи и информатики (Ю. Н. Прохоров) и Санкт-Петербургским государственным университетом (В. И. Галунов), [40-70]. Из стран СНГ определенные достижения представлены в Белоруссии, [71-76].

Различные методы синтеза речи положены в основу компьютерных программ - синтезаторов речи. Относящиеся к разряду "text-to-speech" такие программы по желанию пользователя могут читать мужским или женским голосом тексты, записанные в электронную память, делать при этом интонационные паузы, изменять тон и тембр речи в ходе прослушивания, передавать озвученные тексты через сеть. Далее приводится список наиболее известных компьютерных синтезаторов речи: Reader TTS, Govorilka, ТоМ Reader, Sakrament, Talk-To-Me, Text Aloud МРЗ , SNAT, Book Reader, Speech2, Фонемафон, MP3book2005, Sakrament Talker, Infovox, DECTalk, Bell Labs Textto-Speech, Laureate, SoftVoice, CNET PSOLA, ORATOR, Eurovocs, Lernout & Hauspies, Apple Plain Talk, Acu Voice, CyberTalk, ËTI Eloquence, Festival TTS System, ModelTalker, MBROLA, Whistler, NeuroTalker, Listen2, SPRUCE, HADIFIX, SVOX Pfister 1995. SYNTE2 and SYNTE3, Timehouse Mikropuhe, Sanosse, Speaking Mouse, ARGUS, АГАФОН, [77-104].

О некоторых программах, например, таких как Sakrament Talker, Govorilka, Talk-To-Me, Text Aloud, Speech2, сообщается, что они приспособлены читать вслух тексты на любом языке. Однако1 при непосредственной работе с ними обнаруживается, что приписываемое им умение на самом-то деле не подтверждается, так как высокое качество синтезируемой речи напрямую связано с учетом специфики озвучиваемого языка, вследствие чего программная система, разработанная для конкретного языка, не может столь же успешно выполнять свои функции по отношению ю любому другому языку. Однако не только это, но также и существенные недостатки, определяемые либо неестественностью звучания, либо недостаточной разборчивостью сообщений, обуславливает актуальность дальнейших исследований по проектированию синтезаторов речи для естественных языков.

2. Обзор диссертации. В настоящей диссертации дается описание разработанного автором прототипа компьютерного синтезатора таджикской речи по тексту. Он построен по принципу конкатенативного синтезатора, в котором в качестве речевой единицы выбран слог, что, в свою очередь, указывает на необходимость наиболее полного описания многообразия слогов таджикского языка. Решение этой проблемы приводится- в первой главе диссертации и основывается на статистическом исследовании случайной выборки из таджикских текстов объемом в 3800 страниц, содержавших 1 724 472 слов.

Для изучения закономерностей таджикского языка, связанных с понятием слога, введено понятие слоговой структуры слова. Суть его состоит в следующем. Пусть W какое-либо слово, представляющее собой определенную последовательность букв. Замещая в ней гласные буквы цифрой 1, а согласные цифрой 0 (букву, "й" считается согласной), мы, тем самым, преобразуем слово W в упорядоченную совокупность JV0'j нулей и единиц. Такое преобразование названо кодированием слова W, а получаемый результат, т.е. запись JV0'J} слоговой структурой слова W.

Размерностью структуры JV0\ названо число букв, составляющих- слово

W, или число символов (двоичных знаков), которые используются в записи fV0*,.

Установлено, что - на множестве {W^} обнаружено 2978 различных слоговых структур таджикских слов, при этом 1 и 14 - размерности минимальной и максимальной структур слов, соответственно.

Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке. Обнаружено, что 17 наиболее часто встречающихся, структур осуществляют 50%-е, 34 структуры - 75%-е, а 89 структур 90%-е покрытия таджикских текстов. Кроме того, 170 структур встретились 429 843 раз и составили 95%-е покрытие текстов.

Далее каждая из 170 структур разделялась на слоги, "вручную" (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Выявлено всего лишь шесть различных структур таджикских слогов-1, 10,01,010, 100 и 0100.

Частота встречаемости упомянутых структур среди 985 768 слогов, полученных при разбиении на слоги 429 843 слов, принадлежавших 170 различным слоговым структурам таджикских слов, указана в таблице.

Слоги в Частота Частота символьной встречаемости встречаемости, записи в % абс. величина 1 7,958 78 452

10 5,802 57 199

01 55,463 546 732

010 25,964 255 945

100 0,943 9 292

0100 3,870 38 148

Из представленных в таблице результатов следует, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка. Кроме того, 2,3 — средняя размерность слогов в таджикском слове.

На основе проведенных исследований в § 1.6 предложен алгоритм для разбиения таджикских слов на слоги, реализованный в виде компьютерной программы. С помощью этой программы, путем обработки упомянутой ранее случайной выборки был получен главный результат главы 1 — исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов.

Среди дополнений к главе 1 отметим § 1.10, в котором анализируется слоговая структура русских слов. Потребность в рассмотрении этого вопроса была связана с тем, что в таджикском языке появилось большое число заимствований русских слов, и потому возникла необходимость их озвучивания в рамках синтеза таджикской речи. Предварительными исследованиями в § 1.10 установлено, что в русском языке имеется не менее 20 различных слоговых структур, которые, в частности, содержат в себе 6 таджикских слоговых структур. Из этого сделан вывод о возможности реализации таджикско-русского компьютерного синтезатора, основанного на конкатенативном синтезе речи.

Основным результатом главы 2 является описание того, каким образом в диссертации решена проблема синтеза таджикской речи по произвольному тексту. В §§ 2.3 — 2.6 описываются компьютерно реализованные алгоритмы озвучивания слов, чисел, символов и текста. Алгоритмы §§ 2.5 и 2.6 содержат в себе в качестве составных частей алгоритмы двух предыдущих параграфов. Они по существу и выражают принципиальную схему озвучивания текста, реализованную в диссертации, см. рис. 2 и 3 главы 2. В соответствии с ней очередное слово, подлежащее озвучиванию, разделяется на слоги. Для каждого слога из базы "слог-звук" извлекается соответствующая звуковая реализация, затем из извлеченных элементов синтезируется звучание i слова. Вполне понятно, что между слогами и между словами устанавливаются паузы, величины которых подобраны экспериментально с учетом двух параметров - естественности звучания (получаемые звуки приближены к естественной речи человека) и разборчивости (легкости понимания искусственной) речи.

Начинается глава 2 с §§ 2.1 и 2.2, в которых многообразие слогов таджикского языка используется для формирования базы слог-звук. Эта база занимает 263 Мб памяти на жестком диске, в среднем - 40 Кб на 1 слог. Интервал времени звучания одного слога варьируется в пределах - 250^00 мс. Длительности межслоговой и межсловной пауз могут составлять соответственно 20 - 200мс и 200 - 2000мс., для границ абзацев - 900 мс, для границ предложений - 600 мс, паузы-"запятые" внутри предложений - 400 мс. Ударный слог на фоне других слогов выделялся особыми значениями трех акустических параметров - длительностью звучания, частотой основного тона и амплитудой (силовой характеристикой звука). Для наилучшего звучания оказались подходящими следующие соотношения параметров ударных и безударных слогов: rjru= 1Д vjvu = 1.4, AJAU = 3.

База "слог-звук" составлена из звуковых файлов формата WAV, озвученных 3259 слогов мужским и женским голосом соответственно. Общие характеристики базы приведены в следующей таблице.

Голос озвучивания Общее количество слогов Общий объем памяти (Мб) Средний объем памяти 1 слога (Кб) Минимальный объем памяти 1 слога (Кб) Максимальный объем памяти 1 слога (Кб)

Мужской 3259 130 40 13 60

Женский 3259 133 41 16 65

ИТОГО 6518 263 1

Среди дополнений к главе 2 отметим § 2.7, в котором приведен алгоритм^ озвучивания слова на основе его предварительного морфоанализа. В-таджикском языке порядка 150 префиксов, (простых и составных)-, и 250' постфиксов. Кроме того, для целей озвучивания можно ограничиться словарем основ объемом в 50Ю00 слов-. Для реализации синтеза речи требуется создание-баз данных - "префикс-звук", "корень-звук" и "постфикс-звук". Несложными' вычислениями устанавливается, что для» таких баз требуется зарезервировать около 15 Гб памяти. В том случае, когда слово не удается проанализировать,как последовательность морфов, применяется правило послогового озвучивания.

Другое дополнение представлено в § 2.8 алгоритмом озвучивания таджикского текста, содержащего слова, заимствованные из русского языка. В; основном это относится к именным словам. Осуществляя-фрагментирование их на слоги и дополняя последними таджикскую базу "слог-звук", мы получаем возможность синтезировать таджикские тексты с включениями.русских слов.

В главе 3 дается описание основного результата диссертации — программного комплекса Tajik Text-to-Speech - компьютерного синтезатора таджикских текстов с его структурной схемой, функциональными-возможностями, пользовательским интерфейсом, порядком его установки и настройки. Здесь же в § 3.5 излагаются результаты экспериментов, нацеленных на установление полноты- базы «слог-звук». Полученные данные показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста. В-отдельных случаях не удавалось получить 100% озвучивания, слов, что происходила по двум-причинам. Первая причина состояла в том, что слово таджикского происхождения могло содержать в себе такой слог, структура которого хотя и принадлежала одной из шести выявленных структур, тем не менее его конкретная буквенная-реализация не содержалась в базе «слог-звук». Следовательно, такой слог не имел своего звукового образа. Другая причина состояла в том, что слово из текста оказывалось заимствованным из другого языка и при фрагментировании на слоги могло выдавать такой слог, структура которого была не свойственна таджикскому языку.

Другие эксперименты носили публичный; характер. Они проводились > на научных семинарах Института, математики АН РТ. Его участники по собственному усмотрению: вводили в; компьютер таджикские тексты и затем оценивали: естественность и разборчивость, звучания-; синтетической речи: Общее мнение семинара - компьютерный: синтезатор; построенный по принципу конкатенации; 3259-таджикских слогов;, вполне успешно выполняет функции: озвучивания,таджикских текстов;.

В § 3.6 главы 3 основной: результат состоит в учете ударного слога: при: озвучивании, что приводит к заметному повышению: естественности и разборчивости звучания синтетической речи. В этом- параграфе приводятся, количественные характеристики акустических параметров; выделяющих ударный слог на фоне безударных.

В § 3.7 излагаются результаты экспериментов по озвучиванию текста путем конкатенации морфем - минимальных синтаксических единиц языка, извлекаемых, из базы "морфема-звук". - Здесь, удалось установить, что? качество-звучания синтетической речи - выше, чем в случае конкатенации таких звуковых единиц как слоги. Из этого сделан вывод; что компьютерный синтезатор построенный} на морфемном лексиконеу, следует принять в качестве альтернативы синтезатору, осуществляющему послоговую конкатенацию: Конечно, надо иметь в виду, что такой; синтезатор нуждается:в резервировании достаточно большой памяти, порядка 15 Гб:

Другая особенность такого синтезатора заключается в том, что ему не удается в полном объеме справиться с решением задачи озвучивания всех слов, ибо он не может содержать в себе исчерпывающий словарь морфов и потому не может представить некоторые слова как,последовательность морфов^ Выход, из положения видится, в использовании гибридного "морфемно-послогового" синтезатора, который каждое слово поначалу пытается проанализировать с помощью морфемного лексикона, а если это не: получается,. осуществить его озвучивание путем послогового синтеза. Последнее не применяется, если морфемный анализ удается выполнить.

В § 3.8 дано описание экспериментов с озвучиванием таджикского текста с русскими заимствованиями. Установлено, что компьютерный синтезатор, основанный на послоговой конкатенации и содержащий в базе "слог-звук" необходимые русские слоги, вполне успешно справляется с озвучиванием смешанного текста.

Теоретическая значимость работы состоит в том, что разработанные в ней подходы и алгоритмы эффективно приспосабливаются к решению проблемы синтеза речи по тексту, прежде всего, для индоевропейских, а также для других языков, в которых просодия слова строится по принципу словесного ударения.

Кроме того, в работе создана основа для проведения дальнейших исследований по совершенствованию компьютерного синтезатора таджикской речи.

Практическая значимость программного комплекса Tajik Text-to-Speech подтверждается

• его использованием людьми с дефектами зрения в НПО ПК «Сигма» при Центральном правлении Таджикского общества слепых (после 3-х месяцев предварительного испытания);

• его внедрением в учебный процесс на кафедре гуманитарных наук, Худжандского филиала Технологического университета Таджикистана, для углубленного изучения основ грамматики и фонетики таджикского языка.

Практическая значимость работы состоит также в том, что в ней установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-Speech

• в синтезатор таджикской речи с русизмами,

• в синтезатор таджикской речи на основе морфемного лексикона.

Комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики

Таджикистан в качестве интеллектуального продукта 041Т1 04.09.2007 и передан посредническим фирмам для распространения.

Апробация работы. Основные результаты диссертации обсуждались на научно-исследовательских семинарах Института математики АН РТ, а также на научных конференциях Худжандского филиала Технологического университета Таджикистана.

Публикации. Основные результаты диссертации опубликованы в 4-х статьях [142-145], из них 2 - в соавторстве с научным руководителем З.Д.Усмановым, которому принадлежат постановки задач и обсуждение результатов. Решения задач выполнены диссертантом.

КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ ПО ТЕКСТУ

1. В настоящем параграфе излагается основная идея синтеза речи по тексту, которая находит свою реализацию в диссертационной работе и помогает восприятию содержания последующих глав. Напомним ряд понятий, используемых в дальнейшем.

Текст — это последовательность предложений, построенных согласно правилам данного языка и данной знаковой системы и образующая сообщение, [122].

В свою очередь, предложение будем рассматривать как совокупность упорядоченных элементов 7 типов, называемых словом, числом, символом, пробелом, внутренним знаком препинания (запятая, двоеточие, точка с запятой, тире), внешним знаком препинания (точка, многоточие, знак вопросительный, знак восклицательный) и, наконец, служебным символом окончания абзаца (в письменном тексте его нет, но он появляется в компьютерном тексте).

Отметим, что смысл, который мы заключаем в названия элементов, следует понимать в общепринятых значениях. Подчеркнем также, что в конкретном предложении некоторые элементы могут отсутствовать (например, числа, символы, внутренние знаки препинания и т.д.) в то время как присутствие других - обязательно (например, внешний знак препинания).

Нам понадобятся 5 типов пауз, используемых в речи: р5 - пауза между слогами при произношении слова; р„ - пауза между словами при чтении предложения (соответствует пробелу между словами); р, - пауза, отмечающая внутренний знак препинания; ре - пауза, отмечающая внешний знак препинания; ра - пауза, отмечающая конец абзаца.

Теперь мы имеем возможность описать идею синтезирования речи по тексту в виде принципиальной блок-схемы, см. рис.1.

Рис. 1. Принципиальная блок-схема синтеза речи по тексту.

Работа синтезатора происходит следующим образом. После ввода очередного предложения оно анализируется по составу своих элементов. Если очередной элемент - слово, то в блоке 1 оно разделяется на слоги с указанием ударного слога и затем осуществляется его озвучивание с использованием базы "слог-звук".

Если очередной элемент - число, то оно в блоке 2 преобразуется в текст и затем его озвучивание происходит через блок 1.

Если очередной элемент - символ, то его озвучивание происходит в блоке 3 путем извлечения соответствующего звучания из базы "символ-звук".

Если очередной элемент — пробел, внутренний или внешний знак препинания или же знак окончания- абзаца, то для них из соответствующего блока извлекается соответствующая пауза.

2. Синтезатор речи, представленный в виде блок-схемы, подсказывает, что в его основу закладывается принцип конкатенации озвученных слогов.

Поскольку слог выступает в качестве основной звуковой единицы речи, то для реализации синтезатора требуется описать многообразие все слогов соответствующего естественного языка (задача 1).

Поскольку каждый слог, представленный в виде цепочки букв, нуждается в его звуковом образе, то требуется создание базы "слог-звук" (задача 2).

Поскольку синтезатор предусматривает озвучивание чисел и символов, то в первом случае требуется трансформирование числа в текст (задача 3), а во втором случае - создание базы "символ-звук " {задача 4).

Поскольку в каждом слове выявляется ударный слог, то требуется разработать автоматическую систему морфоанализа слов (задача 5).

И, наконец, требуется настроить длительности пауз р5, рк, р,, ре и ра таким образом, чтобы получить, по-возможности, естественную и разборчивую синтетическую речь.

Решение перечисленных задач приводится в трех последующих главах.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Худойбердиев, Хуршед Атохонович

ЗАКЛЮЧЕНИЕ

Таким образом, на защиту диссертации выносятся следующие результаты.

1. Разработан программный комплекс Tajik Text-to-Speech - прототип компьютерного синтезатора таджикской речи по тексту, получивший положительную оценку по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи.

2. В основу его разработки положен метод конкатенативного синтеза таджикских слогов, выбранных в качестве основных звуковых единиц для формирования синтетической речи.

3. Путем статистической обработки репрезентативной выборки объемом в 3800 страниц получено исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов, использованных для формирования базы данных "слог-звук".

4. В синтезаторе реализованы такие элементы просодического синтеза как расстановка ударений, учет интонационной паузы между абзацами, после запятой внутри предложений и точки в конце предложения.

5. Вычислительными экспериментами установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-Speech в синтезатор таджикской речи с русизмами

6. Вычислительными экспериментами обоснована также перспективность разработки синтезатора таджикской речи на основе морфемного лексикона.

Список литературы диссертационного исследования кандидат физико-математических наук Худойбердиев, Хуршед Атохонович, 2009 год

1. Klatt D. (1987) Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, JASA vol. 82 (3), pp. 737-793.

2. Beslcow J. (1996). Talking Heads Communication, Articulation and animation. Proceedings of Fonetik-96: pp. 53-56.

3. Klatt D., Klatt L. (1990). Analysis, Synthesis, and Perception of Voice Quality Variations Among Female and Male Listeners. Journal of the Acoustical Society of America, JASA vol. 87 (2): pp. 820-857.

4. Cohen M., Massaro D. (1993). Modelling Coarticulation in Synthetic Visual Speech. Proceedings of Computer Animation 93, Suisse.

5. Kleijn K., Paliwal K. (Editors) (1998). Speech Coding and Synthesis. Elsevier Science B.V., The Netherlands.

6. Kortekaas R., Kohlrausch A. (1997). Psychoacoustical Evaluation of the Pitch-Synchronous Overlap-and-Add Speech-Waveform Manipulation Technique Using Single-Formant Stimuli. Journal of the Acoustical Society ofAmerica, JASA, Vol. 101 (4): pp. 2202-2213.

7. Kraft V., Portele T. (1995). Quality Evaluation of Five German Speech Synthesis Systems. Acta Acustica 3 (1995): pp. 351-365.

8. Kröger B. (1992). Minimal Rules for Articulatory Speech Synthesis. Proceedings ofEUSJPC092 (1): pp. 331-334.

9. Laine U. (1982). PARCAS, a New Terminal Analog Model for Speech Synthesis. Proceedings oflCASSP 82 (2).

10. Klatt, D. H. (1979). Synthesis by rule of segmental durations in English sentences. In Lindblom, B. E. F. and Ohman, S. (Eds.), Frontiers of Speech Communication Research, pp. 287-299.

11. Stevens, K. N., Kasowski, S., and Fant, G. M. (1953). An electrical analog of the vocal tract. Journal of the Acoustical Society of America, 25(4), 734-742.

12. Flanagan, J. L., Ishizaka, K., and Shipley, K. L. (1975). Synthesis of speech from a dynamic model of the vocal cords and vocal tract. The Bell System Technical Journal, 54(3), pp. 485-506.

13. Fant, G. M. (1986). Glottal flow: Models and interaction. Journal of Phonetics, 14, pp. 393-399.

14. Flanagan, J. L. (1972). Speech Analysis, Synthesis, and Perception. SpringerVerlag, Berlin-Heidelberg-New York.

15. Klatt D. (1980). Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society of America, JASA, Vol. 67: pp. 971-995.

16. Allen, J:, Hunnicut, M. S., and Klatt, D. H. (1987). From Text to Speech: The MITalk system. Cambridge University Press.

17. Klatt, D. H. (1982). The Klattalk text-to-speech conversion system. In IEEE ICASSP-82, pp. 1589-1592.

18. Klatt, D. H. (1979). Synthesis by rule of segmental durations in English sentences. In Lindblom, B. E. F. and Ohman, S. (Eds.), Frontiers of Speech Communication Research, pp. 287-299. Academic.

19. Galanes F., Savoji M., Pardo J. (1995). Speech Synthesis System Based on a Variable Decimation. Proceedings oflCASSP 95: 636-639.

20. Holmes W., Holmes J., Judd'M. (1990). Extension of the Bandwith of the JSRU Parallel-Formant Synthesizer for High Quality Synthesis of Male and Female Speech. Proceedings oflCASSP 90 (1): pp. 313-316.

21. Cooper, F. S., Liberman, A. M., and Borst, J. M. (1951). The Interconversion of Audible and Visible Patterns as a Basis for Research in the Perception of Speech. Proceedings of the National Academy of Sciences, 37(5), pp. 318-325.

22. Lawrence, W. (1953). The synthesis of speech from signals which have a low information rate. In Jackson, W. (Ed.), Communication Theory, pp. 460-469. Butterworth.

23. Fant, C. G. M. (1953). Speech communication research. Ing. Vetenskaps Akad. Stockholm, Sweden, 24, pp. 331-337.

24. Harris, C. M. (1953). A study of the building blocks in speech. Journal of the Acoustical Society of America, 25(5), pp. 962-969.

25. Peterson, G. E., Wang, W W.-Y, and Sivertsen, E. (1958). Segmentation techniques in speech synthesis. Journal of the Acoustical Society of America, 30(8), pp. 739-742.

26. Dixon, N. and Maxey, H. (1968). Terminal analog synthesis of continuous speech using the diphone method of segment assembly. IEEE Transactions on Audio andElectroacoustics, 16(\),pp. 40-50.

27. Olive, J. P. (1977). Rule synthesis of speech from dyadic units. In ICASSP77, pp. 568-570.

28. Olive, J. and Liberman, M. (1979). A set of concatenative units for speech synthesis. Journal of the Acoustical Society of America, 65, S130.

29. Sagisaka, Y (1988). Speech synthesis by rule using an optimal selection of nonuniform synthesis units. In IEEE ICASSP-88, pp. 679-682.

30. Sagisaka, Y, Kaiki, N., Iwahashi, N., and Mimura, K. (1992). Atr v-talk speech synthesis system. In ICSLP-92, Banff, Canada, pp. 483-486

31. Hunt, A. J. and Black, A. W (1996b). Unit selection in a concatenative speech synthesis system using a large speech database. In IEEE ICASSP-06, Vol. 1, pp. 373-376.

32. Black, A. W. and Taylor, P. (1994). CHATR: a generic speech synthesis system. In COLING-94, Kyoto, Vol. II, pp. 983-986.

33. Nakajima, S. and Hamada, H. (1988). Automatic generation of synthesis units based on context oriented clustering. In IEEE ICASSP-88, pp. 659-662.

34. Donovan, R. E. (1996). Trainable Speech Synthesis. Ph.D. thesis, Cambridge University Engineering Department.

35. Syrdal, A. K., Wightman, С W., Conkie, A., Stylianou, Y, Beutnagel, M., Schroeter, J., Strom, V., and Lee, K.-S. (2000). Corpus-based techniques in the AT&T NEXTGEN synthesis system. In ICSLP-00, Beijing.

36. Syrdal, A. K. and Conkie, A. (2004). Data-driven perceptually based join costs. In Proceedings of Fifth ISCA Speech Synthesis Workshop.

37. Журавлев Ю.И. Избранные научные труды. //Магистр. М., 1998.

38. Чучупал В.Я., Маковкин К.А., Чичагов А.В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи //Искусственный интеллект, том 4, №1, Киев, 2002. - с. 575-579.

39. В.Я. Чучупал, К.А. Маковкин.,- А.В. Чичагов. Адаптация к голосу и среде в системе распознавания речи. Математические методы распознавания образов. М., 2003. - 485 с.

40. Будянов В.П, Загоруйко Н.Г., Луценко Б.Н., Хамидуллин С.А. Пакет прикладных программ для статистической обработки сигналов (СИГНАЛ). Аннотация // Информационный бюллетень "Алгоритмы и программы" № 6, 1986. с. 5.

41. Величко В.М., Загоруйко Н.Г., Кельманов A.B., Хамидуллин С.А. и др. Система понимания слитной речи на базе ЕС ЭВМ // Тез. докл. и сообщений Всесоюз. Школы-семинара APCO-XIII, Новосибирск, 1984. -с. 131-132.

42. Плотников В.Н., Белинский A.B., Суханов В.А., Жигулевцев Ю.Н. Цифровые анализаторы спектра. М.: Радио и связь, 1990.

43. Плотников В.Н., Суханов В.А., Жигулевцев Ю.Н. Речевой диалог в системах управления. М.: Машиностроение, 1988. - 224 с.

44. Харламов A.A., Жигулевцев Ю.Н. Микропроцессорные средства построения встраиваемых речевых приложений "Искусственный интеллект" №.4, 2006.

45. Потапова Р.К. Основные современные способы анализа и синтеза речи.-М., 1971.

46. Потапова Р.К. Речевое управление роботом. М., 1989.

47. Потапова Р.К. Речь: Коммуникация, информация, кибернетика. М.,1997. (2-е доп. изд. -М., 2001).

48. Потапова Р.К. Новые информационные технологии и лингвистика. М., 2002.

49. Потапова Р.К. Экспериментально-фонетическое исследование сегментного уровня языков. М., 1979.

50. Потапова Р.К. Слоговая фонетика германских языков. М., 1986.

51. Потапова Р.К. Новые информационные технологии и лингвистика. М.: МГЛУ, 2002.

52. Потапова Р.К., Блохина Л.П., Собакин А.И. Методы математической статистики в прикладной лингвистике. М., 1999.

53. А. С. Леонов, И. С. Макаров, В. Н. Сорокин, А. И. Цыплихин, Артикуляторный ресинтез гласных. Информационные процессы, Т. 3, №. 2, 2003. -с. 73-82.

54. В. Н. Сорокин, И. С. Макаров, "Обратная задача для голосового источника", Информационные процессы, Т. 6, №. 4, 2006. с. 375-395.

55. Л.М.Захаров, Н.В.Зиновьева, О.Ф.Кривнова. Программный синтез русской речи (синтезатор "АГАФОН") // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'95, -Казань, 1987.

56. Т. Dutoit. An Introduction to Text-to-Speech Synthesis. Dordrecht-Boston-London, 1997.

57. Количественная оценка воздействия супрасегментных факторов на длительность ударных гласных в синтагме // Всес. школа-семинар "АРСО-12". Новосибирск, 1984.

58. O.F.Krivnova. Durational Patterns of Russian Syntagma: The Standard Scheme and its Modifications // Proc.of the Xl-th Int. Congr.of Ph. Sc. Tallinn, 1987.

59. Моделирование и синтез фразовой интонации на основе особых точек тонального контура // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'97. М., 1997.

60. O.F. Krivnova. Automatic synthesis of Russian speech II Proceedings of the XIV International Congress of Phonetic Sciences, Vol.1, San Francisco, 1999. pp. 507-510.

61. Л.В.Златоустова, С.В.Кодзасов, О.Ф.Кривнова, И.Г.Фролова. Алгоритмы преобразования русских орфографических текстов в фонетическую запись. М., МГУ, 1970.

62. Галунов В.И, Королева И.В. Обеспечение помехоустойчивости при обработке информации в слуховой системе. // Сенсорные системы т. 2 № 2, 1988.

63. Галунов В.И., Гарбарук В.И. Акустическая теория речеобразования и система фонетических признаков. // 100 лет экспериментальной фонетике в России. Материалы международной конференции. СПб, 2001. -с. 58-60.

64. Галунов В.И. Помехоустойчивость как системообразующий фактор речи. Проблемы и методы экспериментально-фонетических исследований.- СПб, 2002. 327 с.

65. Лобанов Б.М. Цирульник Л.И. Жадинец Д.В. Сизонов О.Г. Алгоритмы синтеза просодических характеристик речи по тексту в системе «Мультифон». Объединённый институт проблем информатики НАЛ Беларуси, Минск. 2007.

66. Лобанов Б.М., Карневская Е.Б., Левковская Т.В. Синтезатор речи по тексту как компьютерное средство «клонирования» персонального голоса // Тр. Международной конференции Диалог-2001 / -М., 2001. -с. 265-272.

67. Людовик Т.В., Сажок Н.Н. Использование речевых баз данных большого объема при синтезе речи в системах искусственного интеллекта // Проблемы управления и информатики. №6. 2003. с. 82-87.

68. Лобанов Б.М. Анализ и синтез речи. Сборник научных трудов /АН БССР Институт технической кибернетики. Науч. Ред. Лобанов Б.М. Минск, 1991,-86 с.

69. Т.В.Людовик. Синтез речи с моделированием особенностей произношения на основе анализа индивидуальных речевых баз данных большого объема.

70. Lyudovyk, T., Sazhok, M. Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases // Proceedings of the 9-th International Conférence Speech and Computer SPECOM'2004, St.Petersburg, Russia.

71. Reader TTS. Сайт программы http://www.speech-soft.ru

72. Govorilka. Сайт программы http://www.vector-ski.ru/vecs/govorilka/

73. ToM Reader. Сайт программы http://tomreader.narod.ru

74. Sakrament. Контактная информация www.sakrament.com

75. Talk-To-Me. Официальная страница поддержки http://www.talk-to-me.net/

76. Text Aloud МРЗ. Официальная страница поддержки http://nextup.com/TextAloud/ index.html

77. SNAT. Программа Speechable Network Administrator Tool Официальная страница поддержки: http://iclub.kemsu.ru/

78. Book Reader. Официальная страница поддержки: http://iclub.kemsu.ru/ts

79. Speech2. Официальная страница поддержки: http://speech.narod.ru

80. Фонемафон. Официальная страница поддержки: http://farc.webservis.ru/

81. MP3book2005. Сайт программы: http://www.mp3book2005.narod.ru

82. Sakrament Talker. Контактная информация: www.sakrament.com

83. Infovox. Контактная информация: http://www.infovox.se

84. DECTalk. Официальная страница поддержки программы: http://www.crl.research.digital.com/proiects/facial/facialdoc.html91. Bell Labs Text-to-Speech:

85. Sami Lemmetty. Review of Speech Synthesis Technology. Helsinki. 199992. Laureate:

86. Gaved M. (1993). Pronunciation and Text Normalisation in Applied Text-to-Speech Systems. Proceedings ofEurospeech 93 (2): pp. 897-900.

87. Morton K. (1987). The British Telecom Research Text-to-Speech Synthesis System -1984-1986. Speech Production and Synthesis. Unpublished PhD Thesis. University of Essex, pp. 142-172.

88. Контактная информация: http://wrangler.essex.ac.uk/speech/archive/bt93. ORATOR:

89. Santen J., SproatR., Olive J., Hirschberg J. (editors) (1997). Progress in Speech Synthesis, Springer-Verlag New York Inc. (Includes CD-ROM).94 Lernout & Hauspies:1.rnout & Hauspies (L&H) Speech Technologies Homepage (1998).

90. Контактная информация: http://www.lhs.com/speechtech/

91. CyberTalk. Контактная информация: http://www.research.panasonic.com/pti/stl web demo/demo.html96. ETI Eloquence:

92. Hertz S. (1997). The ETI-Eloquence Text-to-Speech System. White Paper, Eloquent Technology Inc.

93. Контактная информация: http: www.eloq.com/Whitel297-l.htm97. MBROLA:

94. Dutoit Т., Leich H. (1993). MBR-PSOLA: Text-to-Speech Synthesis Based on an MBE Re-Synthesis of the Segments Database. Speech Communication, vol. 13: pp. 435-440.

95. Dutoit Т., Pagel V., Pierret N., Bataille F., Vrecken O. (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes. Proceedings oflCSLP 96 (3).98. Whistler:

96. Acero A. (1998). Source-Filter Models for Time-Scale Pitch-Scale Modification of Speech. Proceedings ofICASSP98.

97. Huang X., Acero A., Adcock J., Hon H., Goldsmith J., Liu J., Plumpe M. (1996). Whistler: A Trainable Text-to-Speech System. Proceedings ofICSLP96 (4).99. SPRUCE:1.wis E., Tatham M. (1997). SPRUCE High Specification Text-to-Speech Synthesis.

98. Контактная информация: http://www.cs.bris.ac.uk/~eric/research/spruce97.html100. HADIFIX:

99. Karjalainen M., Laine U., Toivonen R. (1980). Aids for the Handicapped Based on "SYNTE 2" Speech Synthesizer. Proceedings oflCASSP 80 (3): pp. 851-854.102. Sanosse:

100. Hakulinen J. (1998). Suomenkielisetpuhesynteesiohjelmistot (The Software Based Speech Synthesizers for Finnish). Report Draft, University of Tampere, Department of Computing Science, Speech Interfaces, 26.8.1998.

101. Speaking Mouse. Контактная информация: http://www.speech-soft.ru104. АГАФОН:

102. Л.М.Захаров, Н.В.Зиновьева, О.Ф.Кривнова. Программный синтез русской речи (синтезатор "АГАФОН") // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'95, Казань.

103. B.C. Расторгуева. Краткий очерк грамматики таджикского языка, с. 529 - 570. В книге «Таджикско-русский словарь» под редакции М.В. Рахими и JI.B. Успенской, Госиздат иностранных и национальных словарей, - М., 1954. - 789 с.

104. Абу-али ибни Сино. К^онуни тиб. Китоби V. Андар баёноти дорух,ои мураккаб. Душанбе: Сарредаксияи илмии энсиклопедияи миллии тоцик. 2005.-216 с.

105. А. Фирдавсй. Шохдома: Иборат аз нух, чилд. Душанбе: Адиб, 1989. -656 с.

106. С. Айнй. Ёдоштх.0, кцсми 1. Душанбе: Адиб, 1990. - 352 с.

107. С. Айнй. Ятим. Повеет, Душанбе: Нашриёти давлатии Точшсистон, 1940. - 140 с.

108. С. Айни. Кахрамони халк;и точик Темурмалик. - Душанбе: Маориф, 1978. - 168 с.

109. Б. F. Еафуров. Точикон. Таърихи кддимтарин, кдцим ва асри миёна. Китоби 1 -2. Душанбе: Ирфон, 1998. - 416 с.

110. С. Улугзода. Пири хдкимони машрик;замин. Душанбе: Маориф, 1980.-200 с.

111. Н. О. Турсунов. Таърихи точикон. Хучанд, 2001. - 788 с.

112. Ф. Мух,аммадиев. Кулиёт. Душанбе. 1990. - 384 с.

113. Икромй. Асархои мунтахаб. Иборат аз 3 цилд. Ч^илди 1. Тирмор. -Душанбе: Адиб, 1987. 352 с.

114. А. Бахорй. Бозгашт. Душанбе: Ирфон, 1973. - 120 с.

115. А. Бахорй. Сохдли мурод. К^иссах;о. Душанбе: Адиб, 2000. - 368 с.

116. Р. Чалил. Одамони човид. Роман. Душанбе: Нашриёти давлатии Точикистон, 1954. - 478 с.

117. Еаниев M.F. MS Word: аз хуччати намуди содда то VBA: Васоити таълимй. ФХДТТ. Хучанд, 2004. - 204 с.

118. XЛ. Рах;имзод. Асос^ои оила ва оиладорй. Хучанд: Рах;им Чалил, 2005. - 158 с.

119. Фархднги забони точ;икй. Аз асри X то ибтидои асри XX. Иборат аз 2 Чилд. М.: Советская энциклопедия. 1969. - 961 с.

120. Советский энциклопедический словарь. М.: Советская энциклопедия, 1980. - 1600 с.

121. С.И.Ожегов. Словарь русского языка. М.: Русский язык, 1984. - 816 с.

122. Исмаилов М.А. Доклады АН РТ, 2000, т.43, № 3. с. 95-99.1253.Д. Усманов, A.A. Абдухамидов, М.А. Исмоилов // Доклады АН РТ, 2002, Т. 45, №5-6,-с. 9-14.

123. О. Ф. Кривнова. Ритмо-ударная форма синтагмы в научном тексте // Просодия текста. Тез. докладов научно-метод. конф. М., 1982.

124. Исмаилов М.А. Основы автоматизированного морфологического анализа слов таджикского языка. Институт математики АН РТ. -Душанбе. 1994. - 156 с.

125. Серия "Знаменитые писатели России". Автобиография Тургенева И. С. Электронный ресурс.: http://turgenev.info/turgenev bio.htm

126. Серия "Знаменитые писатели России". Тургенев И. С. Первая любовь. Электронный ресурс.: http://turgenev.info/pervaya lubov.htm

127. Серия "Знаменитые писатели России". Автобиография Пушкина A.C. Электронный ресурс.: http://pushkina.com/pushkin bio.htm

128. Серия "Знаменитые писатели России". Пушкина A.C. Медный всадник. Электронный ресурс.: http://pushkina.com/mednuj vsadnik.htm

129. Серия "Знаменитые писатели России". Автобиография Лермонтова М.Ю. Электронный ресурс.: http://leimontov.name/lermontov bio.htm

130. Серия "Знаменитые писатели России". Лермонтова М.Ю. Смерть поета. Электронный ресурс.: http://lermontov.name/smert poeta.htm

131. Серия "Знаменитые писатели России". Автобиография Чехова А.П. Электронный ресурс.: http://chehov.org/chehovbiography.htm

132. Серия "Знаменитые писатели России". Чехов А.П. Благодарый. Электронный ресурс.: http ://cheho v.org/blagodarnyj .htm

133. Серия "Знаменитые писатели России". Автобиография Булгакова М.А. Электронный ресурс.: http://bulgakov.info/bulgakov biography.htm

134. Серия "Знаменитые писатели России". Булгаков М.А. Чемпион. Электронный ресурс.: http://bulgakov.info/chempion.htm

135. Серия "Знаменитые писатели России". Автобиография Есенина С.А. Электронный ресурс.: http://esenin.name/eseninbio.htm

136. Серия "Знаменитые писатели России". Есенина С.А. Черный человек. Электронный ресурс.: http://esenin.name/blackman.htm

137. Тим Кинтцель. Программирование звука на ПК. Пер. с анг. М.: ДМК Пресс, 2005. - 432 с.

138. Баландюк Ю. В. Просодическое устройство слова в корейском языке (на материале двуслога). Автореферат диссертации на соискание ученой степени кандидата филологических наук, Институт стран Азии и Африки при МГУ им. М.В.Ломоносова, М., 2003.

139. Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // ДАН РТ, Т.49, № 6, 2006. с. 489-492.

140. Худойбердиев Х.А., О многообразии слогов таджикского языка // Известия АН РТ, № 2 (127), 2007. с. 31-34.

141. Усманов З.Д., Худойбердиев Х.А. Алгоритм безударного озвучивания таджикского текста // ДАН РТ, Т.50, № 4, 2007. с. 302-305.

142. Худойбердиев Х.А., Об автоматическом разложении слов на слоги // ДАНРТ, Т.50, № 5, 2007. с. 417-419.

143. Усманов З.Д., Худойбердиев Х.А. Компьютерное озвучивание таджикского текста // Патент (интеллектуальный продукт) зарегистрирован 041Т1 04.09.2007 Национальным патентно -информационным центром Министерства экономического развития и торговли РТ.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.