Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат технических наук Топников, Артем Игоревич
- Специальность ВАК РФ05.12.04
- Количество страниц 130
Оглавление диссертации кандидат технических наук Топников, Артем Игоревич
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ АН АЛ ИЗ А 11 И ОБРАБОТКИ ЗАШУМЛЕННЫХ РЕЧЕВЫХ СИГНАЛОВ
1.1. Задача повышения разборчивости и качества зашумленных 11 речевых сигналов
1.2. Речеобразование и особенности восприятия речи человеком
1.3. Методы подавления шума в речевых сигналах
1.4. Оценка качества речевых сигналов
1.4.1. Субъективные методы оценки качества
1.4.2. Объективные методы оценки качества
1.5. Оценка разборчивости речи
1.5.1. Методы субъективной оценки разборчивости
1.5.2. Методы объективной оценки разборчивости
1.6. Краткие выводы
ГЛАВА 2. СОЗДАНИЕ НЕЭТАЛОННОГО КРИТЕРИЯ 49 РАЗБОРЧИВОСТИ РЕЧЕВЫХ СИГНАЛОВ
2.1. Исследование необходимости масштабирования входного 49 сигнала
2.2. Поддиапазонная оценка разборчивости при помощи 51 модификации критерия SNR loss
2.2.1. Описание поддиапазонного критерия разборчивости
2.2.2. Построение профиля изменения разборчивости
2.2.3. Анализ работы метода шумоподавления на основе 55 поддиапазонной модификации критерия SNR loss
2.3. Создание неэталонного критерия разборчивости речи
2.4. Неэталонная поддиапазонная оценка разборчивости речевых 73 сигналов
2.5. Краткие выводы
ГЛАВА 3. РАЗРАБОТКА И АНАЛИЗ РАБОТЫ МЕТОДА 82 ШУМОПОДАВЛЕНИЯ
3.1. Описание предлагаемого метода шумоподавления
3.2. Выбор метрики в алгоритме к-средних
3.3. Верхняя граница улучшения качества и разборчивости
3.4. Исследование метода и сравнение его с другими
3.5. Метод постобработки в спектральной области
3.5.1. Описание предлагаемого метода постобработки
3.5.2. Анализ работы метода постобработки
3.6. Краткие выводы
Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Выделение и предобработка сигналов в системах автоматического распознавания речевых команд2011 год, кандидат технических наук Новоселов, Сергей Александрович
Подавление гауссовского шума в изображениях на основе анализа главных компонент и нелокальной обработки2012 год, кандидат технических наук Волохов, Владимир Андреевич
Разработка и анализ алгоритмов фильтрации гауссовского шума в полутоновых и первичных байеровских изображениях2012 год, кандидат технических наук Сергеев, Евгений Владимирович
Алгоритмы повышения эффективности передачи речевой информации в корабельных оперативно-командных системах громокоговорящей связи2010 год, кандидат технических наук Быков, Артем Александрович
Диалоговая система цифровой обработки зашумленных речевых сигналов1985 год, кандидат физико-математических наук Чучупал, Владимир Яковлевич
Введение диссертации (часть автореферата) на тему «Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления»
Актуальность темы
Речь - основной переносчик информации при естественном общении между людьми. Велика удельная доля речевой информации и в общем объеме информации, передаваемой радиотехническими системами. При распространении в воздушном пространстве, а также передаче по радиотехническим системам связи, речевые сигналы подвергаются искажениям. Сильные искажения способны не только ухудшить эстетическое качество воспринимаемых сигналов, но и привести к потере части информации, то есть снизить разборчивость. Существует значительное отличие между качеством и разборчивостью речевого сигнала, что приводит к необходимости отдельной оценки этих характеристик речевого сигнала.
В настоящее время известно множество методов подавления шума в речевых сигналах. Выбор конкретного метода связан с особенностями воздействующего на речевой сигнал шума, наиболее вероятного диапазона отношений сигнал/шум (ОСШ) и множеством другим факторов, включая аппаратную базу, используемую для реализации метода шумоподавления.
Вместе с тем, по-прежнему наблюдается потребность в создании новых и в усовершенствовании существующих методов шумоподавления. В частности, некоторые методы шумоподавления, улучшая качество зашумленного речевого сигнала, могут снижать его качество. Также для некоторых методов характерны артефакты типа "музыкальный шум", осложняющие восприятие информации, содержащейся в речевом сигнале. Другой важный вопрос, определяющий направление развития методов шумоподавления, — работа с сильно зашумленными речевыми сигналами при ОСШ ниже 0 дБ. В подобных случаях особо важным является повышение разборчивости.
С решением задачи повышения качества и разборчивости непосредственно связана необходимость в достоверных методах оценки этих характеристик речевого сигнала. Особой актуальностью обладают работы, направленные на разработку неэталонных критериев. Использование таких критериев в радиотехнических системах позволяет производить автоматизированный контроль разборчивости речевых сигналах, а также осуществлять выбор методов обработки сигналов, наиболее подходящих в каждом конкретном случае.
Таким образом, проблема разработки новых неэталонных критериев разборчивости и методов подавления шума в речевых сигналах является актуальной.
Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых, как Рабинер Л., Шафер Р., Янг Б., Мермелштейн П., Левинсон С. и др. Большой вклад в развитие методов анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розепблатта М., Римского-Корсакова A.B., Сапожкова М.А., Михайлова В.Г., Рихтера С.Г., Тартаковского Г.П., Санникова В.Г. и др.
В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Болла С., Лима Дж., Ефрайма Я., Малла Д., Скалара П., Коэна И., Лойзо Ф., Прохорова Ю.Н. и др.
Реализация любого из методов подавления шума в речевых сигналах, а также усовершенствование алгоритмов, реализующих эти методы, невозможны без использования общей теории цифровой обработки сигналов. Значительный вклад в разработку теории и алгоритмов цифровой обработки сигналов внесли зарубежные ученые: Найквист X., Гоулд Б., Рейдер Ч., Рабинер Л., Оппенгейм А., Шафер Р. и др. Большое значение имели также работы отечественных ученых: Котельникова В.А., Цыпкина Я.З., Трахтмана A.M., Ланнэ A.A., Карташева В.Г., Гольденберга Л.М., Матюшкина Б.Д., Поляка М.Н., Витязева В.В., Брюханова Ю.А.
Цель исследования
Целью диссертационной работы является создание и исследование методов анализа и обработки зашумленных речевых сигналов.
Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:
- модификация объективного критерия разборчивости SNR loss для поддиапазонного анализа разборчивости речевых сигналов;
- разработка неэталонной версии критерия объективной оценки разборчивости SNR loss, а также его поддиапазонной модификации;
- создание эффективного метода поиска похожих фрагментов речевого сигнала, применимого для использования в составе метода нелокального усреднения во временной области;
- модификация метода нелокального усреднения на основе предложенного метода поиска похожих фрагментов и сравнение результатов работы предложенного метода шумоподавления с другими на основе объективных критериев качества и разборчивости речевых сигналов;
- создание метода постобработки зашумленных речевых сигналов, обработанных с использованием метода нелокального усреднения во временной области.
Достоверность полученных научных результатов
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сравнением ряда результатов с научными данными, известными из литературы.
Научная новизна
Научная новизна представляемых результатов состоит в следующем:
- предложен подход к поддиапазонной оценке разборчивости речевых сигналов, основанный на модификации объективного критерия разборчивости SNR loss;
- разработан метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также его поддиапазонной модификации для зашумленных речевых сигналов;
- предложен подход к поиску похожих фрагментов речевых сигналов, основанный на применении алгоритма кластеризации к-средних;
- на основе предложенного метода поиска похожих фрагментов модифицирован метод подавления шума в речевых сигналах, основанный на принципе нелокального усреднения во временной области.
Практическая значимость
- Предложенные модификации объективного критерия разборчивости SNR loss позволяют проводить поддиапазонный анализ разборчивости речевых сигналов для анализа и усовершенствования методов подавления шума в речевых сигналах.
- Предложенный метод неэталонной оценки критерия SNR loss и его поддиапазонных модификаций может использоваться для контроля разборчивости речи в радиотехнических системах связи и автоматического выбора методов шумоподавления.
- Предложенный метод неэталонной оценки критерия SNR loss допускает относительно простую аппаратную реализацию, в частности, на цифровых сигнальных процессорах.
- Разработанный метод подавления шума, основанный на поиске похожих фрагментов с применением алгоритма кластеризации к-средних и принципа нелокального усреднения сигнала во временной области, позволяет значительно улучшать качество и разборчивость зашумленных речевых сигналов при отрицательных значениях отношения сигнал/шум. - Предложенный метод постобработки прост в реализации и позволяет добиться дополнительного улучшения качества и разборчивости зашумленных сигналов, обработанных при помощи метода шумоподавления, основанного на нелокальном усреднении сигнала во временной области.
Основные научные положения и результаты, выносимые на защиту
1. Объективный метод поддиапазонной оценки разборчивости речевых сигналов, основанный на модифицированной версии критерия SNR loss.
2. Метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также значений его поддиапазонной версии.
3. Метод подавления шума в речевых сигналах, основанный на нелокальном усреднении во временной области и поиске похожих фрагментов с применением алгоритма к-средних.
4. Результаты исследования предложенного метода шумоподавления и его сравнения с двумя другими методами.
Апробация
Результаты работы докладывались и обсуждались на: 11-ой, 12-ой, 13-ой, 14-ой Международной конференции "Цифровая обработка сигналов и ее применение", М., 2009, 2010, 2011, 2012. XVIII Международной научно-технической конференции студентов и аспирантов "Радиоэлектроника, электротехника и энергетика", М., 2012. 9-ой Международной научно-технической конференции "Перспективные технологии в средствах передачи информации", Владимир-Суздаль, 2011. Международной научно-практической конференции студентов и молодых ученых "Молодежь и наука: модернизация и инновационное развитие страны", Пенза, 2011.
II-ой Международной молодежной научно-практической конференции "Научно-практические исследования и проблемы современной молодежи", Елабуга, 2010.
XIII Всероссийской научно-практической конференции "Проблемы развития средств ПВО в современных условиях", Ярославль, 2012. 2-ой Всероссийской конференции "Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012", М.-Таганрог, 2012.
8-й Всероссийской научно-технической конференции "Информационные технологии в электротехнике и электроэнергетике", Чебоксары, 2012.
IX Всероссийской научно-технической конференции "Динамика нелинейных дискретных электротехнических и электронных систем", Чебоксары, 2011.
65-ой Научной сессии, посвященной Дню радио, РНТОРЭС им. A.C. Попова, М., 2010.
16-ой Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и в образовании", Рязань, 2009.
Научно-технической конференции "Проблемы автоматизации и управления в технических системах", Пенза, 2008.
62-ой, 63-ой, 64-ой Региональной научно-технической конференции студентов, магистрантов и аспирантов высших учебных заведения с международным участием "Молодежь. Наука. Инновации", Ярославль, 2009, 2010, 2011.
9-ой Областной научно-практической конференции студентов, аспирантов и молодых ученых вузов "Ярославский край. Наше общество в третьем тысячелетии", Ярославль, 2008.
Структура и объем работы
Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Содержание работы изложено на 131 странице. Список литературы включает 120 наименований. В работе представлен 41 рисунок и 22 таблицы.
Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Разработка и анализ неэталонных алгоритмов оценки качества сжатых изображений2008 год, кандидат технических наук Саутов, Евгений Юрьевич
Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах2005 год, кандидат технических наук Изилов, Роман Юноевич
Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи2012 год, кандидат технических наук Мишуков, Андрей Андреевич
Модели и методы обработки аудиосигналов телекоммуникационных систем в сложной помеховой обстановке0 год, доктор технических наук Кропотов, Юрий Анатольевич
Разработка методики оценки качества прерывистой передачи речи в цифровых сетях подвижной связи1998 год, кандидат технических наук Каргулин, Сергей Геннадьевич
Заключение диссертации по теме «Радиотехника, в том числе системы и устройства телевидения», Топников, Артем Игоревич
Заключение
На основании проведенных исследований в области цифровой обработки речевых сигналов в работе получены следующие результаты:
1. Предложена модификация критерия SNR loss, позволяющая осуществлять поддиапазонную оценку разборчивости речевых сигналов. Данная модификация позволяет более детально исследовать влияние шумов и других искажающих факторов на разборчивость речи, а также производить более детальный анализ методов шумоподавления. Приведен пример анализа метода шумоподавления с использованием предлагаемого подхода.
2. Разработан и реализован в среде Matlab неэталонный метод оценки значений критерия разборчивости SNR loss. В случае воздействия на речевой сигнал АБГШ средняя величина абсолютной ошибки при оценке значений SNRloss составляет примерно 0,008. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%.
3. Для осуществления неэталонной оценки значений SNRloss в случае воздействия на речевой сигнал шумов различных типов предложено и исследовано три подхода (метода выбора коэффициентов регрессии). Один из подходов позволяет добиться более высокой точности, но он не применим в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени. В указанных случаях возможно применение двух других подходов, обладающих несколько меньшей точностью, но большей универсальностью. Величина средней относительной ошибки при оценке значений SNRloss для речевых сигналов, зашумленных произвольным типом шума, варьируется в пределах от 1,05% до 3,55% , в зависимости от выбранного подхода и типа шума.
4. Предложена и исследована неэталонная версия поддиапазонного критерия разборчивости. Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности. Например, для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго подхода).
5. Предложен новый подход к поиску похожих фрагментов зашумленного речевого сигнала, основанный па алгоритме кластеризации к-средних. Сочетание данного подхода с принципом нелокального усреднения во временной области позволяет создать новый метод шумоподавления. Предложенный метод реализован в среде Matlab.
6. На основе субъективных тестов установлено, что при обработке зашумленных сигналов с использованием предложенного метода имеет место значительное улучшение качества сигнала. При этом не возникает нежелательных артефактов типа "музыкальный шум", характерных для ряда методов, осуществляющих шумоподавление в спектральной области.
7. С использованием объективных критериев качества и разборчивости установлено, что предложенный метод шумоподавления способствует улучшению качества и разборчивости зашумленных сигналов в широком диапазоне ОСШ (исследования производились в диапазоне от -10 до 10 дБ). При обработке сигнала, зашумленного аддитивным белым гауссовским шумом, улучшение качества по шкале MOS, оцененное при помощи критерия PESQ, составляет от 0,23 (при ОСШ=-Ю дБ) до 0,77 (при ОСШ=5 дБ). Предложенный метод демонстрирует выигрыш по критерию PESQ и при сравнении с другими методами шумоподавления: на 0,06-0,17 единиц шкалы MOS по сравнению с более ранней версией метода на основе нелокального усреднения и 0,01-0,17 единиц по сравнению с методом Скалара.
8. Анализ и сравнение методов на основе других субъективных критериев позволяет сделать вывод, что предложенный метод особенно эффективен при отрицательных значениях ОСШ. Недостатком метода является то, что при относительно высоких значениях ОСШ (в частности, при ОСШ=Ю дБ) предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.
Список литературы диссертационного исследования кандидат технических наук Топников, Артем Игоревич, 2012 год
1. Benesty J., Sondhi M., Huang Y. Springer Handbook of Speech Processing Springer. 2007. 1176 p.
2. Delcroix M. Dereverberation and Denoising Using Multichannel Linear Prediction // IEEE Transactions on Audio, Speech, and Language Processing. V. 15, Is. 6. 2007. pp. 1791-1801.
3. Сапожков M.A. Речевой сигнал в кибернетике и связи. — М.: Связьиздат, 1963.452 с.
4. Cherry С. Some experiments on the recognition of speech, with one and with two ears // The Journal of the Acoustical Society of America, V. 25, N. 5. 1953. pp. 975-979.
5. Litvin Y., Cohen I., Chazan D. Monaural Speech/Music Source Separation Using Discrete Energy Separation Algorithm // Signal Processing, V. 90, Is. 12, 2010. pp. 3147-3163.
6. Сапожков M.A., Михайлов В.Г. Вокодерная связь. М.: Радио связь, 1983. 248 с.
7. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. М.: Радио и связь, 1981. 495 с.
8. Фланаган Дж.Л. Анализ, синтез и восприятие речи / Пер. с англ. М. : Связь, 1968. 397 с.
9. Акустика: Справочник / А.П. Ефимов, А.В. Никонов, М.А. Сапожков, В.И. Шоров; Под ред. М.А. Сапожкова. 2-е изд., перераб. и доп. - М.: Радио связь, 1989. 336 с.
10. Ахмад Х.М., Жирков В.Ф. Введение в цифровую обработку речевых сигналов: Учеб. пособие. Владимир: ВлГУ, 2008. 192 с.
11. Физиология речи. Восприятие речи человеком. / Чистович JI.A., Венцов А.В., Гранстрем М.П. и др. JL: Наука, 1976. 388 с.
12. Римский-Корсаков А.В. Электроакустика. -М.: Связь, 1973. 272 с.
13. Yilmaz О., Rickard S. Blind separation of speech mixtures via time-frequency masking // IEEE Transactions on Signal Processing, V. 52, N. 7, 2004. pp.1830-1846
14. Jourjine A., Rickard S., Yilmaz O. Blind Separation of Disjoint Orthogonal Signals Demixing N Sources from 2 Mixtures // IEEE Conference on Acoustics, Speech, and Signal Processing (ICASSP2000). V. 5, 2000. pp. 2985-2988
15. Schroeder M.R. U.S. Patent No. 3180936, filed Dec. 1, 1960, issued Apr. 27, 1965.
16. Schroeder M.R. U.S. Patent No. 3403224, filed May 28, 1965, issued Sept. 24, 1968.
17. Boll S.F. Suppression of acoustic noise in speech using spectral subtraction // IEEE Trans. Acoust. Speech Signal Process. ASSP-27, 1979. pp. 113-120.
18. Lim J.S., Oppenheim A.V. Enhancement and bandwidth compression of noisy speech // Proceedings of the IEEE. V. 67, 1979. pp. 1586-1604.
19. Ephraim Y., Van Trees H.L. A signal subspace approach for speech enhancement // IEEE Trans. Speech Audio Process. V. 3, 1995. pp. 251-266.
20. Dendrinos M., Bakamidis S., Garayannis G. Speech enhancement from noise: A regenerative approach // Speech Commun. V. 10, 1991. pp. 45-57.
21. Jensen S.H., Hansen P.C., Hansen S.D., Sorensen J.A. Reduction of broadband noise in speech by truncated QSVD // IEEE Trans. Speech Audio Process. V. 3, 1995. pp. 439^148.
22. Vary P. Noise suppression by spectral magnitude estimation-mechanism and theoretical limits // Signal Process. V. 8, 1985. pp. 387-400.
23. Etter W., Moschytz G.S. Noise reduction by noiseadaptive spectral magnitude expansion // J. Audio Eng. Soc. V. 42, 1994. 341-349.
24. Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics // IEEE Trans. Speech Audio Process. V. 9, 2001. pp. 504-512
25. Lev-Ari H., Ephraim Y. Extension of the signal subspace speech enhancement approach to colored noise // IEEE Trans. Speech Audio Process. V. 10, 2003. pp. 104-106.
26. Rezayee A., Gazor S. An adaptive KLT approach for speech enhancement // IEEE Trans. Speech Audio Process. V. 9, 2001. pp. 87-95.
27. Mittal U., Phamdo N. Signal/noise KLT based approach for enhancing speech degraded by colored noise // IEEE Trans. Speech Audio Process. V. 8,2000. pp. 159-167.
28. Chen J., Benesty J., Huang Y., Doclo S. New insights into the noise reduction Wiener filter // IEEE Trans. Speech Audio Process. V. 14, 2006. pp. 1218-1234.
29. Hu Y., Loizou P.C. A generalized subspace approach for enhancing spech corrupted by colored noise // IEEE Trans. Speech Audio Process. V. 11, 2003. 334-341.
30. Scalart P., Filho J.V. Speech enhancement based on a priori signal to noise estimation // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-96). V. 2, 1996. pp. 629-632.
31. Ephraim Y., Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator // IEEE Trans. Acoust. Speech Signal Process. V. 32, 1984. pp.1109-1121.
32. Ephraim Y., Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator // IEEE Trans. Acoust. Speech Signal Process. ASSP-33, 1985. pp. 443-445.
33. McAulay R.J., Malpass M.L. Speech enhancement using a soft-decision noise suppression filter // IEEE Trans. Acoust. Speech Signal Process. V. 28, 1980. pp. 137-145.
34. Wolfe P.J., Godsill S.J. Simple alternatives to the Ephraim and Malah suppression rule for speech ehancemnet // Proc. IEEE ICASSP, 2001. pp. 496-499.
35. Paliwal K.K., Basu A. A speech enhancement method based on Kalman filtering // Proc. IEEE ICASSP 1987. pp. 177-180.
36. Gibson J.D., Koo B., Gray S.D. Filtering of colored noise for speech enhancement and coding // IEEE Trans. Signal Process. V. 39, 1991. pp. 1732-1742.
37. Gannot S., Burshtein D., Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms // IEEE Trans. Speech Audio Process. V. 6, 1998. pp. 373-385.
38. Ephraim Y., Malah D., Juang B.-H. On the application of hidden Markov models for enhancing noisy speech // IEEE Trans. Acoust. Speech Signal Process. V. 37, 1989. pp. 1846-1856.
39. Ephraim Y. A Bayesian estimation approach for speech enhancement using hidden Markov models // IEEE Trans. Signal Process. V. 40, 1992. pp. 725735.
40. Ephraim Y. Statstical-model-based speech enhancement systems // Proc. IEEE V. 80, 1992. pp. 1526-1555.
41. Szlam A. Non-local means for audio denoising // Recent UCLA computational and applied mathematics reports. 2008. 5 p.
42. Wang D. On ideal binary mask as the computational goal of auditory scene analysis // Speech Separation by Humans and Machines. 2005, pp. 181-197.
43. Hummersone C. Ideal binary mask ratio: a novel metric for assessing binary-mask-based sound source separation algorithms // IEEE Transactions on Audio, Speech, and Language Processing. V. 19,1. 7, 2011. pp. 2039-2045.
44. Li Y. On the optimality of ideal binary time-frequency masks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2008). 2008. pp. 3501-3504.
45. Jiang Y. Performance analysis of ideal binary masks in speech enhancement // 4th International Congress on Image and Signal Processing (CISP). V.5, 2011. pp. 2422-2425.
46. Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor // IEEE Transactions on Speech and Audio Processing. V.2, Is. 2, 1994. pp. 345-349.
47. Yang J. Frequency domain noise suppression approaches in mobile telephone systems // IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP-93. V.2, 1993. pp. 363-366.
48. Brancaccio A., Pelaez C. Experimentes on noise reduction techniques with robust voice detector in car environment // Eurospeech (ISCA-1993). 1993. pp. 1259-1262.
49. Quackenbush S., Barnwell T., Clements M. Objective measures of speech quality. Prentice Hall, Englewood Cliffs. 1988. 377 p.
50. Subjective performance assessment of telephone band and wide-band digital codecs. ITU-T Recommendation p.830. 1996.
51. Recommendation BS. 562-3. Subjective assessment of sound quality. International Telecommunication Union Radiocommunication Sector. 1990.
52. IEEE Recommended practice for speech quality measurements // IEEE Trans. Audio and Electroacoustics. AU-17(3), 1969. pp. 225-246.
53. Coleman A., Gleiss N., Usai P. A subjective testing methodology for evaluating medium rate codecs for digital mobile radio applications // Speech Communication V. 7. Is. 2, 1988 pp. 151-166.
54. Goodman D., Nash R. Subjective quality of the same speech transmission conditions in seven different countries // IEEE Trans. Communications. V. 30. Is. 4, 1982. pp. 642-654.
55. Hansen J., Pellom B. An effective quality evaluation protocol for speech enhancement algorithms // Proc. Inter. Conf. on Spoken Language Processing. V. 7, 1998. pp. 2819-2822.
56. Tribolet J., Noll P., McDermott B., Crochiere R.E. A study of complexity and quality of speech waveform coders // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. 1978. pp. 586-590.
57. Kryter K. Methods for calculation and use of the articulation index // J. Acoust. Soc. Am. V. 34. Is. 11, 1962. pp. 1689-1697.
58. Klatt D. Prediction of perceived phonetic distance from critical band spectra // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 7, 1982. pp. 1278-1281.
59. Viswanathan R., Makhoul J., Russell W. Towards perceptually consistent measures of spectral distance // Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing. V. 1, 1976. pp. 485-488.
60. Karjalainen M. Sound quality measurements of audio systems based on models of auditory perception // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 9, 1984. pp. 132-135.
61. Karjalainen M. A new auditory model for the evaluation of sound quality of audio system // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 10. 1985. pp. 608-611.
62. Wang S., Sekey A., Gersho A. An objective measure for predicting subjective quality of speech coders // IEEE J. on Select. Areas in Comm. V. 10. Is. 5. 1992. pp. 819-829.
63. Yang W., Benbouchta M., Yantorno R. Performance of the modified Bark spectral distortion as an objective speech quality measure // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 1, 1998. pp. 541-544.
64. Chen G., Parsa V. Loudness pattern-based speech quality evaluation using Bayesian modelling and Markov chain Monte Carlo methods // J. Acoust., Soc. Am. V. 121, Is. 2, 2007. pp. 77-83.
65. Pourmand N., Suelzle D., Parsa V., Hu Y., Loizou P. On the use of Bayesian modeling for predicting noise reduction performance // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP 2009), 2009. pp. 3873-3876.
66. Moore B. An introduction to the psychology of hearing. 5th edn. London: Academic Press, 2003. 200 p.
67. Fletcher, H., Munson W. Loudness, its definition, measurement and calculation // J. Acoust. Soc. Am. V. 5, 1933. pp. 82-108.
68. Robinson D., Dadson R. A re-determination of the equal-loudness relations for pure tones // Brit. J. Appl. Phys. V. 7, 1956. pp. 166-181.
69. Novorita B. Incorporation of temporal masking effects into bark spectral distortion measure // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing, V. 2, 1999. pp. 665-668.
70. Yang W., Yantorno R. Improvement of MBSD by scaling noise masking threshold and correlation analysis with MOS difference instead of MOS // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 2, 1999. pp. 673-676.
71. Grundlehner В., Lecocq J., Balan R., Rosea J. Performance assessment method for speech enhancement systems // Proc. SPS-DARTS, 2005. 4 p.
72. Rix A., Hollier M. The perceptual analysis measurement for robust end-to-end speech quality assessment // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 3, 2000. pp. 1515-1518.
73. Beerends J., Stemerdink J. A perceptual speech-quality measure based on a psychoacoustic sound representation // J. Audio Eng. Soc. V. 42. Is. 3. 1994. pp. 115-123.
74. Voran S. Objective estimation of perceived speech quality Part I: Development of the measuring normalizing block technique // IEEE Transactions on Speech and Audio Processing V. 7. Is. 4. 1999. pp. 371-382.
75. Perceptual evaluation of speech quality (PESQ) and objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs. ITU-T Recommendation p. 862. 2000.
76. Rix A., Beerends J., Hollier M., Hekstra A. Perceptual evaluation of speech quality (PESQ) A new method for speech quality assessment of telephone networks and codecs // Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing, V. 2. 2001. pp. 749-752.
77. Hu Y., Loizou P. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Speech and Audio Processing. V. 16. Is. 1.2008. pp. 229-238.
78. Рихтер С.Г. Кодирование и передача речи в цифровых системах подвижной радиосвязи: Учеб. пособие для вузов. М.: Горячая линия -Телеком, 2010. 304 с.
79. Ma J., Loizou P. SNR loss: a new objective measure for predicting the intelligibility of noise-suppressed speech // Speech Communication. V. 53. Is. 3.2011. pp. 340-354.
80. Loizou P., Ma J. Extending the articulation index to account for non-linear distortions introduced by noise-suppression algorithms. // J. Acoust. Soc. Am. V. 130. Is. 2. 2011. pp. 986-995.
81. Савватин A.M., Новоселов C.A., Приоров A.JI. Применение банков фильтров для построения системы защищенной передачи речевой информации // Электросвязь. 2011. №9. С. 48-51.
82. Савватин А.И., Новоселов С.А., Приоров A.JI. Использование цифровых вейвлет-филтров в задаче построения защищенного канала передачи речевой информации // Проектирование и технология электронных средств. 2009. №2. С. 39^43.
83. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учеб. пособие. 3-е изд., перераб. и доп. -М.: Юниги-Дана, 2010. 551 с.
84. Buades A., Coll В., Morel J.M. A review of image denoising algorithms, with a new one // Multiscale modeling and simulation. 2005. V. 4. pp. 490530.
85. Buades A., Coll В., Morel J.M. Nonlocal image and movie denoising // International journal of computer vision. 2008. V. 76, No. 2. pp. 123-139.
86. Katkovnik V., Foi A., Egiazarian K., Dabov K. From local kernel to nonlocal multiple-model image denoising // International journal of computer vision. 2010. V. 86, No. 8. pp. 1-32.
87. Ткаченко М.С., Лукин А.С. Многомасштабный метод спектрального вычитания для подавления шумов в аудиосигналах // Доклады 12-ймеждународной конференции и выставки «Цифровая обработка сигналов и ее применение» (DSPA-2010). Москва, 2010. Т. 1. С. 223226.
88. Haitian X., Zheng-Hua Т., Dalsgaard P., Lindberg B. Robust speech recognition by nonlocal means denoising processing // IEEE signal processing letters. 2008. V. 15. pp. 701-704.
89. Li X. Speech recognition based on k-means clustering and neural network ensembles // Seventh International Conference on Natural Computation (ICNC). V. 2. 2011. pp. 614-617.
90. Guo W. A blind separation algorithm of speech mixtures base on time-frequency masking // 2nd International Conference on Consumer Electronics, Communications and Networks (CECNet). 2012. pp. 2258-2261.
91. Sun J. A polynomial segment model based statistical parametric speech synthesis system // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009). 2009. pp. 4021-4024.
92. Wang F. An improved k-means clustering algorithm and application to combined multi-codebook/MLP neural network speech recognition // Canadian Conference on Electrical and Computer Engineering. V. 2. 1995. pp. 999-1002.
93. Nahamoo D. Clustering acoustic prototypes with self organizing distortion measures // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '86). V. 1 1. 1986. pp. 753-756.
94. Nadas A. Automatic speech recognition via pseudo-independent marginal mixtures // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'87). V. 12. 1987. pp. 1285-1287.
95. Oh B.T., Wu P.-H., Xu D., Kuo C. Improved image denoising with adaptive nonlocal means (ANL-means) algorithm // IEEE Transactions on Consumer Electronics. V. 56. Is. 4. 2010. pp. 2623-2630.
96. Список опубликованных работ по теме диссертации
97. Новоселов С.А., Топников А.И. К вопросу о методах измерения взаимной информации // Сборник материалов 62-й региональной научно-технической конференции студентов, магистрантов и аспирантов "Молодежь. Наука. Инновации". Ярославль, 2009. С. 234.
98. Топников А.И., Новоселов С.А. Анализ независимых компонент в задаче разделения смесей речевых сигналов // Доклады 12-й международной конференции "Цифровая обработка сигналов и ее применение". Москва. 2010. С. 197-199
99. Топников А.И. Слепая декомпозиция звуковых сигналов на основе анализа независимых компонент // Труды 65-й Научной сессии, посвященной Дню радио. Москва, 2010. С. 205-207.
100. Топников А.И., Новоселов С.А. Оценка качества работы алгоритмов слепой декомпозиции сигналов // Труды II Международной молодежной научно-практической конференции. Т. 3. Елабуга, 2010. С. 110-114.
101. Топников А.И., Новоселов С.А. Выбор вида нелинейности в алгоритме FastICA // Сб. матер. 63-й региональной научно-технической конференции студентов, магистрантов и аспирантов "Молодежь. Наука. Инновации". Ярославль, 2010. С. 263.
102. Топников А.И., Скопинцев Я.М., Веселов И.А. Усовершенствование алгоритма слепого разделения недоопределенных смесей речевыхсигналов 11 Доклады 13-й международной конференции "Цифровая обработка сигналов и ее применение". М., 2011. Т. 1. С. 252-254.
103. Топников А.И. Практические аспекты слепого разделения недоопределенных смесей речевых сигналов // Материалы 9-ой международной научно-технической конференции "Перспективные технологии в средствах передачи информации". Владимир, 2011. Т. 2. С. 29-31.
104. Новоселов С.А., Топников А.И. Распознавание изолированных фонем на основе согласованных вей влет-фильтров // Труды научно-технической конференции "Проблемы автоматизации и управления в технических системах". Пенза. 2008. С. 333-336.
105. Топников А.И., Веселов И.А., Новоселов С.А. Детектор речевой активности на основе моделей гауссовских смесей // Матер. 8-й всерос. науч.-техн. конф. «Информационные технологии в электротехнике и электроэнергетике». Чебоксары, 2012. С. 214-215.
106. Новосёлов С.А., Топников А.И., Савватин А.И. Алгоритм шумоочистки речевых команд методом спектрального слежения // Доклады 13-й международной конференции "Цифровая обработка сигналов и ее применение". Москва, 2011. Т. 1. С. 224-226.
107. Новоселов С.А., Топников А.И., Савватин А.И., Приоров A.JI. Подавление шума в речевых сигналах на основе метода нелокального усреднения // Цифровая обработка сигналов. 2011. №4. С. 23-28.
108. Топников А.И., Веселов И.А., Новоселов С.А., Приоров A.JI. Выделение речевых команд на основе помехоустойчивых параметров и моделей гауссовых смесей // Проектирование и технология электронных средств. 2011. №4. С. 31-35.
109. Новоселов С.А., Топников А.И., Савватин А.И., Приоров A.JI. Научно-исследовательская программа для подавления шума в речевых сигналах YarSpeechCleaner // Свидетельство о регистрации в Реестре программ для ЭВМ №2011616845 от 31.10.2011.
110. Савватин А.И., Новоселов С.А., Топников А.И., Приоров A.JI. Научно-исследовательская программа для защищенной передачи речевых сигналов YarSecureVoice // Свидетельство о регистрации в Реестре программ для ЭВМ №2011619616 от 19.11.2011.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.