Алгоритмы выделения речи целевого диктора с использованием планарных компактных микрофонных решеток тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Куан Чонг Тхе
- Специальность ВАК РФ05.13.17
- Количество страниц 226
Оглавление диссертации кандидат наук Куан Чонг Тхе
ОГЛАВЛЕНИЕ
РЕФЕРАТ
SYNOPSIS
ВВЕДЕНИЕ
ГЛАВА 1. ЗАДАЧА СБОРА РЕЧЕВОЙ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ КОМПАКТНЫХ МИКРОФОННЫХ РЕШЕТОК
1.1 Применение микрофонных решеток для дистанционного сбора речевой информации
1.2 Формулировка основной проблемы исследования
1.3 Алгоритмы пространственной фильтрации для задачи сбора речевой информации
1.4 Характеристики микрофонных решеток в задаче сбора речевой
информации
ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ
ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМОВ ФОРМИРОВАНИЯ ДИАГРАММЫ НАПРАВЛЕННОСТИ КМР ДЛЯ ВЫДЕЛЕНИЯ РЕЧИ ЦЕЛЕВОГО ДИКТОРА
2.1 Исследование алгоритмов формирование луча и нуля в двухэлементных микрофонных решетках
2.2 Разработка алгоритма выделения речи диктора за счет совместного формирования луча и нуля диаграммы направленности КМР произвольной конфигурации
2.3 Разработка алгоритма выделения речи диктора за счет формирования диаграммы направленности кардиоиды
2.4 Разработка алгоритмов выделения речи целевого диктора в условиях
априорной неопределенности направлений целевого диктора и помехи
ВЫВОДЫ ПО ВТОРОЙ ГЛАВЕ
ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ И ИССЛЕДОВАНИЕ АЛГОРИТМОВ ВЫДЕЛЕНИЯ РЕЧИ ЦЕЛЕВОГО ДИКТОРА С ПОМОЩЬЮ КОМПАКТНЫХ МИКРОФОННЫХ РЕШЕТОК
3.1 Программные средства выделения речевых сигналов в среде МАТЛАБ
3.2 Исследование разделения двух речевых сигналов, поступающих с известных направлений
3.3 Исследование эффективности разделения речи дикторов с использованием адаптивных алгоритмов MVDR и GSC
3.4 Исследование алгоритма оценки направлений прихода речевых сигналов
ВЫВОДЫ ПО ТРЕТЬЕЙ ГЛАВЕ
4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АЛГОРИТМОВ ВЫДЕЛЕНИЯ РЕЧИ ЦЕЛЕВОГО ДИКТОРА С ПОМОЩЬЮ ПЛАНАРНЫХ МИКРОФОННЫХ РЕШЕТОК
4.1 Исследование пространственной разрешающей способности линейной микрофонной решетки в безэховой камере
4.2 Оценка направления прихода речевых сигналов в безэховой камере
4.3 Оценка эффективности подавление широкополосной помехи с переменным направлением с использованием адаптивных алгоритмов MVDR, ОБО
4.4 Исследование эффективности подавления помехи в помещении в условиях реверберации
4.5 Оценка эффективности разделения речи двух дикторов с помощью двухэлементной микрофонной решетки в системе распознавания ключевых
слов
ВЫВОДЫ ПО ЧЕТВЕРТОЙ ГЛАВЕ
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ АВТОРОМ ПО ТЕМЕ ДИССЕРТАЦИИ
СПИСОК НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ РАБОТ, В КОТОРЫХ
ИСПОЛЬЗОВАЛИСЬ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ
СПИСОК ТАБЛИЦ
СПИСОК РИСУНКОВ
ПРИЛОЖЕНИЕ А: СПИСОК СОКРАЩЕНИЙ
ПРИЛОЖЕНИЕ Б. СПИСОК СИМВОЛОВ И ОБОЗНАЧЕНИЙ
ПРИЛОЖЕНИЕ В: АНГЛО-РУССКИЙ СЛОВАРЬ ТЕРМИНОВ
ПРИЛОЖЕНИЕ Г: ТЕКСТЫ ПУБЛИКАЦИЙ ПО ТЕМЕ ИССЛЕДОВАНИЯ
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Алгоритм и устройство с адаптивным управлением характеристикой направленности на основе пространственно-временной обработки сигналов2012 год, кандидат технических наук Мокрецов, Антон Викторович
Пространственная обработка речевых сигналов на фоне интенсивных распределенных помех2020 год, кандидат наук Миронов Никита Андреевич
Пеленгаторные антенные решетки коротковолнового диапазона с высокоточным способом пеленгования2012 год, кандидат технических наук Васин, Антон Александрович
Аппаратные и программные средства реального времени для одно- и двумерных микрофонных решеток2007 год, кандидат технических наук Мьо Ти Ха
Пространственная обработка сигналов в цифровых антенных решетках2009 год, кандидат технических наук Чиркунова, Жанна Владимировна
Введение диссертации (часть автореферата) на тему «Алгоритмы выделения речи целевого диктора с использованием планарных компактных микрофонных решеток»
РЕФЕРАТ
Актуальность темы исследования. Сбор речевой информации в нестационарных шумах является актуальным в решении многих практических задач речевых технологий. Одной из важных задач является выделение речи целевого диктора в присутствии речи сторонних дикторов и шумов окружения.
Задача дистанционного сбора речевой и акустической информации от целевого источника в присутствии шумов является классической и имеет много практических применений: системы человеко-машинного диалога, протоколирование речи заседаний, переговоров и совещаний, дистанционный сбор и запись речевой информации, дистанционное распознавание речи и идентификация дикторов, выделение речи целевого диктора из смеси голосов, помощь слабослышащим, аудио- , видеомониторинг.
Актуальность задачи выделения речи целевого диктора связана, прежде всего, с интенсивным расширением области применения речевых технологий (автоматическое распознавание речи, голосовая биометрия и др.) и потребностью в переходе к дистанционному приему речевой информации.
Обычно задача ставится, как задача выделения звука целевого источника с заданного направления. Главными проблемами при этом является помехи и шумы. «Шумом» будем называть случайные сигналы, присутствующие в сигналах микрофонов (например, электрические шумы, шумы окружающей среды от пространственно распределенных источников). «Помехами» будем называть когерентные сигналы на микрофонах, сформированные источниками звука, которые могут быть локализованы в пространстве (например, речь сторонних дикторов).
Одним из направлений в решении данной задачи является применение микрофонных решеток (МР).
Способы применения и типы МР для решения задачи выделения речи целевого диктора зависит от ряда условий. Используют МР, расположенные по периметру помещения, для больших аудиторий применяют большие МР, для комнат совещаний используют МР среднего размера с потолочным или
настенным размещением, для небольших локальных пространств (салон автомобиля, офисная стойка и др.) нашли применение компактные микрофонные решетки.
К компактным микрофонным решеткам (КМР) будем относить МР с небольшим числом микрофонов (2-8), расстоянием между которыми находится в пределах минимальной для выбранного диапазона рабочих частот длины волны. Для речевых сигналов размеры КМР обычно находятся в интервале от нескольких до 40 сантиметров. Привлекательность КМР связана, прежде всего, с удобством их размещения и относительной простотой вычислительных процедур обработки сигналов микрофонов.
К настоящему времени КМР нашли большое число разнообразных применений. Основная область применения КМР - дистанционный сбор акустической и речевой информации в локальных пространствах (расстояние до диктора 2-3 м). Важным импульсом к расширению сферы применения КМР в последнее десятилетие явилась разработка цифровых MEMS (Microelectromechanical Systems) микрофонов (в русской транскрипции МЭМС - общее название микро-электромеханических систем), и промышленный выпуск микрофонных решеток на их основе.
Геометрия КМР обычно связана с условиями их размещения и применения. Большинство КМР имеют линейную или планарную архитектуру.
Линейные МР (ЛМР) работают в полупространстве или полуплоскости и размещаются так, чтобы не улавливать посторонние звуки с противоположной стороны. При установке в вертикальном положении ЛМР не только не улавливают нежелательные звуки сзади, но также нечувствительны к звукам снизу и сверху, благодаря чему на выход МР попадает меньше стороннего шума. Широкая диаграмма направленности (ДН) в горизонтальной плоскости позволяет такой микрофонной решетке снимать звук большего количества людей перед ней, а также дает возможность дикторам свободно двигаться, не опасаясь перепадов уровня звука. При установке в горизонтальном положении ЛМР имеет широкий угол захвата звука по вертикали и узкий угол по
горизонтали, и в результате снимает голос только одного человека, находящегося в направлении луча МР.
Планарные МР могут иметь настенное, потолочное и плоское (настольное) размещение. В случае, когда наиболее важные акустические события происходят в одной плоскости, можно использовать плоское размещение микрофонов для работы с акустической сценой, расположенной в секторе 0-360°. В работе рассматривается сценарий плоского размещения КМР (планарные КМР).
В целом актуальность исследования КМР определяется их растущим применением в решение практических задач и потребностью в повышении качества выделения речевых сигналов в сложной акустической обстановке.
Степень разработанности темы. В основу теории микрофонных решеток положены методы и алгоритмы обработки сигналов, разработанные для антенных решеток. Основное отличие алгоритмов анализа речи с использованием микрофонных решеток от алгоритмов антенных решеток связано с широкополосностью речевых сигналов, занимающих несколько октав частотного диапазона.
Активное развитие алгоритмов анализа речи с использованием МР началось в 80-90-х годах. В этот период был публикован ряд фундаментальных статей, в которых теория обработки сигналов антенных решеток была применена к микрофонным решеткам. С начала 2000-х годов по тематике МР опубликован ряд фундаментальных монографий [1-9], в которых теоретически обоснованы общие методы и алгоритмы пространственной фильтрации с использованием МР.
В последние годы все больший интерес, как ученых, так и разработчиков систем обработки речевых сигналов обращен к компактным микрофонным решеткам. Опубликованы монографии и обзоры, в которых рассматриваются теоретические аспекты КМР [10-13]. Также ежегодно публикуется значительное число работ, посвященных особенностям применения КМР в различных областях, в основном связанным с обработкой речевых сигналов. По
различным направлениям дистанционного распознавания речи и дикторов в условиях «естественной» акустической обстановки регулярно проводятся конференции и конкурсы. В целом тематика КМР является в текущий период интенсивно развивающейся областью науки и практики.
Общим недостатком КМР с алгоритмом задержки и суммирования, который по-прежнему применяется во многих КМР (например, Amazon Echo, Google Home, DSP concepts [14]), является малая пространственная избирательность (большая ширина основного лепестка). Это приводит к двум проблемам.
Во-первых, это ограничивает возможность ослабления шумов, поступающих с различных направлений особенно в диапазоне низких частот, где сосредоточена значительная часть шумов и помех.
В некоторых случаях эта проблема решается за счет применения нескольких КМР. Так в CHiME-5 challenge для разделения речи дикторов используют шесть КМР Kinect (по четыре микрофона в каждой) [15]. Возможным путем компенсации этого недостатка КМР является применение дифференциальных алгоритмов, позволяющих увеличить степень пространственной избирательности МР за счет сужения диаграммы направленности в диапазоне низких частот.
Во-вторых, это ограничивает возможность эффективного подавления речи сторонних дикторов и других помех точечных источников.
Возможным путем компенсации этого недостатка КМР является формирование нулей диаграммы направленности в направлениях точечных источников помех.
В последние десятилетия опубликован ряд монографий, посвященных дифференциальным алгоритмам и алгоритмам формирования нулей, например [16-19]. На данный момент применение общей теоретической базы для КМР и разработка алгоритмов выделения речевых сигналов с использованием КМР остается актуальной задачей и является активной областью исследований.
Диссертационная работа направлена на решение практических задач разработки и реализации алгоритмов выделения речи целевого диктора в условиях шумов окружения и точечных источников помех для планарных КМР. В работе предлагаются: (1) алгоритм увеличения степени направленности КМР за счет формирования ДН с характеристикой дифференциальной МР, (2) алгоритмы формирования нулей ДН в направлении источников когерентных помех для сценариев известного и неизвестного направления источника помехи.
Основным фактором, определяющим эффективность систем с речевым интерфейсом, является отношение сигнала диктора к шуму фона (изотропному или когерентному). Увеличение отношения сигнал/шум (ОСШ) микрофонной решетки относительно ОСШ отдельного микрофона является объективной характеристикой эффективности МР. Увеличение ОСШ речевого сигнала позволяет улучшить разборчивость, обнаружение и распознавание речи, а также распознавание дикторов. Исходя из этого, в качестве основной меры достижения цели работы выбрана степень увеличения ОСШ и ее численные характеристики: для изотропного шума - индекс направленности Ш(/), для когерентного шума - степень подавления шума (МЯ).
Объектом исследования является речь диктора, искаженная в присутствии шумов окружения и речи сторонних дикторов.
Предметом исследования являются алгоритмы анализа и выделения речевых сигналов, полученных с помощью компактных микрофонных решеток в условиях шумов и помех окружения.
Целью диссертации является разработка алгоритмов выделения речи целевого диктора с помощью компактных микрофонных решеток, позволяющих увеличить ОСШ речевого сигнала на выходе КМР.
Для достижения поставленной цели в диссертации сформулированы следующие задачи:
1. Обзор и анализ методов и алгоритмов выделения речевых сигналов с использованием микрофонных решеток.
2. Исследование алгоритмов формирования луча и нуля в двухэлементных МР.
3. Разработка алгоритма выделения речи диктора в присутствии речи сторонних дикторов с использованием совместного формирования луча и нуля диаграммы направленности КМР.
4. Разработка алгоритма выделения речи диктора в изотропном шуме, с использованием диаграммы направленности кардиоиды.
5. Разработка адаптивных алгоритмов выделения речи целевого диктора в условиях меняющейся акустической обстановки.
6. Разработка алгоритма оценки направления прихода речи дикторов.
7. Разработка программных средств выделения речи целевого диктора с помощью компактных микрофонных решеток.
8. Проведение экспериментальных исследований разработанных алгоритмов выделения речи диктора в реальных условиях.
Основные положения, выносимые на защиту
- Алгоритм выделения речи диктора из смеси речи целевого и стороннего диктора с помощью формирования диаграммы направленности КМР с лучом в направлении целевого диктора и нулем в направлении стороннего диктора, обеспечивающий подавление речи стороннего диктора на 15-20 дБ.
- Алгоритм выделения речи диктора в изотропном шуме, основанный на формировании луча и нуля диаграммы направленности КМР в противоположных направлениях, обеспечивающий увеличение достигаемого выигрыша ОСШ в диапазоне НЧ на 2-5 дБ больше по сравнению с алгоритмом задержки и суммирования для той же геометрии микрофонной решетки.
- Алгоритм статистически устойчивой оценки направлений прихода речи дикторов на отдельных кадрах речи, основанный на сканировании пространства нулем диаграммы направленности КМР.
Научная новизна диссертации состоит в следующем:
- Разработан алгоритм выделения речи диктора в присутствии когерентных шумов окружения и речи сторонних дикторов, отличающийся от
известных алгоритмов тем, что обеспечивает независимое управление лучом и нулем диаграммы направленности КМР произвольной геометрии, что позволяет увеличить ОСШ целевого сигнала на 15-20 дБ.
- Предложен алгоритм выделения речи диктора в изотропном шуме, основанный на формировании луча и нуля диаграммы направленности КМР в противоположных направлениях, обеспечивающий увеличение достигаемого выигрыша ОСШ в диапазоне низких частот (НЧ) на 2-5 дБ по сравнению с известными алгоритмами для той же геометрии микрофонной решетки.
- Предложен алгоритм статистически устойчивой оценки направлений прихода речи дикторов на отдельных кадрах речи, основанный на сканировании пространства нулем диаграммы направленности КМР.
Методология и методы исследования
Теоретические и экспериментальные исследования базируются на использовании методов физической акустики, вычислительной математики, статистического анализа, математического и компьютерного моделирования в среде MATLAB.
Теоретическая значимость диссертационной работы
- Предложен алгоритм выделения речи целевого диктора в присутствии речи сторонних дикторов, основанный на формировании диаграммы направленности КМР с лучом в направлении целевого диктора и нулями в направлениях источников помех. Показано, что независимое управление лучом и нулями может быть достигнуто в микрофонных решетках с 6-8 микрофонами.
- Предложен алгоритм выделения речи диктора в изотропном шуме, основанный на формировании луча и нуля диаграммы направленности КМР в противоположных направлениях, обеспечивающий увеличение достигаемого выигрыша ОСШ в диапазоне НЧ на 2-5 дБ больше по сравнению с известными алгоритмами для той же геометрии микрофонной решетки.
- Предложен алгоритм статистически устойчивой оценки направлений прихода речи дикторов на отдельных кадрах речи, основанный на сканировании пространства нулем диаграммы направленности КМР.
Практическая значимость
- Разработанные в работе алгоритмы обработки сигналов могут быть применимы на стойках досмотра, в информационных киосках, в комнатах совещаний, помещениях небольших размеров для записи и протоколирования речи дикторов.
- Разработанные алгоритмы реализуемы в режиме реального времени.
- Разработанные алгоритмы могут быть применены для промышленных КМР, а также в качестве подрешеток больших микрофонных решеток, что способно обеспечить существенное снижение вычислительных затрат.
Личный вклад соискателя состоит в следующем:
- Получение аналитических выражений весовых коэффициентов КМР для планарных микрофонных решеток в частотной области.
- Разработка алгоритма обработки сигналов КМР, обеспечивающего выделение речи целевого диктора в присутствии речи мешающих дикторов.
- Разработка алгоритма выделения речи диктора в изотропном шуме, обеспечивающего увеличение достигаемого выигрыша ОСШ в диапазоне НЧ.
- Разработка алгоритма оценки направлений прихода речи дикторов.
- Разработка программ, реализующих обработку сигналов предложенными оригинальными алгоритмами.
- Проведение и обработка результатов численных экспериментов.
- Обработка результатов натурных экспериментов.
Достоверность и обоснованность научных результатов, полученных в рамках диссертационной работы, подтверждается согласованностью принятых при теоретическом анализе моделей КМР с результатами проведенных натурных экспериментов, а также согласованностью полученных в ходе работы результатов с результатами других авторов.
Апробация результатов работы.
Разработанные алгоритмы были протестированы на модельных сигналах и записях, сделанных в реальных условиях.
По материалам данной работы были сделаны доклады на следующих конференциях: XLVII, XLVIII и XLIX Научная и учебно-методическая конференция Университета (2018, 2019, 2020); VII, VIII и IX Всероссийской конгресс молодых ученых (Санкт - Петербург, Россия, 2018-2020), 20th International Conference on Speech and Computer SPECOM 2018 (18-22 September, 2018, Leipzig, Germany), 21st International Conference on Speech and Computer SPECOM 2019 (20-25 August, 2019, Istanbul, Turkey), V Международная научно - техническая конференция актуальные проблемы радио- и кинотехнологий (24-25 Ноября, 2020, Санкт-Петербург, Россия), III Национальная научно-техническая конференция "Современные проблемы радиотехника, аудиовизуальных технологий и телевидения" (12-13 Марта, 2021, Санкт-Петербург, Россия).
Публикации.
Основные результаты изложены в 9 публикациях, в том числе 4 статьи в изданиях, включенных в систему цитирования Scopus, и 2 статьи в периодических изданиях, включенных в перечень ВАК, 3 публикации в других изданиях.
Внедрение результатов работы.
Подготовлена программа моделирования микрофонной решетки для лабораторной работы в рамках курса «Цифровая обработка речевых сигналов» магистерской образовательной программы «Речевые информационные системы» Университета ИТМО.
Результаты работы использованы в рамках государственной финансовой поддержки ведущих университетов Российской Федерации, субсидия 08-08 (НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», 2018-2020 гг).
Структура и объем диссертации.
Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений, включающих, перечень сокращений на русском
языке, перечень терминов на английском языке, список обозначений. Общий объем составляет 178 страниц. В диссертации 39 рисунков, 114 формул и 7 таблиц.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Адаптивные алгоритмы пространственной обработки сигналов, эффективные при случайных дестабилизирующих воздействиях2012 год, кандидат физико-математических наук Пешков, Илья Владимирович
Оценка степени влияния дестабилизирующих факторов на характеристики цифровой антенной решетки2009 год, кандидат технических наук Орешкин, Виталий Иванович
Модели и методы обработки аудиосигналов телекоммуникационных систем в сложной помеховой обстановке0 год, доктор технических наук Кропотов, Юрий Анатольевич
Разработка и экспериментальное исследование методов оценки параметров гидроакустических сигналов в условиях мелкого моря2006 год, кандидат физико-математических наук Орлов, Денис Алексеевич
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Заключение диссертации по теме «Теоретические основы информатики», Куан Чонг Тхе
ЗАКЛЮЧЕНИЕ
В диссертационной работе ставилась задача разработки алгоритмов выделения речи целевого диктора с помощью компактных микрофонных решеток, позволяющих увеличить ОСШ речевого сигнала на выходе КМР в присутствии изотропного шума и когерентных помех точечных источников.
Исходя из цели работы, в ходе диссертационного исследования были решены следующие задачи:
1. Проведен обзор и анализ методов и алгоритмов выделения речевых сигналов с использованием микрофонных решеток.
2. Исследованы алгоритмы формирования луча и нуля в двухэлементных
МР.
3. Разработан алгоритм выделения речи диктора в присутствии речи сторонних дикторов с использованием совместного формирования луча и нуля диаграммы направленности КМР.
4. Разработан алгоритм выделения речи диктора в изотропном шуме, с использованием диаграммы направленности кардиоиды.
5. Разработаны адаптивные алгоритмы выделения речи целевого диктора в условиях меняющейся акустической обстановки.
6. Разработан алгоритм оценки направления прихода речи дикторов.
7. Разработаны программные средства выделения речи целевого диктора с помощью компактных микрофонных решеток.
8. Проведены экспериментальные исследования разработанных алгоритмов выделения речи диктора в реальных условиях.
При этом получены следующие результаты:
- Алгоритм выделения речи диктора из смеси речи целевого и стороннего диктора с помощью формирования диаграммы направленности КМР с лучом в направлении целевого диктора и нулем в направлении стороннего диктора, обеспечивающий подавление речи стороннего диктора на 15-20 дБ.
- Алгоритм выделения речи диктора в изотропном шуме, основанный на формировании луча и нуля диаграммы направленности КМР в
противоположных направлениях, обеспечивающий увеличение достигаемого выигрыша ОСШ в диапазоне НЧ на 2-5 дБ больше, по сравнению с алгоритмом задержки и суммирования для той же геометрии микрофонной решетки.
- Алгоритм статистически устойчивой оценки направлений прихода речи дикторов на отдельных кадрах речи, основанный на сканировании пространства нулем диаграммы направленности КМР.
Полученные решения позволяют.
- Разработанные в работе алгоритмы обработки сигналов могут быть применимы на стойках досмотра, в информационных киосках, в комнатах совещаний небольших размеров для записи и протоколирования диалогов.
- Разработанные алгоритмы реализуемы в режиме реального времени.
- Разработанные алгоритмы могут быть применены в промышленных КМР, а также в подрешетках больших микрофонных решеток, что может обеспечить гибкость алгоритмов обработки сигналов в МР с большим количеством микрофонов и уменьшить их вычислительную сложность.
- Разработанные алгоритмы могут быть обобщены на сценарий выделения речи целевого диктора в присутствии нескольких сторонних дикторов.
На основании полученных результатов можно утверждать, что цель исследования «разработка алгоритмов выделения речи целевого диктора с использованием планарных компактных микрофонных решеток» достигнута в полной мере. Показано, что разработанные алгоритмы обработки и анализа речевого сигнала состоятельны и эффективны, имеют свои преимущества, и могут найти применение в большом числе систем человеко-машинного речевого общения.
Список литературы диссертационного исследования кандидат наук Куан Чонг Тхе, 2021 год
СПИСОК ЛИТЕРАТУРЫ
1. Microphone Arrays / ed. by M. Brandstein, D. Ward. Heidelberg, Germany: Springer-Verlag, 2001. XVIII, 398 p. doi: 10.1007/978-3-662-04619-7.
2. Harry L.Van Trees. Detection, Estimation and Modulation Theory, Part IV: Optimum array processing. Wiley & Sons, 2002, 1472 p. ISBN: 978-0-471-46383-2.
3. Herbordt W. Sound Capture for Human / Machine Interfaces: Practical Aspects of Microphone Array Signal Processing. Springer-Verlag, 2008. ISBN 978-3-54023954-3.
4. Benesty J., Chen J. Huang Y. Microphone Array Signal Processing. Berlin, Germany: Springer-Verlag, 2008. 240 p. doi: 10.1007/978-3-540-78612-2.
5. Haykin S., Ray Liu K.J. Handbook on Array Processing and Sensor Networks. John Wiley & Sons, Inc. 2008. 924 p. ISBN: 978-0-470-37176-3.
6. Cohen I., Benesty J., Sharon G. (Eds.). Speech processing in modern communication: challenges and perspectives, 360 p., 2010. ISBN: 978-3-642-111303.
7. Benesty J., Makino J., Chen J. Speech Enhancement. Springer-Verlag, Berlin, 2010. ISBN 978-3-540-27489-6.
8. Gillian M. D. Noise Reduction in Speech Applications. CRC Press, 2002. 432 p. ISBN 9780849309496.
9. Lai C.C., Nordholm S.E., Leung Y.H. A Study into the Design of Steerable Microphone Arrays, 2017. ISBN 978-981-10-1691-2.
10. Tashev I. Sound Capture and Processing: Practical Approaches. Wiley, 2009. 388 p. ISBN: 978-0-470-31983-3.
11. Yan Y., Zhang H., Fu Q. A frequency domain approach for speech enhancement with directionality using compact microphone array // Proc. INTERSPEECH 2008.
12. S. Mihov, T. Gleghorn, I. Tashev. Enhanced Sound Capture System for Small Devices // Proc. XLIII International Scientific Conference on Information, Communication, and Energy Systems and Technologies ICEST 2008.
13. Zhang H., Fu Q., Yan Y. Speech Enhancement Using Compact Microphone Array and Applications in Distant Speech Acquisition // Chinese Journal of Electronics Vol.18, No.3, July 2009, pp. 481-486.
14. DSP Concepts paper "Designing Optimized Microphone Beamformers" featured in Embedded Computing Design, 2018. [Электронный ресурс]. URL: https://dspconcepts.com/sites/default/files/voice_ui_part2.pdf, свободный. Яз. англ. (дата обращения: 08.06.2021).
15. The 5th CHiME Speech Separation and Recognition Challenge. [Электронный ресурс]. URL: http ://spandh. dcs. shef. ac. uk/chime_challenge/CHiME5/data. html, свободный. Яз. англ. (дата обращения: 30.06.2021).
16. Benesty J., Chen J. Study and Design of Differential Microphone Arrays. Berlin, Germany: Springer-Verlag, 2012. 184 p. doi: 10.1007/978-3-642-33753-6.
17. Benesty J., Chen J., Pan C. Fundaments of Differential Beam-steering. Springer, 2016. 122 p. doi: 10.1007/978-981-10-1046-0.
18. Benesty, J.; Chen, J.; Cohen, I. Design of Circular Differential Microphone arrays // Springer: Switzerland, 2015. DOI:10.1007/978-3-319-14842-7.
19. Benesty J., Cohen I., and Chen J. Fundamentals of Signal Enhancement and Array Signal Processing, Wiley-IEEE Press, 2017. 440 p. DOI: 10.1002/9781119293132.
20. Ермолаев В.Т., Флаксман А.Г. Методы оценивания параметров источников сигналов и помех, принимаемых антенной решеткой. Учебно-методический материал по программе повышения квалификации «Новые подходы к проблемам генерации, обработки, передачи, хранения, защиты информации и их применение». Нижний Новгород, 2007, 98 с.
21. Medennikov, I., Prudnikov, A. Advances in STC Russian Spontaneous Speech Recognition System // Proc. of 16-th International Conference on Speech and Computer, SPECOM 2016, pp.116-123 (2016). DOI:10.1007/978-3-319-43958-7_13.
22. Makino S., Te-Won Lee T.-W., Sawada H. Blind Speech Separation // Springer, 2007. ISBN 978-1-4020-6479-1.
23. Nuttall A.H, Cray B.A. Approximations to Directivity for Linear, Planar, and Volumetric Apertures and Arrays // NUWC-NPT Technical Report 10,798. 1997. [Электронный ресурс]. URL: https://convexoptimization.com/TOOLS/arrayaperture.pdf (дата обращения: 08.06.2021).
24. Столбов М.Б., Куан Ч. Т. Сравнительный анализ пространственных характеристик двухэлементных микрофонных решеток // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 1. № 1. С. 147-154.
25. Buck M., RoBler M. First order differential microphone arrays for automotive applications // Proc. 7th International Workshop on Acoustic Echo and Noise Control, IWAENC. 2001. P. 19-22.
26. Монзиго Р. А., Миллер Т. У. Адаптивные антенные решетки, М.: Радио и связь, 1986. 448 с.
27. Столбов М.Б., Перелыгин С.В. Алгоритмы двухэлементной микрофонной решетки для выделения речевых сигналов в присутствии когерентных помех // Цифровая обработка сигналов. 2017. №4. С. 34-39.
28. Xianxiang W., Yi Z., Yongbao M., Qiang L. A Robust Generalized Sidelobe Canceller Controlled by a Priori SIR Estimate // Proc. ICMSSP '18, April 28-30, 2018, Shenzhen, China. Pages 84-89. https://doi.org/10.1145/3220162.3220171
29. Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь, 1989. 440 c.
30. Jianfeng C., Koksoon P., Louis S., Hanwu S. Performance evaluation of adaptive dual microphone systems. Speech Communication 51 (2009) 1180-1193. DOI:10.1016/j.specom.2009.06.002.
31. Griffiths, L., Jim C. W. An alternative approach to linearly constrained adaptive beam-steering. IEEE Transactions on antennas and propagation, 30(1), 27-34, 1982. DOI: 10.1109/TAP.1982.1142739.
32. Gabriele Z. Inferring the location of reflecting surfaces from acoustic measurements: Using a compact microphone array collocated with a loudspeaker
[Электронный ресурс]. URL: http://resolver.tudelft.nl/uuid:559613a1-f2ee-44a3-b610-7ef14fdcd570, свободный. Яз. англ. (дата обращения: 15.09.2020).
33. Wang L., Zhu J. A Joint Speech Enhancement Algorithm Based on the Tri-Microphone // Proc. 2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA), Orlando, FL, 2018, pp. 1023-1028, doi: 10.1109/ICMLA.2018.00167.
34. Grimm S., Freudenberger J. Wind noise reduction for a closely spaced microphone array in a car environment // Proc. Audio Speech Music 2018, 7 (2018). https://doi.org/10.1186/s13636-018-0130-z.
35. Manias S.D., Vilkamo J., Pulkki V. Signal-Dependent Spatial Filtering Based on Weighted-Orthogonal Beamformers in the Spherical Harmonic Domain // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 9, pp. 1511-1523, Sept. 2016, doi: 10.1109/TASLP.2016.2560523.
36. Hong J., Park S., Jeong S., Hahn M. Dual-Microphone Noise Reduction in Car Environments With Determinant Analysis of Input Correlation Matrix // IEEE Sensors Journal, vol. 16, no. 9, pp. 3131-3140, May 1, 2016, doi: 10.1109/JSEN.2016.2525811.
37. Manias S.D., Pulkki V. Signal-dependent spatial audio reproduction based on playback-setup-defined beamformers // Proc. Mtgs. Acoust. 28, 055005 (2016); doi: 10.1121/2.0000457
38. Ahrens J. Perceptual Evaluation of Binaural Auralization of Data Obtained from the Spatial Decomposition Method // Proc. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, 2019, pp. 65-69, doi: 10.1109/WASPAA.2019.8937247.
39. Scheibler R., Ono N. Multi-modal Blind Source Separation with Microphones and Blinkies // Proc ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 366-370, doi: 10.1109/ICASSP.2019.8682594.
40. Manias S.D., Pavlidi D., Mouchtaris A., Pulkki V. DOA estimation with histogram analysis of spatially constrained intensity vectors // Proc. 2017 IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, USA, pages 526-530, 5-9 March 2017. DOI: 10.1109/ICASSP.2017.7952211.
41. Wang H., Ye Z., Chen J. A Speech Enhancement System for Automotive Speech Recognition with a Hybrid Voice Activity Detection Method // Proc. 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC), Tokyo, 2018, pp. 1-9, doi: 10.1109/IWAENC.2018.8521410.
42. Zacca V., Nuevo P.M., Moller M., Martinez J., Heusdens R. Inferring the location of reflecting surfaces exploiting loudspeaker directivity [Электронный ресурс]. URL: arXiv:2003.01117, свободный. Яз. англ. (дата обращения: 14.09.2020).
43. Astapov S., Berdnikova J., Preden J. A two-stage approach to 2D DOA estimation for a compact circular microphone array // Proc. 2015 International Conference on Informatics, Electronics & Vision (ICIEV), Fukuoka, 2015, pp. 1-6, doi: 10.1109/ICIEV.2015.7333981.
44. Huang G., Chen J., Benesty J. On the Design of Robust Steerable Frequency-Invariant Beampatterns with Concentric Circular Microphone Arrays // Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 506-510, doi: 10.1109/ICASSP.2018.8461297.
45. Tan Z., Nguyen A. H. T., Khong A. W. H. An Efficient Dilated Convolutional Neural Network for UAV Noise Reduction at Low Input SNR // Proc. 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Lanzhou, China, 2019, pp. 1885-1892, doi: 10.1109/APSIPAASC47483.2019.9023324.
46. Jiang Y., Liu R. A dual microphone speech enhancement method with a smoothing parameter mask // Proc. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), Shanghai, 2017, pp. 1-5, doi: 10.1109/CISP-BMEI.2017.8302095.
47. Wang T., Choy Y. An approach for sound sources localization and characterization using array of microphones // Proc. 2015 International Conference
on Noise and Fluctuations (ICNF), Xian, 2015, pp. 1-4, doi: 10.1109/ICNF.2015.7288571.
48. Xia H., Ma Y., Yang K., Cao R., Chen P., Li H. Delay-and-sum beam-steering based on the diagonal reducing method // Proc. OCEANS 2017 - Aberdeen, Aberdeen, 2017, pp. 1-5, doi: 10.1109/OCEANSE.2017.8084592.
49. Yang Y., Chu Z., Shen L., Xu Z. Functional delay and sum beam-steering for three-dimensional acoustic source identification with solid spherical array // Journal of Sound and Vibration Volume 373, 7 July 2016, Pages 340-359. https://doi.org/10.1016/j.jsv.2016.03.024
50. Hashimoto M. Mallard Detection using Microphone Array and Delay-and-Sum Beam-steering // Proc. 2019 19th International Conference on Control, Automation and Systems (ICCAS), Jeju, Korea (South), 2019, pp. 1583-1588, doi: 10.23919/ICCAS47443.2019.8971736.
51. Lashi D., Quévy Q., Lemeire J. Optimizing Microphone Arrays for Delay-and-Sum Beam-steering using Genetic Algorithms // Proc. 2018 4th International Conference on Cloud Computing Technologies and Applications (Cloudtech), Brussels, Belgium, 2018, pp. 1-5, doi: 10.1109/CloudTech.2018.8713331.
52. Rakesh P., Priyanka S. S., Kumar T. K. Performance evaluation of beam-steering techniques for speech enhancement // Proc. 2017 Fourth International Conference on Signal Processing, Communication and Networking (ICSCN), Chennai, 2017, pp. 15, doi: 10.1109/ICSCN.2017.8085647.
53. Andras I., Dolinsky P., Michaeli L., Saliga J. Beam-steering with small diameter microphone array // Proc. 2018 28th International Conference Radioelektronika (RADIOELEKTRONIKA), Prague, 2018, pp. 1-5, doi: 10.1109/RADIOELEK.2018.8376368.
54. Borra F., Bernardini A., Antonacci F., Sarti A. Efficient Implementations of FirstOrder Steerable Differential Microphone Arrays With Arbitrary Planar Geometry // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1755-1766, 2020, doi: 10.1109/TASLP.2020.2998283.
55. Borra F., Bernardini A., Antonacci F., Sarti A. Uniform Linear Arrays of FirstOrder Steerable Differential Microphones // in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 1906-1918, Dec. 2019, doi: 10.1109/TASLP.2019.2934567.
56. Huang G., Chen J., Benesty J. Design of Planar Differential Microphone Arrays With Fractional Orders // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 116-130, 2020, doi: 10.1109/TASLP.2019.2949219.
57. Huang G., Benesty J., Cohen I., Chen J. Differential Beam-steering on Graphs // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 901-913, 2020, doi: 10.1109/TASLP.2020.2973795.
58. Huang G., Benesty J., Cohen I., Chen J. A Simple Theory and New Method of Differential Beam-steering With Uniform Linear Microphone Arrays // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1079-1093, 2020, doi: 10.1109/TASLP.2020.2980989.
59. Yang J., Liu Z., Qi H., Qi S. Direction of Arrival Estimation Method Based on First-Order Differential Microphone Array // Proc. 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), Zhangjiajie, China, 2019, pp. 24512454, doi: 10.1109/HPCC/SmartCity/DSS.2019.00342.
60. Huang G., Benesty J., Chen J., Cohen I. Robust and steerable kronecker product differential beam-steering With rectangular microphone arrays // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 211-215, doi: 10.1109/ICASSP40776.2020.9052988.
61. Pan C., Chen J., Benesty J., Shi G. On the Design of Target Beampatterns for Differential Microphone Arrays // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1295-1307, Aug. 2019, doi: 10.1109/TASLP.2019.2918081.
62. Huang G., Zhao X., Chen J., Benesty J. Properties and Limits of the Minimumnorm Differential Beamformers with Circular Microphone Arrays // Proc. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 426-430, doi: 10.1109/ICASSP.2019.8683585.
63. Li H., Zhang X., Gao G. Beamformed Feature for Learning-based Dual-channel Speech Separation // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 4722-4726, doi: 10.1109/ICASSP40776.2020.9054049.
64. Dietzen T., Doclo S., Moonen M., Waterschoot T. Integrated Sidelobe Cancellation and Linear Prediction Kalman Filter for Joint Multi-Microphone Speech Dereverberation, Interfering Speech Cancellation, and Noise Reduction // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 740-754, 2020, doi: 10.1109/TASLP.2020.2966869.
65. Zhao W., Lin J. Q., Chan S. C., So H. K. A Division-Free and Variable-Regularized LMS-Based Generalized Sidelobe Canceller for Adaptive Beam-steering and Its Efficient Hardware Realization // IEEE Access, vol. 6, pp. 64470-64485, 2018, doi: 10.1109/ACCESS.2018.2875409.
66. Zohourian M., Enzner G., Martin R. Binaural Speaker Localization Integrated Into an Adaptive Beamformer for Hearing Aids // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 3, pp. 515-528, March 2018, doi: 10.1109/TASLP.2017.2782491.
67. Chang D., Zheng B. Adaptive Generalized Sidelobe Canceler Beam-steering With Time-Varying Direction-of-Arrival Estimation for Arrayed Sensors // IEEE Sensors Journal, vol. 20, no. 8, pp. 4403-4412, 15 April15, 2020, doi: 10.1109/JSEN.2019.2962215.
68. Kühl S., Bohlender A., Schrammen M., Jax P. Improved Change Prediction for Combined Beam-steering and Echo Cancellation with Application to a Generalized Sidelobe Canceler // Proc. 2019 IEEE Workshop on Applications of Signal
Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, 2019, pp. 363-367, doi: 10.1109/WASPAA.2019.8937228.
69. Ni F., Zhou Y., Liu H. A Robust GSC Beam-steering Method for Speech Enhancement using Linear Microphone Array // Proc. 2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP), Kuala Lumpur, Malaysia, 2019, pp. 1-5, doi: 10.1109/MMSP.2019.8901774.
70. Ali R., Bernardi G., Waterschoot T., Moonen M. Methods of Extending a Generalized Sidelobe Canceller With External Microphones // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 9, pp. 13491364, Sept. 2019, doi: 10.1109/TASLP.2019.2918400.
71. Priyanka S. S., Kumar T. K. GSC Beam-steering using Different Adaptive Algorithms for Speech Enhancement // Proc. 2019 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kanpur, India, 2019, pp. 1-6, doi: 10.1109/ICCCNT45670.2019.8944415.
72. Asad H., Bouchard M., Parsi H.K. Beam-steering Designs Robust to Propagation Model Estimation Errors for Binaural Hearing Aids // IEEE Access, vol. 7, pp. 114837-114850, 2019, doi: 10.1109/ACCESS.2019.2932315.
73. Priyanka S. S., Kumar T. K. GSC Adaptive Beam-steering Using Fast NLMS Algorithm for Speech Enhancement Proc. 2019 3rd International Conference on Imaging, Signal Processing and Communication (ICISPC), Singapore, 2019, pp. 160165, doi: 10.1109/ICISPC.2019.8935858.
74. Dietzen T., Spriet A., Tirry W., Doclo S., Moonen M., Waterschoot T. Comparative Analysis of Generalized Sidelobe Cancellation and Multi-Channel Linear Prediction for Speech Dereverberation and Noise Reduction // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 3, pp. 544558, March 2019, doi: 10.1109/TASLP.2018.2886743.
75. Fischer D., Doclo S. Subspace-Based Speech Correlation Vector Estimation for Single-Microphone Multi-Frame MVDR Filtering // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 856-860, doi: 10.1109/ICASSP40776.2020.9052934.
76. Delmas J.P., Chevalier P., Sadok M. On the sensitivity of third-order Volterra MVDR beamformers to interference-pulse shaping filter // Signal Processing, Volume 170, May 2020, 107424. https://doi.org/10.1016/j.sigpro.2019.107424.
77. GoBling N., Marquardt D., Doclo S. Perceptual Evaluation of Binaural MVDR-Based Algorithms to Preserve the Interaural Coherence of Diffuse Noise Fields // Journal SAGE, Volume 24: 1-18. DOI: 10.1177/2331216520919573.
78. He R., Long Y., Li Y., Liang J. Mask-based blind source separation and MVDR beam-steering in ASR // International Journal of Speech Technology (2020) 23:133140 https://doi.org/10.1007/s10772-019-09666-x.
79. Xu Y., Yu M., Zhang S.X., Chen L., Weng C., Liu J., Yu D. Neural SpatioTemporal Beamformer for Target Speech Separation [Электронный ресурс]. URL: arXiv:2005.03889, свободный. Яз. англ. (дата обращения: 06.09.2020).
80. Ma L., Zhao X., Zhao P., Su T. A Lite Microphone Array Beam-steering Scheme with Maximum Signal-to-Noise Ratio Filter [Электронный ресурс]. URL: arXiv:2005.09238v1, свободный. Яз. англ. (дата обращения: 04.09.2020).
81. Ochiai T., Delcroix M., Ikeshita R., Kinoshita K., Nakatani T., Araki S. Beam-TasNet: Time-domain Audio Separation Network Meets Frequency-domain Beamformer // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 6384-6388, doi: 10.1109/ICASSP40776.2020.9053575.
82. Hashemgeloogerdi S., Braun S. Joint Beam-steering and Reverberation Cancellation Using a Constrained Kalman Filter With Multichannel Linear Prediction // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 481-485, doi: 10.1109/ICASSP40776.2020.9053785.
83. Jianwei Yu J., Wu B., Gu R., Zhang S.X., Chen L., Xu Y., Meng Yu M., Su D., Yu D., Liu X., Meng H. Audio-Visual Multi-Channel Recognition Of Overlapped Speech [Электронный ресурс]. URL: arXiv:2005.08571v1, свободный. Яз. англ. (дата обращения: 03.09.2020).
84. Zahedi A., Pedersen M. S., Ostergaard J., Bramslow L., Christiansen T. U., Jensen J. A Constrained Maximum Likelihood Estimator of Speech and Noise Spectra with Application to Multi-Microphone Noise Reduction // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 6944-6948, doi: 10.1109/ICASSP40776.2020.9053077.
85. Wang D., Chen Z., Yoshioka T. Neural Speech Separation Using Spatially Distributed Microphones [Электронный ресурс]. URL: arXiv:2004.13670v1, свободный. Яз. англ. (дата обращения: 29.08.2020).
86. Bartolewska J., Kowalczyk K. Distributed Multiarray Noise Reduction With Online Estimation Of Masks And Spatial Filters // Proc. 2020 IEEE 11th Sensor Array and Multichannel Signal Processing Workshop (SAM), Hangzhou, China, 2020, pp. 1-5, doi: 10.1109/SAM48682.2020.9104400.
87. Wang Z., Wang P., Wang D. Complex Spectral Mapping for Single- and MultiChannel Speech Enhancement and Robust ASR // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1778-1787, 2020, doi: 10.1109/TASLP.2020.2998279.
88. Huang Y. A., Luebs A., Skoglund J., Kleijn W. B. Globally optimized least-squares post-filtering for microphone array speech enhancement // Proc. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, 2016, pp. 380-384, doi: 10.1109/ICASSP.2016.7471701.
89. Manias S.D., Vilkamo J., Pulkki V. Signal-Dependent Spatial Filtering Based on Weighted-Orthogonal Beamformers in the Spherical Harmonic Domain // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 9, pp. 1511-1523, Sept. 2016, doi: 10.1109/TASLP.2016.2560523.
90. Yamamoto Y., Haneda Y. Spherical microphone array post-filtering for reverberation suppression using isotropic beam-steerings // Proc. 2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Xian, 2016, pp. 1-5, doi: 10.1109/IWAENC.2016.7602900.
91. Zhao S. Robust speech recognition using beam-steering with adaptive microphone gains and multichannel noise reduction // Proc. 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), Scottsdale, AZ, 2015, pp. 460-467, doi: 10.1109/ASRU.2015.7404831.
92. Zhang X., Wang Z., Wang D. A speech enhancement algorithm by iterating single- and multi-microphone processing and its application to robust ASR // Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, 2017, pp. 276-280, doi: 10.1109/ICASSP.2017.7952161.
93. Zhu Y., Fu J., Xu X., Ye Z. Modified Complementary Joint Sparse Representations: A Novel Post-Filtering to MVDR Beam-steering // Proc. 2019 IEEE International Workshop on Signal Processing Systems (SiPS), Nanjing, China, 2019, pp. 1-6, doi: 10.1109/SiPS47522.2019.9020522.
94. Korse S., Gupta K., Fuchs G. Enhancement of Coded Speech Using a Mask-Based Post-Filter // Proc. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020, pp. 6764-6768, doi: 10.1109/ICASSP40776.2020.9053283.
95. Niwa K., Chiba H., Harada N., Zhang G., Kleijn W. B. Microphone ArrayWiener Post Filtering Using Monotone Operator Splitting // IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2036-2046, 2020, doi: 10.1109/TASLP.2020.3006342.
96. Yee D., Parsi Y.K., Martin R., Puder H. A Relative-Transfer-Function-based Post-Filter for Speech Enhancement in Hearing Aids using a Nearby External Microphone // Proc. Speech Communication; 13th ITG-Symposium, Oldenburg, Germany, 2018, pp. 1-5.
97. Wang X., Guo Y., Fu Q., Yan Y. Speech Enhancement Using Multi-channel Post-Filtering with Modified Signal Presence Probability in Reverberant Environment // Journal of Electronics, vol. 25, no. 3, pp. 512-519, 5 2016, doi: 10.1049/cje.2016.05.017.
98. Xiong Y. Model-Based Post Filter for Microphone Array Speech Enhancement. // Proc. 2018 7th International Conference on Digital Home (ICDH), Guilin, China, 2018, pp. 82-88, doi: 10.1109/ICDH.2018.00023.
99. Wang Y., Yang Y., He Z. A general superdirectivity model for arbitrary sensor arrays // EURASIP J. Adv. Signal Process. 2015, 68 (2015). https://doi.org/10.1186/s13634-015-0250-x.
100. Wang M., Ma X., Yang P. Design of robust high-order superdirectivity for circular arrays with sensor gain and phase errors // EURASIP J. Adv. Signal Process. 2017, 19 (2017). https://doi.org/10.1186/s13634-017-0457-0.
101. Wang Y., Yang Y., Zhu S., Shi Y., Yang L., Lei Z. Experimental study of superdirective frequency invariant beam-steering for a circular hydrophone array // Proc. OCEANS 2016 MTS/IEEE Monterey, Monterey, CA, 2016, pp. 1-5, doi: 10.1109/OCEANS.2016.7761378.
102. He Z., Shi Q., Ma Y. Performance analysis of superdirective beam-steering of circular hydrophone array // Proc. 2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS), Boston, MA, 2017, pp. 144-147, doi: 10.1109/MWSCAS.2017.8052881.
103. Huang G., Benesty J., Chen J. Subspace superdirective beam-steering with uniform circular microphone arrays // Proc. 2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Xian, 2016, pp. 1-5, doi: 10.1109/IWAENC.2016.7602915.
104. Yang T. C. Superdirective beam-steering applied to SWellEx96 horizontal arrays data for source localization // The Journal of the Acoustical Society of America 145, EL179 (2019); https://doi.org/10.1121Z1.5092580.
105. Wang Y., Li B., Yang Y., Ma Y., Xia H., Chen P. Superdirective beam-steering for dual concentric circular hydrophone arrays // Proc. OCEANS 2017 - Aberdeen, Aberdeen, 2017, pp. 1-5, doi: 10.1109/OCEANSE.2017.8084833.
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ АВТОРОМ ПО ТЕМЕ
ДИССЕРТАЦИИ
Статьи, опубликованные в журналах, включенных в перечень ВАК, Scopus:
A1. Столбов М.Б., Куан Ч. Сравнительный анализ пространственных характеристик двухэлементных микрофонных решеток [Comparative study of spatial characteristics of dual microphone arrays] // Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics] - 2020. - Т. 20. - № 1(125). - С. 147-154. doi: 10.17586/2226-1494-2020-20-1-147-154.
A2. The Q. An Improved MVDR Filter Using Speech Presence Probability // CEUR Workshop Proceedings - 2020, Vol. 2590, pp. 1-8.
A3. Столбов М.Б., Куан Ч. Исследование двухканального алгоритма MVDR для выделения речи из когерентного шума // Научно-технический вестник информационных технологий, механики и оптики [Scientific and Technical Journal of Information Technologies, Mechanics and Optics] - 2019. - Т. 19. - № 1(119). - С. 180-183. doi: 10.17586/2226-1494-2019-19-1-180-183.
A4. Stolbov M., Trong The Q. Dual-microphone speech enhancement system attenuating both coherent and diffuse background noise // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) - 2019, Vol. 11658, pp. 471-480. D0I:10.1007/978-3-030-26061-3_48.
A5. Stolbov M., Tatarnikova M., The Q.T. Using dual-element microphone arrays for automatic keyword recognition // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) - 2018, Vol. 11096, pp. 667-675. DOI: 10.1007/978-3-319-99579-3_68.
A6. Столбов М.Б., Куан Ч. Прием речевых сигналов в шумовой обстановке и использованием двухэлементных микрофонных решеток // Научно-технический вестник информационных технологий, механики и оптики
[Scientific and Technical Journal of Information Technologies, Mechanics and Optics] - 2018. - Т. 18. - № 5(117). - С. 850-857. doi: 10.17586/2226-1494-2018-185-850-857.
Статьи в сборниках трудов конференций и материалы докладов:
A7. Куан Ч., Столбов М.Б. Адаптивный алгоритм MVDR для двухэлементной микрофонной решетки // Альманах научных работ молодых ученых Университета ИТМО - 2019. - Т. 1. - С. 126-130.
A8. Куан Ч. Алгоритм формирования диаграммы направленности микрофонных решеток с продольной архитектурой для выделения речевых сигналов // Альманах научных работ молодых ученых Университета ИТМО -2018. - Т. 2. - С. 196-199.
A9. Куан Ч. Алгоритм задержки и суммирования для двухэлементных микрофонных решеток с продольной архитектурой // Сборник трудов VII конгресса молодых ученых (Санкт-Петербург, 17-20апреля 2018г.) - 2018. - Т. 1. - С. 100-102.
A10. Столбов М. Б., Перелыгин С.В, Куан Ч. Т. Сравнение линейных и планарных микрофонных решёток в задаче приёма аудиоинформации в изотропном шуме // V Международная научно - техническая конференция актуальные проблемы радио- и кинотехнологий, 24-25 Ноября, 2020.
A11. Столбов М. Б., Куан Ч. Т. Программа имитационного моделирования работы микрофонных решеток для курса «Цифровая обработка речевых сигналов» // Научная и учебно-методическая конференция Университета ИТМО, 01 - 04 февраля, 2021.
A12. Столбов М. Б., Перелыгин С.В, Куан Ч. Т. Алгоритмы сканирования лучом диаграмм направленности компактных микрофонных решёток // III Национальной научно-технической конференции «Современные проблемы радиотехники, аудиовизуальных технологий и телевидения», посвященной 140-летию со дня рождения основоположника высокочастотной техники профессора В.П. Вологдина, 12-13 Марта, 2021.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.