Методы и комплекс программных средств детектирования атак с целью взлома голосовых биометрических систем тема диссертации и автореферата по ВАК РФ 05.13.19, кандидат наук Лаврентьева Галина Михайловна
- Специальность ВАК РФ05.13.19
- Количество страниц 236
Введение диссертации (часть автореферата) на тему «Методы и комплекс программных средств детектирования атак с целью взлома голосовых биометрических систем»
Общая характеристика работы
Актуальность темы. Информационные технологии сегодня играют исключительно важную роль в жизни человека. Они внедряются во все сферы нашей деятельности: науку, культуру, образование, производство, управление. Важнейшим разделом информационных технологий является хранение и обработка информации, а защита этой информации - необходимым условием развития информационных систем.
Для доступа к информационным ресурсам разрабатываются новые, более надёжные методы аутентификации. В настоящее время для защиты от несанкционированного доступа к информации всё чаще используются биометрические системы. Биометрическая система защиты позволяет идентифицировать пользователя по биологическим характеристикам, которые являются индивидуальными и уникальными для каждого человека (отпечатки пальцев, сетчатка глаза, голос). Одним из развивающихся и приоритетных направлений в этой области является голосовая биометрия. Развитие современных компьютерных технологий в последние десятилетия привело к прорыву в области речевых технологий. На сегодняшний день наблюдается повышенный интерес к применению этих технологий, как государственными правоохранительными органами, так и коммерческими структурами.
Он объясняется высоким уровнем надежности и удобством использования систем голосовой биометрии для конечного пользователя. Кроме того, такие системы могут работать с различными устройствами ввода-вывода и средствами связи (стационарные, мобильные телефонные сети, интернет телефония и др.). Они не требуют установки дополнительного оборудования (как сканер отпечатков пальцев, или камеры высокого разрешения для идентификации по сетчатке глаза), вследствие чего, они сравнительно недороги и представляют интерес в различных областях применения.
Технологии голосовой биометрии уже используется в системах безопасности социально значимых объектов, в системах иммиграционного контроля, криминалистических лабораториях, а также в системах распознавания личности, применяемых для проведения выборов. Системы распознавания пользователя по голосу широко используются в центрах обслуживания клиентов во время звонков в колл-центры, в системах интернет-банкинга, а также в других сферах электронной коммерции. Они могут применяться для контроля и учёта рабочего времени, охраны доступа в дома, офисы, образовательные и иные учреждения.
Разработка и совершенствование базовых методов голосовой биометрии является крайне перспективным направлением исследований в области биометрических технологий. Об этом свидетельствуют исследования таких зарубежных ученых как Patrick J. Kenny, Douglas A. Reynolds, Joseph P.
Campbell, Haizhou Li, Jean-François Bonastre и Tomi Kinnunen. В последние годы качество распознавания диктора по голосу достигло очень высокого уровня. Это подтверждают результаты оценок конкурса NIST Speaker Recognition Evaluation (SRE), которые проводит Национальный Институт Стандартов и Технологий США с 1996 года на регулярной основе.
Вместе с ростом качества распознавания диктора и доверия к данным методам, возрастает и ценность защищаемой информации. Это приводит к увеличению требований к надёжности работы биометрических систем, в том числе к оценке риска взлома и противодействию несанкционированному доступу к защищаемой информации. Особую опасность представляют собой попытки взлома голосовых биометрических систем, основанные на активных попытках фальсификации голосовых характеристик - спуфинг атаках. Качество этих атак неизменно растет с развитием новых подходов в области машинного обучения.
Современные биометрические системы должны обеспечивать высокий уровень устойчивости к различным типам атак. Исследования устойчивости голосовых биометрических систем к спуфинг атакам, проводимые группой исследователей Zhizheng Wu, Junichi Yamagishi, Tomi Kinnunen и др. показали, насколько уязвимы могут быть системы распознавания диктора к спуфинг-атакам различного типа. По этой причине вместе с ростом качества спуфинг-атак на голосовые биометрические системы необходимо разрабатывать и совершенствовать методы детектирования спуфинг-атак.
Большая часть существующих алгоритмов противодействия спуфинг-атакам направлена на детектирование атак конкретного типа, в то время как реальные атаки на голосовые биометрические системы основаны на неизвестных им методах фальсификации индивидуальных биометрических характеристик человека. Поэтому задача разработки универсальных методов, надежно детектирующих различные типы атак на голосовые биометрические системы, является крайне актуальной на сегодняшний день и была выбрана в качестве темы диссертационной работы.
Актуальность темы исследования подтверждается большим количеством работ ученых в России: Р.В. Мещеряков, А.Н. Ручай, А.А.Лепендин и др., а также за рубежом: T. Kinnunen, Z. Wu, H. Delgado, M. Todisco, N.Evans и др., а также большим количеством посвященных ей докладов на ведущих международных конференциях, таких как ICASSP, SPECOM и Interspeech, где теме детектирования спуфинг-атак была неоднократно посвящена специальная сессия.
Целью диссертационной работы является развитие и применение методов и программных средств детектирования спуфинг-атак на голосовые биометрические системы для повышения их устойчивости по отношению к попыткам получения несанкционированного доступа.
Для достижения поставленной цели были сформулированы и решены следующие задачи:
1. Исследование современных подходов к решению проблемы детектирования спуфинг-атак на голосовые биометрические системы.
2. Разработка методов детектирования спуфинг-атак на голосовые биометрические системы, направленных на детектирование различных типов атак в микрофонном и телефонном каналах.
3. Разработка методики подготовки баз данных для обучения и тестирования систем детектирования спуфинг-атак на голосовые биометрические системы в микрофонном и телефонном каналах.
4. Разработка комплекса программных средств для детектирования спуфинг-атак на голосовые биометрические системы в микрофонном и телефонном каналах.
5. Проведение экспериментальных исследований для определения точности детектирования спуфинг-атак на голосовые биометрические системы разработанным комплексом программных средств и сравнение полученных результатов с показателями существующих аналогов.
Объект исследования. Голосовые биометрические системы и методы фальсификации индивидуальных голосовых биометрических характеристик человека.
Предмет исследования. Методы детектирования спуфинг-атак на голосовые биометрические системы.
Методы исследования. Для решения указанных задач использовались методы математического моделирования, защиты информации, биометрии, цифровой обработки сигналов, теории нейронных сетей, теории вероятности и статистического анализа.
Научная новизна:
1. Разработаны оригинальные методы детектирования спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах в микрофонном канале, отличающиеся применением анализа локальных спектральных характеристик речевого сигнала сверточными нейронными сетями, использующими активационные функции выбора наиболее информативных признаков.
2. Разработан оригинальный метод детектирования спуфинг-атак в телефонном канале. Целью этого метода является детектирование различных типов спуфинг-атак в телефонном канале на основе анализа локальных спектральных характеристик речевого сигнала сверточными нейронными сетями. Отличительной особенностью этого метода является его высокая точность детектирования известных и неизвестных типов спуфинг-атак не только на данных,
полученных с помощью эмуляции канала, но и на попытках взлома в реальном телефонном канале.
3. Выполнено исследование по сбору и подготовке данных для обучения и оценки методов детектирования спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах в микрофонном и телефонном каналах. По результатам исследования предложена методика подготовки базы спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах в микрофонном и телефонном каналах, позволяющая минимизировать трудозатраты за счет использования автоматических средств генерации синтезированной речи, а также автоматизации процесса записи телефонных переговоров.
Достоверность научных положений и выводов, полученных в данной диссертационной работе обеспечивается результатами экспериментальных исследований, успешным представлением основных положений в докладах на ведущих международных конференциях. Кроме того, разработанная система детектирования спуфинг-атак заняла первое место на международном конкурсе ASVspoof Challenge 2017. Достоверность также подтверждается результатами технологических испытаний голосовых биометрических систем производства компании ООО «ЦРТ», использующих разработанный комплекс программных средств в качестве модуля детектирования спуфинг-атак.
Практическая значимость заключается в реализации предложенных методов в виде комплекса программных средств для детектирования спуфинг-атак на голосовые биометрические системы, который может быть использован как отдельно для детектирования подделки естественной речи, так и совместно с системами голосовой биометрии для детектирования попыток взлома.
Основные положения, выносимые на защиту:
1. Методы детектирования спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах в микрофонном канале, отличающиеся применением анализа локальных спектральных характеристик сигнала сверточными нейронными сетями, использующими активационные функции выбора наиболее информативных признаков.
2. Метод детектирования спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах в телефонном канале, отличающийся способностью детектировать различные типы спуфинг-атак в реальном телефонном канале на основе анализа локальных спектральных характеристик сигнала с использованием сверточных нейронных сетей.
3. Методика подготовки базы спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах для
обучения и тестирования методов детектирования спуфинг-атак на голосовые биометрические системы в микрофонном и телефонном каналах, отличающаяся минимизацией трудозатрат за счет использования автоматических средств генерации синтезированной речи, а также автоматизации процесса записи телефонных переговоров.
4. Комплекс программных средств, позволяющий автоматизировать процесс сбора базы спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах, по разработанной методике, а также реализующий обучение и эксплуатацию предлагаемых методов детектирования спуфинг-атак на модуль ввода биометрической информации в голосовых биометрических системах.
Внедрение результатов работы. Результаты диссертационной работы использовались при проведении прикладных научных исследований:
— «Разработка технологии автоматической кластеризации голосов дикторов в массивах неразмеченных данных для решения задач голосовой биометрии», соглашение о предоставлении субсидий № 14.578.21.0126 от 27.10.2015.
— «Разработка технологии автоматической бимодальной верификации по лицу и голосу с защитой от использования подложных биометрических образцов», соглашение о предоставлении субсидий № 14.578.21.0189 от 03.10.2016.
— «Разработка прикладного решения применения современных ней-росетевых методов с использованием различных архитектур нейронных сетей для решения задачи выделения и записи речи заданного источника в шумовом окружении с использованием массива удаленных микрофонов», соглашение о предоставлении субсидий № 14.575.21.0132 от 26.09.2017.
— НИР №718574 (проект 5-100) «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», Университет ИТМО.
Результаты работы также были внедрены в учебный процесс Университета ИТМО по дисциплинам «Распознавание диктора» и «Многомодальные биометрические системы».
Апробация работы. Основные результаты работы представлялись и обсуждались на следующих международных и российских конференциях: «17th International Conference on Speech and Computer (SPECOM) 2015» (Афины, Греция, 2015), «XLV Научная и учебно-методическая конференция Университета ИТМО» (Санкт-Петербург, Россия, 2016), «5th International Conference on Analysis of Images, Social Networks, and Texts» (Екатеринбург, Россия, 2016), «V Всероссийский конгресс молодых
учёных» (Санкт-Петербург, Россия, 2016) - лучший доклад на секции «Речевые технологии», «18th International Conference on Speech and Computer (SPECOM) 2016» (Будапешт, Венгрия, 2016), «41st IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2016» (Шанхай, Китай, 2016), «XLVI Научная и учебно-методическая конференция Университета ИТМО» (Санкт-Петербург, Россия, 2017), «VIII Научно-практическая конференция молодых ученых «Вычислительные системы и сети» (Санкт-Петербург, Россия, 2017) - победитель конкурса докладов, «VI Всероссийский конгресс молодых ученых» (Санкт-Петербург, Россия, 2017) - лучший доклад на секции «Речевые технологии», «18th Annual Conference of the International Speech Communication Association (INTERSPEECH) 2017» (Стокгольм, Швеция, 2017), «19th International Conference on Speech and Computer (SPECOM) 2017» (Хатфилд, Великобритания, 2017). Кроме того, тема и результаты исследования были представлена на конкурсах грантов Правительства Санкт-Петербурга в 2016 и в 2017 годах, где автор был дважды удостоен звания Победитель конкурса грантов для студентов вузов, расположенных на территории Санкт-Петербурга, аспирантов вузов, отраслевых и академических институтов, расположенных на территории Санкт-Петербурга в 2016 и в 2017 годах.
Результаты также же были апробированы в виде:
— системы детектирования атак на основе синтеза и преобразования голоса в микрофонном канале, которая заняла второе место на международном конкурсе Automatic Speaker Verification Spoofing and Countermeasures Challenge 2015;
— системы детектирования атак повторного воспроизведения в микрофонном канале, которая заняла первое место на международном конкурсе Automatic Speaker Verification Spoofing and Countermeasures Challenge 2017.
Личный вклад. Автором лично проведен анализ существующих подходов к решению задачи детектирования спуфинг-атак на голосовые биометрические системы. На основе проведенного анализа автором разработаны предлагаемые методы детектирования атак в микрофонном и телефонном канале, а также алгоритм их обучения. Автором лично произведено исследование и разработка методологии по сбору необходимых данных и реализация предлагаемых методов в виде комплекса программных средств. Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.
Публикации. Основные результаты по теме диссертации изложены в 16 печатных изданиях, 9 из которых изданы в журналах, рекомендованных ВАК, из них 7 — в международных изданиях, индексируемых в базе данных Scopus. Получено 1 свидетельство государственной регистрации на программу для ЭВМ.
Рис. 1 — Система автоматического распознавания пользователя по голосу
с возможными целями атак Объем и структура работы. Диссертация состоит из введения, четырех глав и заключения. Полный объем диссертации 158 страниц текста с 34 рисунками и 14 таблицами. Список литературы содержит 191 наименование.
Похожие диссертационные работы по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК
Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов2006 год, кандидат технических наук Юрков, Павел Юрьевич
Алгоритмы выделения речи целевого диктора с использованием планарных компактных микрофонных решеток2021 год, кандидат наук Куан Чонг Тхе
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Исследование мультимодальных алгоритмов биометрической идентификации на основе методов цифровой обработки речевых сигналов и изображений2022 год, кандидат наук Стефаниди Антон Федорович
Заключение диссертации по теме «Методы и системы защиты информации, информационная безопасность», Лаврентьева Галина Михайловна
Заключение
Главный результат представленной диссертационной работы заключается в разработке новых методов детектирования спуфинг-атак на основе использования методов глубокого обучения для анализа локальных спектральных характеристик на спектрограммах, позволяющих повысить качество детектирования спуфинг-атак в микрофонном и телефонном каналах, которые в свою очередь могут использоваться для повышения устойчивости голосовых биометрических систем к известным и неизвестным типам спуфинг-атак на модуль ввода биометрической информации. Наряду с этим, в работе были получены следующие основные результаты:
1. Произведен анализ использования различных архитектур сверточных нейронных сетей для анализа локальных спектральных характеристик сигнала на спектрограммах сигнала.
2. Предложен метод детектирования спуфинг-атак повторного воспроизведения в микрофонном канале, основанный на объединении нескольких систем детектирования спуфинг-атак на уровне их оценок вероятности атаки с использованием метода линейной регрессии, который позволил повысить точность детектирования спуфинг-атак.
3. Разработана методика подготовки базы данных для обучения и тестирования системы детектирования спуфинг-атак на голосовые биометрические системы в микрофонном и телефонном каналах, отличающаяся минимизацией трудозатрат за счет использования автоматических средств генерации синтезированной речи и записи телефонных переговоров.
4. Разработан комплекс программных средств для детектирования спу-финг-атак на голосовые биометрические системы в микрофонном и телефонном каналах, позволяющий повысить устойчивость голосовых биометрических систем к различным типам спуфинг-атак на модуль ввода голосовой биометрической информации.
Представленные в диссертационной работе методы и комплекс программных средств были встроены в системы верификации пользователей по голосу VoiceKey, VoiceGrid компании ООО "ЦРТ"и в настоящий момент используются для защиты от взлома в банковском секторе.
Исследования и их результаты, описанные в настоящей диссертационной работе представляют интерес для разработчиков голосовых биометрических систем и представителей научного сообщества в области голосовой биометрии. Описанные системы могут найти широкое применение в криминалистике, судебной экспертизе, а также в системах контроля и ограничения доступа.
Список литературы диссертационного исследования кандидат наук Лаврентьева Галина Михайловна, 2018 год
Список литературы
1. Kinnunen, T. An overview of text-independent speaker recognition: From features to supervectors / T. Kinnunen, H. Li // Speech Communication. — 2010. - Т. 52, № 1. - С. 12-40.
2. Исхаков, А. Современные методы и способы идентификации. / А. Исха-ков, Р. Мещеряков, А. Шелупанов, И. С.Ю. // Теория и практика. -2016. - С. 114.
3. Campbell, J. P. Speaker recognition: A tutorial / J. P. Campbell, Jr. // Proc. of the IEEE. Т. 85. - 1997. - С. 1437-1462.
4. Wu, Z. Spoofing and countermeasures for speaker verification: A survey / Z. Wu, N. Evans, T. Kinnunen, J. Yamagishi, F. Alegre, H. Li // Speech Communication. - Amsterdam, The Netherlands, The Netherlands, 2015. -Т. 66, № C. - С. 130-153.
5. Campbell, W. M. Support vector machines using GMM supervectors for speaker verification / W. M. Campbell, D. E. Sturim, D. A. Reynolds // IEEE Signal Processing Letters. - 2006. - Т. 13. - С. 308-311.
6. Bonastre, J.-F. Person authentication by voice: a need for caution / J.-F. Bonastre, F. Bimbot, L.-J. Boe, J. P. Campbell, D. A. Reynolds, I. Magrin-Chagnolleau // INTERSPEECH. - 2003.
7. Bimbot, F. A tutorial on text-independent speaker verification / F. Bimbot, J.-F. Bonastre, C. Fredouille, G. Gravier, I. Magrin-Chagnolleau, S. Meignier, T. Merlin, J. Ortega-García [и др.] // Eurasip Journal on Applied Signal Processing. - 2004. - Т. 2004, № 4. - С. 430-451. - URL: https : / / www . scopus . com / inward / record . uri ? eid = 2 - s2 . 0 -2942594475 & doi = 10. 1155 % 2fS1110865704310024& partnerID = 40 & md5 = bb20aac6d12b61c1e97bf7321309167a ; cited By 509.
8. Reynolds, D. A. An overview of automatic speaker recognition technology / D. A. Reynolds // 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. - 2002. - Т. 4. - С. 4072-4075.
9. Reynolds, D. A. Gaussian Mixture Models / D. A. Reynolds // Encyclopedia of Biometrics. - 2009.
10. Kenny, P. Joint Factor Analysis of Speaker and Session Variability : Theory and Algorithms / P. Kenny //. — 2005.
11. Kenny, P. A Study of Interspeaker Variability in Speaker Verification / P. Kenny, P. Ouellet, N. Dehak, V. Gupta, P. Dumouchel // IEEE Transactions on Audio, Speech, and Language Processing. — 2008. — Т. 16. — С. 980—988.
12. Dehak, N. Front-End Factor Analysis for Speaker Verification / N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, P. Ouellet // Trans. Audio, Speech and Lang. Proc. — Piscataway, NJ, USA, 2011. — Май. — Т. 19, № 4. -С. 788—798. — URL: http://dx.doi.org/10.1109/TASL.2010.2064307.
13. Kenny, P. A Study of Interspeaker Variability in Speaker Verification / P. Kenny, P. Ouellet, N. Dehak, V. Gupta, P. Dumouchel // IEEE Transactions on Audio, Speech, and Language Processing. — 2008. — Т. 16. — С. 980—988.
14. Furui, S. Selected topics from 40 years of research on speech and speaker recognition / S. Furui // INTERSPEECH. — 2009.
15. Togneri, R. M. An Overview of Speaker Identification: Accuracy and Robustness Issues / R. M. Togneri, D. Pullella // IEEE Circuits and Systems Magazine. — 2011. — Т. 11. — С. 23—61.
16. Матвеев, Ю. Технологии биометрической идентификации личности по голосу и другим модальностям / Ю. Матвеев // "Вестник МГТУ. Приборостроение Спецвыпуск №2 "Биометрические технологии". — 2012.
17. Матвеев, Ю. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 / Ю. Матвеев, К. Симончик // Труды 20-й межд. конф. по компьютерной графике и зрению «ГрафиКон'2010». — 2010.
18. Сорокин, В. М. Распознавание личности по голосу: аналитический обзор / В. М. Сорокин //. Т. 12. — 2005. — С. 1—30.
19. Ручай, А. Биометрика. Текстозависимая верификация диктора. Учебное пособие. / А. Ручай. — LAP Lambert Academic Publishing, 2012. — 144 с.
20. Симончик, К. Метод и алгоритмы текстонезависимой верификации дикторов по голосу: Исследование метода и алгоритмов системы верификации по голосу, устойчиво работающей в различных каналах связи / К. Симончик. — Lambert Academic Publishing, 2011. — URL: https:/ / books.google.it/books?id=5%5C_ADnQEACAAJ.
21. Щемелинин, В. Л. Методика и комплекс средств оценки эффективности аутентификации голосовыми биометрическими системами : дис. ... канд. техн. наук : 05.13.19 / В. Л. Щемелинин. — 199178, Россия, Санкт-Петербург, 14 линия, дом 39., 2015. — 139 с.
22. ГОСТ Р ИСО/МЭК 19795-2-2008 Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 2. Методология проведения технологического и сценарного испытаний. — Стандартинформ, 2008.
23. Fawcett, T. An introduction to ROC analysis / T. Fawcett // Pattern Recognition Letters. — 2006. — Т. 27. — С. 861—874.
24. Martin, A. F. The DET curve in assessment of detection task performance / A. F. Martin, G. R. Doddington, T. Kamm, M. Ordowski, M. A. Przybocki // EUROSPEECH. — 1997.
25. Martin, A. F. The NIST 1999 Speaker Recognition Evaluation - An Overview / A. F. Martin, M. A. Przybocki // Digital Signal Processing. — 2000. — Т. 10. — С. 1—18.
26. Болл, Р. М. Руководство по биометрии / Р. М. Болл, Д. Х. Коннел, Ш. Панканти, Н. К. Ратха, Э. У. Сеньор. — 2007. — пер. с англ. Н. Е. Агаповой.
27. Todisco, M. Integrated presentation attack detection and automatic speaker verification: Common features and Gaussian back-end fusion / M. Todisco, H. Delgado, K. A. Lee, M. Sahidullah, N. Evans, T. Kinnunen, J. Yamagishi // INTERSPEECH 2018, 19th Annual Conference of the International Speech Communication Association, September 2-6, 2018, Hyderabad, India. — 2018.
28. ISO/IEC 30107-1:2016(en) Information technology — Biometric presentation attack detection — Part 1: Framework. — Geneva, Switzerland, 2016.
12 p.
29. Faundez-Zanuy, M. Speaker verification security improvement by means of speech watermarking / M. Faundez-Zanuy, M. Hagmiiller, G. Kubin // Speech Communication. — 2006. — Т. 48, № 12. — С. 1608—1619. — URL: http: //www.sciencedirect.com/science/article/pii/S0167639306000653 ; NOLISP 2005.
30. Lau, Y. W. Vulnerability of speaker verification to voice mimicking / Y. W. Lau, M. C. L. .-.-. Wagner, D. Q. Tran // Proceedings of 2004 International Symposium on Intelligent Multimedia, Video and Speech Processing. — 2004. — С. 145—148.
31. Lau, Y. W. Testing Voice Mimicry with the YOHO Speaker Verification Corpus / Y. W. Lau, D. Tran, M. Wagner // KES. — 2005.
32. Mariethoz, J. Can a Professional Imitator Fool a GMM-Based Speaker Verification System? / J. Mariethoz, S. Bengio //. — 2005.
33. Hautamaki, R. G. I-vectors meet imitators: on vulnerability of speaker verification systems against voice mimicry / R. G. Hautamaki, T. Kinnunen, V. Hautamaki, T. Leino, A.-M. Laukkanen // INTERSPEECH. — 2013.
34. Stoll, L. Hunting for Wolves in Speaker Recognition / L. Stoll, G. R. Doddington // Odyssey 2010: The Speaker and Language Recognition Workshop, Brno, Czech Republic, June 28 - July 1, 2010. — 2010. — С. 29. — URL: http://www.isca-speech.org/archive_open/odyssey_2010/od10_029. html.
35. The 2008 NIST Speaker Recognition Evaluation Results. — URL: https:// www.nist.gov/itl/iad/mig/2008-nist-speaker-recognition-evaluation-results ; Дата обращения: 14.08.2018.
36. Рыбин, С. В. Синтез речи. Учебное пособие по дисциплине "Синтез речи" / С. В. Рыбин. — Санкт-Петербург: СПб: Университет ИТМО, 2014. — 92 с.
37. Фланаган, Д. Анализ, синтез и восприятие речи. / Д. Фланаган. — М.: Связь, 1968. — 394 с.
38. Zen, H. Statistical parametric speech synthesis / H. Zen, K. Tokuda, A. W. Black // Speech Communication. — 2009. — Т. 51, № 11.
С. 1039—1064. — URL: http: / / www. sciencedirect. com / science / article / pii/S0167639309000648.
39. Chistikov, P. Improving Speech Synthesis Quality for Voices Created from an Audiobook Database / P. Chistikov, D. Zakharov, A. Talanov // Speech and Computer / под ред. A. Ronzhin, R. Potapova, V. Delic. — Cham : Springer International Publishing, 2014. — С. 276—283.
40. Woodland, P. C. Speaker Adaptation for Continuous Density HMMs: A Review / P. C. Woodland //. — 2001.
41. Leon, P. L. D. Revisiting the security of speaker verification systems against imposture using synthetic speech / P. L. D. Leon, V. R. Apsingekar, M. Pucher, J. Yamagishi // 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. — 2010. — С. 1798—1801.
42. Leon, P. L. D. Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech / P. L. D. Leon, M. Pucher, J. Yamagishi, I. Hernaez, I. Saratxaga // IEEE Transactions on Audio, Speech, and Language Processing. — 2012. — Т. 20. — С. 2280—2290.
43. Reynolds, D. A. Speaker Verification Using Adapted Gaussian Mixture Models / D. A. Reynolds, T. F. Quatieri, R. B. Dunn // Digital Signal Processing. — 2000. — Т. 10. — С. 19—41.
44. Campbell, W. M. Support vector machines for speaker and language recognition / W. M. Campbell, J. P. Campbell, D. A. Reynolds, E. Singer, P. A. Torres-Carrasquillo // Computer Speech & Language. — 2006. -Т. 20. — С. 210—229.
45. Shchemelinin, V. Examining Vulnerability of Voice Verification Systems to Spoofing Attacks by Means of a TTS System / V. Shchemelinin, K. Simonchik // Speech and Computer / под ред. M. Zelezny, I. Habernal, A. Ronzhin. — Cham : Springer International Publishing, 2013. — С. 132—137.
46. Lavrentyeva, G. Automatically Trained TTS for Effective Attacks to An-ti-spoofing System / G. Lavrentyeva, A. Kozlov, S. Novoselov, K. Simonchik, V. Shchemelinin // Lecture Notes in Computer Science. — 2015. Vol. 9319. - P. 137-143.
47. Evans, N. W. D. Anti-spoofing, Voice Conversion / N. W. D. Evans, F. Alegre, Z. Wu, T. Kinnunen // Encyclopedia of Biometrics. — 2015.
48. Kain, A. Spectral voice conversion for text-to-speech synthesis / A. Kain, M. W. Macon // ICASSP. — 1998.
49. Toda, T. Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory / T. Toda, A. W. Black, K. Tokuda // IEEE Transactions on Audio, Speech, and Language Processing. — 2007. — T. 15. -C. 2222—2235.
50. Desai, S. Spectral Mapping Using Artificial Neural Networks for Voice Conversion / S. Desai, A. W. Black, B. Yegnanarayana, K. Prahallad // IEEE Transactions on Audio, Speech, and Language Processing. — 2010. -T. 18. — C. 954—964.
51. Chen, L.-H. Joint spectral distribution modeling using restricted boltzmann machines for voice conversion / L.-H. Chen, Z.-H. Ling, Y. Song, L.-R. Dai // INTERSPEECH. — 2013.
52. Chen, L.-H. Voice Conversion Using Deep Neural Networks With Layer-Wise Generative Training / L.-H. Chen, Z.-H. Ling, L.-J. Liu, L.-R. Dai // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2014. — T. 22. — C. 1859—1872.
53. Erro, D. Parametric Voice Conversion Based on Bilinear Frequency Warping Plus Amplitude Scaling / D. Erro, E. Navas, I. Hernaez // IEEE Transactions on Audio, Speech, and Language Processing. — 2013. — T. 21. — C. 556—566.
54. Godoy, E. Voice Conversion Using Dynamic Frequency Warping With Amplitude Scaling, for Parallel or Nonparallel Corpora / E. Godoy, O. Rosec, T. Chonavel // IEEE Transactions on Audio, Speech, and Language Processing. — 2012. — T. 20. — C. 1313—1323.
55. Desai, S. Spectral Mapping Using Artificial Neural Networks for Voice Conversion / S. Desai, A. W. Black, B. Yegnanarayana, K. Prahallad // IEEE Transactions on Audio, Speech, and Language Processing. — 2010. — T. 18. — C. 954—964.
56. Wu, Z. Exemplar-based unit selection for voice conversion utilizing temporal information / Z. Wu, T. Virtanen, T. Kinnunen, C. E. Siong, H. Li // INTERSPEECH. — 2013.
57. Wu, Z. Text-independent F0 transformation with non-parallel data for voice conversion / Z. Wu, T. Kinnunen, C. E. Siong, H. Li // INTERSPEECH. — 2010.
58. Wu, C.-H. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis / C.-H. Wu, C.-C. Hsia, T.-H. Liu, J.-F. Wang // IEEE Transactions on Audio, Speech, and Language Processing. — 2006. — T. 14. -
C. 1109—1116.
59. Lolive, D. Pitch and Duration Transformation with Non-parallel Data /
D. Lolive, N. Barbot, O. Boeffard //. — 2008.
60. Perrot, P. Voice forgery using ALISP: indexation in a client memory / P. Perrot, G. Aversano, R. Blouet, M. Charbit, G. Chollet // Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. — 2005. — T. 1. — I/17—I/20 Vol. 1.
61. Matrouf, D. Effect of Speech Transformation on Impostor Acceptance / D. Matrouf, J.-F. Bonastre, C. Fredouille // 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings. — 2006. — T. 1. — C. I—I.
62. Bonastre, J.-F. Artificial impostor voice transformation effects on false acceptance rates / J.-F. Bonastre, D. Matrouf, C. Fredouille // INTERSPEECH. — 2007.
63. Kinnunen, T. Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech / T. Kinnunen, Z. Wu, K.-A. Lee, F. Sedlak, C. E. Siong, H. Li // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2012. — C. 4401—4404.
64. Villalba, J. Preventing replay attacks on speaker verification systems / J. Villalba, E. Lleida // 2011 Carnahan Conference on Security Technology. — 2011. — C. 1—8.
65. Alegre, F. Re-assessing the threat of replay spoofing attacks against automatic speaker verification / F. Alegre, A. Janicki, N. W. D. Evans // 2014 International Conference of the Biometrics Special Interest Group (BIOSIG). — 2014. — C. 1—6.
66. Wu, Z. A study on replay attack and anti-spoofing for text-dependent speaker verification / Z. Wu, S. Gao, E. S. Cling, H. Li // Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2014 Asia-Pacific. — 2014. — C. 1—5.
67. Galka, J. Playback attack detection for text-dependent speaker verification over telephone channels / J. Galka, M. Grzywacz, R. Samborski // Speech Communication. — 2015. — T. 67. — C. 143—153.
68. Korshunov, P. Overview of BTAS 2016 speaker anti-spoofing competition / P. Korshunov, S. Marcel, H. Muckenhirn, A. R. Goncalves, A. G. S. Mello, R. P. V. Violato, F. O. Simoes, M. U. Neto [h gp.] // 2016 IEEE 8th International Conference on Biometrics Theory, Applications and Systems (BTAS). — 2016. — C. 1—6.
69. Lindberg, J. Vulnerability in speaker verification - a study of technical impostor techniques / J. Lindberg, M. Blomberg // EUROSPEECH. — 1999.
70. Lopez, J. A. V. Detecting Replay Attacks from Far-Field Recordings on Speaker Verification Systems / J. A. V. Lopez, E. Lleida // BIOID. — 2011.
71. Wang, Z. F. Channel pattern noise based playback attack detection algorithm for speaker recognition / Z. F. Wang, G. Wei, Q. H. He // 2011 International Conference on Machine Learning and Cybernetics. T. 4. -2011. — C. 1708—1713.
72. Kinnunen, T. The ASVspoof 2017 Challenge: Assessing the Limits of Replay Spoofing Attack Detection / T. Kinnunen, M. Sahidullah, H. Delgado, M. Todisco, N. W. D. Evans, J. Yamagishi, K.-A. Lee // INTERSPEECH. — 2017.
73. Amin, T. B. Detecting voice disguise from speech variability: analysis of three glottal and vocal tract measures. / T. B. Amin, P. Marziliano, J. S. German // J. Acoust. Soc. Am. — 2013. — T. 134. — C. 4068—4068.
74. Amin, T. B. Glottal and Vocal Tract Characteristics of Voice Impersonators / T. B. Amin, P. Marziliano, J. S. German // IEEE Transactions on Multimedia. — 2014. — T. 16. — C. 668—678.
75. Satoh, T. A robust speaker verification system against imposture using an HMM-based speech synthesis system / T. Satoh, T. Masuko, T. Kobayashi, K. Tokuda // INTERSPEECH. — 2001.
76. Leon, P. L. D. Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech / P. L. D. Leon, M. Pucher, J. Yamagishi, I. Hernaez, I. Saratxaga // IEEE Transactions on Audio, Speech, and Language Processing. — 2012. — T. 20, № 8. — C. 2280—2290.
77. Wu, Z. Detecting Converted Speech and Natural Speech for anti-Spoofing Attack in Speaker Recognition / Z. Wu, C. E. Siong, H. Li // INTERSPEECH. — 2012.
78. Quatieri, T. F. Discrete-time speech signal processing: principles and practice / T. F. Quatieri. — Pearson Education India, 2006.
79. Ogihara, A. Discrimination Method of Synthetic Speech Using Pitch Frequency against Synthetic Speech Falsification / A. Ogihara, H. Unno, A. Shiozaki // IEICE Transactions. — 2005. — T. 88—A. — C. 280—286.
80. Leon, P. L. D. Synthetic Speech Discrimination using Pitch Pattern Statistics Derived from Image Analysis / P. L. D. Leon, B. Stewart, J. Yamagishi // INTERSPEECH. — 2012.
81. Leon, P. L. D. Detection of synthetic speech for the problem of imposture / P. L. D. Leon, I. Hernaez, I. Saratxaga, M. Pucher, J. Yamagishi // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2011. — C. 4844—4847.
82. Alegre, F. Spoofing countermeasures to protect automatic speaker verification from voice conversion / F. Alegre, A. Amehraye, N. W. D. Evans // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. — 2013. — C. 3068—3072.
83. Wu, Z. ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge / Z. Wu, T. Kinnunen, N. W. D. Evans, J. Yamagishi, C. Hanilci, M. Sahidullah, A. Sizov // INTERSPEECH. — 2015.
84. Lavrentyeva, G. Anti-spoofing methods for automatic speaker verification system / G. Lavrentyeva, S. Novoselov, K. Simonchik // Communications in Computer and Information Science. — 2017. — Vol. 661. — P. 172—184.
85. Novoselov, S. STC anti-spoofing systems for the ASVspoof 2015 challenge / S. Novoselov, A. Kozlov, G. Lavrentyeva, K. Simonchik, V. Shchemelinin // IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016. - 2016. - P. 5475-5479.
86. Alam, M. J. Development of CRIM system for the automatic speaker verification spoofing and countermeasures challenge 2015 / M. J. Alam, P. Kenny, G. Bhattacharya, T. Stafylakis // INTERSPEECH. — 2015.
87. Weng, S. The SYSU system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge / S. Weng, S. Chen, L. Yu, X. Wu, W. Cai, Z. Liu, Y. Zhou, M. Li // 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). — 2015. — С. 152—155.
88. Wang, L. Relative phase information for detecting human speech and spoofed speech / L. Wang, Y. Yoshida, Y. Kawakami, S. Nakagawa // INTERSPEECH. — 2015.
89. Lopez, J. A. V. Spoofing detection with DNN and one-class SVM for the ASVspoof 2015 challenge / J. A. V. Lopez, A. Miguel, A. Ortega, E. Lleida // INTERSPEECH. — 2015.
90. Xiao, X. Spoofing speech detection using high dimensional magnitude and phase features: the NTU approach for ASVspoof 2015 challenge / X. Xiao, X. Tian, S. Du, H. Xu, C. E. Siong, H. Li // INTERSPEECH. — 2015.
91. Liu, Y. Simultaneous utilization of spectral magnitude and phase information to extract supervectors for speaker verification anti-spoofing / Y. Liu, Y. Tian, L. He, J. Liu, M. T. Johnson // INTERSPEECH. — 2015.
92. Patel, T. B. Combining evidences from mel cepstral, cochlear filter cepstral and instantaneous frequency features for detection of natural vs. spoofed speech / T. B. Patel, H. A. Patil // INTERSPEECH. — 2015.
93. Mallat, S. A Wavelet Tour of Signal Processing - The Sparse Way, 3rd Edition / S. Mallat //. — 2009.
94. Dehak, N. Discriminative and Generative Approaches for Long- and Short-term Speaker Characteristics Modeling: Application to Speaker Verification : дис. ... канд. / Dehak Najim. — 2009. — AAINR50490.
95. Todisco, M. A New Feature for Automatic Speaker Verification Anti-Spoofing : Constant Q Cepstral Coefficients / M. Todisco, H. Delgado, N. Evans //. -2016.
96. Schorkhuber, C. Constant-q Transform Toolbox for Music Processing / C. Schorkhuber //. — 2010.
97. Zhang, C. An Investigation of Deep-Learning Frameworks for Speaker Verification Antispoofing / C. Zhang, C. Yu, J. H. L. Hansen // IEEE Journal of Selected Topics in Signal Processing. — 2017. — Т. 11. — С. 684—694.
98. Tian, X. Spoofing speech detection using temporal convolutional neural network / X. Tian, X. Xiao, C. E. Siong, H. Li // 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). — 2016. — С. 1—6.
99. Ouali, C. A robust audio fingerprinting method for content-based copy detection / C. Ouali, P. Dumouchel, V. Gupta // 2014 12th International Workshop on Content-Based Multimedia Indexing (CBMI). — 2014.
С. 1—6.
100. Malekesmaeili, M. A local fingerprinting approach for audio copy detection / M. Malekesmaeili, R. K. Ward // Signal Processing. — 2014. — Т. 98. -С. 308—321.
101. Lee, K.-A. The reddots data collection for speaker recognition / K.-A. Lee, A. Larcher, G. Wang, P. Kenny, N. Brümmer, D. A. van Leeuwen, H. Aronowitz, M. Kockmann [и др.] // INTERSPEECH. — 2015.
102. Font, R. Experimental Analysis of Features for Replay Attack Detection -Results on the ASVspoof 2017 Challenge / R. Font, J. M. Espin, M. J. Cano // INTERSPEECH. — 2017.
103. Paliwal, K. K. Spectral subband centroid features for speech recognition / K. K. Paliwal // Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on. Т. 2. — 1998. — 617—620 vol.2.
104. Lavrentyeva, G. Audio replay attack detection with deep learning frameworks / G. Lavrentyeva, S. Novoselov, E. Malykh, A. Kozlov, O. Kudashev, V. Shchemelinin // 18th Annual Conference of the International Speech Communication Association Proceeding, INTERSPEECH 2017. - 2017. -P. 82-86.
105. Delgado, H. ASVspoof 2017 Version 2.0: meta-data analysis and baseline enhancements / H. Delgado, M. Todisco, M. Sahidullah, N. Evans, T. Kinnunen, K. A. Lee, J. Yamagishi // ODYSSEY 2018, The Speaker and Language Recognition Workshop, June 26-29, 2018, Les Sables d'Olonne, France. — L, 06.2018. — URL: http://www.eurecom.fr/publication/5504.
106. Auckenthaler, R. Score Normalization for Text-Independent Speaker Verification Systems / R. Auckenthaler, M. Carey, H. Lloyd-Thomas // Digital Signal Processing. — 2000. — Т. 10, № 1. — С. 42—54. — URL: http://www.sciencedirect.com/science/article/pii/S1051200499903603.
107. Li, M. Speaker Verification Using Sparse Representations on Total Variability i-vectors / M. Li, X. Zhang, Y. Yan, S. Narayanan // INTERSPEECH. — 2011.
108. Nagarsheth, P. Replay Attack Detection Using DNN for Channel Discrimination / P. Nagarsheth, E. Khoury, K. Patil, M. Garland // INTERSPEECH. — 2017.
109. Chen, Z. ResNet and Model Fusion for Automatic Spoofing Detection / Z. Chen, Z. Xie, W. Zhang, X. Xu // INTERSPEECH. — 2017.
110. Alluri, K. N. R. K. R. SFF Anti-Spoofer: IIIT-H Submission for Automatic Speaker Verification Spoofing and Countermeasures Challenge 2017 / K. N. R. K. R. Alluri, S. Achanta, S. R. Kadiri, S. V. Gangashetty, A. K. Vuppala // INTERSPEECH. — 2017.
111. Kinnunen, T. The ASVspoof 2017 Challenge: Assessing the Limits of Replay Spoofing Attack Detection / T. Kinnunen, M. Sahidullah, H. Delgado, M. Todisco, N. Evans, J. Yamagishi, K. A. Lee // Proc. Interspeech 2017.
112. Karpathy, A. Large-Scale Video Classification with Convolutional Neural Networks / A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei // 2014 IEEE Conference on Computer Vision and Pattern Recognition. — 2014. — С. 1725—1732.
113. Bengio, Y. Representation Learning: A Review and New Perspectives / Y. Bengio, A. C. Courville, P. Vincent // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2013. — Т. 35. — С. 1798—1828.
114. Krizhevsky, A. ImageNet Classification with Deep Convolutional Neural Networks / A. Krizhevsky, I. Sutskever, G. E. Hinton // NIPS. — 2012.
115. Taigman, Y. DeepFace: Closing the Gap to Human-Level Performance in Face Verification / Y. Taigman, M. Yang, M. Ranzato, L. Wolf // 2014 IEEE Conference on Computer Vision and Pattern Recognition. — 2014. — С. 1701—1708.
116. Galbally, J. Biometric Antispoofing Methods: A Survey in Face Recognition / J. Galbally, S. Marcel, J. Fierrez // IEEE Access. — 2014. — Т. 2. — С. 1530—1552.
117. Yang, J. Learn Convolutional Neural Network for Face Anti-Spoofing / J. Yang, Z. Lei, S. Z. Li // CoRR. — 2014. — Т. abs/1408.5601.
118. Mcculloch, W. S. A Logical Calculus of the Ideas Immanent in Nervous Activity / W. S. Mcculloch, W. R. Pitts //. — 2006.
119. LeCun, Y. Effiicient BackProp / Y. LeCun, L. Bottou, G. B. Orr, K.-R. Müller // Neural Networks: Tricks of the Trade. — 1996.
120. Jaitly, N. Learning a better representation of speech soundwaves using restricted boltzmann machines / N. Jaitly, G. E. Hinton // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2011. — С. 5884—5887.
121. Nair, V. Rectified Linear Units Improve Restricted Boltzmann Machines / V. Nair, G. E. Hinton // ICML. — 2010.
122. Maas, A. L. Rectifier Nonlinearities Improve Neural Network Acoustic Models / A. L. Maas //. — 2013.
123. He, K. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification / K. He, X. Zhang, S. Ren, J. Sun // 2015 IEEE International Conference on Computer Vision (ICCV). — 2015. —
C. 1026—1034.
124. Xu, B. Empirical Evaluation of Rectified Activations in Convolutional Network / B. Xu, N. Wang, T. Chen, M. Li // CoRR. — 2015.
Т. abs/1505.00853.
125. Costa, M. Probabilistic Interpretation of Feedforward Network Outputs, with Relationships to Statistical Prediction of Ordinal Quantities / M. Costa // International journal of neural systems. — 1996. — Т. 7 5. — С. 627—37.
126. Rumelhart, D. E. Learning representations by back-propagating errors /
D. E. Rumelhart, G. E. Hinton, R. J. Williams // Nature. — 1986. — Т. 323. — С. 533—536.
127. Zou, H. Regularization and variable selection via the elastic net / H. Zou //. — 2004.
128. Hinton, G. E. Improving neural networks by preventing co-adaptation of feature detectors / G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, R. Salakhutdinov // CoRR. — 2012. — Т. abs/1207.0580.
129. LeCun, Y. Backpropagation Applied to Handwritten Zip Code Recognition / Y. LeCun, B. E. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. E. Hubbard, L. D. Jackel // Neural Computation. — 1989. — Т. 1. — С. 541—551.
130. Li, F.-F. Stanford CS class CS231n: Convolutional Neural Networks for Visual Recognition [Электронный ресурс] / F.-F. Li, J. Johnson, S. Yeung. -URL: http://cs231n.stanford.edu/ (visited on 07/04/2018).
131. Athiwaratkun, B. Feature Representation in Convolutional Neural Networks /
B. Athiwaratkun, K. Kang // CoRR. — 2015. — Т. abs/1507.02313.
132. Szegedy, C. Going deeper with convolutions / C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. E. Reed, D. Anguelov, D. Erhan, V. Vanhoucke [и др.] // 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2015. — С. 1—9.
133. Elman, J. L. Finding structure in time / J. L. Elman // Cognitive Science. — 1990. — Т. 14, № 2. — С. 179—211. — URL: http://www.sciencedirect.com/ science/article/pii/036402139090002E.
134. Werbos, P. J. Backpropagation through time: what it does and how to do it / P. J. Werbos // Proceedings of the IEEE. — 1990. — Т. 78, № 10. —
C. 1550—1560.
135. Hochreiter, S. Long Short-Term Memory / S. Hochreiter, J. Schmidhuber // Neural Computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
136. Cho, K. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches / K. Cho, B. van Merrienboer, D. Bahdanau, Y. Bengio // SSST@EMNLP. — 2014.
137. Bengio, Y. Learning long-term dependencies with gradient descent is difficult / Y. Bengio, P. Simard, P. Frasconi // IEEE Transactions on Neural Networks. — 1994. — Т. 5, № 2. — С. 157—166.
138. Sejdic, E. Time-frequency feature representation using energy concentration: An overview of recent advances / E. Sejdic, I. Djurovic, J. Jiang // Digital Signal Processing. — 2009. — Т. 19. — С. 153—183.
139. Blackman, R. B. The measurement of power spectra from the point of view of communications engineering — Part I / R. B. Blackman, J. W. Tukey // The Bell System Technical Journal. — 1958. — Т. 37, № 1. — С. 185—282.
140. Moore, B. C. J. An Introduction to the Psychology of Hearing /
B. C. J. Moore. - Leiden : BRILL, 2003. - 420 p.
141. Mallat, S. A Wavelet Tour of Signal Processing, 2nd Edition / S. Mallat //. -1999.
142. Zhang, C. An Investigation of Deep-Learning Frameworks for Speaker Verification Antispoofing / C. Zhang, C. Yu, J. H. L. Hansen // IEEE Journal of Selected Topics in Signal Processing. — 2017. — Т. 11, № 4. — С. 684—694.
143. Mak, M.-W. Robust Voice Activity Detection for Interview Speech in NIST Speaker Recognition Evaluation / M.-W. Mak, H.-B. Yu //. — 2010.
144. Gorriz, J. M. Bispectra Analysis-Based VAD for Robust Speech Recognition / J. M. Gorriz, C. G. Puntonet, J. Ramírez, J. C. Segura // IWINAC. — 2005.
145. Gorriz, J. M. Voice Activity Detection. Fundamentals and Speech Recognition System Robustness / J. M. Gorriz, J. C. Segura //. — 2007.
146. Lehner, B. Improving voice activity detection in movies / B. Lehner, G. Widmer, R. Sonnleitner // INTERSPEECH. — 2015.
147. Prasad, R. V. Comparison of voice activity detection algorithms for VoIP / R. V. Prasad, A. Sangwan, H. S. Jamadagni, M. C. Chiranth, R. Sah, V. Gaurav // ISCC. — 2002.
148. Hernandez, G. Noise robust voice detector for speaker recognition / G. Hernández, J. R. C. de Lara, R. Fernandez, I. Rodes, R. Martínez // 2008 19th International Conference on Pattern Recognition. — 2008. —
C. 1—4.
149. Simonchik, K. Voice activity detector based on pitch statistics for speaker recognition / K. Simonchik, O. Galinina, A. Kapustin // Nauchno-tekhnicheskie vedomosti SPbGPU. — 2010. — С. 7—11.
150. Simonchik, K. Automatic Preprocessing Technique for Detection of Corrupted Speech Signal Fragments for the Purpose of Speaker Recognition / K. Simonchik, S. Aleinik, D. Ivanko, G. Lavrentyeva // Lecture Notes in Computer Science. - 2015. - Vol. 9319. - P. 121-128.
151. Wu, X. A Light CNN for Deep Face Representation With Noisy Labels / X. Wu, R. He, Z. Sun, T. Tan // IEEE Transactions on Information Forensics and Security. — 2018. — Т. 13. — С. 2884—2896.
152. Goodfellow, I. J. Maxout Networks / I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. C. Courville, Y. Bengio // ICML. — 2013.
153. Lin, M. Network in network / M. Lin, Q. Chen, S. Yan // arXiv preprint arXiv:1312.4400. — 2013.
154. Le, Q. V. ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning / Q. V. Le, A. Karpenko, J. Ngiam, A. Y. Ng // NIPS. — 2011.
155. фильм "Inception [Электронный ресурс]. — URL: https://www.kinopoisk. ru/film/447301/.
156. Лаврентьева, Г. М. Детектирование атак на голосовые биометрические системы в телефонном канале / Г. М. Лаврентьева // Научнотехниче-ский вестник информационных технологий, механики и оптики. — 2018. — Т. 18, № 4.
157. Hanilci, C. Spoofing detection goes noisy: An analysis of synthetic speech detection in the presence of additive noise / C. Hanilci, T. Kinnunen, M. Sahidullah, A. Sizov // Speech Communication. — 2016. — Т. 85. — С. 83—97.
158. Delgado, H. Impact of Bandwidth and Channel Variation on Presentation Attack Detection for Speaker Verification / H. Delgado, M. Todisco, N. W. D. Evans, M. Sahidullah, W. M. Liu, F. Alegre, T. Kinnunen,
B. G. B. Fauve // 2017 International Conference of the Biometrics Special Interest Group (BIOSIG). — 2017. — С. 1—6.
159. Проект Festwox, [Электронный ресурс]. — URL: http://festvox.org/ ; Дата обращения: 10.07.2018.
160. Helander, E. Voice Conversion Using Dynamic Kernel Partial Least Squares Regression / E. Helander, H. Silen, T. Virtanen, M. Gabbouj // IEEE Transactions on Audio, Speech, and Language Processing. — 2012. — Т. 20. —
C. 806—817.
161. Проект Mary Text-To-Speech, [Электронный ресурс]. — URL: http://mary. dfki.de/ ; Дата обращения: 10.07.2018.
162. Google Cloud Speech API, [Электронный ресурс]. — URL: https://cloud. google.com/speech/.
163. Yandex Speech Kit, [Электронный ресурс]. — URL: https://tech.yandex. ru/speechkit/.
164. IBM Text-to-Speech, [Электронный ресурс]. — URL: https://www.research. ibm.com/tts/.
165. Beta version of Lyrbird Text-To-Speech, [Электронный ресурс]. — URL: https://lyrebird.ai/.
166. Zamzar Text-To-Speech, [Электронный ресурс]. — URL: https:/ /www. zamzar.com/.
167. Text-To-Speech API from Ispeech, [Электронный ресурс]. — URL: http: //www.ispeech.org/api/#text-to-speech.
168. Chistikov, P. Data-driven Speech Parameter Generation For Russian Text-to-Speech System / P. Chistikov, E. Korolkov // Computational Linguistics and Intellectual Technologies. Proceedings of the Annual International Conference "Dialogue". — 2012. — Т. 1. — С. 103—111. — URL: http://www. dialog-21.ru/media/1320/25.pdf.
169. RESMG-110610PR2. ETS 300 961 (GSM 06.10) European Standard, [Электронный ресурс]. — URL: https://portal.etsi.org/webapp/workprogram/ Report%5C_WorkItem.asp?WKI%5C_ID=11074.
170. STC H219 overview, [Электронный ресурс]. — URL: http://speechpro.com/ product/voice-recording/smartlogger2#tab4.
171. Smart Logger II: Multi-channel call recording and monitoring system, [Электронный ресурс]. — URL: http://speechpro.com/product/voice-recording/ smartlogger2.
172. Smart Caller: Automatic 24/7 notification of subscribers, [Электронный ресурс]. — URL: http://speechpro.com/product/notification/smartcaller.
173. NIST speaker recognition evaluation 2016. — 2016. — URL: https://www. nist.gov/itl/iad/mig/speaker-recognition-evaluation-2016.
174. Nvidia Deep Learning Frameworks. — URL: https://developer.nvidia.com/ deep-learning-frameworks.
175. BOSARIS toolkit. — URL: https://sites.google.com/site/bosaristoolkit.
176. P., D. PLP and RASTA (and MFCC, and inversion) in Matlab / D. P., W. Ellis. — 2005. — URL: http://www.ee.columbia.edu/~dpwe/resources/ matlab/rastamat/ ; online web resource.
177. LIBLINEAR library. — URL: http://www.csie.ntu.edu.tw/cjlin/liblinear.
178. Glorot, X. Understanding the difficulty of training deep feedforward neural networks / X. Glorot, Y. Bengio. — 2010.
179. Kingma, D. Adam: A method for stochastic optimization / D. Kingma, J. Ba // arXiv preprint arXiv:1412.6980. — 2014.
180. Ji, Z. Ensemble Learning for Countermeasure of Audio Replay Spoofing Attack in ASVspoof2017 / Z. Ji, Z.-Y. Li, P. Li, M. An, S. Gao, D. Wu, F. Zhao // INTERSPEECH. — 2017.
181. Prince, S. Probabilistic Models for Inference about Identity / S. Prince, P. Li, Y. Fu, U. Mohammed, J. H. Elder // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2012. — T. 34. — C. 144—157.
182. Chakroborty, S. Improved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks / S. Chakroborty, A. Roy, A. GoutamSaha //. — 2006.
183. Kua, J. M. K. Investigation of Spectral Centroid Magnitude and Frequency for Speaker Recognition / J. M. K. Kua, T. Thiruvaran, M. Nosratighods, E. Ambikairajah, J. Epps // Odyssey. — 2010.
184. Nagarsheth, P. Replay Attack Detection Using DNN for Channel Discrimination / P. Nagarsheth, E. Khoury, K. Patil, M. Garland // INTERSPEECH. — 2017.
185. Chettri, B. A Study On Convolutional Neural Network Based End-To-End Replay Anti-Spoofing / B. Chettri, S. Mishra, B. L. Sturm, E. Benetos // CoRR. — 2018. — T. abs/1805.09164.
186. Valenti, G. An end-to-end spoofing countermeasure for automatic speaker verification using evolving recurrent neural networks / G. Valenti, H. Delgado, M. Todisco, N. Evans, L. Pilati //. — 2018.
187. Kamble, M. Novel Variable Length Energy Separation Algorithm using Instantaneous Amplitude Features For Replay Detection / M. Kamble, H. Patil //. — 06.2018.
188. Patil, H. A. Novel Variable Length Teager Energy Separation Based Instantaneous Frequency Features for Replay Detection / H. A. Patil, M. R. Kamble, T. B. Patel, M. H. Soni // INTERSPEECH. — 2017.
189. Sailor, H. Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection / H. Sailor, M. Kamble, H. Patil //. -06.2018.
190. Sriskandaraja, K. Deep Siamese Architecture Based Replay Detection for Secure Voice Biometric / K. Sriskandaraja, V. Sethu, E. Ambikairajah // Interspeech 2018, 19th Annual Conference of the International Speech Communication Association, Hyderabad, India, 2-6 September 2018. 2018. — C. 671—675.
191. Bromley, J. Signature Verification Using a Siamese Time Delay Neural Network / J. Bromley, I. Guyon, Y. LeCun, E. Sackinger, R. Shah // IJPRAI. - 1993. - T. 7. - C. 669-688.