Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Будков, Виктор Юрьевич

  • Будков, Виктор Юрьевич
  • кандидат технических науккандидат технических наук
  • 2013, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 145
Будков, Виктор Юрьевич. Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2013. 145 с.

Оглавление диссертации кандидат технических наук Будков, Виктор Юрьевич

Содержание

Введение

Положения, выносимые на защиту

Глава 1. Обзор подходов к решению проблем сопровождения распределенных мероприятий

1.1 Анализ основных проблем разработки систем сопровождения распределенных мероприятий

1.2 Анализ существующих программных платформ по удаленной обработке мультимедийных сигналов

1.3 Методы предварительной обработки аудиосигналов

1.4 Методы автоматической диаризации речи дикторов

1.5 Выводы по главе 1

Глава 2. Методы и модели обработки мультимедийных данных при сопровождении мероприятий

2.1 Информационная модель сопровождения распределенных мероприятий

2.2 Метод формирования мультимедийного контента

2.3 Метод автоматической диаризации речи дикторов

2.4 Выводы по главе 2

Глава 3. Технические и программные средства сопровождения распределенных мероприятий

3.1 Модель управления техническими средствами поддержки проведения мероприятий в интеллектуальном зале

3.2 Архитектура системы сопровождения распределенных мероприятий

3.3 База данных системы сопровождения распределенных мероприятий

3.4 Выводы по главе 3

Глава 4. Комплекс программных средств распределенной обработки речевых данных98

4.1 Архитектура комплекса программных средств ПАРАД-Р

4.2 Программные модули комплекса ПАРАД-Р

4.3 Описание исследовательского стенда экспериментального образца ПАРАД-Р

4.4 Выводы по главе 4

Заключение

Литература

Приложение А. Копии актов внедрения результатов диссертационной работы

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний»

Введение

Актуальность темы диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет-приложения для проведения телеконференций и дистанционного обучения Е-тееип§, Е-1есШге становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, использовать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.

Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться для автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.

Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и

программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу только актуального аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.

Цель работы и задачи исследования. Основной целыо диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:

1. Анализ современных методов и программных систем сопровождения распределенных совещаний.

2. Разработка информационной модели сопровождения участников совещаний.

3. Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.

4. Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.

5. Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.

6. Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.

Научная новизна работы состоит в следующем:

1. Предложена информационная модель сопровождения участников распределенных мероприятий, описывающая совместную работу средств автоматической обработки мультимедийных сигналов, записанных встроенными средствами зала совещаний и клиентскими устройствами, отличающаяся применением упорядочивания информационных потоков, необходимых для восприятия текущей ситуации в зале удаленными участниками и подготовки отчетных материалов по заранее заданным шаблонам.

2. Разработан метод формирования текущего мультимедийного контента, отличающийся использованием событийной модели анализа информационной значимости аудиовизуальных потоков для компиляции данных, используемых при трансляции и архивировании результатов мероприятия.

3. Разработан метод диаризации речи дикторов, анализирующий спектральные и временные характеристики голосового источника речевого сигнала независимо от контекста и языка, отличающийся фильтрацией фонационных паралингвистических явлений на основе комбинированного анализа стационарности речевых сегментов, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору, позволяющий определить число выступающих и выделить их фразы в одноканальном аудиопотоке.

4. Разработана архитектура системы сопровождения распределенных мероприятий, учитывающая состояние аудио-, видео- и презентационного оборудования и формирующая необходимый для восприятия хода дискуссии и поддержания диалога мультимедийный контент веб-интерфейса, отличающаяся адаптивностью к характеристикам клиентского устройства и применением регулярно обновляемой реляционной базой данных мероприятий с персонифицированной информацией по участникам, используемой при генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие

статистические данные по событиям, автоматически накапливаемым в ходе совещания.

5. Разработан экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, обеспечивающий обработку архивных аудиозаписей мероприятий, а также поддержку функционирования других кроссплатформенных приложений по распределению и управлению динамическими речевыми сервисами.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные методы и программные средства направлены на увеличение возможностей удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий. Применение адаптивного к устройству пользователя способа формирования веб-интерфейса позволяет транслировать совещания на различные программно-аппаратные платформы. Разработанная система сопровождения мероприятий дает возможность составлять мультимедийные отчеты распределенных совещаний, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал. Эффективное отображение информации и коллективное принятие решения -одни из главных достоинств ситуационных центров, поэтому разрабатываемые технологии информационного сопровождения телеконференций будут

востребованы государственными министерствами и ведомствами, военными структурами, круппьтми корпорациями, общественно-политическими организациями, активно использующими ситуационные центры в своей работе.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: Министерства образования и науки РФ «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов», ГК №07.514.11.4139, 2012-2013, «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК№ 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК№ П2360, 2011-2013 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.»; грант РФФИ № 12-08-31520-МОЛ_а, 2012-2013; грант Президента РФ № 16.120.11.501-МД, 2011-2012. Разработанные методы, алгоритмы, программное обеспечение, а также технические решения были использованы при выполнении МИР с ОАО «Концерн «Океанприбор», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на международной конференции «Р1ШСТ» (Санкт-Петербург, 2010; Москва, 2011), международной конференции «Региональная информатика» (Санкт-Петербург, 2010; Санкт-Петербург, 2012);

международной конференции ЮиМТ'Ю (Москва, 2010), всероссийской мультиконференции по проблемам управления МКПУ'11 (Дивноморск, 2011), международной конференции по интеллектуальным пространствам 1Е'12 (Гуанохуато, Мексика, 2012), всероссийской конференции «Информационные технологии в управлении» (ИТУ-2012), (Санкт-Петербург, 2012).

Публикации. По материалам диссертации опубликовано 36 печатных работ, включая 7 публикаций в научных журналах, рекомендованных ВАК: «Доклады ТУСУР», «Известия ВУЗов. Приборостроение», «Вестник компьютерных и информационных технологий», «Информационно-управляющие системы», «Автоматизация и современные технологии», «Труды СПИИРАН», получены 4 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 145 машинописных страниц содержит введение, четыре главы и заключение, список литературы (125 наименований), 9 таблиц, 22 рисунка, 1 приложение с копиями актов внедрения.

Основное содержание работы

В первой главе диссертации описаны основные проблемы, возникающие при разработке систем сопровождения распределенных мероприятий. Приведен сравнительный анализ существующих систем сопровождения веб-конференций. Описаны и классифицированы основные методы параметрического представления аудиосигнала и определения речевой или голосовой активности. Приведен обзор методов, применяемых для сегментации речевого сигнала и для автоматической диаризации речи дикторов.

Вторая глава посвящена описанию информационной модели сопровождения распределенных мероприятий и ряда методов обработки мультимедийных сигналов, применяемых при трансляции мероприятий и подготовке отчета. Также описан разработанный метод анализа и компоновки мультимедийных данных для удаленного участника. Описан метод диаризации

дикторов в одноканальном аудиопотоке, включающий два основных этапа: цифровую обработку аудиосигналов и диаризацию речевых сегментов дикторов. Приведен краткий обзор методов оценивания эффективности работы системы диаризации дикторов

В третьей главе описаны алгоритмы и программные средства записи и сопровождения распределенных мероприятий. Представлена функциональная модель управления работой распределенных модулей интеллектуального зала, где проводится мероприятие. Описана архитектура системы сопровождения распределенных мероприятий в интеллектуальном зале совещаний, а также структура реляционной базы данных мероприятий, содержащая таблицы, использующиеся для хранения и последующей обработки данных, получаемых от различных программно-аппаратных модулей.

В четвертой главе представлен комплекс программных средств распределенной обработки речевых данных. Описана общая архитектура комплекса автоматического анализа, распознавания и диаризации разговорной русской речи. Описаны программные модули цифровой обработки сигналов и диаризации дикторов. Описан исследовательский стенд экспериментального образца ПАРАД-Р. Приведены примеры работы стенда с результатами обработки данных.

Положения, выносимые на защиту

1. Информационная модель сопровождения участников распределенных мероприятий описывает процесс обработки многоканального аудиовизуального контента, полученного встроенными средствами зала совещаний и клиентскими устройствами, и обеспечивает отбор информационных потоков, необходимых для трансляции удаленным участникам и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий анализ информационной значимости аудиовизуальных потоков, обеспечивает подготовку данных для вывода на устройство удаленного участника с учетом его программно-аппаратных характеристик.

3. Метод диаризации речи дикторов, использующий расчет спектральных и временных характеристик голосового источника речевого сигнала и анализирующий паралингвистические фонационные явления, обеспечивает временную сегментацию отрезков речи, принадлежащих одному диктору.

4. Архитектура системы сопровождения распределенных мероприятий, включающая модули анализа состояния аудио-, видео- и презентационного оборудования, формирует мультимедийный контент веб-интерфейса, необходимый для восприятия удаленным участником текущей ситуации в зале, а также генерацию отчетных протоколов по проведенным мероприятиям.

5. Программный комплекс автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по протоколу МЯСРу2, обеспечивает поддержку функционирования кроссплатформенных речевых клиентских приложений.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Будков, Виктор Юрьевич

4.4 Выводы по главе 4

1. Методы и алгоритмы, описанные в главах 2 и 3 были реализованы в программном комплексе автоматического анализа, распознавания и диаризации разговорной русской речи ПАРАД-Р, отличающемся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу М11СРу2, применяющемся для разработки и поддержки функционирования кроссплатформенных приложений по распределению и управлению динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

2. Разработка исследовательского стенда и экспериментального образца автоматического анализа, распознавания и диаризации разговорной русской речи ПАРАД-Р, а также разработка технической документации была выполнена в ходе научно-исследовательской работы по государственному контракту №07.514.11.4139 «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов» в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» Минобрнауки РФ.

3. Экспериментальная проверка программного комплекса проводилась с использованием многодикторпого речевого корпуса со следующими параметрами: 1) 50 дикторов - носителей русского языка (25 женщин и 25 мужчин); 2) возраст дикторов от 16 до 60 лет; 3) отношение сигнал/шум выше 20 дБ; 4) текстовая часть корпуса содержит 327 фонетически сбалансированных осмысленных фраз на русском языке и 1140 орфографически и фонетически разнообразных слов; 5) всего корпус содержит 16350 фраз; 6) общий объем корпуса -13,5 Гб. При тестировании всего речевого корпуса точность сегментации реплик разных дикторов была выше 85% при использовании разработанного метода диаризации дикторов в одноканальном аудиопотоке.

Заключение

Совокупность предложенных методов и программных средств автоматической обработки аудиовизуальных потоков данных, а также их практическая реализация представляют собой решение актуальной научно-технической задачи информационного и технологического сопровождения распределенных мероприятий на основе анализа информационной значимости мультимедийных потоков, трансляции выбранного контента удаленным участникам и генерации отчетных материалов по результатам мероприятия, внедрение которых вносит значительный вклад в развитие страны. При решении данной задачи были получены следующие результаты:

1. Информационная модель сопровождения участников распределенных мероприятий, отличающаяся применением средств автоматической обработки мультимедийных сигналов с целью автоматизации процесса трансляции и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий событийную модель анализа информационной значимости мультимедийных потоков при подготовке данных для трансляции удаленному участнику и отчетных материалов по мероприятия.

3. Метод диаризации речи дикторов, отличающийся анализом паралингвистических фонационных явлений, спектральных и временных характеристик голосового источника речевого сигнала независимо от контекста и языка, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору.

4. Архитектура системы сопровождения распределенных мероприятий, формирующая на основе анализа состояния аудио-, видео-, и презентационного оборудования мультимедийный контент, необходимый удаленному участнику для восприятия хода дискуссии, и применяющая персонифицированную базу данных мероприятий при подготовке отчетных материалов по заданным шаблонам.

5. Экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, применяющийся для разработки и поддержки функционирования кроссплатформенных приложений по распределению и управлению динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

Полученные результаты соответствуют п.7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» и п.8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».

Список литературы диссертационного исследования кандидат технических наук Будков, Виктор Юрьевич, 2013 год

Литература

1. Будков, В.Ю. Анализ подходов к решению проблемы диаризации речи дикторов. / В.Ю. Будков, A.JI. Ронжин //Материалы конференции «Информационные технологии в управлении» (ИТУ-2012). - СПб.ЮАО «Концерн «ЦНИИ «Электроприбор», Санкт-Петербург, Россия, 9-11 октября 2012. 2012. С. 39-47.

2. Будков, В.Ю. Контекстно-осведомленная система управления оборудованием и веб-трансляции мероприятий из интеллектуального зала / В.Ю. Будков, М.В. Прищепа, C.B. Глазков // Вестник БГУ, Выпуск 9, 2011. - С. 75-82.

3. Будков, В.Ю. Многоканальная система анализа речевой активности участников совещания / В.Ю. Будков, М.В. Прищепа, A.JI. Ронжин, К. Марков // Третий междисциплинарный семинар «Анализ разговорной русской речи» АРЗ. 2009. СПб. 2009. С. 57-62.

4. Будков, В.Ю. Анализ современных методов и систем диаризации дикторов / В.Ю. Будков, АЛ. Ронжин // Известия вузов. Приборостроение. № 11. 2012. - С. 43-46.

5. Будков, В.Ю. Методы и программные средства обработки мультимедийных данных при сопровождении распределенных совещаний //Доклады ТУСУР. № 1. 2013. - С. 50-54.

6. Будков, В.Ю. Разработка модельно-алгоритмического обеспечения управления распределенными модулями интеллектуального зала / В.Ю. Будков, М.В. Прищепа // Труды СПИИРАН. Вып. 23. 2012. - С. 431438.

7. Будков, В.Ю. Технологии формирования аудиовизуального интерфейса системы телеконференций / В.Ю. Будков, A.JI. Ронжин, Ал.Л. Ронжин // Автоматизация и современные технологии. № 5. 2011, С. 20-26.

8. Будков, В.Ю. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний / В.Ю. Будков, Ал.Л. Ронжин, Ан.Л. Ронжин // Труды СПИИРАН. Вып. 23. 2012.-С. 482-494.

9. Геппенер, В.В. Онтологический подход к обработке телеметрической информации / В.В. Геппенер, A.B. Васильев, А.О. Дерипаска, И.В. Горбачева, H.A. Жукова // Труды 11 национальной конференции по искусственному интеллекту (КИИ-2008), г. Дубна, Россия т. 2. М.: ЛЕНАНД, 2008. - С. 139-147.

10. Геппенер, B.B. Система идентификации телеметрических параметров на основе технологии Web-ссрвисов / В.В. Геппенер, В.Э. Балтрашевич, H.A. Жукова, И.В. Ильина // Системы управления и информационные технологии, № 3(33), Воронеж: Научная книга, 2008. - С.30-34.

11. Городецкий, В.И. Агентская платформа для повсеместных вычислений / В.И. Городецкий, О.В. Карсаев, В.В. Самойлов, C.B. Серебряков // Информационные технологии и вычислительные системы. Вьтп. 4. М.: Наука, 2008.-С. 51-60.

12. Городецкий, В.И. Многоагентная система планирования и составления расписаний: разработка распределенной базы знаний / В.И. Городецкий, О.В. Карсаев // Известия Южного федерального университета. Технические науки. Т. 22. № 4. 2001. - С. 25-38.

13. Даджион, Д. Цифровая обработка многомерных сигналов/ Д. Даджион, Р. Мерсеро // Пер. с англ., М.:Мир, 1988. - 488 с.

14. Димариа, М.Д. Стандарт MRCP на службе у разработчиков голосовых приложений, интернет ресурс // <http://w\v\v.ccc.ru/magazirie/depot/07 07/read.htmr?0102.htm> (дата обращения: 05.09.2012).

15. Жожикашвили, В.А. Интеграция автоматизированных систем массового обслуживания на основе речевых технологий и web-сервисов / В.А. Жожикашвили, Р.В. Билик, А. Ю. Трощенко, Н.В. Петухова, М.П. Фархадов // Проблемы управления, № 3. 2007. - С. 54-58.

16. Карпов, A.A. Речевые технологии в многомодальных интерфейсах / A.A. Карпов, А.Л. Ронжин, И.В. Ли, АЛО. Шалин // Труды СПИИРАН. Т. 1. № 2. 2004. - С. 183-193.

17. Лаборатория №17 «Автоматизированные системы массового обслуживания» Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В. А. Трапезникова РАН, интернет ресурс <http://www.asmon.ru/ru> (дата обращения: 09.09.2012)

18. Мазуренко, И.Л. Многоканальная система распознавания речи, Сборник трудов VI всероссийской конференции "Нейрокомпьютеры и их применение", Москва, 2000 г.

19. Мясников, Л.Л. Объективное распознавание звуков речи // ЖТФ. - 1943. -№ 3. - С. 109-115.

20. Никифоров, В.В. Маршрутные сети — графический формализм представления структуры программных приложений реального времени /

В.В. Никифоров, В.И. Шкиртиль // Труды СПИИРАН. Под общ.ред. Р.М.Юсупова. - Вьтп. 14, - СПб.: Наука, 2010. - С. 7-28.

21. Никифоров, В.В. Оценка времени отклика цепочек задач в распределенных системах реального времени / В.В. Никифоров, В.И. Шкиртиль // Труды СПИИРАН, вып. 4(23), 2012. - С.134-156.

22. Никифоров, В.В. Структурные модели для анализа многозадачных программных систем / В.В. Никифоров, В.А.Павлов // Адаптивные и интеллектуальные роботы, №1-2, 2011. - С. 19-29.

23. Никифоров, В.В. Управление задачами в системах реального времени/ В.В. Никифоров, В.И. Шкиртиль // Материалы Первой международной конференции «Автоматизация управления и интеллектуальные системы и среды». Том II. - Нальчик: Изд. КБНЦ РАН, 2010. - С. 139-143.

24. Никифоров, В.В. Условия взаимного блокирования заданий в многозадачных программных приложениях / В.В. Никифоров,

B.И. Шкиртиль // Информационно-измерительные и управляющие системы, №11, 2011.-С. 52-56.

25. Речевые Технологии Стэл КС, интернет ресурс <http://speech.slel.ru> (дата обращения: 20.09.2012).

26. Ронжин, АЛ. Технологии поддержки гибридных е-совещаний на основе методов аудиовизуальной обработки / А Л. Ронжин, В.Ю. Будков // Вестник компьютерных и информационных технологий, № 4, 2011. -

C.31-35.

27. Ронжин, A.JI. Технологии формирования аудиовизуального интерфейса системы телеконференций / A.J1. Ронжин, В.Ю. Будков, Ал.Л. Ронжин // Автоматизация и современные технологии. № 5. 2011, С. 20-26.

28. Сапожков, М.А. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963.-452 с.

29. Центр Речевых Технологий | ЦРТ, интернет ресурс // <http://vv\vvv.spcechpro.ru> (дата обращения: 06.09.2012).

30. Эффективные совещания, интернет ресурс http://am-meetingpoint.com/2013/02/16/eflektivny e-soveshhaniya-podgotovka-provedenie-kontrol/ (дата обращения: 21.09.2012).

31. Юсупов, P.M. От умных приборов к интеллектуальному пространству / Р.МЛОсупов, АЛ.Ронжин // Вестник Российской Академии Наук: научный и общественно-политический журнал, Том 80, Вып. 1, 2010. - С. 45-51.

32. Ajmera, J. Clustering and segmenting speakers and their locations in meetings / J. Ajmera, G. Lathoud, I. Mc-Cowan // In: Proc. of ICASSP 1, 2004. - P. 605608.

33. Ajmera, J. Robust speaker change detection / J. Ajmera, I. McCowan, II. Bourlard // IEEE Signal Process. Lett. 11 (8), 2004. - P. 649-651.

34. Akita, Y. Unsupervised speaker indexing using anchor models and automatic transcription of discussions / Y. Akita, T. Kawahara // In: Proc. Of EUROSPEECI-I, 2003. - P. 2985-2988.

35. Aldrich, F. Smart Homes: Past, Present and Future / Inside the Smart Home // Ed. Harper R. London: Springer-Verlag, 2003. - P. 17-39.

36. Anguera, X. Friends and Enemies: A Novel Initialization for Speaker Diarization / X. Anguera, C. Wooters, J. Hernando // in Proc. ICSLP, 2006.

37. Anguera, X. Hybrid speech/non-speech detector applied to speaker diarization of meetings / X. Anguera, M. Aguilo, C. Wooters, C. Nadeu, J. Hernando// In: Proc. of Odyssey, 2006. - P. 1-6.

38. Anguera, X. Robust speaker diarization for meetings: ICSI RT06s evaluation system / X. Anguera, C. Wooters, J. Pardo // Proc. of Machine Learning for Multimodal Interaction (MLMI). In: Lecture Notes in Computer Science, vol. 4299. Springer-Verlag, Berlin. 2007.

39. Anguera, X. Robust speaker segmentation for meetings: the ICSI-SRI spring 2005 diarization system / X. Anguera, C. Wooters, B. Peskin, M. Aguilo // Proc. of Machine Learning for Multimodal Interaction (MLMI). In: Lecture Notes in Computer Science. Springer-Verlag, Berlin, 2006. - P. 402^114.

40. Antolin, A.G. Speaker diarization for multiple-distant-microphone meetings using several sources of information / A.G. Antolin, X. Anguera, C. Wooters // IEEE Trans. Comput. 56 (9), 2007. - P. 1212-1224.

41. Barras, C. Multistage speaker diarization of broadcast news / C. Barras, X. Zhu, S. Meignier, J.L. Gauvain // IEEE Trans. Audio Speech Language Process. 14 (5), 2006.-P. 1505-1512.

42. Basseville, M. Detection of Abrupt Changes: Theory and Application/ M. Basseville, I. Nikiforov // Prentice-Hall. 1993. 528 p.

43. Benesty, J. Handbook of Speech Processing / J. Benesty, M. Sondhi, Y. Huang // (Eds.), Springer, 2008. - 1176 p.

44. Ben-IIarush, O. Weighted Segmental K-Means Initialization for SOM-Based Speaker Clustering / O. Ben-IIarush, I. Lapidot, II. Guterman // In: Proc. ICSLP, 2008.

45. Boehm, C. Effective metric-based speaker segmentation in the frequency domain / C. Boehm, F. Pernkopf// In: Proc. of ICASSP, 2009. - P. 4081^084.

46. Brandstein, M. Microphone Arrays Signal Processing Techniques and Applications / M. Brandstein, D. Ward // Springer-Verlag, Berlin Heidelberg New York, 2001.-398 p.

47. Budkov, V.Yu. Audiovisual Speaker Localization in Medium Smart Meeting Room / V.Yu. Budkov, An.L. Ronzhin, Al.L. Ronzhin // In Proc. of the 8th International Conference on Information, Communications and Signal Processing ICICS-2011, Singapore, 2011.

48. Budkov, V.Yu. Context-Aware Mobile Applications for Communication in Intelligent Environment / V.Yu. Budkov, A.L. Ronzhin, A.I. Saveliev // Springer-Verlag Berlin Heidelberg, S. Andreev et al. (Eds.): NEW2AN/ruSMART 2012, LNCS 7469. 2012. - P. 307-315.

49. Budkov, V.Yu. Determination and Recording of Active Speaker in Meeting Room / V.Yu. Budkov, A.L. Ronzhin // In Proceedings of the 14-th International Conference SPECOM'2011, Kazan, 2011, - P. 361-366.

50. Cetingul, H.E. Discriminative Lip-Motion Features for Biometric Speaker Identification/ I I.E. Cetingul, Y. Yemez, E. Erzin, A.M. Tekalp // IEEE Int. Conf. on Image Processing, Singapore, 2004. - P. 2023- 2026.

51. Cheng, S.S. A sequential metric-based audio segmentation method via the Bayesian information criterion / S.S. Cheng, II.M. Wang // In: Proc. of Eurospeech, Geneva, Switzerland. 2003. - P.945-948.

52. Chu, S.M. Fishervoice and semisupervised speaker clustering / S.M. Chu, I I. Tang, T.S. Huang // In: Proc. of ICASSP, 2009. - P. 4089-4092.

53. Delacourt, P. DISTBIC: a speaker based segmentation for audio indexing/ P. Delacourt, C.J. Wellekens // Speech Commun. 32 (1-2), 2000. - P. 111-127.

54. Deshayes, J. Online Statistical Analysis of Change-point Models Using Non-parametric and Likelihood Methods / J. Deshayes, D. Picard // Springer-Verlag. 1986.

55. Ducatel, K. ISTAG - Scenarios of Ambient Intelligence in 2010/ K. Ducatel, M. Bogdanowicz, F. Scapolo, J. Leijten, J-C. Burgelman // European Commission Community Research. Feb. 2001. - 58 p.

56. Ellis, D.P.W. Speaker turn segmentation based on between-channel differences / D.P.W. Ellis, J.C. Liu // In: Proc. of NIST Meeting Recognition Workshop at ICASSP 2004. 2004. - P. 112-117.

57. Evans, N.W.D. Speaker diarization using unsupervised discriminant analysis of inter-channel delay features / N.W.D. Evans, C. Fredouille, J.F. Bonastre // In: Proc. of ICASSP, 2009. - P. 4061-4064.

58. Eveno, N. Accurate and Quasi-Automatic Lip Tracking / N. Eveno, A. Caplier, P.-Y. Coulon // IEEE Trans, on Circuits and Systems for Video Technology vol. 14, Iss. 5, 2004. - P.706-715.

59. Fredouille, C. The NIST 2004 spring rich transcription evaluation: Two-axis merging strategy in the context of multiple distant microphone based meeting speaker segmentation / C. Fredouille, D. Moraru, S. Meignier, L. Besacier, J.-F. Bonastre // In: Proc. of NIST 2004 Spring Rich Transcription Evaluation Workshop, Montreal, Canada. 2004.

60. Friedland, A.G. Fusing short term and long term features for improved speaker diarization/ A.G. Friedland, B.O. Vinyals, C.Y.I-Iuang, D.C.Muller // In: ICASSP, 2009. - P. 4077-4080.

61. Garau, G. Audio and Visual Synchronisation for Speaker Diarisation / G. Garau, A. Dielmann, I I. Bourlard // In Proc. of International Conference on Speech and Language Processing, Interspeech, Makuhari, Japan, 2010. - P. 2654-2657.

62. Han, K. J. A robust stopping criterion for agglomerative hierarchical clustering in a speaker diarization system / K.J. Han, S.S. Narayanan // Proc. Interspeech 2007 - Eurospeech, 2007. - P. 1853-1856.

63. Han, K. J. Novel inter-cluster distance measure combining GLR and ICR for improved agglomerative hierarchical speaker clustering / K.J. Han, S.S. Narayanan // In: Proc. of ICASSP, 2008. - P. 4373^376.

64. Hershey, J. Audio-Vision: Using Audio-Visual Synchrony to Locate Sound / J. Hershey, J. Movellan // In Proc. NIPS, 1999, - P. 813-819.

65. Istrate, D. NIST RT'05 evaluation: preprocessing techniques and speaker diarization on multiple microphone meetings / D. Istrate, C. Fredouille, S. Meignier, L. Besacier, J.-F. Bonastre // In: Proc. of Machine Learning for Multimodal Interaction Workshop (MLMI), Edinburgh, U.K., 2005. - P. 428439.

66. Johnson, D. Array Signal Processing: Concepts and Techniques / D. Johnson, D. Dugeon // Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1993. - 512 p.

67. Kemp, T. Strategies for automatic segmentation of audio data / T. Kemp, M. Schmidt, M. Westphal, A. Waibel // In: Proc. of ICASSP 3, Istanbul, Turkey, 2000.-P. 1423-1426.

68. Kinnunen, Т. An overview of text-independent speaker recognition: from features to supervectors / T. Kinnunen, I I. Li // SpeechComm.52 (1), 2010. -P. 12-40.

69. Koh, E. C. W. Speaker Diarization using Direction of Arrival Estimate and Acoustic Feature Information: the I2RNTU Submission for the NIST RT 2007 // in Proc. Rich Transcription Spring Meeting Recognition Evaluation, 2007.

70. Kotti, M. Speaker segmentation and clustering / M. Kotti, V. Moschou, C. Kotropoulos // Signal Process. 88 (5), 2008. - P. 1091-1124.

71. Krim, H. Two decades of array signal processing research: the parametric approach / H. Krim, M. Viberg // Cambridge, MA Signal Processing Magazine, Jul 1996, Volume: 13, Issue: 4. - P. 67-94.

72. Kristjansson, T. Voicing features for robust speech detection / T. Kristjansson, S. Deligne, P. Olsen // In: Proc. of ICSLP, Lisbon, Portugal. 2005.

73. Lapidot, I. Self organizing maps with BIC for speaker clustering // IDIAP Research Report 02-60. 2002.

74. Laskowski, K. Simultaneous multispeaker segmentation for automatic meeting recognition / K. Laskowski, T. Schultz // In Proc. of EUSIPCO, Poznan, Poland, 2007.-P. 1294-1298.

75. Lassman, J. MarketScope for IVR Systems and Enterprise Voice Portals/ J. Lassman, B. Elliot // Gartner Report, 8 August 2012, интернет ресурс <htlp://www.gartner.com/technolo£v/reprints.do?id:=l-

1 BRDFBF&ct=l 20817&st-sg> (Дата обращения: 04.09.2012).

76. Leeuwan, D.A. The TNO speaker diarization system for NIST RT05s meeting data // In: Proc. of Machine Learning for Multimodal Interaction Workshop (MLMI), Edinburgh, UK, 2005. - P. 440-449.

77. Liu, D. Fast speaker change detection for broadcast news transcription and indexing/D. Liu, F. Kubala//In: Eurospeech-1999, 1999.-P. 1031-1034.

78. Lu, L. Speaker change detection and tracking in realtime news broadcast analysis / L. Lu, I I. Zhang // In: Proc. of the ACM Multimedia, France, 2002. -P. 602-610.

79. Markov, K. Never-Ending Learning with Dynamic Hidden Markov Network / K. Markov, S. Nakamura // In: Interspeech-2007, 2007. - P. 1437-1440.

80. Meignier, S. Step-by-step and integrated approaches in broadcast news speaker diarization / S. Meignier, D. Moraru, C. Fredouille, J.F. Bonastre, L. Besacier // Comput. Speech Language 20 (2-3), 2006. - P.303-330.

81. Moh, Y. Toward domain independent clustering/ Y. Moh, P.Nguyen, J.-C. Junqua // In: Proc. of ICASSP II, 2003. - P. 85-88.

82. Moraru, D. The ELISA consortium approaches in broadcast news speaker segmentation during the NIST 2003 rich transcription evaluation / D. Moraru, S. Meignier, C. Fredouille, L. Besacier, J.-F. Bonastre // In: Proc. of ICASSP, Montreal, Canada. 2004. - P. 273-276.

83. Nguyen, P. Rich transcription 2002 site report / P. Nguyen, L. Rigazio, Y. Moh, J.C. Junqua // Panasonic speech technology laboratory (PSTL), In: Proc. Rich Transcription Workshop. 2002.

84. Nishida, M. Unsupervised speaker indexing using speaker model selection based on Bayesian information criterion / M. Nishida, T. Kawahara // In: Proc. of ICASSP 1,2003.-P. 172-175.

85. NIST, Rich Transcription 2009 Evaluation, интернет ресурс // <http://www.itl.nist.gov/iad/894.01/tests/rt/2009> (Дата обращения 12.05.2012).

86. Noulas, A. Multimodal Speaker Diarization/ A. Noulas, G. Englebienne, B.J.A. Krose // IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(1), 2012. - P. 79-93.

87. Noulas, A. Speaker detection for conversational robots using synchrony between audio and video / A. Noulas, G. Englebienne, B. Terwijn, B. Krose // In M. Hanheide & H. Zender (Eds.), Proceedings of the ICRA 2010 Workshop on Interactive Communication for Autonomous Intelligent Robots (ICAIR): Making robots articulate what they understand, intend, and do. 2010. - P. 11-16.

88. Novavox, интернет ресурс <http://www.novavox.ru> (дата обращения: 11.09.2012).

89. Nwe, T.L. Speaker diarization in meeting audio / T.L. Nwe, H. Sun, H. Li, S. Rahardja // In: Proc. of ICASSP, 2010. - P. 4073^076.

90. Omar, M. Blind change detection for audio segmentation / M. Omar, U. Chaudhari, G. Ramaswamy // In: Proc. of ICASSP. 2005. - P. 501-504.

91. Oualil, Y. A multiple hypothesis Gaussian mixture Filter for acoustic source localization and tracking / Y. Oualil, F. Faubel, D. Klakow // in Proc. IWAENC, Sep. 2012,-P. 233-236.

92. Ouellet, P. Flavors of Gaussian warping / P. Ouellet, G. Boulianne, P. Kenny // In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech'2005-Eurospeech), 2005. - P. 2957-2960.

93. Padilha, E. Nonverbal Behaviours Improving a Simulation of Small Group Discussion / E. Padilha, J. Carletta // In Proc. of the 1st Nordic Symposium on Multimodal Communications, 2003. - P. 93-105.

94. Pelecanos, J. Feature warping for robust speaker verification / J. Pelecanos, S. Sridharan // In: Proc. of ISCA Speaker Recognition Workshop, Odyssey, Crete, Greece. 2001.-P. 213-218.

95. Qiao, L. A Comparable Study on PNCC in Speaker Diarization for Meetings / L. Qiao, F. Qing, X. Yunpeng, Y. Weiping // Cryptography and Network Security, Data Mining and Knowledge Discovery, E-Commerce & Its Applications and Embedded Systems (CDEE), 2010 First ACIS International Symposium. 2010.-P. 157-160.

96. Reynolds, D. A Study of New Approaches to Speaker Diarization / D. Reynolds, P.Kenny, F. Castaldo // In Proc. of Int. Conf. ICSLP'2009, 6-10 September, Brighton, UK, 2009. - P. 1047-1050.

97. Reynolds, D.A. The MIT Lincoln Laboratory RT-04F diarization systems: Applications to broadcast audio and telephone conversations / D.A. Reynolds, P. Torres-Carrasquillo // In: Proc. of Fall 2004 Rich Transcription Workshop (RT-04), Palisades, NY. 2004.

98. Rich Transcription Evaluation Project. National Institute of Technology (NIST), 2002-2009, интернет ресурс // <http://www.itl.nist.gov/iad/niig/tests/rt> (дата обращения 03.09.2012).

99. Ronzhin, Al.L. Web-system for mobile participant support/ Al.L. Ronzhin, M.V. Prischepa, Budkov V.Yu. // In Proceedings of the 8th Conference of Open Innovations Framework Program FRUCT - Finland, Lappeenranta, 2010, pp. 154-159.

100. Ronzhin, A. Multichannel System of Audio-Visual Support of Remote Mobile Participant at E-Meeting / A. Ronzhin, V. Budkov, A. Karpov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 2010.-P. 62-71.

101. SAMPA computer readable phonetic alphabet, интернет ресурс // <http://www.phon.ucl.ас.uk/home/sampa/> (дата обращения: 10.09.2012).

102. Sargin, М.Е. Lip Feature Extraction based on Audio-Visual Correlation/ M.E. Sargin, E. Erzin, Y. Yemez, A.M. Tekalp // EUSIPCO 2005, Antalya, Turkey.

103. Schiele, B. Object recognition using multidimensional receptive field histograms / B. Schiele, J. L. Crowley // European Conference on Computer Vision. 1996. vol. I,-P. 610-619.

104. Shriberg, E. Higher-level features in speaker recognition speaker classification // Series Lecture Notes in Computer Science 4343, 2007. - P. 241-259.

105. Sinha, R. The Cambridge University March 2005 speaker diarisation system / R. Sinha, S.E. Tranter, M.J.F. Gales, P.C. Woodland // In: Proc. of the European Conference on Speech Communication and Technology, 2005. - P. 2437-2440.

106. Slaney, M. FaceSync: a linear operator for measuring synchronization of visual facial images and audio tracks / M. Slaney, M. Covell // in Proc. NIPS, 2000. -P. 814-820.

107. Speech Drive, интернет ресурс <http://spccch-drive.ru> (дата обращения: 07.09.2012)

108. Speereo Software UK Ltd, интернет ресурс <http://www.speereo.com/> (дата обращения: 15.09.2012)

109. Stanford, V. Beyond Close-talk - Issues in Distant Speech Acquisition, Conditioning Classification, and Recognition / V. Stanford, C. Rochet, M. Michel, J. Garofolo // Proc. ICASSP 2004 Meeting Recognition Workshop, Montreal, Canada, 2004. - P. 123.-127.

110. Sugiyama, M. Speech Activity and Speaker Novelty Detection Methods for Meeting Processing / M. Sugiyama, K. Markov, A. Ronzhin, V. Budkov, A. Karpov, M. Prischepa // In Proc. Sensing and Acting in Ubiquitous Environments Workshop (SEACUBE'09). IEEE Xplore. 2009.

111. Sun, II. Speaker diarization system for Rt07 and Rt09 meeting room audio // In: Proc. of ICASSP, 2010. - P. 4982-4985.

112. Tranter, S. An overview of automatic speaker diarization systems / S. Tranter, D. Reynolds // IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, 2006.-P. 1557-1565.

113. Tritschler, A. Improved speaker segmentation and segment clustering using the Bayesian information criterion/ A. Tritschler, R. Gopinath // In: Proc. of EuroSpeech, 1999. - P. 679-682.

114. Tsiaras, V. Video and audio based detection of filled hesitation pauses in classroom lectures / V. Tsiaras, C. Panagiotakis, Y. Stylianou. // Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009). Glasgow, Scotland, 2009. - P. 834-838.

115. Voitovetsky, I. Unsupervised speaker classification using self-organizing maps / I. Voitovetsky, II. Guterman, A. Cohen // In: Proc. of the IEEE Workshop Neural Networks for Signal Processing, Amelia Island, USA, 1997. - P. 578587.

116. Wu, T. UBM-based incremental speaker adaptation / T. Wu, L. Lu, K. Chen, H.J. Zhang // In: Proc. of ICME 2, 2003. - P. 721-724.

117. Yamaguchi, M. Spectral crosscorrelation features for audio indexing of broadcast news and meetings / M. Yamaguchi, M. Yamashita, S. Matsunaga // In: Proc. of ICASLP. 2005. - P. 613-616.

118. Yehia, H. Quantitative association of vocal tract and facial behavior / I I. Yehia, P.Rubin, E. Vatikiotis-Bateson // Speech Communication, vol. 26, 1998, -P. 23-43.

119. Zelkha, E. From Devices to Ambient Intelligence / E. Zelkha, B.Epstein // Digital Living Room Conference, June 1998.

120. Zhang, C. Boosting-Based Multimodal Speaker Detection for Distributed Meeting Videos/ C. Zhang, P. Yin, Y. Rui, R. Cutler, P. Viola, X. Sun, N. Pinto, Z. Zhang// IEEE Transactions on Multimedia, Vol.10, No.8, 2008. -P. 1541-1552.

121. Zhou, B. Efficient audio stream segmentation via the combined T2 statistic and the Bayesian information criterion / B. Zhou, J.H.L. Hansen // IEEE Trans. Speech Audio Process. 13 (4), 2005. - P. 467^174.

122. Zhou, Y. An Improved Speaker Diarization System for Multiple Distance Microphone Meetings / Y. Zhou, H. Suo, J. Wang, Y. Yan // Intelligent Computation Technology and Automation (ICICTA), 2012 Fifth International Conference. 2012. - P. 80-83.

123. Zhu, X. Combining speaker identification and BIC for speaker diarization/ X. Zhu, C. Barras, S. Meignier, J.L. Gauvain // In: Proc. of European Conf. on Speech Communications Technology, Lisbon, Portugal. 2005.

124. Zhu, X. Speaker diarization: from broadcast news to lectures / X. Zhu, C. Barras, L. Lamel, J.L. Gauvain // In: Proc. of MLMI, 2006. - P. 396^106.

125. Zhu, Y. Unified fusion rules for multisensory multihypothesis network decision systems / Y. Zhu, X. Rong // IEEE Trans. System Man Cybernet. 33 (4), 2003. -P. 502-513.

Приложение А. Копии актов внедрения результатов диссертационной работы

Об использовании результатов диссертационной работы Ю.В, Будкова «Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний»,

представленной на соискание ученой степени кандидата технических наук

Мы, нижеподписавшиеся Край» Виталий Запыанович, Консон Александр Давидович и Островский Дмитрий Борисович, составили настоящий Акт о следующем.

1. Научно-исследовательская работа «Разработка технических решений по созданию аппаратуры беспроводной подводной связи для проведения водолазных работ» (шифр «Скат-Р») выполнялась ОАО «Концерн «Оксанприбор» (головной исполнитель) в рамках Федеральной целевой программы «Развитие гражданской морской техники» на 2009-2016 гг.. утвержденной Постановлением Правительства РФ № 103 О! 21.02.2008. Государственным заказчиком НИР «Скат-Р» выступало Министерство промышленности и торговли РФ в лице Департамента судостроительной промышленности и морской техники. В процессе выполнения НИР «Скат-Р» по Договору между головным исполнителем и СПИИ РАН выполнялась работа по составной части НИР «Разработка комплекса программ обработки речи для диалоговой системы водолазов»(шнфр «Скат-Р-РАН»). Результаты исследований В.Ю. Будкова. представленные в диссертационной работе, были использованы при выполнении работ по СЧ НИР «Скат-Р-РАН».

2. Предложенные В.Ю. Будковым методы анализа и обработки речи позволили головному исполнителю совместно со специалистами СПИИ РАН разработать компьютерный макет части гидроакустической станции водолаза. При участии В.Ю. Будкова было разработано программное обеспечение макета, адаптированное к средствам макета станции водолаза, в том числе средства распознавания команд на русском языке, создана база основных команд, разработаны речевой интерфейс диалоговой системы водолазов и методика обучения операторов. Программный макет обработки речи был апробирован для операторов мужского и женского пола.

3. Разработанные В.Ю. Будковым программные средс гаа служат для обеспечения телефонной связи по гидроакустическому каналу. Структура водолазной аппаратуры с использованием компьютерного распознавания русской речи вошла в проект Т3 на ОКР, представленный в отчетных материалах НИР «Скат-Р» (отчет ЛЮКИ НИР 525-03).

УТВЕРЖДАЮ

Заместитель Генерального директора ОАО «Концерн «Океанпрнбор» 1ю инновационному, сграгешческому

АКТ

Начальник сектора, д.т.н., с.н.с.

Научный руководитель НИР «Скат-Р: Ведущий инженер

Д.Б. Островский

М И НОБРМАУКИ РОССИИ

фодорал^иоо |Ч»сздар«1 »eiiitoc Uí<ii*:i; тек

обратнагсльное учрсжлснис

высшего профессионального образовании «Сзнь-г-Пеп'роургскин государстяенныи полк технический универеше»» (ФГКОУ ВПО «СПбГПУ»)

ИНН 7ШМ<М1Ш77

Политехническая ул., 29, С.-Петербург, 195251 Телефон (812) 297-20-95. факс 552-60-S0 ii-muil: i>fficc(ff>pbi.!u.ni

___________X'__________

на №_(ir _______

о внедрении результатов кандидатской диссертационной работы Будкова Виктора Юрьевича «Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний»

Комиссия в составе:

Шкодырев Вячеслав Петрович - доктор технических наук, профессор, заведующий

кафедрой «Распределенных интеллектуальных систем» Потехкн Вячеслав Витальевич - кандидат технических наук, доцект, заместитель

заведующего кафедрой по научной работе Селиванова Елена Николаевна - ведущий программист кафедры

составили настоящий акт в том, что результаты диссертационной работы Будкова В.Ю. были использованы на кафедре «Системы и технологии управления» Санкт-Петербургского государственного политехнического университета в учебном процессе по специальности: 230102 "Автоматизированные системы обработки информации и управления" при подготовке магистров по направлению 230100 «Информатика и вычислительная техника (магистерские программы «Интеллектуальные системы и технологии», «Распределенные интеллектуальные системы управления») в лекционном материале и лабораторном практикуме учебных курсов «Сети и телекоммуникации», «Технологии мобильного Интернета» программы подготовки бакалавров по вышеуказанному направлению. Разработанные методы и программные средства распределенной автоматической обработки речевых и мультимедийных потоков данных, использующихся в приложениях совместной работы и сопровождения распределенных совещаний, позволили наглядно продемонстрировать возможности современных систем искусственного интеллекта и повысить интерес обучаемых к предмету.

Акт

Председатель комиссии:

Члены комиссии:

РОССИЙСКАЯ АКАДЕМИЯ НАУК

Федеральное государственное бюджетное учреждение науки

Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН)

199178, Санкт-Петербург, 14 пиния, 39 Телефон: (812)328-33-11

Факс: (812)328-44-50 Е-таП: 5вНгап'гШазлрЬ <т 11йр://у; ww.spiinL4.nw.nl ОКПО 04683303. ОГРН 10278005144! 1 ИНЯЖП11 7801003920,780101001

А'

УТВЕРЖДАЮ Директор СПИИРАН рреспондент РАН

ЕШтТбсупов » 93_2013 г.

V

л к т

об использовании результатов диссертационной работы Будкова Виктора Юрьевича «Методы н программные средства аудиовизуальной обработки сигналов в веб-системах сопровождения распределенных совещаний» в НИР СПИИРАН по договору с федеральным государственным бюджетным учреждением "Российский фонд фундаментальных исследований" (РФФИ) № 12-08-31520М2 от

10,10.2012 г.

Комиссия в составе: председашш д.т.н., проф. Б.В. Соколова, членов комиссии: д.т.н., проф.

В,А. Зеленцова и к.т.и., доцента Д.В. Бакурадзе, рассмотрев представленные материалы;

1. Автореферат и диссертационную работу Будкова Виктора Юрьевича

2. Отчетную документацию по первому этапу НИР, выполняемых по договору с РФФИ № 12-08-31520М2 от 10.10.2012 «Разработка модели и программных средств управления распределенными модулями интеллектуального чала».

установила, что:

1, Основные положения диссертационной работы Будкова Виктора Юрьевича были использованы при проведении НИР, выполняемых по договору с РФФИ № 12-08-31520\ 12 от 10.10.2012 «Разработка модели и программных средств управления распределенными модулями интеллектуального зала».

2. Разработанная в ходе НИР система автоматического управления распределенными модулями интеллектуального зала основана на предложенной в диссертационной работе функциональной модели программно-аппаратных компонентов системы поддержки проведения распределенных мероприятий в интеллектуальном пространстве, учитывающая текущую ситуацию и состояние аудио-, видео-, презентационного оборудования.

Председатель комиссии

Заместитель директора по научной работе,

д.т.н. профессор

Члены комиссии Ведущий научный сотрудник лаборатории информационных технологам в системном анализе и моделировании, д.т.н., профессор

Ученый секретарь, к.т.н, доцент

Б.В. Соколов

■-7

УУ

В.А.Зеленцов

Д.В. Бакурадзе

АКТ

об использовании результатов диссертационной работы на соискание ученой степени кандидата технических наук В .10. БУДКОВА "Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний" на филологическом факультете Санкт-Петербургского государственного университета

Комиссия в составе заведующего кафедрой фонетики и методики преподавания иностранных языков П.А. Скрелина, и.о. заведующей лабораторией экспериментальной фонетики К.В. Евграфова к члена научной комиссии филологического факультета Д. А. Кочарова, составили настоящий акт о том, что результаты диссертационной работы Будкова В.Ю. на тему «Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний», представленной на соискание ученой степени кандидата технических наук, были использованы в ходе выполнения работ по базовой НИР № 31.37.103.2011 «Вероятностные методы и модели обработки паралингвистических явлений в системе распознавания спонтанной русской речи» Санкт-Петербургского государственного университета, а именно:

- Метод диаризации речи дикторов, отличающийся применением спектральных и временных характеристик голосового источника речевого сигнала независимо от контекста и языка, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору.

- Система архивации мультимедийных записей совещаний и генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие статистические данные по событиям, автоматически накапливаемым в ходе совещания.

- Программный комплекс автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЛСРу2, использующийся для разработки кросс-платформенных приложений по распределению и управлению

динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

Предложенные В.Ю. Будковым методы и программные средства автоматической обработки речевых потоков данных, а также их практическая реализация в экспериментальном образце автоматического анализа, распознавания и диаризации разговорной русской речи были использованы при моделировании внеязыковых явлений русской разговорной речи. Комплекс программных средств, обеспечивающий цифровую обработку речевых сигналов, формирование параметрического представления и визуализацию стационарных участков речи по частоте основного тона и энергии сегмента, позволил сформулировать систему эвристических правил, позволяющих произвести сегментацию хезитаций в сигнале с записями спонтанной русской речи.

Заведующий кафедрой фонетики и методики преподавания иностранных языков д.ф.н, профессор

и.о. заведующей лабораторией экспериментальной фонетики к.ф.н., доцент

П.А. Скрелин

К.В. Евграфова

Член научной комиссии филологического факультета к.ф.н., доцент

Д.А. Кочаров

12.04.2013

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.