Математическое и программное обеспечение систем общения на упрощенном естественном языке

Яснев, Михаил Игоревич

Математическое и программное обеспечение систем общения на упрощенном естественном языке тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Яснев, Михаил Игоревич

Яснев, Михаил Игоревич
кандидат технических наук
2010

Специальность ВАК РФ05.13.11

Количество страниц 129

Яснев, Михаил Игоревич. Математическое и программное обеспечение систем общения на упрощенном естественном языке: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2010. 129 с.

Оглавление диссертации кандидат технических наук Яснев, Михаил Игоревич

Введение.

Глава 1. Анализ подходов к созданию систем общения на естественном языке.

1.1 Основные проблемы.

1.2. Обзор подходов к созданию систем общения.

1.3. Обзор систем распознавания речи.

1.4. Обзор систем генерации речи.

1.5. Современные системы общения на упрощенном естественном языке.

1.6. Обзор современных систем общения в коммерческих продуктах.

1.7. Особенности создания систем общения для автомобильных бортовых компьютера с учетом шумов.

1.8. Экспериментальная проверка влияния шумов на распознавание речи в автомобиле.

Выводы по главе 1.

Глава 2. Формальное представление системы общения.

2.1. Формальное представление приложения Voice XML.

2.2. Расширение приложений Voice XML.

2.3. Обеспечение совместимости со стандартом Voice XML.

2.4. Пр оцесс общения.

2.5. Функция определения схожести звучания.

2.6. Обеспечение работы системы в реальном времени.

2.7. Тестирование и оценка эффективности системы общения.46

Выводы по главе 2.

Глава 3. Использование крупномасштабной базы знаний.

3.1 Обработка семантики в системах общения.

3.2 Определение необходимой структуры базы знаний.

3.3 Разработка формальной модели базы знаний OMCS.

3.4 Особенности применения разработанной формальной модели OMCS к проблемам организации диалогов.

3.5 Фокус диалога и его обработка на основе модели OMCS.

3.6 Проблема учета глобальных данных и персональных предпочтений.

3.7 Модели Voice XML, VSOO и база знаний OMCS.

3.8 Метод ввода значения нечеткой переменной.

3 .9 Метод создания профиля пользователя.

3.10 Представление основных типов вопросов для ввода информации.

3.11 Метод идентификации объекта с использованием набора связанных критериев поиска и персонализации.:.

3.12 Оценка эффективности предложенных методов.

Выводы по главе 3.

4.1 Программный комплекс для разработки систем общения на упрощенном естественном языке.

4.2 Программный продукт «Talk and Drive».

4.3 Особенности реализации переключения фокуса между приложениями в «Talk and Drive».

4.4 Вывод информации в продукте «Talk and Drive».

4.5 Использование предложенных методов в приложении «Коммуникатор» в корпоративной системе ЗАО «Таркетт Рус».

Выводы по главе 4.

Введение диссертации (часть автореферата) на тему «Математическое и программное обеспечение систем общения на упрощенном естественном языке»

Актуальность темы исследований V

В связи с широким распространением персональных компьютеров и мобильных устройств сильно возросла роль приложений с поддержкой голосового интерфейса. Голосовой интерфейс на упрощенном естественном языке делает приложения доступнее для неподготовленных пользователей В случае компактных мобильных устройств, таких как смартфон и Pocket PC, голосовой интерфейс является наиболее удобным и эффективным из-за малых размеров стилуса, клавиатуры и других средств ввода информации.

Также существует ряд приложений, в которых голосовой интерфейс является единственной альтернативой ввода данных (центры обработки вызовов, IP-телефония) или наиболее предпочтителен (например, бортовой компьютер автомобилей).

Точность распознавания слитной дикторозависимой речи, которая обеспечивается современными промышленными системами, достигает 99% (например, лучшие показатели дает система Dragon Naturally Speaking 10.0). Но существующие стандарты, такие как Voice XML и SAPI, не допускают прямого использования многих возможностей естественного языка для управления приложениями. Диалоги, которые допустимо создавать при помощи этих интерфейсов, являются жестко фиксированными и не передают гибкость естественного языка.

Поэтому в последнее время одной из наиболее актуальных являются проблемы связи семантического уровня с распознавателями речи и упрощение разработки приложений с голосовым интерфейсом. При реализации новых подходов к созданию систем общения необходимо учитывать наличие множества функционирующих в настоящее время приложений на основе стандарта Voice XML и обеспечить совместимость с ними.

Цель работы и задачи исследования

Целью работы является повышение эффективности процесса разработки систем общения с голосовым интерфейсом, обеспечение возможности реализовывать диалоги на упрощенном естественном языке. Для достижения поставленной цели в диссертационной работе были решены следующие задачи:

1. Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием OMCS.

5. Разработан программный комплекс для создания систем общения на упрощенном естественном языке.

Методы исследований

Для решения поставленных задач используются обобщенная теория неопределенности. Реализация разработанных методов проводилась с использованием методов объектно-ориентированного и компонентно-ориентированного программирования.

Научная новизна

Научная новизна работы состоит в следующем:

1. Разработана математическая модель расширенных голосовых приложений на основе стандарта Voice XML, позволяющая приближать общение системы с пользователями к естественному и работать в режиме реального времени.

2. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

3. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд пользователя с использованием крупномасштабной базы знаний OMCS.

4. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев и персонализации- Данный метод позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой- в процессе поиска к естественному общению. В основе разработанного метода лежит использование обобщенной теории неопределенности.

Обоснованность и достоверность научных положений и основных результатов диссертации достигается путем тестирования эффективности предложенных методов в составе разработанного программного продукта на основе общепринятой методики Paradise, проведения экспериментов по влиянию шумов на процесс распознавания.

Практическая ценность работы

Разработанный метод расширения систем общения с использованием знаний из базы OMCS применим к большому числу систем за исключением узкоспециализированных (например, экспертные юридические или медицинские системы), т.к. база содержит общие знания, используемые в диалогах в большинстве предметных областей. Метод был реализован в виде компонента и может быть использован в качестве специализированного интерфейса к OMCS для разработчика системы общения.

Поскольку задача поиска объектов возникает при разработке любой системы общения, т.к. для интерфейса на упрощенном естественном языке поиск является основной операцией, предшествующей их дальнейшей обработке, предложенный в работе метод поиска объекта с использованием ряда критериев и персонализации полезен для систем, которые включают задачи многокритериального поиска объекта на множестве из более, чем 1000 элементов.

Реализация результатов работы

Полученные теоретические результаты были использованы для разработки программного продукта «Talk and Drive» компании Ambient Voice Technologies, представляющего собой голосовой интерфейс системы общения на упрощенном естественном языке для бортового компьютера автомобиля.

Разработанные методы были использованы для экспериментальной разработки редактора бизнес-процессов в корпоративной информационной системе компании ЗАО «Таркетт Рус». Использование конструкций упрощенного естественного языка позволило реализовать гибкую систему управления бизнес-процессами с настройками конечными пользователями без участия разработчика.

Апробация результатов работы

Основные положения были представлены на Первой Международной конференции "Системный анализ и информационные технологии" САИТ-2005 (ИСА РАН, 2005), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», конференции «Научная сессия МИФИ 2005».

Работа обсуждалась на научных семинарах кафедр«Персональные компьютеры и сети» и «Автоматизированные системы управления и информационные технологии» в Московском государственном университете приборостроения и информатики.

Программный продукт «Talk and Drive» прошел конкурсный отбор и был представлен на Первом молодежном инновационном конвенте 2008, проведенном Администрацией Президента в декабре 2008 года, а также на форуме «Интеллектуальная собственность BAO г. Москвы» в ноябре 2008 г.

Публикации

Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах, в т.ч. статья в журнале, входящем в перечень ВАК российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук.

Структура и объем работы

Диссертация объемом 130 машинописных страниц содержит введение, 4 главы и заключение, список литературы (103 наименований).

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Яснев, Михаил Игоревич

1. Основные результаты диссертационной работы Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием крупномасштабной базы знаний OMCS.

5. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев. Данный метод основан на обобщенной теории нечеткости и использует персонал изацию. Он позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению.

6. Разработан программный комплекс для создания систем общения на упрощенном естественном языке. Данный комплекс был использован в процессе создания программного продукта «Talk and Drive», обеспечивающего голосовой интерфейс к информационной системе бортового компьютера автомобиля

Заключение

Создание интерфейсов пользователя в виде систем общения на упрощенном естественном языке является одной из наиболее сложных и актуальных задач в развитии современных информационных технологий. Существующие наработки в этой области позволяют быстро и эффективно создавать системы общения на основе небольшого ограниченного набора команд. Но реализуемые в таких системах диалоги очень далеки от процесса естественного общения.

В работе детально рассмотрены недостатки единственного на данный момент общепринятого промышленного стандарта разработки приложений с голосовым интерфейсом - Voice XML и предложена схема расширения стандартных приложений. Данные расширения; могут быть реализованы как в рамках модели Voice XML, так и в расширенном сервере исполнения голосовых приложений, совместимым с унаследованными приложениями.

Расширение приложений в сторону повышения способов описания одних и тех же действий позволяет приблизить общение к естественному, представить пользователю множество вариантов решения текущей задачи, восстановить диалог после сбоя и избавить его от необходимости заучивания поддерживаемого набора команд.

Обеспечение системы общения возможностью работы в реальном времени позволяет организовать взаимодействие набора приложений с учетом необходимости их активации в зависимости от событий в окружающем мире. Среда исполнения предоставляет механизмы для смены темы диалога и возможность возврата к прерванному диалогу.

В работе представлена разработанная модель приложений Voice XML и расширенных приложений Voice XML, которые позволяют обеспечить дополнительные возможности пользователю и приблизить диалоги с компьютером к естественному общению. Особое внимание в работе уделено проблемам совместимости и работоспособности предложенных методов с учетом особенностей современных технологий и имеющихся ограничений, как фундаментальных теоретических, так и технологических.

Научную новизну работы составляет метод расширения базы знаний приложения о предметной области путем импорта знаний из крупномасштабной базы знаний Open Mind Common Sense. Данный эксперимент является первым упоминанием подобного применения базы знаний для повышения эффективности систем общения, основанных на стандарте Традиционно данная база использовалась для повышения эффективности поисковых систем. Для работы с базой OMCS была разработана математическая модель, описывающая основные категории OMCS и допустимые функции обработки знаний из OMCS.

Существенную практическую ценность представляет метод организации диалога для поиска объекта по набору связанных критериев с применением персонализации и выделения множества наиболее значимых объектов. Особенностью метода является сопоставление дерева решений задачи поиска доступным средствам языка общения. Персонализация и множество наиболее значимых объектов используются для уменьшения среднего числа итераций в диалогах поиска и, как следствие, ускорения процесса поиска в целом.

Представляет научную ценность метод указания в диалоге значения I нечеткой переменной при помощи математического аппарата обобщенной

4 теории неопределенности. Данная теория была разработана JI. Задэ в качестве обобщения нечеткой логики и как средство для обработки фраз на естественном языке.

В отличие от традиционной нечеткой логики обобщенная теория неопределенности использует комбинирование математических аппаратов с целью повышения гибкости создаваемых описаний нечетких переменных

I и отношений их принадлежности нечетким множествам. Помимо традиционных размытых интервалов значений допускается дополнительное поясняющее определение переменной на основе дискретного множества степеней уверенности, статистики или другого математического аппарата.

На основе предложенных методов был разработан программный комплекс для автоматизации процесса создания систем общения. Он состоит из набора утилит и процесса разработки и тестирования приложения. Данный комплекс был использован в ходе разработки двух программных продуктов.

Программный продукт «Talk and Drive» использует большинство методов, предложенных в работе. По своим возможностям он в настоящий момент превосходит все коммерческие системы голосовых интерфейсов для бортовых компьютеров автомобилей.

Программный продукт «Коммуникатор» использует голосовой интерфейс на базе созданного программного комплекса. Серверная составляющая продукта применяет метод поиска для обработки слабоструктурированной информации о контактах из унаследованных систем.

Разработанные методы могут быть использованы и в других предметных областях, не связанных с голосовым интерфейсом, но использующие математический аппарат обобщенной теории неопределенности для решения переборных задач и задач семантического анализа фраз на естественном языке без ведения диалога.

Кроме того, метод поиска объекта, который был разработан для проведения ведения диалогов поиска, в настоящее время применяется в ходе разработки программного обеспечения для решения задачи оптимальной загрузки множества грузовых автомобилей.

Список литературы диссертационного исследования кандидат технических наук Яснев, Михаил Игоревич, 2010 год

1. Попов Э.В. Общение с ЭВМ на естественном языке. М.УРСС, 1982.

2. Voice Extensible Markup Language (VoiceXML) 2.1. http ://www. w3. org/TR/voicexml21 /

3. J. Frankel, M. Magimai-Doss, S. King, K. Livescu and O. Cetin, "Articulatory Feature Classifiers Trained on 2000 hours of Telephone Speech", Proc. Interspeech, Antwerp, Belgium, August 2007.

4. J. Glass, T. J. Hazen, S. Cyphers, I. Malioutov, D. Huynh, and R. Barzilay, "Recent Progress in the MIT Spoken Lecture Processing Project", Proc. Interspeech, Antwerp, Belgium, August 2007.

5. M. Hasegawa, K. Livescu, P. Lai, and K. Saenko, "Audiovisual Speech Recognition with Articulator Positions as Hidden Variables", Proc. InternationalCongressofPhoneticSciences, Saarbruecken, Germany, August 2007.

6. T. J. Hazen and E. McDermott, "Discriminative MCE-Based Speaker Adaptation of Acoustic Models for a Spoken Lecture Processing Task", Proc. Interspeech, Antwerp, Belgium, August 2007.

7. I. Hetherington, "PocketSUMMIT: Small-Footprint Continuous Speech Recognition", Proc. Interspeech, Antwerp, Belgium, August 2007.

8. I. L. Hetherington, H. Shu, and J. Glass, "Flexible Multi-Stream Framework for Speech Recognition Using Multi-Tape Finite-State Transducers," Proc. ICASSP 2006, Toulouse, France, May 2006.

9. B. Hsu and J. Glass, "Style & Topic Language Model Adaptation Using HMM-LDA," Proc. EMNLP, Sydney, Australia, July 2006.

10. G. Choueiter, D. Povey, S.F. Chen, and G. Zweig, "Morpheme-Based Language Modeling for Arabic LVCSR," Proc. ICASSP 2006, Toulouse, France, May 2006.

11. G. Choueiter, S. Seneff, and J. Glass, "New Word Acquisition Using Subword Modeling", Proc. Interspeech, Antwerp, Belgium, August 2007.

12. T. J. Hazen, "Automatic Alignment and Error Correction of Human-Generated Transcripts for Long Speech Recordings," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

13. J. Lee, M. Zhou, and X. Liu, "Detection of Non-native Sentences using Machine-translated Training Data", Proc. HLT-NAACL (ShortPapers), Rochester, NY, April 2007.

14. A. Park and J. Glass, "A Novel DTW-based Distance Measure for Speaker Segmentation," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Araba, December 2006.

15. A. Park and J. Glass, "Unsupervised Word Acquisition from Speech Using Pattern Discovery," Proc. ICASSP 2006, Toulouse, France, May 2006.

16. K. Saenko and K. Livescu, "An Asynchronous DBN for Audio-Visual Speech Recognition," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Aruba, December 2006.

17. N. Singh-Miller, M. Collins, and T. J. Hazen, "Dimensionality Reduction for Speech Recognition Using Neighborhood Components Analysis", Proc. Interspeech, Antwerp, Belgium, August 2007.

18. G. Sun, X. Liu, G. Cong, M. Zhou, Z. Xiong, J. Lee, and C. Lin, "Detecting Erroneous Sentences using Automatically Mined Sequential Patterns", Proc. ACL, Prague, CzechRepublic, June 2007.

19. N. Dehak, P. Kenny, R. Dehak, P. Ouellet, and P. Dumouchel, "FrontEnd Factor Analysis for Speaker Verification," Accepted to IEEE Transactions on Audio, Speech and Language Processing.

20. N. Dehak, R. Dehak, J. Glass, D. Reynolds, and P. Kenny, "Cosine Similarity Scoring without Score Normalization Techniques," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

21. S. Shnm, N. Dehak, R. Dehak, and J. Glass, "Unsupervised Speaker Adaptation Based on the Cosine Similarity for Text-Independent Speaker Verification," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

22. Y. Zhang and J. Glass, "Towards Multi-Speaker Unsupervised Speech Pattern Discovery," Proc. ICASSP, pp. 4366-4369, Dallas, Texas, United States, March 2010.

23. Y. Zhang, and J. Glass, "Unsupervised Spoken Keyword Spotting via Segmental DTW on Gaussian Posteriorgrams," Proc. ASRU, Merano, Italy, December 2009.

24. B. Hsu and J. Glass, "Language Model Parameter Estimation Using User Transcriptions," Proc. ICASSP, Taipei, Taiwan, April 2009.

25. Y. Zhang and J. Glass, "Speech Rhythm Guided Syllable Nuclei Detection," Proc. ICASSP, Taipei, Taiwan, April 2009.

26. D. Kanevsky, T. N. Sainath, and B. Ramabhadran, "A Generalized Family of Parameter Estimation Techniques," Proc. ICASSP, Taipei, Taiwan, April 2009.

27. J. Ming, T. J. Hazen, and J. Glass, "Combining Missing-Feature Theory, Speech Enhancement and Speaker-DependentZ-Independent Modeling for Speech Separation," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

28. T. Sainath, V. Zue, and D. Kanevsky, "Audio Classification using the Extended Baum-Welch Transformations", Proc. Interspeech, Antwerp, Belgium, August 2007.

29. T. Sainath, D. Kanevsky, and G. Iyengar, "Unsupervised Audio Segmentation Using Extended Baum-Welch Transformations", Proc. ICASSP, Honolulu, Hawaii, April 2007.

30. T. N. Sainath and T. J. Hazen, "A Sinusoidal Model Approach to Acoustic Landmark Detection and Segmentation for Robust Segment

31. Based Speech Recognition," Proc. ICASSP 2006, Toulouse, France, May 2006.

32. D. Kanevsky, T. N. Sainath, B. Ramabhadran, and D. Nahamoo, "Generalization of Extended Baum-Welch Parameter Estimation for Discriminative Training and Decoding," Proc. Interspeech, Brisbane, Australia, September 2008.

33. Y. Wang, A. Acero, M. Mahajan, and J. Lee, "Combining Statistical and Knowledge-Based Spoken Language Understanding in Conditional Models," Proc. COLING/ACL, Sydney, Australia, July 2006.

34. B. Hsu and J. Glass, "N-gram Weighting: Reducing Training Data Mismatch in Cross-Domain Language Model Estimation," Proc. EMNLP, Honolulu, Hawaii, USA, October 2008.

35. B. Hsu and J. Glass, "Iterative Language Model Estimation: Efficient Data Structure & Algorithms," Proc. Interspeech, Brisbane, Australia, September 2008.

36. Learning to use the CMU SPHINX Automatic Speech Recognition system http://www.speech.cs.cmu.edu/sphinx/tutorial.htmL

37. Sphinx-4: A Flexible Open Source Framework for Speech Recognition https://research.sun.com/techrep/2004/smlitr-2004-139.pdf

38. M. Peabody, and S. Seneff, "Towards Automatic Tone Correction in Non-native Mandarin," Proc. 5th International Symposium on Chinese Spoken Language Processing (ISCSLP), Kent Ridge, Singapore, December 2006.

39. A. Gruenstein and S. Seneff, "Releasing a Multimodal Dialogue System into the Wild: User Support Mechanisms", Proc. of the 8th SIGdial Workshop on Discourse and Dialogue, Antwerp, Belgium, pp. 111-119, September 2007.

40. A. Correa, M. Walter, L. Fletcher, J. Glass, S. Teller, and R. Davis, "Multimodal Interaction with an Autonomous Forklift," Proc. ACM/IEEE International Conference on Human-Robot Interaction (HRI), pp.„243-250, Osaka, Japan, March 2010.

41. J. Liu, S. Seneff, and V. Zue, "Dialogue-Oriented Review Summary Generation for Spoken Dialogue Recommendation Systems," Proc. NAACL-HLT, Los Angeles, California, United States, March 2010.

42. T. N. Sainath, "Island-Driven Search Using Broad Phonetic Classes," Proc. ASRU, Merano, Italy, December 2009.

43. J. Liu, Y. Xu, S. Seneff, and V. Zue, "CityBrowser II: A Multimodal Restaurant Guide in Mandarin," Proc. ISCSLP, Kunming, China, December 2008.

44. Y. Xu and S. Seneff, "Mandarin Learning Using Speech and Language Technologies: A Translation Game in the Travel Domain," Proc. ISCSLP, Kunming, China, December 2008.

45. Y. Xu, J. Liu, and S. Seneff, "Mandarin Language Understanding in Dialogue Context," Proc. ISCSLP, Kunming, China, December 2008. .

46. A. Gruenstein, "Response-Based Confidence Annotation for Spoken Dialogue Systems", Proc. of SIGdial Workshop on Discourse and Dialogue, Columbus, Ohio, USA, June 2008.

47. T. J. Hazen, B. Sherry, and M. Adler, "Speech-Based Annotation and Retrieval of Digital Photographs", Proc. Interspeech, Antwerp, Belgium, August 2007.

48. J. Ming, T. J. Hazen, and J. Glass, "Speaker Verification Over Handheld Devices with Realistic Noisy Speech Data," Proc. ICASSP 2006, Toulouse, France, May 2006.

49. J. Polifroni, I. Kiss, S. Seneff, "Speech for Content Creation," Proc. SiMPE, Lisbon, Portugal, September 2010.

50. A. Gruenstein, I. McGraw, and I. Badr, "The WAMI Toolkit for Developing, Deploying, and Evaluating Web-Accessible Multimodal Interfaces," Proc. ICMI, Chania, Crete, Greece, October 2008.

51. A. Gruenstein, B. Hsu, J. Glass, S. Seneff, I. Hetherington, S. Cyphers, I. Badr, C. Wang, and S. Liu, "A Multimodal Home Entertainment Interface via a Mobile Device", Proc. of ACL Workshop on Mobile Language Processing, Columbus, Ohio, USA, June 2008.

52. T. J. Hazen and D. Schultz, "Multi-Modal User Authentication from Video for Mobile or Variable-Environment Applications," Proc. Interspeech, Antwerp, Belgium, August 2007.

53. E. Filisko and S. Seneff, "Learning Decision Models in Spoken Dialogue Systems via User Simulation," Proc. AAA! Workshop on Statistical and Empirical Approaches for Spoken Dialog Systems, Boston, Massachusetts, July 2006.

54. A. Gruenstein and S. Seneff, "Context-Sensitive Language Modeling for Large Sets of Proper Nouns in Multimodal Dialogue Systems," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Aruba, December 2006.

55. A. Gruenstein, S. Seneff, and C. Wang, "Scalable and Portable Web-Based Multimodal Dialogue Interaction with Geographical Database," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

56. Т. Hori, I. L. Hetherington, T. J. Hazen, and J. Glass, "Open-Vocabulary Spoken Utterance Retrieval Using Confusion Networks", Proc. ICASSP, Honolulu, Hawaii, April 2007.

57. C. Wang, M. Collins, and P. Koehn, "Chinese Syntactic Reordering for Statistical Machine Translation", Proc. EMNLP, Prague, CzechRepublic, June 2007.

58. R. Zbib, S. Matsoukas, R. Schwartz, and J. Makhoul, "Decision Trees for Lexical Smoothing in Statistical Machine Translation," Proc. ACL Joint 5th Workshop on Statistical Machine Translation, Uppsala, Sweden, July 2010.

59. Y. Xu and S. Seneff, "Two-Stage Translation: A Combined Linguistic and Statistical Machine Translation Framework," Proc. AMTA, Waikiki, Hawaii, USA, October 2008.

60. A. Gruenstein, J. Orszulak, S. Liu, S. Roberts, J. Zabel, B. Reimer, B. Mehler, S. Seneff, J. Glass, J. Coughlin, "City Browser: Developing a Conversational Automotive HMI," Proc. СШ, 4291-4296, Boston, April 2009.

61. Осипов Г.С. Построение' моделей предметных областей. Неоднородные семантические сети // Изв. АН СССР, техн. кибернетика, 1990. №5.

62. Падучева Е.В. Динамические модели в семантике лексики. М.: Языки славянской культуры, 2004, 607 с.

63. Падучева Е.В. О семантике синтаксиса. Материалы к трансформационной грамматике русского языка М.: Наука, 291с.

64. Падучева Е.В. Обратная теорема: алгоритмические и эвристические процессы мышления (в соавторстве с Т.Д.Корельской). М.: Знание, 1978.

65. Изольда Валерьевна Ли. Разработка методов представления и обработки естественного языка для представления проблемно-ориентированных систем автоматического понимания речи.

66. Санкт-Петербургский институт информатики и автоматизации Российской академии наук, 2004 г.

67. Linguatronic Product-Level Speech System for Mercedes-Benz Cars. http://acl.ldc.upenn.edn/H/H01/H01-1047.pdf

68. Mercedes COMAND Frequently Asked Questions (FAQ) http ://www.mercup grades. com/COMAND+FAQ-faq-1 .html

69. Road test: Mercedes-benz C-class http://classified.independent.co.uk/cars/article2452893.ece

70. The Future of Voice Arrives http://www.voicebox.com/technology/index.php

71. K. Livescu, B. Zhu, and J. Glass, "On the Phonetic Information in Ultrasonic Microphone Signals," Proc. ICASSP, Taipei, Taiwan, April 2009.

72. K. Livescu, A. Bezman, N. Borges, L. Yung, O. Cetin, J. Frankel, S. King, M. Magimai-Doss, X. Chi, and L. Lavoie, "Manual Transcription of Conversational Speech at the Articulatory Feature Level", Proc. ICASSP, Honolulu, Hawaii, April 2007.

73. R. Rifkin, K. Schutte, M. Saad, J. Bouvrie, and J. Glass, "Noise Robust Phonetic Classification with Linear Regularized Least Squares and Second-Order Features", Proc. ICASSP, Honolulu, Hawaii, April 2007.

74. M. Senoussaoui, P. Kenny, N. Dehak, and P. Dumouchel, "An i-Vector Extractor Suitable for Speaker Recognition with Both

75. Microphone and Telephone Speech," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

76. T. N. Sainath and V. Zue, "A Comparison of Broad Phonetic and Acoustic Units for Noise Robust Segment-Based Speech Recognition," Proc. Interspeech, Brisbane, Australia, September 2008.

77. B. Hsu and J. Glass, "Spoken Correction for Chinese Text Entry," Proc. 5th International Symposium on Chinese Spoken Language Processing (ISCSLP), Kent Ridge, Singapore, December 2006.

78. J. Lee and S. Seneff, "Automatic Generation of Cloze Items for Prepositions", Proc. Interspeech, Antwerp, Belgium, August 2007.

79. J. Lee, "A Computational Model of Text Reuse in Ancient Literary Texts", Proc. ACL, Prague, CzechRepublic, June 2007.

80. J. Lee and S. Seneff, "Automatic Grammar Correction for Second-Language Learners," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

81. McGraw, B. Yoshimoto, and S. Seneff, "Speech-enabled Card Games for Incidental Vocabulary Acquisition in a Foreign Language," Speech Communication 2008.

82. J. Lee and S. Seneff, "Correcting Misuse of Verb Forms," Proc. ACL, Columbus, Ohio, USA, June 2008.

83. Пенроуз P. НОВЫЙ УМ КОРОЛЯ. О компьютерах, мышлении и законах физики. Серия "Синергетика: от прошлого к будущему". Перевод с англ. Изд.З. М.: Синергетика, 2008.

84. Лакофф Дж. Джонсон М. Метаформы, которыми мы живем. Пер. с англ. Изд 2. М. УРСС, 2008.

85. Наумов В.В. Лингвистическая идентификация личности. М.: Синергетика, 2010.

86. Поппер К.Р. Объективное знание: Эволюционный подход. Пер. с англ. М.: УРСС, 2010.

87. C. Cliao, S. Seneff, and C. Wang, "An Interactive Interpretation Game for Learning Chinese", to be presented at Speech and Language Technology in Education (SLaTE) Workshop, Farmington, Pennsylvania, October 2007.

88. S. Seneff, "Web-based Dialogue and Translation Games for Spoken Language Learning", to be presented at Speech and Language Technology in Education (SLaTE) Workshop, Farmington, Pennsylvania, October 2007.

89. S. Seneff, C. Wang, and C. Chao, "Spoken Dialogue Systems for Language Learning", Proc. HLT-NAACL, Rochester, NY, April 2007.

90. C. Wang and S. Seneff, "A Spoken Translation Game for Second Language Learning", Proc. AIED, Marina delRey, California, July 2007.

91. C. Wang and S. Seneff, "Automatic Assessment of Student Translations for Foreign Language Tutoring", Proc. HLT-NAACL, Rochester, NY, April 2007.

92. C. Wang and S. Seneff, "High-Quality Speech Translation in the Flight Domain," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

93. McGraw, C. Lee, L. Hetherington, S. Seneff, and J. Glass, "Collecting Voices from the Cloud," Proc. LREC, Malta.

94. Y. Xu and S. Seneff, "Speech-Based Interactive Games for Language Learning: Reading, Translation, and Question-Answering," International Journal of Computational Linguistics and Chinese Language Processing, vol. 14, no. 2 (2009).130 — I.

95. McGraw, A. Gruenstein, and A. Sutherland, "A Self-Labeling Speech Corpus: Collecting Spoken Words with an Online Educational Game," Proc. Interspeech, Brighton, UK, September 2009.

96. M. Peabody and S. Seneff, "Annotation and Features of Non-native Mandarin Tone Quality," Proc. Interspeech, Brighton, UK, September 2009.

97. A. Gruenstein, I. McGraw, and A. Sutherland, "A Self-Transcribing Speech Corpus: Collecting Continuous Speech with an Online Educational Game," Proc. SIGSLaTe, Warwickshire, England, September 2009.

98. B. Yoshimoto, I. McGraw, and S. Seneff, "Rainbow Rummy: A Web-based Game for Vocabulary Acquisition using Computer-directed Speech," Proc. SIGSLaTe, Warwickshire, England, September 2009.

99. Y. Xu, A. Goldie, and S. Seneff, "Automatic Question Generation and Answer Judging: A Q&A Game for Language Learning," Proc. SIGSLaTE, Warwickshire, England, September 2009.

100. J. Liu and S. Seneff, "Review Sentiment Scoring via a Parse-and-Paraphrase Paradigm," Proc. EMNLP, Singapore, August 2009.

101. J. Lee and S. Seneff, "An Analysis of Grammatical Errors in Non-Native Speech in English," Proc. Spoken Language Technology Workshop, Goa, India, December 2008.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Яснев, Михаил Игоревич

Система интерактивного речевого самообслуживания с распределенными ресурсами2008 год, кандидат технических наук Трощенко, Алексей Юрьевич

Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич

Введение диссертации (часть автореферата) на тему «Математическое и программное обеспечение систем общения на упрощенном естественном языке»

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Речевые технологии в автоматизированных системах массового обслуживания2012 год, доктор технических наук Фархадов, Маис Паша оглы

Совершенствование управления в социальных коммуникативных системах на основе электронных изданий1999 год, доктор технических наук Агеев, Владимир Николаевич

Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Яснев, Михаил Игоревич

Список литературы диссертационного исследования кандидат технических наук Яснев, Михаил Игоревич, 2010 год