Моделирование процессов понимания речи с использованием латентно-семантического анализа тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Соловьев, Алексей Николаевич
- Специальность ВАК РФ10.02.21
- Количество страниц 165
Оглавление диссертации кандидат филологических наук Соловьев, Алексей Николаевич
Введение.
Глава 1. Предварительные определения и замечания.
1.1. Эмпирический и рационалистический подходы к моделированию понимания.
1.2. Определение основных понятий, необходимых для построения модели понимания.
1.2.1. Язык и речь.
1.2.2. Коммуникация.
1.2.3. Код.
1.2.4. Информация.
1.3. Некоторые обоснования возникновения языка, фило- и онтогенез.
1.4. Роль правого и левого полушарий в речевосприятии.
1.5. Понимание речи.
1.5.1. Семиотические аспекты понимания.
1.5.2. Лингвистические аспекты понимания.
1.5.3. Нейрофизиологические аспекты понимания.
1.5.4. Определение понимания речи для моделирования процессов понимания.
1.6. Знание и понимание.
1.7. Предварительные выводы.
Глава 2. Обзор моделей, используемых в современных автоматических системах понимания речи.
2.1. Вероятностные модели понимания.
2.1.1. N-граммные модели или модели на НММ.
2.1.2. Модели, основанные на деревьях решений.
2.2. Фреймовые модели понимания.
2.3. Модели, основанные на теории формальных языков.
2.4. Другие языковые модели понимания.
2.4.1. Топологическая модель Р.Тома.
2.4.2. Нейросетевые модели.
2.4.3. Ситуационные модели.
2.5. Краткая классификация моделей понимания.
Глава 3. Выбор, анализ и обоснование метода моделирования.
3.1. Обзор методов и алгоритмов классификации / кластеризации текстов
3.1.1. STC.
3.1.2. Scatter/Gather.
3.1.3. Алгоритм K-means.
3.1.4. SOM.
3.1.5. LSA/LSI.
3.2. Обоснование выбора метода моделирования.
Глава 4. Латентно-семантический анализ и сферы его применения.
4.1. Описание работы JICA.
4.2. Области применения JICA.
4.2.1. Рубрикация текстов (Тематическая классификация и кластеризация документов).
4.2.2. Индексация текстовых корпусов, системы поиска.
4.2.3. Анализ связности дискурса и когерентности текста.
4.2.4. Представление и проверка знаний.
4.2.5. Использование JICA в когнитивных моделях, понимание текста.
Глава 5. Модель первичного анализа понимания речи.
5.1. Общее описание модели.
5.2. Программное обеспечение, использовавшееся для исследований JICA, и этапы исследования.
5.3. Материал для тестирования.
5.4. Подготовка базы.
5.4.1. Сегментация текста на термы.
5.4.2. Расчет весовых функций.
5.4.3. Определение тематик документов.
5.4.4. Выбор порога для сингулярных элементов диагональной матрицы при SVD-анализе.
5.4.5. Выбор критерия ограничения величины весовых функций при получении ассоциативного словаря.
5.5. Результаты тестирования на базе русской речи.
5.5.1. Векторный метод.
5.5.2. SVD-анализ.
Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Акцентогенные свойства слова: На материале уст. науч. речи1995 год, доктор филологических наук Скорикова, Татьяна Петровна
Теоретические основы, методы и алгоритмы формирования знаний о синонимии для задач анализа и сжатия текстовой информации2012 год, доктор физико-математических наук Михайлов, Дмитрий Владимирович
Моделирование механизмов понимания поликодовых текстов2006 год, доктор филологических наук Сонин, Александр Геннадиевич
Математические модели и комплекс программ для автоматической оценки качества речевого сигнала2002 год, кандидат технических наук Николаев, Алексей Николаевич
Введение диссертации (часть автореферата) на тему «Моделирование процессов понимания речи с использованием латентно-семантического анализа»
Современные системы автоматического распознавания речи, как правило, содержат два уровня обработки входящего сигнала: нижний уровень, на котором распознаются акустические события, поступившие на вход системы, и верхний уровень, на вход которого с нижнего уровня распознавания поступают цепочки сформированных слов или словоформ. Для второго уровня предполагается, что уже пройдена так называемая точка распознавания слова (word recognition point) и входящий сигнал в общем случае представляет собой матрицу словоформ с соответствующими коэффициентами вероятности распознавания. Из множества предложенных вариантов обычно выбираются словоформы или полученные из них фразы, имеющие наибольшую суммарную вероятность. После этого фразы поступают на вход грамматического и синтаксического анализатора1, где отбрасываются некорректные комбинации словоформ. На этом процесс распознавания, как правило, заканчивается. Процесс понимания конечного варианта автоматически выбранной системой фразы остается задачей воспринимающего ее субъекта - человека.
В некоторых системах автоматического понимания используют дополнительные модули: лексический и семантический. Лексический модуль ориентирован на поиск ключевых слов в распознанной фразе и соотнесение фразы с заранее заданной ситуацией. Семантический модуль исследует
1 Под грамматическим анализатором и в целом под грамматикой в речевых технологиях, как и в некоторых других областях, связанных с исследованиями процессов понимания и восприятия речи, подразумевается ее морфологическая часть: словообразование и словоизменение или флексия (склонение, спряжение). структуру входящей фразы, отношение между распознанными словоформами. Его задача сформировать «семантический пакет», состоящий из действия, объекта, его качества, места действия и семантического значения как для каждой словоформы, так иногда и для фразы в целом.
Но даже в случаях применения дополнительных модулей, конечный результат их работы — извлечение смысла из цепочки распознанных акустических событий — является разным. В одном случае это набор ключевых словоформ и соответствующих им, наперед заданных ситуаций, в другом - преобразование предложений, словоформ или слов по определенным трансформационным правилам в логические структуры (цепочки символов), с заранее заданными возможными связями (валентностями).
В связи с этим возникает ряд вопросов, ответы на которые становятся все более актуальными в условиях дальнейшего развития систем автоматического распознавания и понимания речи:
• Как происходит процесс понимания речи, каковы его механизмы?
• Каков должен быть результат работы процесса понимания?
• Как при моделировании верхнего уровня систем распознавания и понимания речи можно учитывать его влияние на нижний уровень?
Актуальность проблемы
Актуальность выбранной темы исследования обусловлена не только необходимостью создания высококачественных систем автоматического понимания речи человека, но, прежде всего, отсутствием достаточно ясного представления, как происходит процесс понимания, как его можно моделировать. Решение проблем, связанных с моделированием когнитивных процессов, должно опираться не только на лингвистические методы, но и учитывать опыт нейролингвистических исследований в этой области. Поэтому актуальность данной работы определяется еще и необходимостью преодоления лингвистических рамок и достижения более глубокого осмысления процессов понимания речи, с целью их дальнейшего моделирования.
Цель работы и задачи исследования
Настоящая работа посвящена вопросам понимания в процессах речевой деятельности человека. Основная цель исследования — определение механизмов понимания речи с учетом существующих на сегодняшний день экспериментальных результатов по изучению восприятия речи мозгом человека и его дальнейшего использования для моделирования систем понимания.
В ходе работы решались следующие задачи:
1. С целью описания работы механизмов понимания речи изучить и представить результаты современных нейрофизиологических исследований восприятия речи мозгом человека; на их основе сформулировать гипотезу работы механизмов понимания.
2. Дать определение механизмов понимания речи с точки зрения возможности их дальнейшего моделирования.
3. На основе определения механизмов понимания речи описать модель понимания речи, определить ее основные характеристики.
4. Рассмотреть методы и алгоритмы, которые могут быть применены при моделировании процессов понимания, и определить наиболее приемлемые из них в соответствии с предложенной моделью понимания речи.
5. Исследовать выбранный метод, показать его основные достоинства и недостатки при использовании в моделях понимания.
Материалы и методы исследования
Для моделирования процессов понимания речи предложен метод латентно-семантического анализа (JICA).
В основе этого метода лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших текстовых корпусов. В последние годы метод J1CA часто использовался для поиска информации (индексация документов), классификации документов, а также в других областях, где требуется выявление главных факторов из массива информационных данных.
Наиболее распространенный вариант JICA основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD -Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
Апробирование JICA произведено на базе русской речи, собранной и обработанной компанией «Одитек». База содержит широкополосные записи 550 русскоязычных дикторов в возрасте от 18 до 60 лет, проживающих в разных регионах России. Объем базы — около 160 часов речи с учётом пауз, хезитаций, речевых и неречевых помех. Корпус базы состоит из читаемой и вызванной спонтанной речи. Вызванная спонтанная речь представляет собой минирассказы на заданную тему. Количество тем — 30. Каждый респондент высказывался на 10 заданных тем.
Обработка базы выполнялась экспертами по речевой акустике с помощью программного обеспечения, разработанного компанией «Одитек».
Из этой базы автором отобран материал, содержащий только вызванную спонтанную речь. Общий объем полученной базы спонтанной речи, содержащей 5165 высказываний 550 респондентов, что соответствует около 110 тысячам словоупотреблений, составляет более 24 часов с учетом пауз.
Для обработки текстового материала, моделирования первичного этапа понимания речи и его анализа автором было написано программное обеспечение. Всего было использовано более тридцати программ, из них семь программ для обработки текстового материала; пять программ для реализации латентно-семантического анализа; с помощью остальных' программ проводилась апробация и анализ выбранного метода.
Для написания программ использованы языки программирования Perl и С++, для SVD-анализа — встроенные функции Matlab 7.
Научная новизна
На основании результатов современных исследований в области нейрофизиологии восприятия речи мозгом человека, приведенных в работе, выдвинута гипотеза о первичном этапе понимания речевой информации. Впервые дано определение механизмов понимания речи с целью их дальнейшего моделирования. На основе данного определения в качестве метода моделирования процессов понимания выбран латентно-семантический анализ (JICA).
Метод JTCA был впервые использован при обработке русскоязычного корпуса спонтанной речи. Проведена апробация данного метода и приведены результаты тестирования. Сравнение результатов, полученных с помощью JICA и без применения этого метода, показало преимущество метода JICA. Дана оценка работы данного метода при разных условиях постановки задачи и определены возможности его применения в моделях автоматического понимания речи.
Теоретическая значимость работы
Теоретическая значимость работы заключается в определении механизмов понимания речи, на основании которого предложена модель первичной обработки семантической информации. Эта модель представляет собой некий набор ситуаций, которые активируются и могут корректироваться по мере поступления новой информации. Следует отметить, что данная модель учитывает не лексические значения сегментов, а лишь их ассоциативную связность в базе, принадлежность новой информации к тому или иному ряду, состоящему из ассоциативных сегментов.
Теоретически значимыми являются и результаты исследования на корпусе текстов русской спонтанной речи, которые позволяют заключить, что метод ЛСА может использоваться при первичном семантическом анализе входящей информации.
Практическая значимость работы
Результаты этой работы могут быть использованы в области речевых технологий, в частности, в моделях автоматического распознавания и понимания речи.
Данные, полученные при исследовании ЛСА, могут быть учтены в различных областях, где требуется выявление главных факторов в большом объеме лингвистических данных. Сам метод может быть полезным для изучения когнитивных механизмов, работающих при речевосприятии.
Основные положения, выносимые на защиту
1. Дано определение понимания речи для задач моделирования процессов понимания: понимание — это сегментация и интерпретация входящего сигнала. Под сегментацией входящего сигнала подразумевается вычленение части (интегральных и дифференциальных признаков) из целого. Интерпретация — оценка выделенного сегмента, т.е. отождествление сегмента с эталонами (метонимический перенос признака (пучка признаков)), находящимися в памяти, возникновение нового эталона или включение механизмов метафорического переноса (перенесение какого-либо признака сегмента на другой эталон (эталоны)). В качестве основной единицы сегментации в моделях распознавания и понимания речи выбрана фонетическая словоформа (ФС). Показана априорная необходимость базы знаний для модели понимания и описаны основные характеристики, которые должны быть присущи таким базам: снятие омонимии и автоматическая классификация информации (в том числе новой).
2. Определены основные свойства предлагаемой модели понимания речи: модель должна представлять собой структурированный определенным образом набор ситуаций, подобных фреймам, которые активируются и могут корректироваться по мере поступления новой информации. Процесс понимания состоит из двух этапов: дограмматического (или имеющего латентную грамматику, т.е. включенную в лексические единицы) и синтаксическо-грамматического этапа, на котором подключаются механизмы обработки синтаксиса, морфологии и др. На первом этапе понимания учитываются не лексические значения сегментов, а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе. Таким образом, модель первичного этапа понимания использует алгоритм семантического и ассоциативного соотнесения сегмента с некими эталонами и определения его принадлежности по выбранному порогу к той или иной ситуации (фрейму) из базы знаний.
3. Исследование модели понимания на материале спонтанной русской речи методом J1CA показало, что вопрос определения количества главных факторов в значительной степени определяется целями, которые стоят перед исследователем: в том случае, если цель — выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%; в случае, если необходимо найти тематически близкие документы или для выявления ассоциативной лексики, резко не сокращая при этом количество факторов, то сингулярные значения следует уменьшить примерно на 20%.
Апробация работы
Результаты исследований были представлены в докладах на следующих отечественных и международных конференциях и симпозиумах: семинар, посвященный памяти В.И. Галунова: «Речевые исследования и технологии: настоящее и будущее», 2007, Санкт-Петербург; Вторая международная конференция по когнитивной науке 2006, Санкт-Петербург; XXXIII Международная Филологическая Конференция, 2005, Санкт-Петербург; Международная конференция «SpeeCom 2004» и «SpeeCom 2002», Санкт-Петербург;. XV сессия российского акустического общества 2004, Нижний Новгород; XIII сессия российского акустического общества 2003, Москва; Международная конференция «Диалог 2003», Протвино;
Международная конференция «Когнитивное моделирование в лингвистике — 2002», Казань; Международный симпозиум «Акустика детской речи», 2002, Санкт-Петербург.
Материалы, касающиеся данной диссертационой работы опубликованы в четырех периодических изданиях: двух российских и двух зарубежных, в том числе три из них в рецензируемых изданиях из списка ВАКа: «Вестник СПбГУ», «Cognitive Neuroscience and Neuropsychology» и «Brain Research» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г.).
Четырнадцать научных статей опубликованы в сборниках научных конференций, три из них на английском языке.
Структура и объем работы
Диссертационная работа содержит введение, 5 глав, заключение, список литературы и приложение. Работа изложена на 165 страницах машинописного текста. Текст диссертации проиллюстрирован 9 рисунками и 7 таблицами. Библиографический указатель состоит из 116 источников, из них - 58 на русском, 52 - на английском и 6 - на французском языках.
Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи2004 год, кандидат технических наук Ли, Изольда Валерьевна
Методология порождения вторичного текста: когнитивный аспект2010 год, доктор филологических наук Исенбаева, Галина Ивановна
Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации2017 год, кандидат наук Ниценко, Артём Владимирович
Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных2003 год, кандидат технических наук Ронжин, Андрей Леонидович
Стратегии когнитивной обработки дискурсивной анафоры пропозитивно-именного типа2003 год, кандидат филологических наук Воронкова, Анна Владимировна
Заключение диссертации по теме «Прикладная и математическая лингвистика», Соловьев, Алексей Николаевич
5.5.3. Основные выводы из результатов тестирования
Проведенное исследование показало, что вопрос определения количества главных факторов в значительной степени зависит от целей, которые ставит перед собой исследователь: если нашей целью является выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%; если же мы хотим найти похожие документы для их объединения (например, при добавлении новых тем) или для выявления ассоциативной лексики, сильно не уменьшая количество факторов, то сингулярные значения следует сокращать примерно на 20%.
5.6. Достоинства и недостатки модели
Одним из основных достоинств модели, основанной на ЛСА, является автоматическое решение проблемы омонимии. Эта проблема — одна из самых существенных при создании моделей типа «Смысл-Текст», ее разрешение является очень трудоемким и достигается только методами формального описания языка. В JICA омонимичность может возникать только в пределах одного документа, поскольку разным значениям слова соответствуют разные документы (после JICA) с соответствующими семантическими связями, но даже в этом случае, как показано в работах [Kintsch 2001; Kintsch, Bowles 2002], омонимичность может быть снята исследованием контекста и ассоциативных связей.
В соответствии с представлениями современной нейрофизиологии о механизмах восприятия речи [Pulvermiiller, Shtyrov 2006] эта модель представляет первичный этап анализа понимания: процесс ассоциативного отношения сегмента к неким эталонам и принятия решения по выбранной мере близости его принадлежности тому или иному фрейму из базы знаний. Модель понимания не учитывает лексических значений сегментов (как базовых, так и новых), а лишь ассоциативную связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Это говорит о независимости модели от грамматики, и, в частности, синтаксиса, что делает ее непродуктивной в смысле понимания риторических фигур, идиоматических выражений, сложных грамматических конструкций.
Действительно, если риторические фигуры и идиоматические выражения не были включены в обучающую выборку, то с помощью этой модели можно определить (до определенной степени), что это метафора, но зачастую возникают трудности с интерпретацией [Kintsch, Bowles 2002]. Это говорит об этой модели, как первичной в онтогенетическом смысле: известно, что дети до определенного возраста (5-7 лет) не понимают метафор.
Вследствие аграмматичности представленной модели ее можно назвать «правополушарной» (в смысле работы мозговых функций). Для этого есть несколько оснований. Прежде всего, отсутствие грамматики приводит к тому, что это будет модель понимания на уровне языка-пиджина, который возникает на первых этапах изучения иностранного языка взрослыми, при некоторых видах афазии, а также подобен структуре детской речи в раннем онтогенезе. Такой язык грамматически неустойчив: он содержит большое количество ошибок, является медленным и сильно зависит от внешнего контекстуального окружения. По всей видимости, за порождение и восприятие сложных грамматических конструкций отвечает другой, онтогенетически более поздний механизм, что связано с возникновением в левом полушарии некоторых новых механизмов, надстраивающихся над пространством возникшей категориальности. Таким образом, эта модель претендует на раннюю дограмматическую (или категориальную) стадию.
Значительным недостатком этой модели, как и абсолютно всех моделей понимания, является невозможность введения или хотя бы определения доминанты (или мотивированности, как это было показано в исследованиях [Wolfe et al. 1998], см. п. 4.2.4). Конечно, это можно сделать, меняя весовые функции ключевых слов (что, по сравнению со многими моделями, является действительно достоинством этой модели), но пока непонятна автоматизация этого процесса. Возможно, такое понятие будет применимо в комплексных моделях с учетом визуально-тактильных модулей.
Наконец, практическим недостатком этой модели, как указывалось выше, является значительное увеличение трудоемкости вычислений при значительном увеличении объема входных данных.
5.7. Дальнейшее развитие модели
Наиболее интересным направлением дальнейшего развития модели может стать использование некоторых результатов из области теории сложных систем (исследования открытых нелинейных динамических систем в режиме метастабильного хаоса). В физике уже делались попытки построить языковую модель на основе хаотических процессов [Николис 1989; Николис 2000; Соловьев 2002], но значительные результаты в этом направлении не были достигнуты ввиду сложностей, возникающих при первичной формализации языка в соответствии с математическими требованиями. Для данной модели выявление главных факторов аналогично возникновению аттракторов в метастабильной системе. Возможно, это может послужить для дальнейшего развития динамических характеристик модели.
Еще одним направлением развития модели является попытка совместить вероятностные модели языка и JICA. Такие совмещенные модели уже были описаны для автоматической кластеризации методом JICA [Pedersen, Kulkarni 2005], где весовые функции определялись с учетом биграммных моделей. К сожалению, в статье не приведены оценочные характеристики результатов анализа.
В работе [Hofmann 1999] был описан метод латентно-семантического вероятностного индексирования документов. Было показано, что применение вероятностных моделей улучшает результаты индексирования и уменьшает точку ветвления (perplexity) за счет уменьшения шума — слов, не несущих большой семантической нагрузки.
Для данного исследуемого материала были построены различные п-граммные модели, получены значения энтропии и точки ветвления (perplexity). Для биграммной модели значение энтропии составило 5,28 бит, perplexity - 38,98; для трехграммной 4,33 бит и 20,13 соответственно, и для четырехграммной модели - 4,86 бит и 29,11; с извлечением низкочастотных слов из текста энтропия и perplexity незначительно уменьшались; вычисления велись с учетом тегов начала-конца высказывания. Пока не разработан алгоритм объединения или использования вероятностных результатов в ЛСА применительно к модели понимания.
Другой, более практический вариант для развития данной модели можно найти в работах В.Кинтча [Kintsch 1988; Kintsch 2002]. В первой статье он объединил свою интеграционную модель [Kintsch 1988] и метод ЛСА. Он разделяет уже имеющееся знание, на котором базируется ЛСА, и вновь поступающую информацию, которую модель должна интерпретировать. При этом возникает вопрос: как модель должна представлять новые знания, которые не были в нее заложены. Для этого он исследовал два метода: центроидный метод и метод предикации. Центроидный метод основан на выявлении центроида — вектора, вычисляемого как среднее арифметическое векторов всех документов кластера. Метод предикации подразумевает выявление пропозициональной функции внутри документа. После этого производится латентно-семантический анализ термы-на-термы, т.е. поиск близких термов для центроида или предиката. Найденные с помощью такого анализа соседние по ассоциативности термы из контекста могут интерпретировать новую информацию. Исследования В.Кинтча показали, что для коротких предложений оба метода дают приблизительно одинаковые результаты, но для длинных предложений предпочтительнее препозиционный метод.
Другим предметом исследования В.Кинтча были предложения с активным и пассивным залогом. Известно, что ЛСА не различает такие предложения, т.е. ЛСА в силу своей статистической природы не может находить грамматические и синтаксические различия16. Центроидный метод не привел к улучшениям при обнаружении инверсных предложений, в то время как метод пропозиции отчасти смог выявить пропозициональные отношения.
Если модель с использованием JICA дополнить модулем грамматического анализа предложения, это может улучшить механизм понимания, переведя его с дограмматического уровня на следующий, онтогенетически более высокий.
В другой своей статье [Kintsch 2002] предлагает в качестве эталонной базы использовать некий набор макроправил, по которым определяется тематика. Он определяет эти правила как ментальные представления о тексте, описывающие тематическую ситуативность. Эти представления помогают нам объяснить то, что дано, но они не являются сами по себе алгоритмами или вычислительными процедурами, которые автоматически порождаются макропропозициями из текста. При этом метод JICA не позволяет провести глубокий препозиционный и синтаксический анализ текста, пишет в заключении В. Кинтч.
Таким образом, предложенную модель можно назвать первоначальной в развитии механизма понимания. Дальнейшее развитие модели требует тщательных и обширных исследований в смежных областях науки (психологии, физиологии высшей нервной деятельности, теории сложных
16 См. сноску 1. систем и т.д.) и более глубокого понимания когнитивных процессов, обеспечивающих понимание.
Заключение
В ходе работы были получены следующее результаты:
1. На основании рассмотренных аспектов понимания и экспериментальных результатов по изучению восприятия речи мозгом человека выдвинута гипотеза, что процесс восприятия и обработки информации происходит в два этапа. Первый этап — этап непроизвольного восприятия, позволяющий вычленить ситуативность или категориальность входящей информации, этап первичной семантической обработки, который позволяет отнести входящее сообщение к той или иной ситуации. На этом этапе происходит принятие решения на уровне доступа к информационным процессам, разворачивающимся в базовом пространстве (мозге человека). Второй этап — этап включения дополнительных механизмов для успешной обработки полученной информации (семантический, синтаксический и
17 грамматический анализ).
В работе дано определение механизмов понимания речи в контексте их дальнейшего моделирования: понимание речи — это сегментация и интерпретация входящего сигнала (в данном случае речевого). Понятие интерпретации, как одного из двух видов интеллектуальных операций, основано на определении Р.Якобсона. Сегментация определена как
17 См. сноску 1. вычленение части (интегральных и дифференциальных признаков) из целого. Предложены некоторые возможные единицы сегментации для процесса понимания речи (КФ и ФС), определены возможности реализации единиц сегментации.
На основании описания работы механизмов и определения понимания речи предложена модель первичного этапа понимания, указаны основные свойства, которые должны быть присущи предполагаемой модели: модель должна представлять собой некий набор ситуаций, подобно фреймам, которые активируются и могут быть скорректированы по мере поступления новой информации. Иными словами, модель должна иметь базу, состоящую из определенным образом структурированных лексических единиц, которые связаны между собой по определенным правилам, причем эти связи можно менять динамически (в процессе работы). Процесс понимания можно разбить на два этапа: дограмматический (или имеющий латентную грамматику, т.е. включенную в лексические единицы: ФС или КФ) грамматический, на котором подключаются механизмы обработки синтаксиса, словоизменения и др. На первом этапе понимания учитываются не лексические значения сегментов (как базовых, так и новых), а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе.
Таким образом, модель первичного этапа понимания должна работать по алгоритму семантического и ассоциативного отношения сегмента к эталонам, хранящимся в базе, и принятия решения (по выбранной мере близости) о принадлежности этого сегмента к тому или иному фрейму из базы знаний.
2. Рассмотрены некоторые методы и алгоритмы создания эталонных баз данных, необходимых для систем понимания речи. На основе предложенных критериев выбора для создания эталонной базы использован метод латентно-семантического анализа.
Одним из наиболее важных критериев точности работы механизмов понимания является снятие проблемы омонимичности словоформ. Из рассмотренных методов и алгоритмов классификации / кластеризации документов (текстов) наиболее удовлетворяющим данным условиям является метод JICA. Он не только является эффективным для выявления скрытых ассоциативных зависимостей, но и автоматически ликвидирует лексическую омонимичность словоформ, попавших в разные тематики. Кроме того, метод является достаточно гибким в настройке, что позволяет легко менять параметры в зависимости от поставленной задачи.
3. На материале базы образцов спонтанной русской речи предложен вариант модели понимания речи с использованием латентно-семантического анализа. Представлены результаты исследования.
Проведен сравнительный анализ векторного метода (при разных соотношениях обучающей и тестируемой частей базы) и SVD-анализа (при разном сокращении сингулярных значений диагональной матрицы).
Общее количество правильно классифицированных сообщений для векторного метода при использовании в качестве тестовой базы всего корпуса составило 88,1%. Тестирование проводилось при разном соотношении обучаемой и тестовой частей базы.
Было проведено аналогичное исследование для векторного пространства, полученного посредством SVD-анализа с сокращением сингулярных значений диагональной матрицы. При сокращении сингулярных значений диагональной матрицы точность соответствия входящих сообщений соответствующим темам снизилась. Точность определения тематик с ярко выраженными главными факторами возросла. Таким образом, если сообщения, не соответствующие теме данного документа, считать соответствующими тому фактору, к которому они теперь принадлежат, то точность классификации повышается до 91%.
Исследования также показали, что с сокращением сингулярных элементов диагональной матрицы количество факторов уменьшается (для 60% было выявлено 12 факторов, для 73% — 8 факторов). При этом точность классификации для рубрик, которые стали «аттракторами» для выявления главных факторов, выросла, а у некоторых достигла 100%. Однако с уменьшением количества главных факторов некоторые рубрики, объединенные в один фактор, не соответствуют друг другу и уже недостаточно точно описывают ситуативность модели.
Таким образом, вопрос определения количества главных факторов в значительной степени зависит от целей, которые ставит перед собой исследователь: если нашей целью является выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70% (± 10%); если же необходимо найти похожие документы для их объединения (например, при добавлении новых тем) или для выявления ассоциативной лексики, сильно не уменьшая количество факторов, то сингулярные значения следует сокращать примерно на 20%.
Подводя итог проделанной работе, можно сделать следующие выводы:
1) Процесс понимания состоит из двух этапов обработки информации: первичного этапа непроизвольного восприятия, с помощью которого определяется ситуативность или категориальность входящей информации, и вторичного этапа, на котором производится дополнительная (семантическая, синтаксическая, морфологическая) обработка распознанного сегмента. Это следует учитывать при моделировании механизмов понимания.
2) Первичный этап обработки информации представляет собой алгоритм семантического и ассоциативного соотношения сегмента с эталонами из базы знаний по выбранному правилу (в данном случае, по евклидовой мере близости данного сегмента к той или иной ассоциативно-семантической категории).
3) Латентно-семантический анализ является достаточно гибким и точным методом для реализации первичного этапа обработки входящей информации в системах автоматического понимания речи.
Список литературы диссертационного исследования кандидат филологических наук Соловьев, Алексей Николаевич, 2008 год
1. Бахтин М.М. К методологии гуманитарных наук / Бахтин М.М. Эстетика словесного творчества. М.: «Искусство», 1979.
2. Бехтерева Н.П. Магия творчества и психофизиология: факты, соображения, гипотезы. СПб.: РАН; ИМЧ, 2006.
3. Ван Дейк Т.А., Кинтч В. Стратегии понимания связанного текста // Новое в зарубежной лингвистике / Гл. ред. В.А. Звегинцева. Вып. 13. М.: «Прогресс», 1988. С. 153-211.
4. Венцов А.В., Касевич В.Б. Проблемы восприятия речи. М.: «УРСС», 2003.
5. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С.25-32.
6. Выготский Л.С. Мышление и речь. М.: «Лабиринт», 2005.
7. Выготский JT.C. Вопросы детской психологии. СПб.: «СОЮЗ», 2006.
8. Ю.Галунов В.И. Бионическая модель системы распознавания речи // Исследование моделей речеобразования и речевосприятия / Под ред. В.И. Галунова. Д., 1981. С.36-52.
9. Галунов В.И. Язык и системы автоматического понимания речи // Восприятие языкового значения. Межвузовский сборник / Калининград: КГУ, 1980. С. 10-21.
10. Галунов В.И., Евдомаха А.В., Кочанина Ю.Л., Остроухов А.В., Разумихин Д.В., Соловьев А.Н. Коллекция речевых баз данных // XXXIII Международная Филологическая Конференция 2005. Тезисы докладов. СПб.: Изд-во СПбГУ, 2005а. С.15-16.
11. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы. Вып. 2. М., 2004. С.41-45.
12. Гаспаров Б.М. Язык, память, образ. Лингвистика языкового существования. М.: «Новое Литературное Обозрение», 1996.
13. Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.
14. Демьянков В.З. Фреймовая семантика // Краткий словарь когнитивных терминов / Кубрякова Е.С., Демьянков В.З.,
15. ПанкрацЮ.Г., Лузина Л.Г. Под ред. Е.С. Кубряковой. М.: Филологический факультет МГУ, 1996. С. 189-191.
16. Кант И. Критика чистого разума. М.: «Наука», 2000.
17. Кириченко К.М., Герасимов М.Б. Обзор методов кластеризации текстовых документов // Компьютерная лингвистика и интеллектуальные технологии. Сб. научных статей / Под ред. А.С. Нариньяни. М.: Наука, 2001. Т. 2. С.161-165.
18. Колмогоров А.Н. Автоматы и жизнь // Квант. Вып. 64. М.: Наука, 1988. С.43-62.
19. Колмогоров А.Н., Прохоров А.В. Статистика и теория вероятностей в исследовании русского стиха // Симпозиум по комплексному изучению художественного творчества. М., 1963. — С.23.
20. Крылов С.А. Делимитация тактов в русском письменном тексте // Труды международной конференции «Корпусная лингвистика-2006». СПб.: Изд-во СПбГУ, 2006. С.54-55.
21. Крылов С.А., Ягунова Е.В. Квантитативный подход к выделению инвентарных единиц языка // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 1. СПб., 2006. С.329-330.
22. Ламб С.М. О нейрокогнитивной лингвистике // Лекции по когнитивным наукам / Вып. 6. Ред. В.Д. Соловьев. Казань: Отечество, 2003.
23. Лотман Ю.М. О двух моделях коммуникации в системе культуры // Лотман Ю.М. Статьи по семиотике и типологии культуры. Т. 1. / Таллинн: «Александра», 1992а. С.76-90.
24. Лотман Ю.М. О семиосфере // Лотман Ю.М. Статьи по семиотике и типологии культуры. Т. 1. / Таллинн: «Александра», 1992b. С. 1125.
25. Мартемьянов Ю.С. Логика ситуаций. Строение текста. Терминологичность слов. М.: «Языки славянской культуры», 2004.
26. Мартин Н., Ингленд Дж. Математическая теория энтропии. М.: «Мир», 1988.
27. Масленникова Е. Фреймовое представление семантики текста // Лингвистический вестник. Вып. 2. Ижевск: УМО «Sancta lingua», 2000.-C.l 14-124.
28. Мельчук И.А. Опыт теории лингвистических моделей «Смысл-текст». М.: «Языки русской культуры», 1999.
29. Митрофанова О.А. Измерение семантической информации в тексте на основе анализа латентных связей // Труды Международной конференции «MegaLing-2005»: Прикладная лингвистика в поиске новых путей. СПб., 2005. С.80-89.
30. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
31. Николис Дж. Хаотическая динамика лингвистических процессов и образование паттернов в поведении человека. Новая парадигма селективной передачи информации // Синергетическая парадигма. М.: «Прогресс-Традиция», 2000. С.426-434.
32. Николис Дж. Динамика иерархических систем. Эволюционное представление. М.: «Мир», 1989.
33. Павилёнис Р.И. Проблема смысла: Современный логико-философский анализ языка. М.: «Мысль», 1983.
34. Пятигорский А. Мышление и наблюдение. Рига: «Liepnieks Ritups», 2002.
35. Разумихин Д.В. Использование нейронных сетей на уровне семантики в системе распознавания речи // Сборник докладов IV Всероссийской конференции «Нейрокомпьютеры и их применение -2001». М.: Радиотехника, 2001b. С.208-211.
36. Разумихин Д.В. Разработка системы понимания устной речи в диалоге // Компьютерная лингвистика и интеллектуальные технологии. Сб. научных статей. Т. 2. / Под ред. А.С. Нариньяни. М.: Наука, 2001а. С.323-329.
37. Разумихин Д.В., Соловьев А.Н. Системы автоматического распознавания речи с различными моделями организации диалога //
38. Сб. научных сообщений XIII сессии Российского акустического общества. М.: ГЕОС, 2003. С. 141-144.
39. Соловьев А.Н. Возможность интерпретации семиотических механизмов естественного языка // Обработка текста и когнитивные технологии. Сб. научных статей / Под ред. Соловьева В.Д. Казань: Отечество, 2002. С.233-245.
40. Соловьев А.Н., Галунов В.И. Мышление, язык и системы автоматического понимания речи // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 2. СПб., 2006. — С.437-439.
41. Соссюр Ф. Курс общей лингвистики. М.: УРРС, 2004.
42. Том Р. Топология в лингвистике // Успехи математических наук. 1975. Т. XXX. Вып. 1.-С.199-221.
43. Ухтомский А. Доминанта. СПб.: «Питер», 2002.
44. Филлмор Ч. Фреймы и семантика понимания // Новое в зарубежной лингвистике. Вып. XXIII. Когнитивные аспекты языка / Гл. ред. Звегинцев В.А. М.: «Прогресс», 1988. С.52-92.
45. Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. 2002. Т. 6. Вып. 1-4. С.381-394.
46. Черниговская Т.В., Балонов Л.Я., Деглин В.Л. Билингвизм и функциональная асимметрия мозга // ТЕКСТ И КУЛЬТУРА. Труды по знаковым системам XVI. Тарту, 1983. С.62-83.
47. Черниговская Т.В., Деглин В.Л. Проблема внутреннего диалогизма (нейрофизиологическое исследование языковой компетенции) // Ученые записки Тартуского Университета. Труды по знаковым системам. Вып. 17. Тарту, 1984. С.62-83.
48. Шеннон К. Работы по теории информации и кибернетике. М.: «Издательство иностранной литературы», 1963.
49. Щерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании // Языковая система и речевая деятельность. Л., 1974. С.24-39.
50. Ягунова Е.В. Опорные элементы в восприятии текста // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 1. СПб., 2006. С.489-491.
51. Якобсон Р. Два вида афатических нарушений и два полюса языка // Язык и бессознательное. М.: «Гнозис», 1996. — С.27-52.
52. Якобсон Р. Лингвистика и поэтика // Сб. Структурализм: «за» и «против». М.: «Прогресс», 1975. С.193-203.
53. Arbib М.А. The mirror system, imitation, and the evolution of language // Imitaion in animals and artifacts / Eds. Nahaniv C., Dautenhahn K. Cambridge (MA): The MIT press, 2002. P.229-280.
54. Bestgen Y., Cabiaux A.F. L'analyse semantique latente et 'identification des metaphores // Actes de la 9eme Conference annuelle sur le traitement automatique des langues naturelles. Nancy: INRIA, 2002. P.331-337.
55. Black E., Jelinek F., Lafferty J., Magerman D.M., Mercer R., Roukos S. Towards History-Based Grammars: Using Richer Models for Probabilistic Parsing // Proceedings of the 5th DARPA Speech and Natural Language Workshop. Harriman, NY, 1992. P.31-37.
56. Brown P.F., Delia Pietra V.J., de Souza P.V., Lai J.C., Mercer R.L. Class-Based N-Gram Models of Natural Language // Computational Linguistics. 1992. 18(4).-P.467-479.
57. Chomsky N. On nature and language. New York: Cambridge University Press, 2002.
58. Colin Ph. Levels of representation in the electrophysiology of speech perception // Cognitive Science: A Multidisciplinary Journal. 2001. Vol. 25. No. 5.-P.711-731.
59. Cristianini N., Shawe-Taylor J., Lodhil H. Latent Semantic Kernels // Journal of Intelligent Information Systems. March 2002. V. 18. N. 2-3. -P.127-152.
60. Deacon T.W. The Symbolic Species: The Co-Evolution of Language and the Brain. New York: Norton W.W. & Company, 1997.
61. Deerwester S., Dumais S.T., Furnas G.W., Landauer Т.К., Harshman R. Indexing by Latent Semantic Analysis // Journal of the American Society for Information Science. 1990. 41(6). -P.391-407.
62. Denhiere G., Lemaire B. A Computational Model of a Child Semantic Memory // Proceedings of the 26th Annual Meeting of the Cognitive Science Society. 2004a . P.297-302.
63. Denhiere G., Lemaire B. Modelisation des effets contextuels par l'analyse de la s6mantique latente // J.M.C.Bastien (ed.) Actes des Deuxiemes
64. Journees d'etude en Psychologie Ergonomique (EPIQUE 2003). Roquencourt: INRIA, 2003. -P.289-294.
65. Denhiere G., Lemaire B. Representing children's semantic knowledge from a multisource corpus // Proceedings of the 14th Annual Meeting of the Society for Text and Discourse, Chicago, August 1-4 2004b. P.10-13.
66. Denhiere G., Lemaire В., Bellissens C., Jhean-Larose S. Psychologie cognitive et comprehension de texte: une demarche theorique et expdrimentale // S.Porhiel, D.Klinger (eds.). L'unite texte. Pleyben: Perspectives, 2004. -P.74-95.
67. Dessus P. Verification semantique de liens hypertextes avec LSA Hypertext Links Semantic Verification with LSA. // J.-P.Balpe, A.Lelu, S.Natkin, I.Saleh (eds.). Hypertextes, hypermedias et internet (H2PTM'99). Paris: Hermes, 1999. P. 119-129.
68. Foltz P.W. Latent Semantic Analysis for text-based research. Behavior Research Methods // Instruments and Computers. 1996. 28-2. P. 197202.
69. Foltz P.W., Kintsch W., Landauer Т.К. The measurement of textual coherence with Latent Semantic Analysis // Discourse Processes. 1998. 25, 2-3. P.285-307.
70. Galunov V.I., Kochanina J.L., Soloviev A.N., Evdomakha A.V., Razumikhin D.V., Tropf H., Hoege H. Wideband speech database for Russian // International workshop "Speech and Computer" Proceedings. SPb., 2002. -P.l 13-117.
71. Given T. Bio-Linguistics: The Santa Barbara lectures. Amsterdam/ Philadelphia: John Benjamins Publishing Company, 2002.
72. Hofmann T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval, 1999. P.50-57.
73. Jakobson R. Essai de linguistique gёnёrale. Paris: Minuit, 1963.
74. Kintsch W. Metaphor comprehension: a Computational Theory // Psychonomic Bulletin & Review. 2000. 7(2). P.257-266.
75. Kintsch W. On the notions of theme and topic in psychological process models of text comprehension // M. Louwerse & W. van Peer (eds.). Thematics: Interdisciplinary Studies. Amsterdam: Benjamins, 2002. -P.157-170.
76. Kintsch W. Predication // Cognitive Science. 2001. 25-2. P. 173-202.
77. Kintsch W. The role of knowledge in discourse comprehension: A construction-integration model // Psychological Review. 1988. Vol. 95. № 2. — P.163-182.
78. Kintsch W., Bowles A.R. Metaphor comprehension: what makes a metaphor difficult to understand? // Metaphor and Symbol. 2002. 17. -P.249-262.
79. Kintsch W., Patel V.L., Ericsson K.A. The role of long-term working memory in text comprehension // Psychologia. 1999. 42. P. 186-198.
80. Kohonen Т., Kaski S., Lagus K., Salojarvi J., Honkela J., Paatero V., Saarela A. Self Organization of a Massive Document Collection // IEEE Trans. Neural Networks. May 2000. Vol. 11. No. 3. P.574-585.
81. Landauer Т.К., Dumais S.T. A solution to Plato's problem: The Latent Semantic- Analysis theory of the acquisition, induction, and representation of knowledge // Psychological Review. 1997. 104. -P.211-240.
82. Landauer Т., Foltz P., Laham D. An introduction to latent semantic analysis // Discourse Processes. 1998. 25. P.259-284.
83. Lemaire В., Bianco M. Contextual Effects on Metaphor Comprehension: ^Experiment and Simulation // Proc. of the 5th International Conferenceon Cognitive Modeling (ICCM'2003), Bamberg, Germany 2003. P.153-158.
84. Lemaire В., Denhiere G. Cognitive Models based on Latent Semantic Analysis // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003. -P.23-25.
85. Magerman D.M. Statistical Decision-Tree Models for Parsing // Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, 1995. — P.276-283.
86. Marslen-Wilson W., Tyler L.K. Processing structure of sentence perception // Nature. 1975. 257. P.784-786.
87. Menning H., Zwitserlood P., Schoning S., Hihn H., Bolte J., Dobel C., Mathiak K., Lutkenhoner B. Pre-attentive detection of syntactic and semantic errors // Neuroreport. 2005. 16. P.77-80.
88. Pelleg D., Moore A. X-means: Extending K-means with Efficient Estimation of the Number of Clusters // Proceedings of the Seventeenth International Conference on Machine Learning, June 29-July 02, 2000. -P.727-734.
89. Pinker S., Jackendoff R. The faculty of language: what's special about it? // Cognition. 2005. 95. -P.201-236.
90. Pulvermiiller F. Brain reflections of word and their meaning // Trends in Cognitive Sciences. 2001. Vol. 5. No 12. P.517-524.
91. Pulvermiiller F., Assadollahi R., Elbert T. Neuromagnetic evidence for early semantic access in word recognition // European Journal of Neuroscience. 2001. Vol. 13. -P.201-205.
92. Pulvermiiller F., Shtyrov Y. Automatic processing of grammar in the human brain as revealed by the mismatch negativity // Neurolmage. 2003. 20. P.159-172.
93. Pulvermiiller F., Shtyrov Y. Language outside the focus of attention: The mismatch negativity as a tool for studying higher cognitive processes // Progress in Neurobiology 2006. 79. P.49-71.
94. Pulvermiiller F., Shtyrov Y., Ilmoniemi R.J. Brain Signatures of Meaning Access in Action Word Recognition // Journal of Cognitive Neuroscience. 2005. 17:6. -P.884-892.
95. Rizzolatti G., Arbib M.A. Language within our grasp // Trends in Neurosciences. 1998. 21. P. 188-194.
96. Shestakova A., Brattico E., Soloviev A., Klucharev V., Huotilainen M. Orderly cortical representation of vowel categories presented by multiple exemplars // Brain Research: Cognitive Brain Research. 2004. 21. -P.342-350.
97. Shtyrov Y., Hauk O., Pulvermiiller F. Distributed neuronal networks for encoding category-specific semantic information: the mismatch negativity to action words // European Journal Neuroscience. 2004. 19. -P.1083-1092.
98. Shtyrov Y., Pulvermuller F., Naatanen R., Ilmoniemi R.J. Grammar Processing Outside the Focus of Attention: an MEG Study // Journal of Cognitive Neuroscience. 2003. 15:8. P.l 195-1206.
99. Soloviev A.N., Victorova K.O., Razumikhin D.V. About using non-informational functions in model of speech communication // International workshop "Speech and Computer" Proceedings. SPb., 2002. — P.27-31.
100. Ukkonen E. Constructing Suffix Trees On-Line in Linear Time // Proceedings of the IFIP 12th World Computer Congress on Algorithms, Software, Architecture Information Processing '92, Volume 1. Amsterdam, The Netherlands, 1992. - P.484-492.
101. Wolfe M.B.W., Schreiner M.E., Rehder В., Laham D., Foltz P.W., Kintsch W., Landauer Т.К. Learning from text: Matching readers and texts by Latent Semantic Analysis // Discourse Processes. 1998. 25. -P.309-336.
102. Zwaan R.A. The Immersed Experiencer: Toward an Embodied Theory Of Language Comprehension // The Psychology of Learning and Motivation. 2004. Vol. 44. -P.611-619.
103. Zwaan R.A., Madden C.J. Updating Situation Models // Journal of Experimental Psychology: Learning, Memory, and Cognition. 2004. Vol. 30. No. 1. -P.283-288.
104. Zwaan R.A., Radvansky G.A. Situation Models in Language Comprehension and Memory // Psychological Bulletin. 1998. Vol. 123. No. 2. P.162-185.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.