Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Арефьев, Николай Викторович
- Специальность ВАК РФ05.13.11
- Количество страниц 188
Оглавление диссертации кандидат физико-математических наук Арефьев, Николай Викторович
Введение.
Глава 1. Ограничения на сочетаемость в задаче автоматического синтаксического анализа.
1.1 Описание проблемы.
1.1.1 Задача автоматического синтаксического анализа.
1.1.2 Синтаксический анализатор системы Тгее1:оп.
1.1.3 Проблема омонимии.
1.1.4 Виды омонимии.
1.1.5 Учет сочетаемости для разрешения омонимии.
1.2 Подходы к описанию и учету сочетаемости.
1.2.1 Учет сочетаемости при синтаксическом анализе в системе Этап.
1.2.2 Словари сочетаемости русского языка.
1.2.3 Подходы к автоматическому описанию сочетаемости.
1.2.4 Необходимость комбинированного подхода к формированию словаря сочетаемости.
Глава 2. Структура компьютерного словаря сочетаемости.
2.1 Требования к компьютерному словарю сочетаемости.
2.1.1 Морфо-синтаксические ограничения сочетаемости.
2.1.2 Лексические ограничения сочетаемости.
2.1.3 Семантические ограничения сочетаемости.
2.1.4 Другие виды ограничений сочетаемости.
2.1.5 Типы информации о сочетаемости.
2.2 Компьютерный словарь сочетаемости как система классов.
2.2.1 Интерфейсы компьютерного словаря сочетаемости.
2.2.2 Структуры данных и реализация интерфейсов.
Глава 3. Формирование компьютерного словаря сочетаемости.
3.1 Автоматическое формирование тензора сочетаемости.
3.1.1 Формирование корпуса примеров.
3.1.2 Морфологический анализ.
3.1.3 Частичный синтаксический анализ.
3.1.4 Статистическая обработка.
3.2 Импорт онтологической информации о сочетаемости.
3.2.1 Модели управления.
3.2.2 Словарные определения.
Глава 4. Обобщение статистической информации о сочетаемости.
4.1 Проблемы шума и разреженности.
4.2 Подходы к обобщению.
4.3 Контекстные векторы.
4.4 Кластеризация.
4.5 Кластеры и семантические классы.
4.6 Выявление семантической сочетаемости.
4.6.1 Пополнение базового множества.
4.6.2 Отсев лексической сочетаемости.
Глава 5. Словарь сочетаемости в системе автоматического синтаксического анализа.
5.1 Учет информации о сочетаемости при синтаксическом анализе.
5.1.1 Метод учета сочетаемости при синтаксическом анализе.
5.1.2 Примеры разрешения синтаксической омонимии.
5.1.3 Экспериментальная проверка метода учета сочетаемости.
5.2 Технология и инструментальные средства формирования и сопровождения словаря сочетаемости.
5.2.1 Инструменты формирования базового словаря сочетаемости.
5.2.2 Инструмент тестирования синтаксического анализатора.
5.2.3 Инструмент сопровождения словаря сочетаемости.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Сочетаемость слова в лексикографическом описании2000 год, кандидат филологических наук Архипова, Нина Геннадьевна
Анализ параметров семантической связности с помощью дистрибутивных семантических моделей (на материале русского языка)2019 год, кандидат наук Паничева Полина Вадимовна
Автоматизированное формирование лингвистических баз знаний: Интеграционный подход1999 год, кандидат физико-математических наук Субботин, Алексей Викторович
Модель представления смысла текстовой информации1999 год, кандидат технических наук Нагоев, Залимхан Вячеславович
Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов2008 год, кандидат технических наук Толпегин, Павел Владимирович
Введение диссертации (часть автореферата) на тему «Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов»
Несмотря на развитие технологий представления информации в формальней,' доступном для компьютерной обработки виде (таких как Semantic Web), основной объем информации порождается, хранится и передается в виде текстов; на естественных языках (ЕЯ). В связи с лавинообразным ростом количества информации в самых разных сферах человеческой деятельности возникает острая необходимость автоматического решения различных задач, связанных с обработкой текстов, в том числе перевода с одного языка на другой, поиска информации в текстовых массивах, извлечения информации из текстов, реферирования и др.
Системы автоматической обработки текстов (АОТ-системы), использующие методы поверхностного анализа (например, основанные на поиске ключевых слов), в большинстве случаев не позволяют достичь результата, качество которого достаточно для практического применения. Причина кроется в необходимости учета не только слов, составляющих текст на ЕЯ, но и имплицитно представленных в тексте взаимосвязей между ними, для выявления которых требуется глубокий и полный учет разнообразных языковых явлений. Необходимым первым шагом на пути выявления таких взаимосвязей является выделение синтаксических отношений в тексте (синтаксический анализ).
Для автоматического выделения синтаксических отношений требуется привлекать различную информацию о сочетаемости слов. Простейшим типом информации такого рода может служить описание синтаксического поведения различных частей речи. Так, существительное сочетается с прилагательным при условии согласования их в роде, числе и падеже (быстрый автомобиль), но не сочетается с наречиями (*быстро автомобиль). Помимо информации о сочетаемости частей речи в процессе автоматического синтаксического анализа необходимо привлекать и информацию об особенностях сочетаемости более узких классов слов, а также отдельных слов. Так, для того, чтобы правильно построить синтаксическую структуру фразы одобрить поправки в закон необходимо знать, что глагол одобрить не может управлять предлогом в (в отличие от глагола внести: внести изменения в проект). Заметим, что информация подобного рода описывается в словарях моделей управления, однако описания обычно охватывают лишь глаголы (агитировать) и образованные от них слова {агитатор, агитация). Более сложная информация о сочетаемости требуется, чтобы построить правильные синтаксические структуры фраз привезти куртку на синтепоне и привезти куртку на машине. В данном случае и глагол привезти, и существительное куртка сочетается с предлогом на, поэтому для выбора правильной структуры (для каждой из фраз своей) требуется привлечь соображения более глубокого, семантического характера: привезти сочетается с классом слов, обозначающих средства передвижения {на машине, на автобусе, на электричке), а куртка - с названиями материалов {на синтепоне, на меху, на пуху). Наконец, при синтаксическом анализе фразы проливные дожди и заморозки требуется информация о сочетаемости отдельных лексем. Ведь, несмотря на то, что слова проливной и сильный близки по смыслу, первое сочетается только со словом дождь, а второе и с названиями других погодных явлений. Поэтому, не обладая информацией об индивидуальной сочетаемости слов, можно по ошибке отнести прилагательное проливной к группе однородных членов дожди и заморозки (по аналогии с сильные дожди и заморозки).
Таким образом, во многих случаях без подробного и полного описания сочетаемости слов невозможно построить правильную синтаксическую структуру предложения. Однако существующие лингвистические источники, описывающие сочетаемость слов русского языка (словари сочетаемости, комбинаторные словари), обладают существенными недостатками. Во-первых, они покрывают лишь небольшую часть лексики русского языка. Во-вторых, такие словари обычно рассчитаны на пользователя-человека, поэтому зачастую авторы вместо того, чтобы приводить формальное и последовательное описание, ограничиваются рядом примеров и ссылок на аналогичные статьи, 5 апеллируя к интуиции пользователя словаря. Основной причиной перечисленных недостатков является чрезвычайная трудоемкость ручного формирования описаний сочетаемости, носящих комбинаторный характер (по сути, требуется описать множество пар, или даже п-ок слов, способных образовывать допустимые языком словосочетания). Вследствие этих недостатков, в задачах автоматической обработки текстов сформированные вручную ресурсы могут использоваться скорее как дополнительный источник информации о сочетаемости, обладающий весьма высокой точностью (словарные статьи формируются компетентными экспертами-лингвистами и заслуживают доверия), но очень низкой полнотой. О низкой полноте данных ресурсов можно говорить как с точки зрения количества описанных лексем, так и с точки зрения приведенной для каждой из них информации. Так, либо сочетаемость описывается слишком абстрактно, с помощью указания только морфологических и синтаксических характеристик слов, сочетающихся с данным («Управление в русском языке» Д.Э. Розенталя [1]), либо слишком конкретно - перечислением отдельных слов. Такое перечисление обычно заканчивается многоточием, призывающим пользователя продолжить ряд по аналогии («Словарь сочетаемости слов русского языка» под редакцией П.Н. Денисова и В.В. Морковкина [2]).
Альтернативой использованию лингвистических описаний сочетаемости является автоматический сбор статистики совместной встречаемости слов на большой текстовой коллекции и формирование статистического описания сочетаемости. Причем обычно имеет смысл использовать неразмеченные (т.е. не обработанные экспертами) тексты, поскольку создание достаточной по объему размеченной коллекции является ничуть не менее сложной и трудозатратной задачей, нежели ручное формирование словаря. Такой подход позволяет свести к минимуму объем требуемого ручного труда, а также обеспечить довольно полный охват лексики. Здесь важно отметить, что простая статистика совместной встречаемости слов не обеспечивает полноты информации о сочетаемости каждого слова в отдельности. Это связано с 6 проблемой разреженности данных о совместной встречаемости, извлеченных из коллекции текстов на ЕЯ: лишь небольшая часть сочетающихся между собой слов реально встретятся вместе в коллекции, причем многие из них встретятся вместе лишь один-два раза. Свойство разреженности является фундаментальным для текстов на ЕЯ, поэтому решить данную проблему невозможно ни увеличением объема, ни изменением состава текстовой коллекции. Особенно остро проблема разреженности встает в тех случаях, когда описываемое слово сочетается со всеми словами, принадлежащими одному или нескольким достаточно широким семантическим классам. Например, слово пирог сочетается с называниями практически любых нежидких пищевых продуктов {пирог с черникой, творогом, рыбой, вареньем, маком,.), однако подобрать коллекцию текстов, в которую войдут все такие словосочетания невозможно, а описать только морфологические и синтаксические характеристики сочетающихся слов - означает допустить словосочетания типа пирог с идеей. Для решения данной проблемы необходимо использовать механизмы обобщения, которые на основе встречаемости слова с представителями определенных семантических классов делают вывод о сочетаемости со всеми словами, относящимися к этим классам. При этом встает вопрос об источнике информации о семантических классах и принадлежащих им словах. Большинство существующих методов (ориентированных в основном на обработку англоязычных текстов) в качестве такого источника используют лексическую онтологию \VordNet [3], являющуюся довольно качественным лингвистическим ресурсом с широким охватом лексики английского языка. Однако, для многих других языков аналоги \\^ог(1№1:, обладающие сопоставимой полнотой и качеством описания, недоступны и создание их упирается в те же проблемы, что и создание словарей сочетаемости. Альтернативой опять же является автоматическое извлечение информации о семантических классах из неразмеченных текстовых коллекций.
Существующие методы автоматического формирования описаний сочетаемости и семантических классов не дают результатов, достаточно 7 качественных для того, чтобы можно было полностью исключить ручной труд эксперта. Они, однако, способны дать первое приближение к необходимому описанию и обеспечить эксперта статистическими данными для дальнейшего улучшения этого описания.
Таким образом, актуальным является создание методов автоматизированного формирования описаний сочетаемости, позволяющих извлекать информацию о сочетаемости из неразмеченных текстовых коллекций, обобщать ее и представлять в таком виде, в котором эксперты могут эффективно работать с ней. Другой актуальной проблемой является учет сформированных таким образом, а также содержащихся в существующих словарях, описаний сочетаемости для улучшения качества и повышения эффективности автоматического синтаксического анализа.
Целью данной диссертационной работы является исследование и разработка методов построения компьютерных словарей сочетаемости и использования этих словарей для повышения качества работы автоматических синтаксических анализаторов русскоязычных текстов.
Разрабатываемые методы должны поддерживать автоматизированный подход к формированию словарей, при котором в процессе формирования используются как алгоритмы автоматического извлечения информации о сочетаемости из текстовых коллекций, так и данные, полученные от экспертов или из составленных вручную лингвистических ресурсов. При этом участие экспертов должно быть максимально эффективным, для чего необходимо создать соответствующие инструментальные средства развития и сопровождения словарей сочетаемости.
Достижение поставленной цели предполагает решение следующих задач:
1. исследование ограничений на сочетаемость, которые необходимо учитывать в процессе синтаксического анализа, и разработка структур данных, позволяющих хранить описания таких ограничений;
2. разработка методов и программных средств, позволяющих учитывать сочетаемостные ограничения в процессе синтаксического анализа; 8
3. разработка методов и программных средств автоматизированного формирования описаний сочетаемостных ограничений, их развития и сопровождения.
Работа выполнялась на кафедре алгоритмических языков факультета ВМК МГУ в рамках Госбюджетных НИР по приоритетному направлению "Программное и математическое обеспечение эффективного решения актуальных задач на современных вычислительных системах", проводимых под руководством профессора, д.ф.-м.н. М.Г. Мальковского и подразумевающих, в числе прочего, создание системы автоматического синтаксического анализа русскоязычных текстов ТгееШп. В системе Тгее1:оп сочетаемость слов изначально не учитывалась, что негативно сказывалось на качестве ее работы. В связи с этим актуальной стала задача интеграции в данную систему программных средств формирования и учета описаний сочетаемости в процессе синтаксического анализа.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Лексическая функция MAGN в современном русском языке: корпусное и экспериментальное изучение2009 год, кандидат филологических наук Тиханович, Анжелла Николаевна
Аномальная сочетаемость интенсификаторов в языке Ф.М. Достоевского2018 год, кандидат наук Шарапова, Екатерина Вячеславовна
Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах2008 год, кандидат технических наук Степанова, Надежда Александровна
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Арефьев, Николай Викторович
Основные результаты диссертации отражены в десяти публикациях (в научном журнале из перечня ВАК [60], в двух тематических сборниках [18,75], а также в других изданиях [13,19,61,67,68,70,74]).
Полученные результаты докладывались и обсуждались на следующих конференциях и семинарах:
•международная конференция по компьютерной лингвистике «Диалог» (2010 г.);
•научная конференция МГУ «Тихоновские чтения» (2011 г.);
•международные научно-практические конференции SWorld (2008, 2009, 2011, 2012 гг.);
•научно-исследовательские семинары МГУ им. М.В. Ломоносова, ВЦ РАН, Института Русского языка РАН, Высшей школы экономики.
Заключение
Список литературы диссертационного исследования кандидат физико-математических наук Арефьев, Николай Викторович, 2012 год
1. Розенталь Д.Э. Управление в русском языке. М.: Книга, 1981. - 304 с.
2. Словарь сочетаемости слов русского языка. Под ред. П. Н. Денисова, В. В. Морковкина. 2-е изд., испр. - М.: Рус. яз., 1983. - 688 с.
3. Miller G.A. WordNet: A Lexical Database for English // CACM. 38(11). 1995. -P. 39-41.
4. Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. Прикладное программное обеспечение: системы автоматической обработки текстов. М.: МАКС Пресс, 2000. 52 с.
5. Bolshakov I.A., Gelbukh A. Computational Linguistics. Models, Resources, Applications. Mexico: IPN, 2004. 186 c.
6. A., Ferrucci D. Lally. UIMA: an architectural approach to unstructured information processing in the corporate research environment // Natural Language Engineering. №3-4. 2004. P. 327-348.
7. Мальковский М.Г., Старостин A.C. Модель синтаксиса в системе морфо-синтаксического анализа «TREETON» // Труды международной конференции Диалог'2006. М.: изд-во РГГУ, 2006. С. 481-492.
8. Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ ТЕКСТ». М.: Школа "Языки русской культуры", 1999. 346 с.
9. Chomsky N. Syntactic Structures. Paris: Mouton, 1957. 117 p.
10. Мальковский М.Г., Старостин A.C. Система Treeton: Анализ под управлением штрафной функции // Программные продукты и системы. №1. Тверь, 2009. С. 33-35.
11. Зализняк A.A. Грамматический словарь русского языка. Словоизменение. М.: Рус. яз., 1980. 880 с.
12. Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). М.: Просвещение, 1966. 305 с.
13. Арефьев Н.В. Оценка достоверности синтаксических связей // Сб. научных трудов по материалам международной научно-практической конференции
14. Перспективные инновации в науке, образовании, производстве и транспорте '2009», т.2. Одесса: Черноморье, 2009. С. 94-97.
15. Ивин A.A., Никифоров A.JI. Словарь по логике. М.: Туманит, изд. центр ВЛАДОС, 1997. 384 с.
16. Гладкий A.B. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука, 1985. 144 с.
17. Иорданская Л.Н. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза) // Научно-техническая информация. 5. 1967.-С. 9-17.
18. Апресян Ю.Д, Богуславский И.М., Иомдин Л.Л., Лазурский A.B., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989. 296 с.
19. Иомдин Л.Л., Сизов В.Г., Цинман Л.Л. Использование эмпирических весов при синтаксическом анализе // Труды международной конференции «Обработка текста и когнитивные технологии». Т. 6. Казань: Отечество, 2001. С. 64-72.
20. Сизов В.Г., Петроченков В.В. Использование статистической информации оконкурирующих синтаксических связях в синтаксическом анализаторе ЭТАП-3для получения наиболее вероятной синтаксической структуры фразы //
21. Сборник трудов 33-ой Конференции молодых ученых и специалистов ИППИ
22. РАН. Геленджик, 18-26 сентября 2010 г. М.: ИППИ, 2010. С. 299-305.149
23. Мельчук И.А. Русский язык в модели «Смысл Текст». Москва-Вена: Школа "Языки русской культуры", Венский славистический альманах, 1995. -682 с.
24. Жолковский А.К., Мельчук И.А. О семантическом синтезе // Проблемы кибернетики. 19. 1967. С. 177-238
25. Сизов В.Г., Цинман JI.JI. Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор // Труды Международного семинара по компьютерной лингвистике и ее приложениям (Диалог'2000). Т. 2. Протвино, 2000. С. 366-369.
26. Крейдлин Л.Г. Учет дескрипторных весов в синтаксическом анализаторе системы ЭТАП-3 // Сборник трудов 34-ой Конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы (ИТиС'11)». Геленджик, 2011. С. 380-384.
27. Дяченко П., Фролова Т. Извлечение информации о сочетаемости лексем из аннотированного корпуса текстов // Информационные технологии и системы (ИТиС'08): сборник трудов конференции. М. : ИППИ РАН, 2008. С. 206-210.
28. Фролова Т. Интерпретация и практическое применение текстовых данных о сочетаемости лексем (на материале прилагательных) // Информационные технологии и системы (ИТиС'09): сборник трудов конференции. М.: ИППИ РАН, 2009.-С. 210-214.
29. Апресян Ю. Д., Богуславский И. М., Иомдин Б. J1. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003-2005. М.: Индрик, 2005.-С. 193-214.
30. Петроченков В.В.Статистическое разрешение лексической неоднозначности в системе ЭТАП-3 PDF. (http://itas2011.iitp.ru/pdf/1569463719.pdf)
31. Большаков И.А. КроссЛексика большой электронный словарь сочетаний и смысловых связей русских слов // Материалы ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Т. 8(15). М. : РГГУ, 2009. - С. 45-50.
32. Мельчук И.А., Жолковский А.К. и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена: Wiener Slavistischer Almanach, 1984. 992 с.
33. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1112 с.
34. Сокирко A.B., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка HTML. (http://www.aot.ru/docs/RusCorporaHMM.htm)
35. Carson Т. Schutze. РР attachment and argumenthood // Carson Т. Schutze, Jennifer В. Ganger, and Kevin Broihier, editors. Papers on Language Processing and Acquisition. 1995. P. 95-152.
36. Marilyn Ford, Joan Bresnan, Ronald M. Kaplan. A competence-based theory of syntactic closure // Joan Bresnan editor. The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. 1982. P. 727-796.
37. Yorick Wilks, Xiuming Huang, Dan Fass. Syntax, preference and right attachment // Proceedings of the 9th International Joint Conference on Artificial Intelligence (IJCAI 85). Los Angeles, CA. 1985. P. 779-784.
38. Kathleen Dahlgren, Joyce McDowell. Using commonsense knowledge to disambiguate prepositional phrase modifiers // Proceedings of the 6th Conference on Artificial. Philadelphia, PA. 1986. P. 589-593.
39. Graeme Hirst. Semantic Interpretation and the Resolution of Ambiguity. Cambridge: Cambridge University Press, 1987. 267 p.
40. Karen Jensen, Jean-Louis Binot. Disambiguating prepositional phrase attachments by using on-line dictionary definitions // Computational Linguistics. 13(3-4). 1987.-P. 251-260.
41. Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a large annotated corpus of English: the Penntreebank // Computational Linguistics. 19(2). 1993.-P. 313-330.
42. Adwait Ratnaparkhi, Jeff Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment // Proceedings of the Human Language Technology Workshop. Plalnsboro, N.J.: ARPA. P. 250-255.
43. Michael Collins, James Brooks. Prepositional Phrase Attachment through a Backed-Off Model // Proceedings of the 3rd Annual Workshop on Very Large Corpora. Cambridge, MA. 1995. P. 27-38.
44. Jiri Stetina, Makoto Nagao. Corpus Based PP Attachment Ambiguity Resolution with a Semantic Dictionary // Proceedings of the 5th Annual Workshop on Very Large Corpora. HongKong. 1997. P. 66-80.
45. Donald Hindle, Mats Rooth. Structural Ambiguity and Lexical Relations. // Computational Linguistics. 19(1). 1993.-P. 103-120.
46. Sinclair J. P., Hanks G., Fox R., Moon P. Stock, et al. Collins COBUILD English Language Dictionary. London and Glasgow: Collins, 1987. 1728 p.
47. Christopher D. Manning, Hinrich Schutze. Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: MIT Press, 1999. 680 p.
48. Adwait Ratnaparkhi. Statistical models for unsupervised prepositional phrase attachment // COLING '98 Proceedings of the 17th international conference on Computational linguistics. T. 2. Stroudsburg, PA, USA, 1998. P. 1079-1085.
49. Апресян Ю.Д. Избранные труды, т.1. Лексическая семантика. М.: Школа «Языки русской культуры», Издательская фирма «Восточная литература» РАН, 1995.-472 с.
50. Мальковский М.Г., Арефьев Н.В. «Сочетаемостные ограничения в системе автоматического синтаксического анализа» // Программные продукты и системы. №1. Тверь, 2012. С.28-31.
51. Мальковский М.Г., Арефьев Н.В. Учет лексико-семантической информации в системе Treeton // Тихоновские чтения: Научная конференция, Москва, МГУ имени М.В. Ломоносова, 14 июня 2011 г.: Тезисы докладов. М.: МАКС Пресс, 2011.-С. 53.
52. Иорданская Л.Н., Мельчук И.А. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007. 672 с.
53. Bruce Eckel. Thinking in Java (4th Edition). Upper Saddle River, N. J.: Prentice Hall Ptr, 2006. 1463 p.
54. Национальный корпус русского языка HTML. (http://www.ruscorpora.ru)153
55. Gerlof Bouma. Normalized (Pointwise) Mutual Information in Collocation Extraction // From Form to Meaning: Processing Texts Automatically, Proceedings of the Biennial GSCL Conference 2009. Tübingen : Gunter Narr Verlag. P. 31-40.
56. Перцов Н.В., Старостин С.А. О синтаксическом процессоре, работающем на ограниченном объеме лингвистических средств // Труды международной конференции Диалог'1999. Т.2. Таруса. С. 224-230.
57. Арефьев Н.В. Использование онтологии для оценки семантической корректности синтаксической структуры // Сб. тезисов лучших дипломных работ 2008 года. М.: Изд-во факультета ВМиК МГУ им. М.В. Ломоносова, 2008.-С. 91-92.
58. Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка: 80 000 слов и фразеологических выражений. М.: Азъ, 1993. 955 с.
59. ЛюгерД.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание. М.: Издательский дом "Вильяме", 2003. 864 с.
60. Bullinaria J.A., Levy J.P. Extracting Semantic Representations from Word Cooccurrence Statistics: A Computational Study // Behavior Research Methods, 39. 2007.-P. 510-526.
61. Firth J.R. A synopsis of linguistic theory 1930-1955 // Studies in Linguistic Analysis. Oxford: Philological Society. 1957. P. 1-32.
62. Мальковский М.Г., Абрамов В.Г., Субботин A.B. Об автоматизированном формировании лингвистических баз знаний // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Т.2. Казань, 1998.-С. 831-836.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.