Автоматизированное формирование базы знаний для задачи анализа мнений тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Четвёркин, Илья Игоревич

  • Четвёркин, Илья Игоревич
  • кандидат физико-математических науккандидат физико-математических наук
  • 2013, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 147
Четвёркин, Илья Игоревич. Автоматизированное формирование базы знаний для задачи анализа мнений: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2013. 147 с.

Оглавление диссертации кандидат физико-математических наук Четвёркин, Илья Игоревич

Содержание

Введение

1 Анализ предметной области

1.1 Задача анализа мнений

1.1.1 Обнаружение субъективности в текстах и идентификация мнений

1.1.2 Задача определения тональности фрагмента текста

1.1.3 Автоматическое аннотирование субъективных текстов

1.2 Подходы к классификации текстов по тональности

1.2.1 Критерии оценки качества алгоритмов классификации текстов по тональности

1.2.2 Классификация на основе методов машинного обучения

1.2.2.1 Алгоритмы классификации

1.2.2.2 Признаковое описание объектов и веса признаков

1.2.2.3 Подходы с использованием алгоритмов машинного обучения

1.2.3 Классификация по тональности на основе словарей и

правил

1.2.3.1 Методы построения словарей оценочной лексики

1.2.3.2 Подходы с использованием словарей оценочных слов

1.2.4 Классификация текстов по тональности на русском языке

1.2.5 Адаптация алгоритмов к различным предметным областям

1.3 Выводы к первой главе

2 Модель оценочных слов для построения словаря в заданной предметной области

2.1 Модель мнения пользователя

2.2 Модель извлечения оценочных слов для заданной предметной области

2.2.1 Описание текстовых коллекций

2.2.2 Признаки оценочных слов

2.2.2.1 Частотные признаки

2.2.2.2 Признаки на основе оценок пользователей

2.2.2.3 Лингвистические признаки

2.2.3 Алгоритмы и оценки качества

2.2.4 Исследование качества признаковых наборов

2.2.5 Теоретическое исследование признака «Странность»

2.2.5.1 Распределения слов в коллекциях текстов

2.2.5.2 Распределение случайной величины признака

и его некоторые особенности

2.2.5.3 Взаимная информация между признаком и ; классом слова

2.2.6 Использование извлеченных оценочных слов в задаче

классификации

2.2.6.1 Коллекции для тестирования качества классификации отзывов

2.2.6.2 Пространство признаков для классификации отзывов

2.2.6.3 Эксперименты по классификации отзывов с учётом тональности

2.2.6.4 Оценка отзывов экспертами

2.3 Перенос модели оценочных слов на различные предметные области

2.3.1 Описание результатов переноса модели

2.3.2 Использование извлеченных словарей в задачах классификации на РОМИП 2011

2.3.2.1 Коллекции и предобработка данных

2.3.2.2 Наборы признаков на основе оценочных слов

2.3.2.3 Результаты экспериментов по классификации отзывов в различных областях

2.3.3 Применение модели к другим языкам

2.3.4 Система извлечения оценочных слов БотЕх

2.4 Выводы ко второй главе

3 Создание обобщенного списка оценочных слов

3.1 Методика формирования обобщенного списка

3.2 Перенос классификатора тональности на различные области

3.2.1 Меры качества в задаче переноса классификатора

3.2.2 Основные результаты переноса классификатора

3.3 Поиск и извлечение отзывов из коллекции блогов

3.4 Выводы к третьей главе

4 Классификация оценочных слов по тональности

4.1 Задача классификации слов по тональности

4.2 Марковские сети и модель Изинга

4.3 Алгоритм распространения доверия

4.4 Построение и инициализация модели

4.5 Эксперименты и оценка качества

4.6 Выводы к четвертой главе

Заключение

Список рисунков

Список таблиц

Литература

А Список общезначимых оценочных слов

В Список оценочных слов в предметной области о фильмах с разметкой по тональности

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматизированное формирование базы знаний для задачи анализа мнений»

Введение

С развитием сети Интернет неуклонно растет объем хранимой неструктурированной информации, представленной текстами на естественных языках. Условно такую информацию можно разделить на два типа: «фактическая информация» и «субъективные мнения пользователей». За прошедшее десятилетие наиболее активному исследованию подвергались алгоритмы и программные системы связанные с обработкой фактической информации [1] (например поисковые машины).

С появлением Веб 2.0 и построенных на его основе социальных сетей, платформ для блогов и микроблогов, объём информации второго типа стал существенно увеличиваться. «Блогосфера» стала наиболее динамичной частью всемирной паутины, которая развивается, реагируя на события в реальной жизни. Вследствие этого растет научный и практический интерес к задачам обработки субъективной информации.

Для решения таких задач важным является определение субъективности и тональности текста. Субъективность текста определяется наличием в нём точки зрения автора и выражением его мнения, а не констатацией фактов [2]. Тональность — это эмоциональное отношение автора высказывания к некоторому объекту [2] (объекту реального мира, событию, процессу, или их свойствам/атрибутам) .

Для примера рассмотрим текст о фильме: Хороший, трешовый фильм, с отличным чувством юмора. Для любителей Гая Ритчи самое то, вот только картинка нищенская, но ничего страшного. Это даже колорит какой-то при-

дает. Данный текст является субъективным отзывом и имеет положительную тональность по отношению к фильму. Для того, чтобы правильно оценить тональность данного текста необходимо знать, что слова хороший, трешовый, отличный, колорит являются оценочными с положительной тональностью, а слово нищенский является отрицательным оценочным словом.

На данном примере можно увидеть, что для решения задачи анализа мнений необходимо обладать большим количеством вспомогательных знаний об объектах и их атрибутах, оценочных словах и выражениях, а также владельцах мнений — в виде специализированной базы знаний. Одним из наиболее важных видов знаний являются словари оценочных слов и проставленные оценки тональности для каждого слова. Однако построение универсального словаря оценочных слов является невыполнимой задачей, так как оценочность суждения во многих случаях зависит от предметной области. Предметная область — это часть реального мира, рассматриваемая в пределах данного контекста. Под контекстом здесь может пониматься, например, область исследования или область, которая является объектом некоторой деятельности.

Каждая предметная область может иметь свойственную только ей оценочную лексику, либо значения оценочных слов могут меняться в разных областях [3]. Например, «нужно увидеть» является сильным оценочным выра-г жением в предметной области о фильмах, но нейтральным в общественно-политической области [4].

Вследствие описанных особенностей оценочных слов в задачах анализа субъективной информации, вручную сформированные ресурсы могут использоваться для первичной обработки, с их последующим пополнением и обогащением. Такие ресурсы обладают высокой точностью и очень низкой полнотой, так как не включают в себя слова характерные для заданной предметной области, слэнг и другие несловарные слова. Низкая полнота в свою очередь ведет к невозможности учета отсутствующих слов при анализе текстов и падению качества работы алгоритмов.

Альтернативным вариантом конструирования словарей оценочной лексики является автоматическое извлечение оценочных слов из коллекций текстов или других ресурсов, находящихся в свободном доступе. Такие подходы позволяют извлекать оценочные слова характерные для заданной предметной области, которые часто употребляются людьми для выражения своего отношения к тому или иному объекту.

Таким образом, актуальной является проблема автоматического извлечения словарей оценочных слов для различных предметных областей. Такие словари могут быть полезны при адаптации алгоритмов анализа мнений, а также улучшают качество работы в различных задачах, например в поиске оценочной информации [5], или в классификации выражений по тональности [6]. Кроме того, извлечение оценочных слов непосредственно из текстовых коллекций позволяет найти сленг и другие несловарные слова, которые могут быть важными факторами при обработке мнений [7].

Цель диссертационной работы

Целью диссертационной работы является разработка методов и программных средств построения базы знаний для задачи анализа мнений. Разрабатываемые программные средства должны удовлетворять следующим требованиям: высокая точность извлеченных словарей оценочных слов; применимость к различным предметным областям; возможность комбинации словарей из различных предметных областей; определение тональности извлеченных оценочных слов.

Для достижения этой цели были решены следующие задачи:

1. Исследование и разработка модели извлечения оценочных слов для заданной предметной области и перенос обученной модели извлечения оценочных слов на другие предметные области без дополнительной разметки;

2. Разработка методов автоматического определения тональности извлеченных слов;

3. Построение обобщенного словаря оценочных слов, не зависящего от предметной области, на основе извлеченных знаний;

4. Разработка программного модуля извлечения оценочных слов для заданной предметной области и комбинации знаний из разных предметных областей.

Основные положения, выносимые на защиту:

1. Предложен новый метод автоматического извлечения оценочной лексики заданной предметной области, основанный на использовании нескольких текстовых коллекций и совокупности признаков. Показана переносимость предложенной модели извлечения оценочных слов на разные предметные области;

2. Предложен и реализован новый метод автоматического определения тональности извлеченных оценочных слов. Метод основан на применении марковских случайных полей;

3. На основе предложенного метода извлечения оценочной лексики был создан словарь оценочных слов, независящих от предметной области. Данный словарь был опубликован и является первым общедоступным словарем оценочной лексики для русского языка. Показана полезность данного ресурса в нескольких задачах анализа тональности текстов.

Научная новизна

Новизна настоящей диссертационной работы заключается в том, что предложен новый метод построения базы знаний для задачи анализа мнений на основе ряда текстовых коллекций и комбинации статистических признаков.

Применимость метода обоснована теоретически, на основе анализа полезности ряда признаков для классификации оценочных слов, а также численно, для чего были проведены эксперименты с использованием извлеченных знаний. Разработанный метод может применяться в различных предметных областях для извлечения знаний и построения автоматических алгоритмов анализа мнений на их основе.

Практическая значимость

На основе предложенного метода, спроектирована и реализована программная система для извлечения оценочных слов в заданной предметной области. Разработанная система также имеет возможность комбинирования списков оценочных слов, для формирования общих, независящих от предметной области словарей. Такой словарь был создан для мета-области товаров и общедоступен для исследовательских целей1. Таким образом, разработанная система может быть использована для создания баз знаний оценочных выражений в различных предметных областях без какого-либо дополнительного участия человека.

Результаты научных исследований, представленных в диссертации, частично использовались в рамках гранта РФФИ № 11-07-00588-а под руководством Лукашевич Н.В.

Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:

• На международной конференции «Диалог» (2010г.);

• На международной конференции «Ломоносов» (2010г.); ч

• На 12-й национальной конференция по искусственному интеллекту с международным участием (КИИ, 2010г.)

• На международной конференции «Диалог» (2011г.);

1 http://www.cir.ru/SentiLexicon/ProductSentiRus.txt

• На семинаре по поиску концептов в неструктурированной информации (CDUD), проходящему совместно с конференцией RSFDGrC (2011г.);

• На семинаре по поиску информации и извлечению знаний (IEKA), проходящему совместно с конференцией RANLP (2011г.);

• На международной конференции «Диалог» (2012г.);

• На летней школе по информационному поиску RUSSIR (2012г.);

• На международной конференции COLING (2012г.);

• На международной конференции «Ломоносов» (2013г.);

• На международной конференции «Диалог» (2013г.);

Кроме того результаты обсуждались на семинаре лаборатории анализа информационных ресурсов НИВЦ МГУ, на семинаре в НИУ ВШЭ и на регулярном семинаре ACM SIGMOD в Москве.

Публикации. Основные результаты по теме диссертации изложены в 18 печатных работах, в том числе в 2-х статьях в журналах из списка ВАК [8,9], 1 статье, входящей в базу SCOPUS [10], 2 — в тезисах докладов [11,12], и в 13 других изданиях [13-25].

Объем и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объем диссертации составляет 131 страницу с 8 рисунками и 17 таблицами, объем приложений — 15 страниц. Список литературы содержит 103 наименования.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Четвёркин, Илья Игоревич

4.6 Выводы к четвертой главе

В данной главе предложена адаптация модели Изинга для задачи классификации оценочных слов по тональности. При построении данной модели используется только коллекция отзывов о фильмах с оценками пользователей без каких-либо дополнительных семантических ресурсов. Из данной коллекции извлекается набор оценочных слов, на основе которого строится марковская сеть для заданной предметной области. Часть извлеченных слов имеет нейтральную тональность, либо тональность, зависящую от контекстов, что усложняет поиск согласованного состояния в сети. Тем не менее, результирующее качество классификации предложенной модели превосходит базовый уровень и составляет 85.2%. Разработанный метод является полностью автоматическим и не нуждается в ручной разметке.

Заключение

В ходе диссертационной работы были получены следующие результаты:

1. Предложен новый метод автоматического извлечения оценочной лексики заданной предметной области, основанный на использовании нескольких текстовых коллекций и совокупности признаков. Показана переносимость предложенной модели на разные предметные области;

2. Предложен и реализован новый метод автоматического определения тональности извлеченных оценочных слов. Метод основан на применении марковских случайных полей.

3. На основе предложенного метода извлечения оценочной лексики был создан словарь оценочных слов, не зависящих от предметной области, который был опубликован и является первым общедоступным словарем оценочной лексики для русского языка. Показана полезность данного ресурса в нескольких задачах анализа тональности текстов;

Список литературы диссертационного исследования кандидат физико-математических наук Четвёркин, Илья Игоревич, 2013 год

Литература

1. Manning C., Raghavan P., Schütze H. Introduction to information retrieval. Cambridge University Press Cambridge, 2008.

2. Handbook of natural language processing / Ed. by N. Indurkhya, F. Damerau. Chapman & Hall, 2010. P. 627-666.

3. Ponomareva N., Thelwall M. Biographies or blenders: which resource is best for cross-domain sentiment analysis? // Computational Linguistics and Intelligent Text Processing. 2012. P. 488^99.

4. Blitzer J., Dredze M., Pereira F. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification // Association For Computational Linguistics. Vol. 45. 2007. P. 440-447.

5. Jijkoun V., de Rijke M., Weerkamp W. Generating focused topic-specific sentiment lexicons // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics / Association for Computational Linguistics. 2010. P. 585-594.

6. Choi Y., Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009. P. 590-598.

7. Lexicon-based methods for sentiment analysis / M. Taboada, J. Brooke, M. Tofiloski et al. // Computational Linguistics. 2011. Vol. 37, no. 2. P. 267307.

8. Лукашевич H.B., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса // Вычислительные методы и программирование. 2011. Т. 12. С. 73-81.

9. Лукашевич Н.В., Четверкин И.И. Построение модели для извлечения оценочной лексики в различных предметных областях // Моделирование и анализ информационных систем. 2013. Т. 20, № 2. С. 70-79.

10. Chetviorkin I., Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // COLING 2012: Technical Papers. 2012. P. 593-610.

11. Четверкин И. И. Метод извлечения оценочных слов из текстов // Международная молодежная научная олимпиада «Ломоносов-2010». 2010. С. 99-100.

12. Четверкин И. И. Кластеризация оценочных слов по тональности на основе марковских случайных полей // Международная молодежная научная олимпиада «Ломоносов-2013». 2013. С. 62-63.

13. Четверкин И.И., Лукашевич Н.В. Автоматическое извлечение оценочных слов для конкретной предметной области // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2010. С. 565-571.

14. Четверкин И.И., Лукашевич Н.В. Автоматическая классификация отзывов на основе оценочных слов // 12-ая Национальная конференция по искусственному интеллекту международным участием (КИИ-2010). 2010. Т. 1. С. 299-307.

15. Chetviorkin I., Loukachevitch N. Three-way movie review classification // International Conference on Computational Linguistics Dialog. 2011. P. 168— 177.

16. Chetviorkin I., Loukachevitch N. Extraction and Use of Opinion Words for Three-Way Review Classification Task // CDUD'11-Concept Discovery in Unstructured Data. 2011. P. 31-42.

17. Chetviorkin I., Loukachevitch N. Extraction of Domain-specific Opinion Words for Similar Domains // Information Extraction and Knowledge Acquisition. 2011. P. 7-12.

18. Chetviorkin I. Testing the sentiment classification approach in various domains — ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 15-26.

19. Chetviorkin I., Braslavskiy P., Loukachevich N. Sentiment Analysis Track at ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 1-14.

20. Chetviorkin I., Loukachevitch N. Cross-domain opinion word extraction model // VI Russian Summer School in Information Retrieval. 2012. P. 5-15.

21. Chetviorkin I., Loukachevitch N. DomEx: Extraction of Sentiment Lexicons for Domains and Meta-Domains // COLING 2012: Demo Papers. 2012. P. 7785.

22. Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских случайных полей // Новые информационные технологии в автоматизированных системах. 2013. С. 245-252.

23. Kuznetsova E., Loukachevitch N., Chetviorkin I. Testing rules for sentiment analysis system // International Conference on Computational Linguistics Dialog. Vol. 2. 2013. P. 71-80.

24. Chetviorkin I., Loukachevitch N. Sentiment analysis track at ROMIP 2012 // International Conference on Computational Linguistics Dialog. Vol. 2. 2013. P. 40-50.

25. Четвёркин И. И. Анализ и применение признаков оценочных слов для формирования словаря оценочной лексики // Сборник статей молодых ученых факультета ВМК МГУ. 2013. Т. 10. С. 279-295.

26. Pang В., Lee L. Opinion mining and sentiment analysis. Now Pub, 2008.

27. Hatzivassiloglou V., McKeown K. Predicting the semantic orientation of adjectives // Proceedings of the eighth conference on European chapter of thé Association for Computational Linguistics. 1997. P. 174-181.

28. Turney P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002. P. 417^24.

29. Pang В., Lee L., Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing — Volume 10. 2002. P. 7986.

30. Проект BAAJI. URL: http://www.vaal.ru/.

31. Mihalcea R., Banea C., Wiebe J. Learning multilingual subjective language via cross-lingual projections // Association for Computation Linguistics. Vol. 45. 2007. P. 976-983.

32. Pang B., Lee L. A sentimental education: Sentiment analysis using subjectivity'summarization based on minimum cuts // Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics / Association for Computational Linguistics. 2004. P. 271-278.

33. Learning subjective language / J. Wiebe, T. Wilson, R. Bruce et al. // Computational linguistics. 2004. Vol. 30, no. 3. P. 277-308.

34. Wiebe J., Mihalcea R. Word sense and subjectivity // Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. 2006. P. 1065— 1072.

35. Joachims T. Text categorization with support vector machines: Learning with many relevant features. Springer, 1998.

36. Popescu A., Etzioni O. Extracting product features and opinions from reviews // Natural language processing and text mining. Springer, 2007. P. 928.

37. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. C. 168-177.

38. Snyder B., Barzilay R. Multiple aspect ranking using the good grief algorithm // Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL). 2007. P. 300-307.

39. Titov I., McDonald R. Modeling online reviews with multi-grain topic models // Proceedings of the 17th international conference on World Wide Web. 2008. P. 111-120.

40. Вапник В.Н., Червоненкис А .Я. Теория распознавания образов: статистические проблемы обучения. Наука, 1974.

41. Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин) // Курс лекций ВМК МГУ и МФТИ. 2011.

42. Kuncheva L. I. Combining Pattern Classifiers: Methods and Algorithms. Wi-ley.com, 2004.

43. Dave K., Lawrence S., Pennock D. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proceedings of the 12th international conference on World Wide Web. 2003. P. 519-528.

44. Airoldi E., Bai X., Padman R. Markov blankets and meta-heuristics search: Sentiment extraction from unstructured texts // Advances in Web Mining and Web Usage Analysis. 2006. P. 167-187.

45. Riloff E., Patwardhan S., Wiebe J. Feature subsumption for opinion analysis // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. 2006. P. 440-448.

46. Paltoglou G., Thelwall M. A study of information retrieval weighting schemes for sentiment analysis // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010. P. 1386-1395.

47. Gamon M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis // Proceedings of the 20th international conference on Computational Linguistics. 2004. P. 841847.

48. Ng V., Dasgupta S., Arifin S. Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews // Proceedings of the COLING. 2006. P. 611-618.

49. Das S., Chen M. Yahoo! for Amazon: Sentiment extraction from small talk on the web // Management Science. 2007. Vol. 53, no. 9. P. 1375-1388.

50. Whitelaw C., Garg N., Argamon S. Using appraisal groups for sentiment analysis // Proceedings of the 14th ACM international conference on Information and knowledge management. 2005. P. 625-631.

51. Nakagawa T., Inui K., Kurohashi S. Dependency tree-based sentiment classification using CRFs with hidden variables // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics / Association for Computational Linguistics. 2010. P. 786-794.

52. Learning word vectors for sentiment analysis / A. Maas, R. Daly, P. Pham et al. // Proceedings of the 49th annual meeting of the association for computational Linguistics. 2011. P. 142-150.

53. Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Association for Computational Linguistics. Vol. 43. 2005. P. 115-124.

54. Goldberg A., Zhu X. Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment categorization // Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing. 2006. P. 45-52.

55. Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Computational Linguistics and Intelligent Text Processing. Springer, 2005. P. 486^97.

56. Riloff E., Wiebe J. Learning extraction patterns for subjective expressions // Conference on Empirical Methods on Natural Language Processing. 2003. P. 105-112.

57. Baccianella S., Esuli A., Sebastiani F. Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining // Proceedings of the 7th conference on International Language Resources and Evaluation (LREC'10). 2010. P. 2200-2204.

58. Stone P., Dunphy D., Smith M. The General Inquirer: A Computer Approach to Content Analysis. 1966.

59. Automatic construction of a context-aware sentiment lexicon: an optimization approach / Y. Lu, M. Castellanos, U. Dayal et al. // Proceedings of the 20th international conference on World wide web / ACM. 2011. P. 347-356.

60. Perez-Rosas V., Banea C., Mihalcea R. Learning Sentiment Lexicons in Spanish // Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). 2012. P. 3077-3081.

61. Clematide S., Klenner M. Evaluation and extension of a polarity lexicon for German // Proceedings of the First Workshop on Computational Approaches to Subjectivity and Sentiment Analysis. 2010. P. 7-13.

62. Neviarouskaya A., Prendinger H., Ishizuka M. Sentiful: Generating a reliable lexicon for sentiment analysis // Affective Computing and Intelligent Interaction and Workshops. 2009. P. 1-6.

63. Esuli A., Sebastiani F. Determining the semantic orientation of terms through gloss classification // Proceedings of the 14th ACM international conference on Information and knowledge management. 2005. P. 617-624.

64. Kanayama H., Nasukawa T. Fully automatic lexicon expansion for domain-oriented sentiment analysis // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing / Association for Computational Linguistics. 2006. P. 355-363.

65. Opinion word expansion and target extraction through double propagation / G. Qiu, B. Liu, J. Bu et al. // Computational linguistics. 2011. Vol. 37, no. 1. P. 9-27.

66. The viability of web-derived polarity lexicons / L. Velikovich, S. BlairGoldensohn, K. Hannan et al. // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2010. P. 777-785.

67. An effective statistical approach to blog post opinion retrieval / B. He, C. Macdonald, J. He [и др.] // Proceedings of the 17th ACM conference on Information and knowledge management. 2008. C. 1063-1072.

68. Ding X., Liu В., Yu P. A holistic lexicon-based approach to opinion mining // Proceedings of the international conference on Web search and web data mining. 2008. P. 231-240.

69. Пазельская А.Г., Соловьев A.H. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2011. С. 574-586.

70. Ермаков А.Е., Киселев C.JI. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2005. С. 282-285.

71. Wilson Т., Wiebe J., Hoffmann P. Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis // Computational linguistics. 2009. Vol. 35, no. 3. P. 399-433.

72. Ермаков A.E. Извлечение знаний из текста и их обработка: состояние и перспективы // Информационные технологии. 2009. № 7. С. 50-55.

73. Zagibalov T., Belyatskaya К., Carroll J. Comparable English-Russian book review corpora for sentiment analysis // Computational Approaches to Subjectivity and Sentiment Analysis. 2010. P. 63-68.

74. Creating Sentiment Dictionaries via Triangulation / J. Steinberger, P. Lenko-va, M. Ebrahim et al. // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. P. 28-36.

75. Котельников E.B., Клековкина M.B. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». № 11(18). 2012. С. 27-36.

76. Поляков П.Ю., Калинина М.В., Плешко В.В. Исследование применимости методов тематической классификации в задаче классификации отзывов о книгах // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». № 11. 2012. С. 51-59.

77. Рак A., Paroubek P. Language independent approach to sentiment anaLysis (Limsi participation inromip'll). 2012. no. 11. P. 37-50.

78. Исследование словарного подхода и методов машинного обучения для анализа тональности / П.Д. Блинов, М.В. Клековкина, Е.В. Котельников [и др.] // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». № 12. 2013. С. 51-61.

79. Aue A., Gamon M. Customizing sentiment classifiers to new domains: A case study // Proceedings of recent advances in natural language processing. 2005.

80. Wu Q., Tan S., Cheng X. Graph ranking for sentiment transfer // Proceedings of the ACL-IJCNLP 2009 Conference / Association for Computational Linguistics. 2009. P. 317-320.

81. Cross-domain sentiment classification via spectral feature alignment / S. Pan, X. Ni, J. Sun et al. // Proceedings of the 19th international conference on World Wide Web / ACM. 2010. P. 751-760.

82. Glorot X., Bordes A., Bengio Y. Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach // Proceedings of the 28th International Conference on Machine learning. 2011. P. 513-520.

83. Ahmad K., Gillam L., Tostevin L. University of surrey participation in trec8: Weirdness indexing for logical document extrapolation and retrieval (wilder) // The Eighth Text REtrieval Conference (TREC-8). 1999. P. 717724.

84. Callan J., Croft W., Harding S. The INQUERY retrieval system // Database and Expert Systems Applications. 1992. P. 78-83.

85. Peng H., Long F., Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 2005. Vol. 27, no. 8. P. 1226-1238.

86. Hall M. A. Correlation-based feature selection for machine learning. Ph.D.' thesis: The University of Waikato. 1999.

87. Прикладная статистика: Классификация и снижение размерности / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков [и др.]. Финансы и статистика, 1989.

88. Evert S. A simple LNRE model for random character sequences // JADT. 2004. P. 411-422.

89. Baayen R. H. Word frequency distributions. MIT Press, 2001. Vol. 18.

90. Holgate P. Species frequency distributions // Biometrika. 1969. Vol. 56, no. 3. P. 651-660.

91. Li W. Random texts exhibit Zipf's-law-like word frequency distribution // Information Theory, IEEE Transactions on. 1992. Vol. 38, no. 6. P. 1842— 1845.

92. Rouault A. Lois de Zipf et sources markoviennes // Annales de l'institut Henri Poincaré (В) Probabilités et Statistiques. Vol. 14. 1978. P. 169-188.

93. Izsak J. Some practical aspects of fitting and testing the zipf-mandelbrot model // Scientometrics. 2006. Vol. 67, no. 1. P. 107-120.

94. LIBLINEAR: A library for large linear classification / R.-E. Fan, K.W. Chang, C.-J. Hsieh et al. // The Journal of Machine Learning Research. 2008. Vol. 9. P. 1871-1874.

95. Растригин JI.А. Эренштейн P.X. Метод коллективного распознавания. Библиотека по автоматике 0615. Энергия, 1981.

96. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич [и др.] // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). 2004. С. 62-89.

97. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М.: Едиториал УРСС, 2011.

98. Takamura H., Inui Т., Okumura M. Extracting semantic orientations of words using spin model // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005. P. 133-140.

99. Добрушин P. JI. Описание случайного поля при помощи условных вероятностей и условия его регулярности // Теория вероятностей и ее применения. 1968. Т. 13, № 2. С. 201-229.

100. Аверинцев М Б. Об одном способе описания случайных полей с дискретным аргументом // Проблемы передачи информации. 1970. Т. 6, № 2. С. 100-108.

101. Koller D., Friedman N. Probabilistic graphical models: principles and techniques. The MIT Press, 2009.

102. Advanced Mean Field Methods / Ed. by M. Opper, D. Saad. The MIT Press, 2001. P. 229-241.

103. Mooij J. M. libDAI: A free and open source С++ library for discrete approximate inference in graphical models // The Journal of Machine Learning Research. 2010. Vol. 99. P. 2169-2173.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.