Основания лингвистической теории тезауруса тема диссертации и автореферата по ВАК РФ 10.02.19, кандидат наук Осокина, Светлана Анатольевна
- Специальность ВАК РФ10.02.19
- Количество страниц 465
Оглавление диссертации кандидат наук Осокина, Светлана Анатольевна
ВВЕДЕНИЕ..................................................................... 5
ГЛАВА 1. ИСТОКИ ТЕОРИИ ТЕЗАУРУСА..................................................21
1.1. Лингвистические истоки теории тезауруса..............................................24
1.1.1. Печатные тезаурусные словари....................................................................................24
1.1.2. Электронные тезаурусы....................................................................................48
1.1.3. Ассоциативные тезаурусы..............................................................................63
1.1.4. Тезаурус как система знания в лексикографическом аспекте..............................................................................................................................71
1.2. Естественно-научные истоки теории тезауруса..................................77
1.3. Философско-методологические истоки теории тезауруса... 105
1.4. Место тезауруса в системе «человек — язык - знание — реальность». Междисциплинарный подход......................................................130
Выводы по Главе 1......................................................................................................................159
ГЛАВА 2. ЯЗЫКОВАЯ СТРУКТУРА И ПРИНЦИПЫ
ОРГАНИЗАЦИИ ТЕЗАУРУСА......................................................................................161
2.1. Непосредственный объект наблюдения......................................................162
2.2. Единицы тезауруса..........................................................................................................171
2.2.1. Что собой представляет вербальная единица знания?
Вводные замечания..............................................................................................172
2.2.2. Система лингвистических взглядов на устойчивое сочетание слов............................................................................................................175
2.2.3. Доказательства объективного существования устойчивых сочетаний слов как самостоятельных языковых данностей............................................................................................................187
2.2.4. Устойчивые сочетания слов - языковые единицы
знания................................................................ 212
2.3. Системные отношения единиц тезауруса........................ 220
2.3.1. Межтекстовые отношения в системе тезауруса.............. 228
2.3.2. Серийное устройство системы тезауруса................... 246
2.4. Модель системы тезауруса - тезаурусная сеть................. 258
2.4.1. Иерархия - поле - сеть........................................... 259
2.4.2. Структурные свойства языкового тезауруса как
словесной сети........................................................ 286
2.5. Метод тезаурусного анализа в лингвистике ..................... 295
Выводы по Главе 2........................................................... 308
ГЛАВА 3. ЭКСПЛАНАТОРНЫЙ И ПРОГНОСТИЧЕСКИЙ ПОТЕНЦИАЛ ЛИНГВИСТИЧЕСКОЙ ТЕОРИИ
ТЕЗАУРУСА.................................................................. 311
3.1. Объяснительные возможности теории тезауруса.............. 311
3.1.1. Тезаурусный подход к объяснению становления
языковых знаний у ребенка....................................... 314
3.1.2. Тезаурусный подход к объяснению процессов вербальной коммуникации на разных языках................ 331
3.1.3. Тезаурусный подход к объяснению принципов языкового упорядочивания мира.............................................. 345
3.2. Прогнозирующие возможности теории тезауруса.............. 362
3.2.1. Прогностические потенции теории, основанные на изучении внутренней организации системы тезауруса... 363
3.2.2. Прогностические потенции теории, основанные на локальных исследованиях тезаурусной сети................. 372
Выводы по Главе 3.......................................................... 392
ЗАКЛЮЧЕНИЕ................................................................ 394
БИБЛИОГРАФИЧЕСКИЙ СПИСОК................................. 401
ПРИЛОЖЕНИЕ 1. Обращение Президента Российской Федерации Владимира Путина от 18.03.2014 (текст)............................ {
ПРИЛОЖЕНИЕ 2. Фрагмент тезауруса русского языка, построенного на основе анализа текста обращения Президента РФ Владимира Путина от 18.03.2014..............................................
Рекомендованный список диссертаций по специальности «Теория языка», 10.02.19 шифр ВАК
Языковая личность фотографа (на материале русскоязычных и англоязычных интернет-форумов)2022 год, кандидат наук Михайлова Маргарита Андреевна
Тезаурусное моделирование французской грамматической терминологии2004 год, доктор филологических наук Горбунов, Юрий Иванович
Отражение фоновых знаний в лексикографии: На материале словарей цитат, крылатых слов русского и немецкого языков1998 год, кандидат филологических наук Уварова, Ульяна Анатольевна
Концепт как способ смысловой организации художественного текста: На материале повести А. С. Пушкина "Метель"2003 год, кандидат филологических наук Карпинец, Татьяна Анатольевна
Тезаурусное моделирование англоязычной лингвистической терминологии: предметная область "Лингвистика текста"2016 год, кандидат наук Жучкова Ирина Игоревна
Введение диссертации (часть автореферата) на тему «Основания лингвистической теории тезауруса»
ВВЕДЕНИЕ
Актуальность темы настоящего диссертационного исследования определяется обращением к рассмотрению одной из наиболее важных проблем современного информационного общества - вопроса о производстве, хранении, переработке и реализации информации, особенно «высшей» ее формы [Гухман, 2001] - знания. Повышение интереса к данной проблеме мотивировано интенсивным развитием когнитивного подхода во всех направлениях гуманитарного знания и изменением общих парадигмальных установок философской методологии науки, связанных с переключением основного внимания с проблем традиционной гносеологии на проблемы эпистемологии, занимающейся поиском «неизменных структур» [Лешкевич, 2001, с. 5-6], формирующих знание о мире. Эпистемология изучает результат процесса познания — «знание как таковое, его строение, структуру, функционирование и развитие» [Новейший философский словарь, электронный ресурс].
Определение сущности знания - краеугольный камень всех эпистемологических изысканий, однако большинство исследователей сходятся во мнении, что знание — «это семиотический объект» [Розов, 1999, с. 48], соответственно, исследование знания обязательно предполагает изучение семиотических объектов и их систем. Поскольку первичной, естественно возникшей и ставшей образцом для создания искусственных семиотических систем является система языка, правомерно признать причастность языка к формированию знания. История развития философской и научной мысли на протяжении XX века подняла статус языка до уровня системы, не просто принимающей участие в оформлении знания (его выражении, хранении и передаче последующим поколениям), но обеспечивающей его существование — системы, которая определяет, синтезирует, генерирует знание.
Изучение роли языка в формировании знания является одной из ведущих задач современной лингвистики, особенно в русле когнитивной парадигмы. Однако, по выражению P.M. Фрумкиной, «у нас пока нет теории, ко-
5
торую можно было бы, например, назвать «общей теорией знаковой поддержки получения и закрепления знания» [Фрумкина, 2001, с. 146].
Настоящая диссертация представляет собой научную работу, в которой на обсуждение выносится концептуальное построение соответствующей теории, получающей название «лингвистическая теория тезауруса».
Выбор такой номинации обусловлен, во-первых, тем, что понятие «тезаурус» является исконным лингвистическим понятием и органично вписывается в языковедческую парадигму. Во-вторых, именно с понятием «тезаурус» связываются первые представления о хранилище - «сокровищнице» -знания, содержащегося в языке. Прототипом такого хранилища является словарь. Примечательно, что первые словари, созданные людьми, представляли собой именно тезаурусы, фиксировавшие соотношение слов и понятий, представленных в виде четкой логической структуры, в чем нельзя не усмотреть предопределение строения научного знания. В-третьих, выбор номинации «теория тезауруса» обусловлен современным состоянием лингвистики и смежных наук, в которых все более часто для обозначения языковой системы знания используется понятие «тезаурус»; также тезаурусами называются специальные словари и электронные системы поиска информации, т.е. системы, обобщающие и структурирующие определенное знание.
Актуальность работы определяется возможностью ее органичного встраивания в сложившуюся на рубеже ХХ-ХХ1 веков систему научных взглядов и способностью решить некоторые имеющиеся в ней проблемы. В современной научной парадигме выделяется несколько подходов к пониманию тезауруса как системы знания. В языкознании под тезаурусом понимается словарь идеографического типа [Кх^е!:, 2004; Клгкрагйск, 1994; Ьи^, 1994; Urdang, 1992; Морковкин, 1970; Караулов, 1976; Баранов, 1995], когнитивная система знания о мире (в этом понимании тезаурус соотносится с терминами «картина мира» [Караулов, 1981; 2007; 2009] и «ментальный лексикон» [За-левская, 1992; 2005; Кубрякова, 2004]), в прикладной лингвистике разрабатываются информационно-поисковые тезаурусы и языковые онтологии, так-
6
же называемые тезаурусами [Азарова, 2004а; 20046; 2004в; Лукашевич, 2011; Loukachevich, 2014; Gader, 2014; Benjamin, 2014; Rosman, 2014]; последние используются при разработке систем искусственного интеллекта [Negnevitsky, 2002; Пацкин, 2000; 2004]. Независимо от того, рассматривается ли тезаурус как система знания, выводимая из лексики естественного языка (каковой ее видят, например, авторы тезауруса WordNet, авторы большинства тезаурусов английского языка, О.С. Баранов), интериоризированное знание субъекта (Ю.Н. Караулов, A.A. Залевская, Е.С. Кубрякова) или как онтология логических категорий, не связанная напрямую со значениями слов конкретного языка (Р. Roget, H.B. Лукашевич), в любом случае тезаурус изучается как семантическая (когнитивная) система представления информации.
В таких направлениях исследований, как информатика и синергетика под тезаурусом понимается система, необходимая для принятия и обработки (понимания) информации [Шрейдер, 1982; Чернавский, 2004]; в гуманитарных науках тезаурус может рассматриваться как система знания, присущая как отдельному индивиду, так и целым социальным группам, которая изучается на материале произведений отдельных авторов или определенной культурной эпохи [Луков Вал.А., 2013; 2012; 2011; 2005; Луков Вл.А., 2010; Захаров, 2011; Гайдин, 2013; Кузнецова, 2013; Есин, 2005]. В данных направлениях имеется понимание тезауруса как экстериоризированной системы знания, проявляющейся в качестве объективно существующей информации в «физическом» смысле или в виде материальных семиотических продуктов культуры. Однако и в данном случае тезаурус исследуется как семантическая система, в качестве элементов которой называются концепты, понятия, «культурные константы» и прочие абстрактные модели знаниевых структур. Материальные проявления знания (знаки языка, тексты культуры) изучаются только как средство постижения не наблюдаемой напрямую сущности, которая и получает статус знания.
Проблема состоит в том, что при любом подходе «ускользает» собственно языковая сущность тезауруса: основное внимание уделяется тому, на что «указывает» языковой знак - значению.
Из данной проблемы вытекает вторая, связанная с изучением качества отношений в системе тезауруса. Поскольку основное внимание уделяется значению языковых выражений, исследуются их семантические связи и отношения, при этом центральной единицей системы признается слово, а основой отношений слов в системе тезауруса - системные отношения в лексике (главным образом, синонимические - данный тип отношений является ведущим в тезаурусных словарях [WordNet, 2014; Merriam-Webster's Collegiate Thesaurus, 1993; Luts, 1994; Urdang,1992]). Хотя в тезаурусы могут вводиться сочетания слов, их используют в качестве иллюстративных примеров употребления слова в определенном значении или для репрезентации сочетательных потенций слова.
Важность исследования роли сочетаний слов в формировании языковой системы знания подчеркивается в работах Ю.Н. Караулова, посвященных исследованию «ассоциативного тезауруса русского языка» [Русский ассоциативный словарь, 1994а; Караулов, 1993; 1999]; в совместной работе Ю.Н. Ка-раулова и Ю.Н. Филипповича некоторые виды устойчивых многословных языковых выражений входят в список «единиц знания о мире» [Караулов, 2009]. Однако Ю.Н. Караулов и другие авторы исследуют только определенные виды сочетаний слов (например, в различных работах исследуются либо речевые стереотипы, либо прецедентные тексты, либо идиомы и фраземы и т.д.), поэтому в рамках каждого исследования не складывается достаточных оснований для выведения общих свойств устойчивых сочетаний слов, характеризующих все сочетания как языковые единицы знания. Соответственно не рассматривается и система словесных связей, организованная сочетаниями слов, поскольку при семантическом подходе невозможно найти общие принципы объединения сочетаний в единую систему. Отметим, что включение сочетаний в систему и установление связей между словами разных час-
8
тей речи - основная проблема при составлении автоматизированных тезаурусов "^гс!Ме1:, КизБЫе^ КиТЬеБ.
Не уменьшая значимости изучения семантической составляющей знания, мы полагаем, что при постановке акцента на исследование материальной стороны языковых знаков и при принятии в качестве центральной единицы тезауруса устойчивого сочетания слов, которое определяется нами как воспроизводимая в различных текстах последовательность слов, можно сформировать качественно отличное представление о принципах устройства и функционирования языковой системы знания - тезауруса. При этом подчеркивание роли «материального» означающего вызвано необходимостью привлечения внимания к тому, что семантическая сторона знака не является единственной и первостепенной сущностью языкового знания (в этом плане наша концепция согласуется с идеей равноправия «материального» и «идеального», высказываемой в работах С.Г. Федосина [Федосин, 2010; 2013]). Основная идея концепции состоит не в исследовании «физической» (звуковой, графической) стороны знака, а в снятии проблемы соотношения «материального» и «ментального» в структуре знания, т.к. акцент ставится не на изучении данных свойств, а на изучении самой структуры, которая рассматривается как словесная сеть, образованная устойчивыми сочетаниями слов. Данную сеть вполне можно назвать «семантической сетью», но с той важнейшей оговоркой, что в основе ее построения лежит не семантика слов, а устойчивость языковых связей на уровне чувственно-воспринимаемой материальной оболочки словесных знаков; семантика не задает структуру сети, а наоборот, из нее выводится, развивается вместе с развитием сети.
Суть предлагаемой концепции состоит в рассмотрении тезауруса как языковой системы знания о мире. Подчеркнем, слово «языковой» не означает «знание языка» (т.е. знание слов, грамматических категорий и умение ими пользоваться), а употребляется для обозначения природы тезауруса: знание можно рассматривать как ментальную по природе сущность, присущую человеку (его интериоризированное знание), и как внешнюю, экстериоризиро-
9
ванную в виде семиотических объектов сущность; языковой тезаурус является знанием второго типа — это знание, объективированное в языке. Следовательно, изучать тезаурус можно путем выявления языковых структур знания из объективно существующего языкового материала - текстов.
Формирующаяся в настоящем исследовании лингвистическая концепция тезауруса удовлетворяет основным критериям, характеризующим научные теории: 1) представляет собой комплексную систему взглядов, дающих целостное представление о закономерностях и существующих связях определённой области действительности — объекта данной теории, 2) базируется на определенных методологических принципах и методах научного исследования, 3) имеет исходную эмпирическую основу, которая включает множество зафиксированных в данной области знания фактов, 4) исследование фактов приводит к выведению совокупности теоретических положений, 5) на основании выведенных положений можно создать теоретическую модель существующих связей реальности. Теория призвана объяснять определенные явления действительности и прогнозировать их развитие в дальнейшем, что составляет ее экспланаторный и прогностический потенциал (критерии, характеризующие научные теории, выделены на основе анализа определения понятия «теория» в следующих источниках [Касавин, 2009; Новейший философский словарь; Философский энциклопедический словарь, 2011]).
Цель исследования состоит в разработке исходных оснований лингвистической теории тезауруса - теории, направленной на изучение языковой системы знания о мире. Из поставленной цели исследования вытекают следующие задачи работы:
1) выявить научные истоки лингвистической теории тезауруса;
2) разработать концептуальное содержание теории тезауруса в соответствии с указанными выше критериями теоретических построений:
а) изложить комплекс взглядов о принципах строения, закономерностях и связях языковой системы знания о мире - тезауруса,
б) разработать метод исследования языковых объектов, соответствующий методологическим основам теории,
в) проанализировать достаточное для формирования исходных положений теории количество эмпирического материала,
г) сформулировать концептуальные положения теории,
д) разработать модель языкового тезауруса;
3) раскрыть экспланаторный и прогностический потенциал теории и
возможные пути ее развития в дальнейшем.
Объектом исследования являются языковые проявления знания, объективно существующие в материально реализовавшихся текстах на определенном языке, или текстовые единицы знания — структурные единицы системы тезауруса. В качестве таких единиц в работе признаются устойчивые сочетания слов в широком смысле.
Предметом изучения является языковая система знания о мире — тезаурус, - представленная в конкретных текстах: принципы существования структурных единиц языковой системы знания в текстах, организация данных единиц внутри системы, функционирование системы в целом.
Материалом исследования в настоящей диссертационной работе являются:
1) данные тезаурусных словарей русского и английского языков, а также данные толковых словарей, словарей синонимов, антонимов, коллока-ций, фразеологических единиц, словарей сочетаемости, переводных словарей, частотного словаря семантических множителей, ассоциативных словарей английского и русского языков, русского семантического словаря и тематического словаря русского языка и других; в тексте диссертации представлен анализ данных 22 различных словарей (список использованных словарей представлен после библиографического списка);
2) тексты прозаических и стихотворных произведений на русском и
английском языках, написанных в разные исторические эпохи, существенно
отличающиеся по жанровым и стилистическим характеристикам («Код да
11
Винчи» Д. Брауна на английском языке и в переводе на русский язык, «Бесы» Ф.М. Достоевского, «Священная книга оборотня» В. Пелевина, «Черновик» С. Лукьяненко, «Полет над гнездом Индюшки» Д. Донцовой, фрагменты «Повести о моем друге Игоре» Н. Носова, роман в стихах «Евгений Онегин» и стихотворения A.C. Пушкина, стихотворные произведения Дж. Донна на английском языке и в переводе на русский язык);
3) тексты публичных выступлений и стенограммы совместных пресс-конференций Д. Медведева и Б. Обамы, записанные во время Российско-Американских переговоров в Москве в 2009 г. и Вашингтоне в 2010 г. и выставленные на официальных сайтах www.kremlin.ru и www.whitehouse.gov в соответствующий период;
4) текст обращения Президента РФ к депутатам Государственной Думы и представителям общественности от 18.03.2014;
5) тексты, отображающие становление и развитие детской речи (А.Н. Гвоздев «От первых слов до первого класса. Дневник научных наблюдений» и записи собственных наблюдений над детской речью);
6) данные лингвистического эксперимента, проведенного в Алтайском государственном университете с участием 150 испытуемых, а также текстовые данные автоматизированных поисковых систем Yandex, Google Rambler (не менее 500 ссылок по состоянию на момент проведения исследования), использованные для верификации осуществленного эксперимента.
Общий объем проанализированного текстового материала (не включая анализ данных словарей и лингвистического эксперимента с обработкой текстовых фрагментов в поисковых интернет-системах) составляет 3805 страниц текстового материала, из которых выявляется не менее 60000 тезаурусных единиц. Непосредственному анализу подвергались только те устойчивые сочетания слов, которые составляют в каждом тексте наиболее крупные серии (структурные блоки системы тезауруса, состоящие из сочетаний слов с одинаковыми словами), образованные преимущественно именами существительными, т.к. имена существительные в русском языке могут образовывать
12
устойчивые сочетания слов со всеми другими частями речи (поэтому при формировании серий с глаголами или именами прилагательными обнаруживалось, что многие входящие в их состав сочетания, уже описаны в сериях с существительными). Проанализировано 455 серий тезаурусных единиц, в состав которых входит 8115 устойчивых сочетаний слов.
Использование в качестве эмпирической базы исследования столь разнообразного языкового материала объясняется тем, что анализ каждого текста необходим для раскрытия определенного вопроса исследования, которое в целом направлено на выявление параметров существования и функционирования общей тезаурусной системы, сформированной различными текстами, находящимися в отношениях между собой, которые квалифицируются в работе как языковые интертекстуальные отношения. Анализ разнородного языкового материала отвечает критериям эпистемологического исследования «исходных оснований всех возможных мировоззрений» [Розов, 1999, с. 39].
Методологической основой настоящего исследования являются положения, имеющие отношение к раскрытию связи языка и знания, в рамках следующих концепций:
- общей теории систем (а также теории сетей и нечетких множеств), теории информации, кибернетики и синергетики (JL фон Берталанфи, К. Петри, К. Шеннон, Н. Винер, Ю.А. Шрейдер, Д.С. Чернавский, и др.);
- философии постмодернизма (М. Фуко, Р. Барт, У. Эко, Ю. Кристева, Ж.-Ф. Лиотар, Ю. Хабермас, Ж. Делез, Ф. Гваттари, и др.);
- психолингвистической концепции речевой деятельности и когнитивной лингвистики (A.A. Леонтьев, A.A. Залевская, P.M. Фрумкина, Ю.Н. Караулов, Е.С. Кубрякова, R. Logan, L. Tamly и др.);
- концепции языкового существования (Б.М. Гаспаров);
- зарубежной и отечественной лексикографии и лексикологии, касающиеся раскрытия возможных способов организации словарного состава языка (П. Роже, Б. Керкпатрик, В.В.Виноградов, И.Е.Аничков,
В.Л. Архангельский, Ю.А. Гвоздарев, В.В. Морковкин и др.);
13
- философской эпистемологии, акцентирующие языковой аспект знания (Л. Витгенштейн, М. Фуко, К. Поппер, Т. Кун, С. Ору, М.А. Розов и др.).
Проделанное исследование позволило разработать метод тезаурусного анализа в лингвистике, являющийся основным методом исследования текстового материала в настоящей диссертационной работе. Данный метод базируется на эпистемологической методике анализа художественного текста, разработанной в нашей кандидатской диссертации и использованной в рамках научной работы по гранту Президента РФ для поддержки молодых ученых - кандидатов наук (МК-8398.2006.6). Суть метода тезаурусного анализа состоит в последовательном обосновании объективного существования языковых единиц знания в виде устойчивых сочетаний слов и в анализе их организации в целостную систему знания. Соответственно, операциональной единицей анализа выбирается единица тезауруса — устойчивое сочетание слов. Основными исследовательскими процедурами и конкретными приемами исследования в рамках тезаурусного метода являются: 1) исследование определенных текстов, направленное на выявление и отбор устойчивых сочетаний слов, фигурирующих как единицы тезауруса (используется прием аналитического чтения текстов, элементы текстуального и интертекстуального анализа, а также филологического анализа текстов); для проверки устойчивости сочетаний слов предлагается прием использования данных из поисковых систем интернета; 2) систематизация отобранных устойчивых сочетаний слов в серии с материально тождественным словом (используемые приемы соотносятся с элементами контент-анализа текстового материала); 3) интерпретация полученных данных в соответствии с целями исследования. Также в работе используются общенаучные и общелингвистические методы анализа, метод моделирования, метод лингвистического эксперимента и его верификация при помощи использования поисковых систем Интернета. Научная новизна работы состоит в том, что в ней впервые: 1) сводятся в единую научную концепцию разрозненные взгляды на
семиотическую природу знания, высказывающиеся в современных естест-
14
венно-научных и гуманитарных исследованиях; развиваемая концепция получает статус формирующейся лингвистической теории, отвечающей потребностям современной научной парадигмы;
2) при помощи лингвистического анализа тезаурусных словарей и критического осмысления научных концепций, изучающих природу знания, формируется концепция тезауруса как языковой системы знания о мире;
3) при помощи комплексной системы доказательств, включающих объективные экспериментальные данные, обосновывается эпистемологическая сущность устойчивых сочетаний слов как единиц системы тезауруса;
4) в ходе анализа текстового материала устанавливаются основные закономерности внутренней организации системы тезауруса по серийному принципу и выявляются собственно языковые отношения, обеспечивающие функционирование тезауруса как целостной системы - межтекстовые отношения, представляющие собой воспроизведение единиц тезауруса во множестве текстов;
5) разрабатывается модель тезауруса, представляющая собой материальную словесную сеть, образованную устойчивыми сочетаниями слов, которая является лингвистическим эскизом естественно возникшей информационной сети, предвосхитившей (и, возможно, обусловившей) создание глобальных информационных сетей;
6) разрабатывается метод тезаурусного анализа в лингвистике, который, в совокупности с другими лингвистическими методами и конкретными приемами анализа, может применяться в когнитивных, психолингвистических, культурологических и других исследованиях языковых способов существования знания. Научная ценность метода состоит в способности обнаружения объективных параметров упорядочивания знания в словесных знаках.
Положения, выносимые на защиту:
1. Тезаурус как языковая система знания о мире представляет собой естественно сложившуюся материальную словесную сеть, обеспечивающую
бытие знания - его получение, хранение и переработку.
15
2. Необходимым условием становления, развития и формирования тезауруса является коммуникативное взаимодействие различных субъектов тезауруса на уровне словесных знаков. Коммуникативное взаимодействие субъектов тезауруса представляет собой материальный процесс обмена информацией на уровне текстовых сообщений. Тексты являются средой объективного существования знания, соответственно исследование знания необходимо производить путем анализа конкретных текстов.
3. Основной единицей языкового тезауруса, реализующейся в пространстве текста и имеющей свойства единицы текста, является устойчивое сочетание слов - словесная структура, максимально удовлетворяющая характеристикам знания (фиксированный семиотический продукт познавательной деятельности, отработанный в языковом опыте и закрепленный в памяти факт, имеющий социально-коммуникативную значимость). Единица тезауруса - это объективно существующая целостная структура, элементы которой узнаваемы и могут входить в состав других структур; единица тезауруса функционирует как неотъемлемый элемент коммуникации, являясь результатом и предпосылкой успешного общения.
4. Основным типом отношений, организующим систему тезауруса, являются межтекстовые (интертекстуальные) отношения. Данный тип отношений возникает в процессе коммуникации и обеспечивается воспроизведением устойчивых сочетаний слов в различных текстах: один реализовавшийся текст вызывает ответную реакцию в виде другого материального текста, в котором неизбежно воспроизводятся тезаурусные единицы первого текста. Между текстами устанавливаются интертекстуальные отношения, что знаменует момент организации системы тезауруса.
5. Основным принципом систематизации устойчивых сочетаний слов внутри тезауруса является их объединение в серии по наличию материально тождественного слова, например, многоэтаэюный дом, дом у дороги, загородный дом, сдается дом, дом культуры. Серийная организация реализует
принцип «фамильного сходства», сформулированный Л. Витгенштейном, по-
16
скольку, кроме тождественного слова, входящие в состав серии сочетания не имеют других общих черт: некоторые из них могут соотноситься по грамматической структуре, другие имеют семантическое сходство, но нет такого признака, который имелся бы у всех членов серии и только у членов данной серии.
6. Моделью системы тезауруса является словесная сеть, созданная интертекстуальными взаимоотношениями тезаурусных единиц и их серийной организацией. Каждый из компонентов единицы тезауруса может одновременно являться компонентом нескольких других тезаурусных единиц, так что тезаурус в целом образует вербальную сеть, в которой нет отдельных слов, а есть синтагматические условия перехода от одного слова к другому, причем по множеству разных векторов к множеству слов одновременно. Открытую динамично развивающуюся тезаурусную сеть невозможно увидеть целиком, поэтому модель системы строится в результате частных локальных исследований сети.
7. Лингвистический метод изучения тезаурусной системы знания состоит в выявлении устойчивых сочетаний слов, восстановлении их серийной организации и интерпретации полученных данных в системе положений теории тезауруса. Метод тезаурусного анализа базируется на количественном исчислении единиц тезаурусной сети и ее параметризации по материальным критериям.
Похожие диссертационные работы по специальности «Теория языка», 10.02.19 шифр ВАК
Тезаурусное представление терминов нефтегазовой отрасли в русском и персидском языках2010 год, кандидат филологических наук Фаал-Хамеданчи Марьям
Прецедентные феномены, мотивированные детским чтением, в структуре языковой личности2018 год, кандидат наук Носова, Елена Павловна
Тезаурусное моделирование терминологии синтаксиса2009 год, кандидат филологических наук Коршунова, Светлана Олеговна
Опыт эпистемологического анализа художественного текста: На материале стихотворных произведений Дж. Донна2003 год, кандидат филологических наук Осокина, Светлана Анатольевна
Семиотика романских терминологических систем в их сопоставлении с английскими и русскими2003 год, доктор филологических наук Зайцева, Наталья Юрьевна
Список литературы диссертационного исследования кандидат наук Осокина, Светлана Анатольевна, 2015 год
источник ~а
луч ~а
испускать ~
светить (несов.) каким-то ~ом повернуться к ~у ~ заливает что-то ~ гаснет
Структура словаря соответствует традиционной структуре тезауруса и соотносится со структурой идеографического словаря О. Баранова (номинации разделов, конечно, не совпадают). Распределение слов по темам свидетельствует, что в основе действительно лежит лексика языка, а не абстрактные научные понятия. Содержание статьи актуализирует синтагматические связи слова (по сути, статья представляет собой фрагмент словаря сочетаемости), и это принципиально важно, так как сочетательные возможности гораздо более объективно раскрывают семантику конкретного слова, чем синонимы или антонимы. Если в тезаурусах английского языка устойчивые сочетания слов были использованы как дополнительный способ представления словесных связей, то в Тематическом словаре русского языка устойчивые синтагматические связи рассматриваются как ведущие для характеристики слова в составе конкретной темы. Это показывает, что в основе тематической иерархии слов лежит синтагматика словесных выражений, и вовсе не факт, что иерархический принцип необходимо рассматривать как основополагающий, напротив, в основании выделения классов лежат линейные последовательности слов.
Еще одним словарем, актуализирующим синтагматические объединения слов является Словарь коллокаций (устойчивых сочетаний) русского языка с англо-русским словарем ключевых слов Е.Г. Борисовой «Слово в тексте». Причиной создания словаря автор называет трудности при создании текстов, которые вызваны непредсказуемостью сочетаний на основе отдельных компонентов. Коллокации определяются как «сочетание двух и больше слов, один из компонентов которого выбирается в зависимости от выражаемого смысла, а другой (или другие) в зависимости и от смысла, и от основного компонента» [Борисова, 1995а, с. 2], что подчеркивает невозможность определенного слова сочетаться с любым другим словом, даже и соответствующим выражаемому смыслу. Словарь строится по гнездовому принципу при ключевом слове - основном компоненте. Семантическая информация да-
ется в объеме, необходимом для правильного употребления коллокаций, поэтому некоторые «стандартные смыслы» приводятся номерами, например:
СВЯЗЬ (=контакт) 1. ПОДДЕРЖИВАТЬ нет св СВЯЗЬ с кем/чем Мы поддерживаем дружеские связи с родственными организациями. 6. УСТАНАВЛИВАТЬ/установить СВЯЗЬ с кем/чем Университет установил связь с родственным учебным заведением Москвы. 7. ПРОЧНАЯ СВЯЗЬ Существуют прочные связи между нашими странами. ТЕСНАЯ СВЯЗЬ Тесные связи с коллегами помогают в работе.
Несколько напоминает структуру тезаурусов Русский семантический словарь под общей редакцией Н.Ю.Шведовой, 1998 г., однако данный словарь представляет собой толковый словарь, систематизированный по классам слов и значений, т.е. в нем, как и в словаре О.С. Баранова, скорее, представлена система выводимых из значений слов понятий, нежели связи слов в составе лексической системы. Поскольку сама идея тезауруса предполагает рассмотрение слова в его связях, а не через толкование значения, данный словарь не соответствует словарю тезаурусного типа.
Рассмотренные словари представляют собой печатные лексикографические издания, отображающие особенности лексических связей слов того или иного языка. С развитием информационных технологий содержание словарей такого типа было положено в основу разработки электронных баз данных, создаваемых при помощи компьютерных программ.
1.1.2. Электронные тезаурусы
Основной причиной, по которой тезаурусы получили преимущество в создании компьютерных ресурсов по сравнению с толковыми словарями, является то, что в тезаурусах так или иначе отражена система логических категорий, соотносимая с системой математических зависимостей в компьютерных программах. Также использование тезаурусных словарей, очевидно, оказалось более эффективным потому, что компьютерные программы (языки программирования) представляют собой системы, предполагающие наличие переходов от одного компонента программы к другому - в тезаурусных словарях уже были сформированы подобные переходы от слова к слову, в то
время как в толковых словарях содержание каждой статьи представляет собой замкнутый юнит.
В середине прошлого века языковые тезаурусы стали использоваться как инструмент для создания информационно-поисковых тезаурусов в различных сферах деятельности. Разрабатывались словари, которые были не просто перечнем слов, а источником сведений по определенному вопросу. Такие словари получили название информационно-поисковых тезаурусов (например, информационно-поисковый тезаурус по автомобилестроению, 1971 г., Информационно-поисковый тезаурус по сталям, 1975 и др.). Тезаурус стал «инструментом информационно-поисковых систем» [Караулов 1981, с. 148]. Поскольку созданием электронных ресурсов такого типа занимается компьютерная лингвистика, мы считаем вполне уместным рассмотреть особенности информационно-поисковых и других электронных тезаурусов в данном разделе работы.
Информационно-поисковый тезаурус (ИПТ) представляет собой словарь, содержащий термины определенной предметной области, в явном виде эксплицирующий отношения между данными терминами, предназначенный для описания содержания документов и поисковых запросов [Лафтими, 2012]. В качестве информационно-поисковых тезаурусов могут выступать различные ГОСТы. Поскольку информация, представленная в тезаурусах такого, типа предельно формализована, содержание и правила ввода новых терминов в ИПТ регулируется определенными стандартами, так же как и правила использования данных ресурсов при поиске необходимой информации.
Основная проблема при использовании информационно-поисковых тезаурусов состоит в том, что необходимо точно знать, по крайней мере, материальную оболочку термина, вводимого в поисковик, так как тезаурус может выдать ответ на запрос, только если искомый термин является структурной единицей данного тезауруса.
Основными типами отношений в поисковых тезаурусах, согласно ГОСТ 7.25, являются отношения «род-вид», «часть-целое», «причина-следствие», «сырье-продукт», «процесс-объект» «процесс-субъект», «свойство-носитель свойства», административная иерархия, функциональное сходство, антонимия. Первые два типа отношений базируются на иерархическом принципе и являются наиболее распространенными. Отношения других типов квалифицируются как «ассоциативные», связанные с субъективной оценкой качества отношений, и поэтому реже используются при построении ИПТ.
В настоящее время информационно-поисковые тезаурусы создаются для систем автоматизированной обработки документов, таких как машинный перевод, информационный поиск, вопросно-ответные системы. Трудности, возникающие при создании электронных ресурсов использования языка, связаны, прежде всего, с тем, что только часть лексики поддается структурированию в рамках указанных выше отношений. Принимая во внимание то, что наименее проблемными оказываются только отношения «род-вид» и «целое-часть», можно предположить, что в информационно-поисковых тезаурусах преобладает номинативная лексика (имена существительные и именные словосочетания), которая не может покрывать всю систему знания и в отдельной предметной области.
Создание электронных тезаурусов, более полно раскрывающих систему знания, репрезентируемую лексикой естественного языка, началось в конце XX века. Двумя основными направлениями работы в данной области являются: 1) создание электронных версий уже имеющихся тезаурусных словарей; 2) разработка электронных ресурсов нового типа, в которых предлагаются отличные от представленных в печатных изданиях способы структурирования лексики и методы поиска нужного слова.
Примерами электронных тезаурусов первого типа являются электронные версии Тезауруса Роже (макет словаря доступен по ссылке
http://www.archive.org/details/rogetsthesaurusol0681gut) и Идеографического
50
словаря русского языка О.С. Баранова (с материалами создаваемого словаря можно ознакомиться на http://rifmovnik.ru/thesaurus/). В основе данных электронных ресурсов лежит языковое содержание соответствующих изданий: представлена такая же, как и в печатных словарях, система исходных логических категорий, содержание и структура словарных статьей также полностью соответствует печатному аналогу. Благодаря оформлению слов, соотносимых с искомым словом (например, синонимов), в виде гиперссылок поиск информации значительно ускоряется, хотя это не всегда служит упрощению восприятия информации.
Создание данных тезаурусов направлено на преодоление одной из основных проблем печатных тезаурусных словарей - проблемы быстрого поиска нужного слова, и электронные тезаурусы в состоянии предложить адекватное решение данной проблемы. Однако, по нашему убеждению, ускорение поиска слова в электронных тезаурусах является результатом инженерной работы, а не собственно языковым механизмом. Мы полагаем, что существуют собственно языковые механизмы фиксации и хранения знания и связанные с ними механизмы подбора (поиска) определенного слова (язык, конечно, сам ничего не подыскивает, но он предлагает на выбор лишь ограниченный набор вариантов при поиске необходимого слова, соответственно, должны быть внутриязыковые пути, ведущие к появлению данных вариантов). Раскрытие данных механизмов предполагает установление внутриязыковых связей между словами, а не только применение математических формул, поскольку известными к настоящему моменту формулами описывается весьма ограниченная часть языковых отношений.
Электронные тезаурусы второго типа представляют собой результат совместной работы лингвистов и программистов по созданию компьютерных систем, в которых на уровне языков программирования можно проследить отношения между словами естественного языка. Подчеркнем, если электронные тезаурусы первого типа имеют своей основной задачей представление в
электронном виде основного содержания печатных словарей (что предпола-
51
гает, что словарная статья не обязательно целиком должна состоять из гиперссылок), то тезаурусы второго типа претендуют на представление системы связей слов языка (что предполагает, что словарная статья практически полностью должна состоять из гиперссылок, так чтобы от любого слова можно было мгновенно перейти к связанному с ним по смыслу слову и восстановить не только лексические отношения слов языка, но и логические отношения понятийных категорий, т.е. общие знания о мире).
Наиболее известным тезаурусом второго типа является система WordNet, представляющая собой лексическую базу данных английского языка, которая разрабатывается учеными Принстонского университета, начиная с 1980-го года. Данная система широко обсуждается в научной литературе и часто именуется тезаурусом английского языка. Однако авторы системы на главной странице сайта http://wordnet.princeton.edu/ (дата обращения 08.08.2014) указывают, что WordNet напоминает тезаурус только внешне, поскольку, как и в рассмотренных выше тезаурусах английского языка, слова в WordNet комплектуются в группы синонимов — синсеты (от англ. synonym sets — synsets), каждый из которых выражает определенный концепт (понятие), но по своему структурному устройству система имеет ряд существенных отличий от традиционных тезаурусов. В качестве таких отличий авторы указывают то, что, во-первых, Wordnet связывает не только формы слов — последовательности букв, - но и особые смыслы слов, (что позволяет избежать многозначности у близких по значению слов), во-вторых, в WordNet делаются пометы о семантических отношениях между словами, в то время как в тезаурусах слова комплектуются в группы на основе семантического сходства без предоставления развернутого описания взаимоотношений между ними.
Однако основным структурным отличием системы WordNet от рассмотренных выше печатных тезаурусов является то, что слова структурируются в синсеты по-разному в зависимости от того, какой частью речи они являются. Так, имена существительные образуют синсеты, в состав которых
52
входят слова, связанные родо-видовыми (гипо-гиперонимическими) или партитивными (холонимо-меронимическими) отношениями. Слова, входящие в глагольные синсеты, образуют структуры, более напоминающие семантические поля, а имена прилагательные структурируются в пары антонимов. При этом, главным видом лексических отношений в WordNet признается синонимия (поэтому даже группы прилагательных именуются синсетами), а главным видом логических отношений - иерархическая соподчиненность слов. На конкретном языковой материале авторы представляют это следующим образом.
Гипо-гиперонимические отношения (или IS_A relation) связывают более генерализированные синсеты, например, {furniture, piece_of_furniture}, с более специфическими, например, {bed} и {bunkbed}. Соответственно, WordNet фиксирует знание, что концепт FURNITURE включает концепт BED, который, в свою очередь включает BUNKBED; в обратном порядке концепты BUNKBED и BED образуют категорию FURNITURE. Все имена существительные в конечном итоге складываются в иерархическую структуру, ведущую к «корневому узлу» {entity}. Гипонимические отношения тран-зитивны: if an armchair is a kind of chair, and if a chair is a kind of furniture, then an armchair is a kind of furniture. Также WordNet проводит разграничения между так называемыми Типами (обычными именами существительными) и Экземплярами (или Примерами), которыми являются наименования стран и географических объектов, имена людей: «кресло - это Тип мебели», а «Барак Обама - это Пример президента». Примеры всегда являются краевыми (конечными, сравниваемыми с листами дерева) узлами в соответствующих иерархиях.
Холонимо-меронимиия, или отношения части и целого (HAS_A relation), имеется, например, между синсетами {chair} и {back, backrest} или {seat} и {leg}. Частные характеристики перенимаются при отношениях со-подчиненности: if a chair has legs, then an armchair has legs as well, но в обратном порядке это правило не действует: холоним может не иметь соответ-
53
ствующих частных характеристик, свойственных только данному мерониму: chairs and kinds of chairs have legs, but not all kinds offurniture have legs.
Иерархические зависимости в глагольных синсетах формируются следующим образом: глаголы, уходящие вниз иерархического дерева (тропони-мы) выражают возрастающую специфичность характеристики события, действия, например, {communicate}-{talk}-{whisper}. Спецификация действия, выражающая зависимости в семантическом поле (как в приведенном примере), - это только одно измерение, в котором можно рассматривать глаголы. Другие способы - отражение изменения скорости (move-jog-run) или интенсивности эмоций (ilike-love-idolize). Также связываются глаголы, описывающие события, которые с необходимостью вытекают одно из другого, например, {buy}-{pay}, {succeed}-{try}, {show}-{see}.
Имена прилагательные, как отмечалось выше, организуются по принципу антонимии (отметим, что использование антонимов - один из распространенных способов объяснения семантики имен прилагательных в английских словарях, например, прилагательное light толкуется как not heavy, not serious, not strong [Cambridge International Dictionary of English, 2001]). По мысли авторов WordNet, пары прямых антонимов, как wet-dry и young-old отражают сильную семантическую связь между составляющими эту пару словами. Каждое из этих полярных имен прилагательных привязано, в свою очередь, к определенному ряду «семантически схожих» имен прилагательных: diy привязан к parched, arid, dessicated и bone-dry, wet —к soggy, waterlogged. «Семантически схожие» имена прилагательные являются непрямыми антонимами к противоположному члену пары. Относительные прилагательные указывают на имена существительные, от которых они образованы, например, criminal-crime.
Наречия представлены в WordNet единичными словами {hardly, mostly, really и др.), поскольку большинство английских наречий образовано от имен прилагательных при помощи аффиксации {surprisingly, sti'angely и т.д.).
Работа с WordNet-online осуществляется следующим образом. При введении необходимого слова в поисковую строку, на экран выводится словарная статья, в которой в виде гиперссылок оформляются имена концептов, возглавляющие синсеты семантически связанных слов. Если искомое слово имеет несколько значений, то ниже приводится ряд следующих (зависимых по уровню) синсетов. При этом сама статья в вертикальном измерении также представляет собой самостоятельный синсет, почти целиком состоящий из гиперссылок. Например, статья на слово light выглядит следующим образом:
• S; (n) light, visible light, visible radiation
• S: (n) light, light source
• Si (n) light
• Si (n) luminosity, brightness, brightness level, luminance, himinousness. light
• Si (n) light
• Si (n) light, illumination
• Si (n) light, lightness
• Si (n) light
Таким образом, WordNet практически полностью воплощает идею создания такого тезауруса, в котором в явном виде запечатлены семантические связи слов языка, и переход от одного слова к другому осуществляется «в один клик».
Если выбрать опцию, предоставляющую расширенный вариант словарной статьи, то на экран выводится гораздо более детальное описания семантики искомого слова: дается краткое толкование общей семантики слов каждого синсета и приводятся примеры использования искомого слова в указанном понятийном значении:
• (46)Si (n) light, visible light, visible radiation ((physics) electromagnetic radiation that can produce a visual sensation) "the light was filtered through a soft glass window"
• (23)Si (n) light, light source (any device serving as a source of illumination) "he stopped the car and turned off the lights"
• (13)Si (n) light (a particular perspective or aspect of a situation) "although he saw it in a different light, he still did not understand"
• (10)Si (n) luminosity, brightness, brightness level, luminance, luminousness. light (the quality of being luminous; emitting or reflecting light) "its luminosity is measured relative to that of our sun"
• (7)Si (n) light (an illuminated area) "he stepped into the light"
• (4)§i (n) light, illumination (a condition of spiritual awareness; divine illumination) "follow God's light"
• (4)S: (n) light, lightness (the visual effect of illumination on objects or scenes as created in pictures) "he could paint the lightest light and the darkest dark"
• (3)S: (n) light (a person regarded very fondly) "the light of my life" (в данном примере скопированы только первые 8 уровней зависимых синсетов для имени существительного light, в целом статья насчитывает 15 уровней для существительного, 7 для глагола, 24 для прилагательного и 1 для наречия).
Это расширенный вариант статьи, в котором не только исчерпывающим образом описана структурирована семантика слова light и связанных с ним понятийных значений, но и цифрами слева указывается индекс частотности употребления слова light в соответствующих понятийных значениях, причем вертикальное расположение синсетов отражает не только переход к более низкому зависимому понятийному уровню, но и убывание частоты использования слова в соответствующем значении.
Организация лексики языка в иерархические зависимости в системе WordNet необходима для того, чтобы показать, что семантика находящихся на более низких ступенях иерархии слов или концептов каким-то образом зависима от семантики слов и концептов более высоких уровней. Это должно помогать пользователю понимать смысл слов даже с предельно конкретным значением (как, например, Экземпляры или специфические действия), что весьма важно при использовании WordNet в автоматизированных системах обработки текстов. Например, при машинном переводе, если в языке перевода отсутствует эквивалент слова с конкретной семантикой для соответствующего слова из языка текста-оригинала, то система может предложить слово более общей семантики, так что общий понятийный смысл языкового выражения должен сохраняться. Однако, относительно адекватно данное положение работает только для имен существительных, так как оформление в соподчиненные отношения пар слов типа buy-pay или wet-diy должно предполагать использование при машинном переводе слов еще более общей понятийной семантики, что, естественно, приведет к существенным искажениям смысла при переводе.
Таким образом, система "\МогсПМе1 решает многие проблемы, связанные с использованием печатных тезаурусов, и является одним из лучших на сегодняшний день вариантов представления лексики языка в виде компьютерной программы, соотносящей систему слов естественного языка с системой иерархических зависимостей, лежащей в основе наиболее распространенных языков программирования (что позволяет ей использоваться в системах автоматизированной обработки текстов). Однако, АД/огс1№1 имеет и определенные недостатки, главный из которых, как ни парадоксально, является прямым следствием основного достоинства системы. По мнению экспертов, основное достоинство состоит в оригинальной идее отдельной систематиза-
ции слов языка в семантические структуры в зависимости от того, какой частью речи они являются. Это позволяет более полно раскрыть лексические отношения языка, в частности, для глаголов и прилагательных [Труды Казанской школы по компьютерной и когнитивной лингвистике ТЕЬ-2000, 2002]. Однако в результате такого разделения в \VordNet функционируют четыре независимых друг от друга системы (система имен существительных, прилагательных, глаголов и наречий), между которыми практически нет переходов. Вторым недостатком является описание слишком тонких оттенков значения у многозначных слов, что затрудняет использование \VordNet в автоматизированных приложениях обработки текстов. Еще одна проблема состоит в описании отношений между синсетами существительных, связанная с тем, что слова одной предметной области могут оказаться в довольно отдаленных в семантическом отношении синсетах, так что трудно выявить знания и соотносимые с ними слова по определенному вопросу (например, если кто-то захочет найти в \yordNet всю информацию, связанную с игрой в теннис, то это будет сделать весьма трудно); данные проблемы \VordNet обсуждаются в работе Н.В.Лукашевич со ссылкой на других отечественных и зарубежных исследователей [Лукашевич, 2011]. В настоящее время ведется активная разработка электронных тезаурусов типа для европейских
языков - проект Еигопе!:, - проблемы разработки которых раз в два года об-
57
суждаются на международных конференциях Global Wordnet Conference [GWC-2014, 2014]
Тезаурусы, подобные WordNet в настоящее время создаются и на материале русского языка. Наиболее известными проектами являются RussNet, разрабатываемый учеными Санкт-Петербургского университета во главе с И. Азаровой [Азарова 2004а, 20046, 2004в], и RuThes, разрабатываемый в Московском государственном университете им. Ломоносова.
Тезаурус RussNet, по утверждению авторского коллектива, создается по подобию WordNet, практически полностью воспроизводя структуру последнего. В частности, RussNet унаследовал основные особенности Принстонско-го WordNet, Euro WordNet и других подобных ресурсов:
1) тезаурус состоит из 4-х взаимосвязанных файлов, содержащих слова основных частей речи: существительные, глаголы, прилагательные и наречия;
2) базовой единицей RussNet является синонимический ряд (синсет), объединяющий слова со сходным значением;
3) синсеты связаны различными парадигматическими и синтагматическими отношениями [Проект RussNet, электронный ресурс].
В настоящее время основные усилия сосредоточены на разработке внутриязыковой структуры RussNet. При этом необходимо отметить, что RussNet имеет заметные отличия в принципах формирования внутренних отношений между компонентами синсетов по сравнению с WordNet. В частности, в глагольных синсетах, которые также, как и в WordNet, организованы по иерархическому принципу, вносятся еще и структуры валентности, позволяющие проследить отношения конкретного глагола к именам существительным, например, синсет {влюбиться, увлечься} сопровождается следующим описанием:
влюбиться: 1 [NI Agent {человек, лицоЗ}] + 2[b_N4 Object {человек, лицоЗ}]
увлечься: I[N1 Agent {человек, лицоЗ}] + 2 [N5 Object {человек, лицоЗ}].
Валентностные отношения также наследуются низшими уровнями син-сетов в иерархии, например: двигаться (to move) HYPONYM идти (to walk): двигаться имеет аргументы: (a) l[Source_Direction] + 2[Location], or (b) 1 [Target Direction] + 2[Location], которые наследуются его гипонимом идти. Валентностные структуры также позволяют детализиовать смысловые отношения между значениями многозначных глаголов:
бить! INVOLVED_PATIENT посуду {break apart2, break up 13, crash7} бить2 INVOLVEDOBJECT в барабан {beat22, drum9, thrum 1} битьЗ INVOLVED PATIENT врага {fightS, have a fight 1, struggle4}
На наш взгляд, внесение валентностных отношений в синсеты является очень важным нововведением, поскольку это позволяет проследить синтагматические отношения между разными частями речи, которые практически полностью игнорируются в WordNet, что препятствует восстановлению четкой картины того, как представленные в данном тезаурусе логические иерархии взаимодействуют в языке, составляя целостную картину знаний о мире.
Проект РуТез (RuThes), по мысли Н.В. Лукашевич, представляет собой не столько языковой тезаурус, сколько «лингвистическую онтологию» на материале русского языка. Специфика онтологий заключается в том, что иерархия логических категорий в них должна быть независима от лексики языка: «единицы онтологий не должны зависеть от значений единиц естественного языка» [Лукашевич, 2011]. Иначе говоря, электронные онтологии - это полностью формализованные ресурсы, описывающие знание о мире, а не о языке, в то время как тезаурусы типа WordNet разрабатываются на основе конкретного языка, имеют своей целью воссоздать иерархию логических отношений, запечатленную в словаре конкретного языка и, соответственно представляют собой знание о языке [Loukachevich, 2014, р. 154]. Однако, создавая полностью формализированную онтологию, приходится использовать слова конкретного языка в качестве имен концептов, и это неизбежно вызывает
проблемы, связанные с несовпадением смысла концепта в рамках онтологии и значением соответствующего слова.
Лексика русского языка представлена в РуТез следующими двумя пластами: термины общественно-политической сферы и общеупотребительная лексика. Структура онтологии строится следующим образом: каждое понятие имеет имя; для сопоставления с текстом каждое понятие снабжено набором «текстовых входов» - реальных слов и выражений русского языка. В качестве «текстовых входов» выступают однословные имена существительные, прилагательные и глаголы, а также сочетания (именные и глагольные группы). Слова и словосочетания, относящиеся к одному понятию, называются «онтологическими синонимами» [Лукашевич, 2011, с. 295], в роли которых могут оказаться слова разных частей речи {стабилизация, стабилизировать, стабилизирующий), разных стилей {квартира, коммуналка), а также слова и сочетания слов {аэропорт, воздушные ворота).
Особое значение разработчики РуТез уделяют принципам ввода словосочетаний в онтологию. После представления основного концепта идет перечисление всех возможных синонимов и их дериватов, в качестве которых могут выступать отдельные слова и целые выражения. Например, концепт ДУШЕВНОЕ СТРАДАНИЕ (A WOUND OF THE SOUL) имеет более 20 текстовых входов, среди которых: боль, боль в душе, в душе наболело, душа болит, душа саднит, душевная пытка, душевная рана, душевный недуг, рана в сердце, рана души, саднит. Нельзя не заметить, что набор этих текстовых входов напоминает статью из тематического словаря или фрагменты статей на слово душа в словарях сочетаемости и коллокаций [Loukachevich, 2014, р. 156].
Введение в тезаурусы типа WordNet синсетов, состоящих из словосочетаний всегда вызывало вопросы: 1) каковы принципы введения словосочетаний в словарь; 2) каковы отношения между многословными выражениями и их компонентами в структуре тезауруса? Разработчики RuThes также пока не
могут дать исчерпывающих ответов на данные вопросы, но существенным
60
сдвигом является уже сама попытка ввести данный языковой материал в словарь, поскольку, только устанавливая отношения между словами разных частей речи и их логическими функциями (чего не делается в \VordNet), можно раскрыть принципы организации знания не только в языке, но и в формализованной онтологии.
Электронные тезаурусы русского языка пока не представлены широкой аудитории даже в относительно законченном виде, поэтому нет смысла давать им детальную критическую оценку. Однако общее ознакомление с описанными выше электронными ресурсами на разных языках, на какой бы стадии разработки они не находились, позволяет высказать следующие замечания.
Первое, в тезаурусах, организованных по типу \VordNet, обычному пользователю нельзя увидеть исходную систему базовых логических категорий, так как они представляют собой гипертекст, в котором при введении запроса в поисковое поле открывается только одна конкретная страница, а при переходе по определенной ссылке открывается другая страница, и в результате общая система иерархических зависимостей буквально ускользает от пользователя - в полном виде она известна только составителям программы. Этот недостаток не имеет значения при использовании \VordNet в приложениях автоматизированной обработки текстов, но существенен, если с данным ресурсом работает человек. Соответственно, обычный пользователь не в состоянии оценить, насколько адекватно сформирован набор исходных логических категорий и система зависимостей, насколько полно эта система отражает знания о мире, в какой мере в ресурсе представлен субъективный компонент (субъективные решения составителей словаря). Таким образом, основная проблема печатных тезаурусов - проблема философского языка -остается открытой и для электронных ресурсов.
Второе, двумя основными типами логических отношений во всех электронных тезаурусах, являются отношения гипо-гиперонимии (род-вид) и
партитивные отношения (целое-часть). И в тех тезаурусах, в построении ко-
61
торых реализуется подход «от естественного языка» (WordNet), и в ресурсах, идущих от формализованного языка логики (РуТез) данные отношения являются ведущими не потому, что это основные отношения единиц языка или логических категорий, а потому, что это основные отношения, реализуемые в наиболее развитых языках программирования (типа Java или Python) на базе которых строятся соответствующие ресурсы. Несмотря на то, что данные виды отношений можно признать одними из главных в языке и логике, тем не менее, в данном случае и языковые, и логические отношения «подгоняются» под возможности языков программирования. Следовательно, электронные тезаурусы, имеющиеся в настоящее время, не могут считаться системами, репрезентирующими систему знания о мире, поскольку они раскрывают только незначительную ее часть. Думается, что существующие на данный момент электронные тезаурусы пока не могут претендовать даже на установление основных принципов формирования системы знания - только на установление отношений между языками программирования и словами естественного языка.
Третье, поскольку в электронных тезаурусах реализуется принцип комплектования понятий и связанных с ними слов в синонимические группы (синсеты), можно утверждать, что лексическая организация электронных тезаурусов в целом соответствует лексической организации рассмотренных выше печатных тезаурусов, которые также строятся преимущественно на принципе синонимического объединения слов. Соответственно, все рассмотренные выше проблемы, связанные с набором синонимов в группе, их взаимозаменяемостью в контекстах, соотношением значений и другие автоматически переносятся и на электронные тезаурусы.
Поскольку настоящее исследование направлено на изучение языковой
системы знания, главный вопрос, связанный с рассмотрением электронных
тезаурусов в контексте данной работы, состоит в следующем: является ли
представленная в электронный тезаурусах система слов и понятий языковой
системой знания? Использование языков программирования в электронных
62
ресурсах делает получающиеся в них языковые системы весьма упорядоченными, в результате чего складывается впечатление, что создана очень хорошо структурированная система знания на уровне слов и словесных комбинаций. Данную систему можно использовать, например, в исследованиях по искусственному интеллекту (что и осуществляется в течение нескольких лет [Negnevitsky, 2002; Sowa, 2000; Пацкин, 2000; 2004]). Однако, совершенно очевидно, что это не языковая (или не полностью языковая) система знания, а система представления слов естественного языка по правилам компьютерных программ. Впрочем, авторы рассмотренных электронных тезаурусов и не ставят себе целью описать языковую систему знания, они только пытаются найти способ оптимально использовать естественный язык в компьютерной среде, однако полученными ими результатами можно пользоваться при исследовании сущности знания.
Несмотря на то, что при изучении сущности знания в наше время нередко проводятся параллели с компьютерной сферой, для того, чтобы понять принципы бытия знания в естественном языке, не меньшее значение имеет разработка таких тезаурусов, в котором в явном виде были представлены языковые знания носителя естественного языка. Одним из наиболее очевидных путей создания такого словесного ресурса является создание ассоциативных словарей.
1.1.3. Ассоциативные тезаурусы
Составление ассоциативных тезаурусов на материале английского языка стало осуществляться еще в 70-е годы ХХв. Одним из известных тезаурусов такого типа является Эдинбургский ассоциативный тезаурус [The Edinburgh Associative Thesaurus, электронный ресурс]. В основе словаря лежит методика проведения ассоциативного эксперимента, разработанная исследователями Г. Кисс, К. Армстронг, Р. Милрой и Дж. Пайпер [Kiss, 1973]. Словарь содержит ассоциативные нормы, отражающие число словесных ассоциаций на то или иное слово, полученных от испытуемых. Это не развитая
63
семантическая сеть, как WordNet, а эмпирически полученные данные. В словаре представлены следующие данные: общее количество реакций на определенное слово, количество ответов разных типов и частота ответов конкретного типа. Например, общее количество реакций на слово cat — 95, количество разных ответов - 30, частотность такой реакции, как dog — 49 0.52.
Данные словаря используются в различных исследованиях для составления ассоциативных семантических сетей, поскольку, по выражению авторов тезауруса, содержат достоверные психологические сведения о семантической связи между словами (например, [Amancio, 2012], а также представляют богатый источник идей для использования в рекламных целях. Так, на основе Эдинбургского ассоциативного тезауруса можно восстановить 84 ассоциативных цепочки между словами peace и neutron, каждая из которых состоит из 6 узлов. Эти ассоциации показывают семантическое расстояние между двумя словами, подкрепленное психолингвистическими данными - сведения, которые можно использовать при создании сообщения СМИ и рекламных текстов [The Edinburgh Associative Thesaurus, электронный ресурс], рис. 1 «Ассоциативные связи между словами peace и neutron».
Рис. 1. Ассоциативные связи между словами peace и neutron
(H A Tf i gurug t<»
Word 2 j neutron
Pom Lonçrtrr [i Tf Г Unk strength not less thon
\0 0\ zj
"peace
peace pcace peace peace peace pcace pcace pcace pcace pcace peace pcace pcace peace peace peace peace pcace pcace peace pcace
_J
___Nod« 2 _ |
WAR (0.43) [ LOVE (0 02) WAR (0 43) WAR (0 43) BOMBS (0 Ot) MPOSStOLE (0 01) QUIET (0 13) ^IMPOSSIQLE (0 01) HOPELESS (0 01) PLENTY (0.01) j MIND (0.03) " LOVING (0 01) COME (0 01) MIND (0.03) f NEVER (0 Ol) i PIECE (0.01) ; MAKER (0 02) 'HOPELESS (0 01)
FEELER (0 01) ' NEVER (0 01) i CORPS (O Ol) PLENTY (0 01)
Node3__
" BOMB (0.02) ™
SEX (0 09) TROUBLE (0 01) SECOND (O 01)
ATOM (O 09) NOTHING (0 04) STUDY (0 Of) NEVER (0 15) NOTHING (0.03) NOTHING (0.02) DCND (0.01) SEX (0 03) SEX (0 03) HAS (0.01) NEVER (0.05)
BIT (0.14) MADE (0 03) LOST (0 09) SEX (0.02) WITHOUT (0.01) WOOD (0 01) LACK (0.03)
L__ _,<ode 4 I
" ATOMIC (0 02) GENDER (0 01) IT(O.OI) IT(0 01) ATOMIC (O 01) "SOMETHING (0 08)
IT(0 02) SOMETHING (0 01) SOMETHING (0 08) SOMETHING (0 0«) IT (0.07) GENDER (0 01) GENDER (0 01) IT (0.02) SOMETHING (0 01) IT(O.OI) IT(OOI) IT (0 01) GENDER (0.01) IT (0 05) PILE (0 01) SOMETHING (0 01)
Node 6_ __ j REACTOR (0.03f NEUTER (0.04) NEUTER (0 01) NEUTER (0.01) REACTOR (0 03) NEUTER (0 01) NEUTER (0 01) NEUTER (0 01) NEUTER (0 01) NEUTER (0 01) NEUTER (0.01) NEUTER (0.04) NEUTER (0 04) NEUTER (0.01) NEUTER (0 01) NEUTER (0.01) NEUTER (0 01) NEUTER (0 01) NEUTER (0.04) NEUTER (0 01) REACTOR (0.01) NEUTER (0 Of)
___Node 6 I
NEUTRON~(0.01) < NEUTRON (0.01) NEUTRON (0.01) * NEUTRON (0.01) NEUTRON (0.01) NEUTRON (0 01) * NEUTRON (0 01) NEUTRON (0 01) NEUTRON (0 01) ' NEUTRON (0 01) NEUTRON (0.01) NEUTRON (0 01)* NEUTRON (0.01) ■ NEUTRON (0.01) NEUTRON (0.01) * NEUTRON (0.01) , NEUTRON (0.01) ' NEUTRON (0.01) * NEUTRON (0 01) NEUTRON (O.Ot) ' NEUTRON (0.01) * NEUTRON (0 01) '
HCl ITÏ3AM try ПП
_Strength __ * j
"0~0000000s2 ] i' 0.000000007 j j 0.000000004 0.000000004 j |j 0.000000003 i 0.000000003 l i 0.000000003 ; 0.000000002 j 0.000000002 [ 0.000000002 I 0 000000002 ( 0.000000001 ' 0.000000001 j 0.000000001 < 0.000000001 i 0.000000001 0 000000001 0.000000001 0.000000001 О 000000001 o.ooooooooo о ooooooooo
n АЛ1ЧЛЛЛЛЛП
_> Rospön'so" Path {Пеъропа*>'»> £bmuhis Path j About J
ШЯШШЗЕГ^™""'
(Изображение скопировано с главной страницы сайта Эдинбургского ассоциативного тезауруса: http://www.eat.rl.ac.uk.)
Отметим, что наличие в каждой цепочке шести узлов, связывающих семантические отношения между заданной парой слов, согласуется с «правилом шести шагов», открытым Ю.Н. Карауловым. Согласно данному правилу, между любыми двумя словами, насколько отдаленной не была бы их семантика, можно выстроить цепочку из семантически связанных слов, и эта цепочка всегда не длиннее шести слов. Данное правило отражает «непрерывность» тезаурусного словаря [Караулов, 1976].
Недостатком использования Эдинбургского словаря для воссоздания целостной языковой системы знания является отсутствие дополнительной лингвистической информации, сопровождающей реакции испытуемых. Например, нет комментариев по поводу того, какое число реакций преобладает
- реакции синонимического или антонимического типа, реакции на основе синтагматических соединений слов или парадигматические реакции; связаны ли типы реакций с грамматическими характеристиками слова-стимула (например, его принадлежностью определенной части речи) или нет и т.д. В частности, наиболее частотные реакции на слово light, согласно данным словаря, таковы:
• DARK 410.41
• BULB 8 0.08
• HEAVY 7 0.07
• BRIGHT 5 0.05
• HOUSE 4 0.04
• DAY 3 0.03
• ALE 2 0.02
• SHADE 2 0.02
• SWITCH 2 0.02
Можно определить, что первая реакция {dark) представляет собой антоним к прилагательному light в значении «светлый», третья реакция {heavy)
- антоним к прилагательному light в значении «легкий» (данные реакции соотносятся с принципом установления семантики имен прилагательных через антонимическое слово); реакция bright - синонимического типа; остальные частотные реакции представляют собой реакции синтагматического типа, на основе которых можно восстановить сочетания (или сложные слова англий-
ского языка, сформированные на основе сочетаний): light bulb (электрическая лампочка), light-house (маяк), daylight (дневной свет), light ale (светлое пиво), light shade (светлый тон), light switch (переключатель).
Мы полагаем, что данные, представленные в ассоциативном тезаурусе, отражают знания, вызываемые у носителей языка при восприятии определенного слова. Эти знания не соотносятся с теми, которые зафиксированы в электронных и печатных тезаурусах. В частности, при сопоставлении статей на слово light в разных словарях, становится очевидно, что знания, связанные с данным словом, имеющиеся у обычных носителей языка, только частично соотносятся с рядами синонимов и антонимов, представленными в печатных тезаурусах английского языка, и не совпадают с концептуальным содержанием понятия LIGHT, представленным в WordNet. По крайней мере, в списке наиболее частотных реакций ни одно слово не совпадает с теми словами, которые являются именами ключевых концептов, связанных с концептом LIGHT в системе WordNet (даже в системе прилагательных, раскрывающих антонимические пары, нет таких антонимов к слову light, как dark и heavy). Это наблюдение наводит на мысль, что языковые знания, имеющиеся у носителей языка, формируются иным способом, отличным от иерархического формирования понятий в WordNet и большинства печатных тезаурусах.
На материале русского языка созданием ассоциативного тезауруса в течение многих лет занимается творческий коллектив во главе с Ю.Н. Карау-ловым, являющегося автором нескольких словарей, которые можно назвать тезаурусами русского языка, среди которых есть словари, разработанные с применением ЭВМ.
Одним из данных словарей является Частотный словарь семантических множителей русского языка 1980 г., содержание которого было положено в основу первого тезауруса русского языка, сделанного при помощи ЭВМ — «Русского семантического словаря», 1982 г. Под семантическими множителями понимаются «единицы содержательного плана, которые, соотносясь
друг с другом в различных количествах и комбинациях, задают значения любого слова в языке» [Караулов, 1980, с. 4].
Например, смысловое ядро слова друг определяется сочетанием таких семантических множителей, как «знание (друг друга)», «взаимопонимание», «духовная близость», «взаимная преданность», «готовность к взаимопомощи», «эмоциональная расположенность», «стремление к контактам». Предшественником частотного словаря множителей является Минимальный идеографический словарь [Караулов, 1976, с. 276-336], в котором представлены семантические поля наиболее употребительных слов русского языка. В Частотном словаре в качестве множителей предстают единицы, напоминающие морфемы, но не всегда тождественные им, например «взаим», «помощ», «по-ним», «дух», «близ» и т. д .
Цель словаря в том, чтобы обнаруживать связи между словами следующим образом: вокруг каждого слова можно построить его семантическое поле из множителей, как это показано выше для слова друг', если взять два произвольных слова и в их полях окажется хотя бы один общий элемент, то это и есть свидетельство связи между исходными словами. Знание о частоте употребления каждого множителя в языке помогает избежать «информационного шума» при восстановлении связей слов. Содержание словаря составляет перечисление множителей с указанием их частотного индекса.
В Русском семантическом словаре на основе индексов частотности множителей ок. 10 ООО слов русского языка были распределены в 1600 тем (распределение по темам производилось ЭВМ самостоятельно по заданному алгоритму). Создание данного словаря явилось результатом работы специалистов в области информатики и лингвистов, вдохновленных идеями Ю.Н. Караулова.
Во введении к Частотному словарю Ю.Н. Караулов указывает, что данный словарь помогает решать не только прикладные задачи, связанные с использованием ЭВМ, но и фундаментальные - «выяснение на статистической
основе «картины мира», отраженной в лексике» [Караулов, 1980, с. 5].
67
Идея обращения к исследованию словесных связей (не только частотных отношений слов, но и семантических связей в принципе) для восстановления картины мира появляется еще в работе «Общая и русская идеография», одним из выводов которой является положение о «невозможности перехода от «языковой модели мира» на более высокий уровень обобщения - к «концептуальной модели мира» на основе чисто лингвистических приемов» [Караулов, 1976, с. 275]. Это объясняет причины методологических вопросов, возникающих относительно рассмотренных выше тезаурусных словарей, в которых из лексики языка авторы пытались вывести систему общих понятийных категорий.
Развивая идею, что языковой тезаурус представляет собой лингвистический конструкт, воссоздающий лексическую систему языка в виде семантических связей слов, Ю.Н. Караулов приходит к мысли, что словом «тезаурус» можно назвать и когнитивную систему поиска информации. Так в работе «Русский язык и языковая личность» 1987 года тезаурусом называется когнитивный уровень языковой личности, или «личностный тезаурус» [Караулов, 2007, с. 52-53]. И в этом смысле тезаурус также является конструктом (языковая личность в целом - это модель), не дающим непосредственного выхода на концептуальную систему, но, используя который, можно строить предположения о сущности последней. Эта идея послужила основой создания тезаурусного словаря ассоциативного типа - Русского ассоциативного словаря, ассоциативного тезауруса русского языка.
Система словесных связей выводится в данном словаре посредством «массового психолингвистического эксперимента». Основным содержанием словаря служат словесные реакции испытуемых на предлагаемые слова-стимулы, в качестве которых выступают наиболее часто употребительные слова, по данным предварительно проведенных исследований (в качестве стимулов использовались далеко не все слова русского языка). Зафиксированные таким образом связи слов, по мысли составителей словаря, представляют собой «модель речевых знания носителей русского языка, представлен-
68
ной в виде ассоциативно-вербальной сети, позволяющей объяснить феномен владения языком и служащей - наряду с текстовым и системным - способом представления русского языка» [Русский ассоциативный словарь, 1994, с. 6].
Такой подход предполагает раскрытие словесных связей не напрямую от слова к слову, как в других тезаурусах, а от слова к мысли, и только затем ко второму слову. Это как бы развитие подхода «от слова к слову», но с экспликацией того, что было в промежутке, в то время как подход от «слова к слову» выдает словесные связи как уже готовый результат системного существования лексики.
При таком способе репрезентации языка можно проследить все значения полисемантичных слов, синонимические и антонимические ряды, синтаксическую сочетаемость, словоизменительную и словообразовательную вариативность. В словаре отражены наиболее частотные связи слов (после каждой реакции указывается индекс ее частотности).
Так, в словарной статье с заголовком магазин наиболее частотными реакциями являются пустой 44, закрыт 32, продукты 23, продовольственный, очередь 21, продуктовый, большой 10 и т. д. Как видно, наиболее частотные реакции на слово магазин представляют собой восстановление синтагматических связей слов - устойчивых шаблонных (привычных) сочетаний со словом магазин: магазин пустой, магазин закрыт, продовольственный магазин, продуктовый магазин, большой магазин. Слова очередь и продукты не являются синонимами к слову магазин, скорее, реакции испытуемых в виде слов очередь и продукты являются следствием сжатия более распространенного контекста, например в магазине есть продукты или в магазине всегда очередь.
Анализ данных, полученных в ходе эксперимента и представленных в словаре, мотивировал дальнейшее развитие исследования словесных ассоциаций носителей русского языка, следствием чего стало проведение еще двух этапов эксперимента. На втором этапе в качестве слов-стимулов выступали реакции, полученные в ходе первого эксперимента, на третьем - реак-
69
ции, полученные в ходе второго этапа эксперимента. Полученные в результате третьего этапа эксперимента данные показали отсутствие прироста новых реакций: «Ассоциативно-вербальная сеть «замкнулась» подобно «сфере», включив в себя примерно 30 тыс. разных слов на 1,5 миллиона словоупотреблений (считая «словоупотреблением» только то, что входит в «реакцию», что составляет ответ испытуемого)» [Караулов, 2008, с. 12].
Данные второго и третьего этапов эксперимента легли в основу последующих двух томов ассоциативного словаря русского языка и представлены в электронном виде на сайте: http://www.tesaurus.ru/dict/dict.php. Структурная организация электронной версии русского ассоциативного словаря намного более информативна, нежели структура рассмотренного выше Эдинбургского ассоциативного словаря (The Edinburgh Associative Thesaurus): можно проследить не только список реакций на то или иное слово и частоту их встречаемости в ответах испытуемых, но и определить тип реакции по следующим параметрам: возраст и пол испытуемых.
Анализ содержания словаря показывает, что в каждой из проанализированных нами произвольно выбранных словарных статей (на слова мама, зеленый, свет, коробка, хлеб, бросить, прийти, окно и др.) количество синтагматических реакций и частота их возникновения в ответах испытуемых значительно превышает количество реакций в виде синонимов, антонимов или слов с более общим или более узким значением и других. В более поздних работах, осмысляя результаты проведенного массового ассоциативного эксперимента, Ю.Н. Караулов называет реакции испытуемых синтагматического характера «грамматикализованными реакциями», т.е. такими реакциями, которые образуют вместе со словом-стимулом грамматически правильное сочетание слов [Караулов, 1993, с.7].
Из этого следует, что при рассмотрении словесных связей, представленных в виде ассоциативного тезауруса, более важными оказываются синтагматические связи. Поскольку ассоциативный тезаурус именуется «моделью речевых знаний», то напрашивается вывод, что синтагматические связи
70
претендуют на роль эпистемологических связей, а построенный на их основе тезаурус - на роль эпистемологической модели языка.
1.1.4. Тезаурус как система знания в лексикографическом аспекте
Проделанный анализ позволяет выделить ключевые идеи, подводящие к ответу на вопрос, что такое тезаурус.
Тезаурус - это, прежде всего, система. Система чего? - Возможны варианты: система лексики, эксплицирующая только словесные связи; система понятий, отражающая состояние знания (в том числе научного) на определенном этапе; система знания, имеющаяся у человека и обнаруживаемая путем психолингвистического эксперимента. Соответственно, имеется три типа современных тезаурусных словарей: 1) словари, раскрывающие связи от слова к слову (тезаурусы английского языка, кроме словаря Роже, а также словари синонимов, антонимов, сочетаемости); 2) словари, раскрывающие связи от понятия к слову (словарь Роже, идеографический словарь О. С. Баранова, тематический словарь, электронные тезаурусы типа WordNet); 3) словари, раскрывающие связи от слова-стимула к слову-реакции (Edingburgh Associative Thesaurus, Русский ассоциативный словарь). По сути, за этими вариантами понимания тезауруса встает семиотическое соотношение «знак — объективное понятийное содержание - субъективное ментальное содержание».
Можно предположить, что печатные идеографические словари и электронные тезаурусы представляют собой «внешние», «объективированные» тезаурусы, в которых представлены лексические отношения, изученные исследователями и являющиеся результатом их сознательной умственной деятельности по упорядочиванию лексической информации языка. Ассоциативные словари проливают свет на устройство «внутреннего», «субъективного» тезауруса человека, существующего, скорее, стихийно. Первые строятся преимущественно на основе иерархических отношений, вторые более ярко фиксируют синтагматику словесных отношений. Думается, что собственно языковой тезаурус должен как-то совмещать обе структуры.
71
Итак, можно сформулировать предварительное положение, что тезаурус - это семиотическая система, элементы которой - словесные знаки. Соответственно, по аналогии с фундаментальными вопросами семиотики о соотношении знака, реальности и ментальности, встают вопросы: как существует реальность в тезаурусе (или тезаурус в реальности?) и как существует тезаурус в голове человека?
Тезаурусы, созданные на основе логических онтологий, наводят на мысль, что объективное существование системы понятий - само собой разумеющееся. Однако несовпадение выводимых в таких словарях понятийных систем заставляет усомниться в правильности такого решения. Тезаурусы, идущие от слова к слову, предполагают феноменологическое основание: невозможно восстановить объективную систему понятий, поэтому восстанавливается только то, что реально дано наблюдателю - словесные связи. Данный подход более обоснован, однако, несовпадение перечня связей для отдельного слова в разных словарях свидетельствует о значимости фигуры исследователя-составителя и о важности его субъективного восприятия релевантности связей, его субъективной оценки связей как «стоящих/нестоящих включения в словарь». Наконец, тезаурус, раскрывающий словесные реакции испытуемых в ходе психолингвистического эксперимента еще более абсолютизирует субъективность видения словесных связей, так как предлагаются словесные реакции конкретных людей. Создатели словаря преодолевают проблему субъективизма полученных данных частотным анализом словесных реакций, но вопрос о соотношении реальности и тезауруса остается открыт.
Вопрос о том, как существует тезаурус «в голове» человека, не имеет четкого ответа, если опираться только на данные проанализированных словарей, однако, можно выделить несколько «подсказок», в каком направлении стоит двигаться, изучая данную проблему.
Во-первых, все тезаурусные словари (как и словари вообще) служат
инструментом поиска информации. Однако словарь сам ничего не ищет -
72
ищет пользователь словаря по заданному алгоритму. Если поиск затрудняется (а это один из главных недостатков печатных идеографических словарей), значит, алгоритм поиска, предложенный в словаре, не совпадает с алгоритмом поиска, из которого исходит пользователь. Электронные тезаурусы, напротив, ищут слово сами и, на первый взгляд, в состоянии предложить решение проблемы быстрого поиска нужного слова. Однако это, скорее, следствие качественной инженерной разработки языков программирования, нежели результат нахождения языкового механизма. Пользователь словаря не видит логическую цепочку понятий, выстраивающих путь к искомому слову, и потому нельзя судить, совпадает ли предлагаемый программой алгоритм поиска с внутренним алгоритмом языкового тезауруса или с ментальным алгоритмом свойственным системе знания человека. Каков этот алгоритм - пока неясно. Можно усмотреть рациональное зерно в обращении к алгоритму поиска по алфавиту, поскольку печатными тезаурусами аналогического типа пользоваться легче, чем собственно идеографическими словарями. При составлении алфавитного указателя автор словаря исходит только из материальной оболочки слова, точно также и компьютерная программа исходит только из материальной составляющей знака, подыскивая нужное пользователю слово. Можно предположить, что и ментальный алгоритм поиска слов связан с материальной оболочкой слов, а не только со значением, как принято думать.
Во-вторых, поиск информации всегда связан с категорией памяти, не случайно авторы тезаурусных словарей пишут, что предлагаемые издания необходимы для извлечения нужного слова из памяти. Что собой представляет «память на слова», тоже, пока сказать трудно, но, очевидно, она базируется на связях слов, поскольку тезаурусные словари предлагают помощь в извлечении слов из памяти путем представления связей слов с другими словами. По этому поводу стоит вспомнить две метафоры, при помощи которых составители тезаурусов именуют эти связи как совокупную целостность:
«сеть» и «процессор». Думается, эти метафоры весьма эффективны для даль-
73
нейшего осмысления идеи памяти. Также, основываясь на данных ассоциативных тезаурусов, можно предположить, что «память на слова» формируется в меньшей степени из системы понятий, и в большей степени из заученных в «готовом виде» высказываний. Поэтому весьма перспективным является приведение в тезаурусах исчерпывающего перечня коллокаций, сочетаний, устойчивых выражений, валентностей, прецедентных текстов и других «готовых к употреблению» объединений слов. Чтобы понять, как все многообразие языковых выражений входит в человеческую память, необходимо найти общее во всех этих разных с лингвистической точки зрения объединениях слов.
Возвращаясь к представлению о тезаурусе как о системе, встает еще один важный вопрос — об элементах и связях этой системы. Что касается элементов, то, предварительно можно ответить, что это слова, но слова, растворенные в своих связях, причем не только словесных, но и понятийных. Понятые так слова вполне уместно называть коллокациями, так как слова в системе тезауруса не существуют как самоценности, их ценность определяется количеством и качеством их связей. В данном случае составители словарей обращаются к частотности, как формальному показателю стабильности связей, на который можно опереться и при отборе заглавных слов, и при отборе слов, составляющих содержание статьи. Коллокациями, достойными отображения в тезаурусе, признаются те, которые соответствуют критерию стабильности в силу высокой частоты их возникновения.
Вопрос о качестве тезаурусных связей - наиболее трудный. Анализ словарей показывает, что это могут быть связи собственно словесные и понятийные. По поводу того, какие из них главные, а какие вспомогательные, можно ответить двояко. Если изначально встать на позицию признания существования объективных понятийных связей, то словесные связи - только средство их выражения. Однако, структура представления понятийных связей в идеографических словарях наводит на мысль об отсутствии четкой логики этих связей, которая неизбежно предполагается самим фактом их объек-
74
тивности. Соответственно, возникает второй вариант ответа: возможно, иерархия понятийных связей не существует объективно, а мотивирована словесными связями языка, преломленными через их субъективную оценку составителем словаря (главным образом на основе критерия частотности).
Что касается собственно словесных связей, то, исходя из содержания проанализированных тезаурусных словарей, можно сказать, что в сети тезауруса слова могут быть объединены любыми известными лексическими связями (парадигматическими и синтагматическими), а также ассоциативными связями. Причем трудно сказать, какие из них более важны, поскольку, в одних словарях раскрываются преимущественно синонимические связи, в других - преимущественно контекстуальные, в третьих синонимы определяются по контексту, в четвертых контекст иллюстрирует использование определенного синонима и т. д. Логика презентации связей в словарных статьях либо воссоздает структуру дефиниции (в широком смысле, как иерархию значений или мыслительных категорий), либо соответствует полевому принципу. Ю.Н. Караулов полагает, что связи в идеографическом словаре - это семантические связи, однако, определяя их сущность, он пишет: «Говоря о "семантической связи", мы опираемся на интуитивно очевидное представление носителей языка о том, что это такое» [Караулов, 1976, с. 76]. Главное назначение таких связей - обеспечивать «непрерывность» словаря, особенно «словаря в голове человека» [Караулов, 1976, с. 78]. Вопрос о связях требует отдельного глубокого осмысления.
Итак, тезаурус, по предварительному представлению - это система словесных связей, семиотическая по природе, со всеми вытекающими отсюда последствиями.
Оформленный в виде словаря, тезаурус является моделью этой системы. Соответственно, изучение тезауруса и презентация результатов научному сообществу неизбежно вызывает вопросы, связанные с методологическими проблемами соотношения объекта и его модели, главная из которых — невозможность полностью раскрыть онтологию объекта в сконструированной
75
отдельным субъектом модели. Как следует из выше изложенного, предлагаемые разными авторами модели сопоставимы, но не полностью совпадают, так как каждая модель, очевидно, раскрывает только один аспект исследуемой сущности. Встает задача создания обобщающей модели тезауруса, необходимость которой обусловлена не только «незаконченностью» данного фрагмента лингвистического знания - наличием множества вариантов модели при отсутствии инварианта, - но и более общими методологическими проблемами науки, поскольку выстраиваемая модель может служить общей моделью человеческого знания.
Наиболее подходящими методами исследования при изучении онтологической сущности тезауруса являются эмпирические (сбор и обработка языковых фактов), а при построении модели — теоретическое обобщение и логическое обоснование выводов.
Думается, что для большей эффективности обоих направлений исследования, а также с целью преодоления обозначенных проблем в понимании сущности тезауруса, стоит обратиться к общенаучному учению о системе. Разногласия в принципах построения словарей проистекают из того, что в лингвистике имеется несколько «статическое» представление о лексической системе, сводящееся к перечислению парадигматических и синтагматических связей слов. Это позволяет авторам принять на рассмотрение только один аспект системы (например, синонимический), не учитывая то, что этот аспект не существует как самостоятельный объект наблюдения.
В качестве попыток рассмотрения системы в динамике можно признать изучение слов через контексты их употребления, однако эти описания довольно схематичны, поскольку появление конкретных слов в определенных контекстах преподносится как возможный отдельно взятый случай, а не как явление, мотивированное системой и неизбежное при соответствующем функционировании системы. Это прослеживается в том, что контексты, как правило, приводятся для иллюстрации того, что, как предполагается, заложено в самом слове (в структуре его значения), поэтому и презентация синони-
76
мов обычно осуществляется в соответствии с дефиницией. Между тем, откуда бы еще взялось каждое новое (производное) значение слова, если не из контекста, не из самой системы связей с другими словами? Несмотря на позиционирование своей концепции как альтернативной словоцентристской, создатели идеографических словарей не смогли достаточно последовательно ее преодолеть. Описав связи слова, они обнаружили выход на уровень сети слов, но восстановили сеть «клочками» - в виде пучков (полей), сконцентрированных вокруг отдельных слов.
Для того, чтобы более наглядно представить целостность словесной системы и более глубоко осмыслить принципы ее жизнедеятельности, необходимо включить лингвистическое знание о системе лексики в более широкий научный контекст изучения систем. Для этого стоит обратиться к общей теории систем, тем более, что именно с развитием общей теории систем связано комплексное изучение информации, становление теории информации и информатики, которые в середине 20 века стали научной базой для конструирования информационно поисковых тезаурусов, а также позволили сформировать представление о тезаурусе как о семантической информационной системе, содержащей метаинформацию о функционировании самой информации.2
1.2. Естественно-научные истоки теории тезауруса
Главной причиной возникновения системного подхода (1930-е г.г.), провозглашающего изоморфизм в строении и функционировании различных объектов в природе (систем), является крушение механистического мировоззрения, доминировавшего с начала эпохи Нового времени и базировавшегося на Ньютоновской «объективной» антропологии. Крушение связано, прежде
Основные результаты сопоставительного анализа наиболее известных тезаурусных словарей освещены в нашей работе, опубликованной в издании, входящем в перечень ВАК [Осокина, 2011а].
всего, с формированием теории относительности и обращением пристального взгляда к фигуре субъекта исследования - ученому, чьи «объективные» научные выводы оказались весьма зависимыми от исходной позиции исследования. Именно тогда впервые стало очевидно, что, изучая природный объект, ученый взаимодействует с ним и не просто изменяет его, а является причиной ответных изменений в объекте. Мысль о взаимовлиянии исследователя и изучаемого им системного объекта является основополагающей в теории систем: «Ведь сама система, обладающая собственным поведением, деятельностью, развитием и по своим «творческим» возможностям нередко не уступающая исследователю — это не просто тот противостоящий исследователю и терпеливо ждущий своего отражения в его голове объект, который традиционно рассматривался в гносеологии» [Садовский, 1969, с. 11].
В целом, системный подход восходит корнями к положениям диалектического материализма, однако, как видно из предыдущей цитаты, намечаются существенные сдвиги в эпистемолого-методологическом плане. Проблема субъекта познания выводит на первый план проблему сознания (его природы), знания (его структуры) и истины. Эти проблемы определяли направление развития и самой науки, и философской эпистемологии в течение всего века.
Представители теории систем предлагают несколько вариантов определения системы. В качестве инварианта можно предложить определение, включающее следующие параметры: система представляет собой единство взаимосвязанных элементов, находящихся в определенных отношениях; статическое рассмотрение отношений между элементами складывается в структуру системы; система существует как таковая (идентична сама себе) до тех пор, пока ее структура сохраняется неизменной [Лоусон, 1969, с. 167]. Даже незначительные изменения структуры означают факт развития системы, которое возможно только при одном условии - взаимодействии со средой, при этом среда выступает как система более высокого порядка [Садовский, 1969, с. 12].
Один из лидеров Международного общества International Society for the Systems Sciences Б. Банати вводит в определение системы понятие сети и идеи наличия «фамильных отношений» между элементами системы: «In the most général sense, system means a configuration of parts connected and joined together by a web of relationships. The Primer group defïnes system as a family of relationships among the members acting as a whole» [Banathy, 1996, электронный ресурс].
Современные исследователи сложных систем отмечают следующие свойства системы: «Система имеет свойства моделирования связей, пересчитывания элементов, обучения, самоорганизации, возбуждения» [Вдовин, 2012, с. 14].
Функционирование системы в процессе взаимодействия со средой описывается в теории систем в терминах «стабильность», «равновесие», «состояние», «процесс», «обратная связь», «управление», «организация», «энтропия». Развитие системы описывается в терминах «эволюция», «генезис», «адаптация», «изменение», «самоорганизация», «обучение». Развитие системы обеспечивается тем, что «Система функционирует во времени, имеет входы и выходы, состояния, классы функций на входах и выходах, связи между выходами и входами» [Вдовин, 2012, с. 14]
В ходе взаимодействия со средой происходит обмен информацией между системой и средой. Вообще, нужно отметить важность понятия «информация», приобретшего особую актуальность в науке XX в. благодаря теории систем. Хотя традиционно понятие информации (от лат. informatio - изложение, разъяснение) подразумевало осмысленное сообщение, главным образом словесное, знаковое, в теории систем информация понимается как физическая величина, «сравнимая по значению с понятием энергии в физике» [Бер-таланфи, 1969, с. 31].
Таким образом, благодаря теории систем была создана почва для переосмысления понятия информации - появилась возможность поставить акцент
на материальной стороне и деактуализировать смысловую сторону информа-
79
ции: информация - это в большей степени само сообщение, нежели его смысл. Отметим, что слово «информация» можно возвести и к латинскому глаголу informare - приобретать форму, что подтверждает идею возможности трактовки информации только с материальных позиций, или, по крайней мере, отдавая приоритет материальной составляющей и считая смысловую составляющую производной от материальной. В течение XX в. эти идеи получили большой резонанс, особенно в семиотике и философии постмодернизма.
Еще одна оригинальная идея, которая родилась в рамках теории систем в ходе исследования взаимодействия системы со средой - представление о поведении системы как ответной реакции на воздействия среды. Описание функционирования системы при помощи слова «поведение» явно указывает на существенное влияние на теорию систем со стороны бихевиоризма, однако JI. фон Берталанфи и другие исследователи говорят о «бихевиоральных науках».
Вслед за бихевиористами, представители теории систем М. Тода и Э.Х. Шуфорд полагают, что поведение системы можно сконструировать, если известно отношение между стимулами, исходящими из среды, и реакциями системы. Однако они критикуют развившуюся в рамках бихевиороизма экспериментальную психологию за чрезмерно упрощенное представление о поведении сложных систем. По их мнению, конструировать модели поведения системы следует не столько путем проведения экспериментов, которые допускают случайные результаты, сколько основываясь на предположении о существовании единой структуры поведения системы в определенной ситуации: «Существование правил, или иначе говоря, структуры ситуаций - единственное, что дает нам надежду объяснить сложное явление, пользуясь отношениями, которые на одну ступень более элементарны» [Тода, 1969, с. 329]. Иначе говоря, зная о структурах поведения систем, можно экстраполировать знания об одних системах на иные системы. Данное положение получило широкое развитие впоследствии в гештальтпсихологии.
80
В последнее время идея поведения системы и ее реагирования на внешнее воздействие получает еще более широкое толкование как способность «восприятия», свойственная системе: «The first was to introduce the notion that perception is not a characteristic limited to 'living' organisms that 'sense' the environment, but that all systems structures that engage with and react to the environment are also per-ceptive» [Pharoah, 2007, электронный ресурс].
Еще одна мысль, которую представители теории систем позаимствовали из бихевиоральных наук - идея памяти системы. Также как поведение собаки можно объяснить не только условиями окружающей среды, но и закрепившемся в памяти животного жизненным опытом (в частности, если поведение животного не мотивировано стимулами, исходящими из среды, но связано с какими-то событиями, произошедшими раньше), так и поведение системы, если она целиком не наблюдаема, можно объяснить памятью системы [Эшби, 1969, с. 139].
Важным результатом исследований в области теории систем стало формирование представлений и разных типах систем. Проведение аналогий между разными системами, изучаемыми разными науками, позволило выявить общие и отличительные признаки систем. Наиболее полно типология систем представлена в работе К. Боулдинга, который выстраивает типы систем в строгую иерархию в зависимости от особенностей их структуры: 1 уровень - статическая структура; 2 — закрытая система (уровень часового механизма); 3 - управляемая система (например, управляемый человеком автомат); 4 - открытая система (на данном уровне происходит переход от нежизни к жизни); 5 - растение; 6 - животное; 7 - человек; 8 - социальная организация; 9 - уровень трансцендентальной системы [Боулдинг, 1969].
Принципиальным моментом является разграничение между закрытыми и открытыми системами: «В отличие от закрытых систем, которые зависят от начальных условий, открытая система может достигать состояний, не зависящих от исходных условий, и определяемых исключительно параметрами
системы» [Берталанфи, 1969, с. 42]. Иначе говоря, открытые системы спо-
81
собны на саморазвитие и эволюцию в системы иного качества. Более того, открытые системы способны на самовоспроизводство, т.е. на воспроизведение себя в виде своего потомства, причем вопрос о возможности произведения «потомства» рассматривается и на уровне автоматизированных систем (Дж. Майхилл рассуждает об автоматах, которые способны воспроизводить автоматы, подобные себе [Майхилл, 1966]).
По поводу самой эволюции, в отличии от доминировавшего в XIX в. взгляда о существовании некой внутренней силы, руководящей процессом эволюции (гегелевский Абсолют), по мнению представителей теории систем, в развитии этого процесса имеют место случайности. Однако, независимо от того, что именно руководит процессом эволюции систем, это всегда эволюция «от простого к сложному» [Лоусон, 1969, с. 477]. Следовательно, процесс эволюции не хаотичен, а подчинен некоей общей цели, телеологичен.
Выводы, сделанные представителями теории систем фундаментальны. Они создали не просто новую концепцию естествознания, но и новую методологию науки: само знание - это тоже система, и его можно изучать при помощи положений теории систем.
Важнейший методологический вывод состоит в новом представлении взаимоотношений между субъектом и объектом познания: отношение субъект-объект познания представляет собой систему, состоящую их двух основных элементов, каждый из которых представляет собой систему, более простую по отношению к системе знания; знание - это открытая система, обладающая собственным поведением, способная к воспроизводству, развитию и эволюции в более сложные системы. Чтобы изучить такую систему, субъект познания должен стать метасубъектом, наблюдающим со стороны [Эшби, 1969, с. 141].
При выборе основных методов исследования представители теории систем следуют традициям Нового времени, признавая ведущими методами эмпирическую индукцию и рациональную дедукцию. Исследования по теории систем в естествознании, как правило, изучают эмпирические данные;
82
собственно методологические исследования тяготеют ко второму методу, полагая, что изучение изоморфной структуры объектов «целесообразно начинать с класса "всех мыслимых систем"» [Эшби, 1969, с.129].
Предлагаемая методологическая стратегия - логическое исследование структуры системы.
Основным результатом научных построений в теории систем является модель структуры той или иной системы (отметим, метод моделирования признан одним из ведущих в науке XX в., в том числе в лингвистике). Главная функция теоретических моделей видится «в объяснении и предсказании еще не исследованных явлений и управления ими» [Берталанфи, 1969, с. 42].
В настоящее время исследуется множество различных систем в физике, биологии, социологии, психологии, экономике и других сферах, развиваются теория сложных адаптивных систем, теория живых систем, теория организации, теория бесконечной вложенности материи и др. Подчеркивается необходимость создания большего числа новых разнообразных моделей, поскольку только таким образом можно постичь сложную сеть множества взаимосвязанных обстоятельств, происходящих вокруг нас и оказывающих одновременное постоянное воздействие: «Accordingly, we urgently need new models to соре in space and time with many complex situations and issues. The mother of ail catastrophes is really our deep lack of understanding of the network of multiple causes and effects simultaneously at work around us» [François, 2004, электронный ресурс].
Современное философское обобщение результатов исследований по теории систем, изучающих системные процессы в природе и обществе, отражено в концепции С.Г. Федосина, называемой «философия носителей». Основная идея концепции состоит в доказательстве аналогичности функционирования идеальных и материальных систем и отказе от строгого разделения мира на материальные и идеальные объекты, следствием чего является постулирование необходимости изучения данных объектов соотносимыми методами. Концепция основывается на положении, что мир состоит из «носите-
83
лей», в качестве которых могут выступать как материальные устойчивые системы, так и идеальные по природе системы: сознание, образы, символы, слова, образы образов, просто «вещи», «тела» материального мира. По мнению С.Г. Федосина, «внутренние относительно сознания носители не только идеальны, но и материальны, обладают свойствами живого и неживого; идеальные носители имеются не только в сознании, но и в бессознательном, и в самой природе; подобное взаимопроникновение свойств характерно для всех носителей, так что любая их классификация будет неполна, несовершенна» [Федосин, 2010, с. 131].
Таким образом, философское осмысление развития теории систем, по мысли С.Г. Федосина, позволяет признать категории «материальное» и «идеальное» равноправными и снять «основной вопрос философии» о первичности материального или идеального и вопрос о роли сознания в познании мира.
Идеи и методологические разработки, предложенные представителями общей теории систем, нашли свое развитие в ряде смежных дисциплин, среди которых теория информации, кибернетика, информатика, синергетика, а также теория игр и топология, включающая теорию сетей и теорию графов. Первые четыре из них оказали значительное влияние на развитие взглядов в лингвистике (например, в таких направлениях, как структурализм, когнити-визм, прагматическая лингвистика) и поэтому требуют своего отдельного рассмотрения.
Основным понятием теории информации и кибернетики является «информация», понимаемая количественно как мера сложности структур и «канал связи» [Шеннон, 1963].
К. Шеннон первым стал рассматривать передаваемые сообщения с точки зрения математической статистики, ставя акцент на частотности определенных фрагментов сообщений. Он не занимался исследованием содержания передаваемой информации, так как его интересовал сам механизм ее передачи. Предложенное Шенноном понимание информации прочно закрепилось в
84
точных науках и смежных отраслях. Например: в технических науках информация определяется математически через «количество информации»: «Информация - или, более точно, количество информации - есть мера сложности структур, предлагаемых восприятию» [Моль, 1966, с. 14].
В исследованиях по кибернетике, науке об управлении информационными системами посредством обратной связи, намечается выход на изучение содержания информации. Основатель кибернетики Н. Винер определяет информацию как «обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспосабливания к нему наших чувств» [Винер, 2001, с. 14]. Кибернетика не занимается изучением содержания информации, но включение в рассмотрение идеи обозначения - знаково-сти - способствует дальнейшему продвижению в этом направлении.
Семиотические проблемы соотношения формы и содержания знака излагаются в исследованиях Винера с позиций теории систем. Информация передается сигналами, которые представляют собой формы модели и организации системы. В общей теории систем при рассмотрении взаимодействия системы со средой признается наличие двух взаимонаправленных процессов -организации и дезорганизации, или энтропии. Процесс организации, по мысли Винера, связан именно с передачей информации в виде сигналов. Развивая шенноновское определение информации как меры сложности структур, Винер пишет: «Как энтропия есть мера дезорганизации, так и передаваемая рядом сигналов информация является мерой организации» [Винер, 2001, с. 17]. Иначе говоря, передача информации сигналами практически исключает возможность случайности, ведущей к дезорганизации системы, и увеличивает вероятность повтора, воспроизводства информации, следовательно «чем больше вероятно сообщение, тем меньше оно содержит информации» [Винер, 2001, с. 17].
Подчеркнем, смысл здесь не отождествляется с информацией. Информация есть обозначение смысла, т. е. сигнал. Фразу Винера «Клише имеют
меньше смысла, чем великолепные стихи» следует понимать так: регулярно
85
повторяющийся сигнал перестает быть информацией именно в силу своего частого воспроизведения, т. е. теряет свойство информации, и с этой точки зрения он несет «меньше смысла». Почему, тем не менее, клише не перестают употребляться - потому что система, особенно открытая система, стремится к равновесию со Вселенной, и в силу этого в такой системе и в самой Вселенной «точное повторение невозможно» [Винер, 2001, с. 44].
Вместе с тем человеческий язык отличается от системы сигналов в природе. По мысли Винера, это отличие состоит в сложности используемого кода и, самое главное, в высокой степени произвольности этого кода. Поэтому, возможно, воспринятая из концепции системы языка Соссюра идея о разделении фонетического означающего и смыслового означаемого прочитывается и в работах Винера, однако смысл является не столько свойством информации (означающего, материального, формы) сколько свойством воспринимающей эту информацию системы, т. е. человека.
В частности, о фонетической стороне языка он пишет: «Взяв последовательность отдельных слов или пар слов, или сочетаний из трех слов в соответствии со статистической частотой их распространения в языке, можно получить удивительное подобие языка, например, английского, и полученная таким образом тарабарщина будет иметь в высшей степени удивительное сходство с правильным английский языком» [Винер, 2001, с. 76]. Очевидно, Винер, не может признать информацией фонетическую сторону языка саму по себе, так как она не получает ответной реакции со стороны воспринимающей системы (человека) - не соблюдается условие обратной связи. Извлечение смысла - ответная реакция системы, которая возможна только при условии наличия памяти: «Для приема семантической стороны языка необходима память и последовательные длительные выдержки из нее» [Винер, 2001, с. 77]. Итак, кибернетика ставит вопрос о содержании информации, но не решает его.
Изучением содержания информации более плодотворно занимается
информатика. Это направление естественно-научных исследований пред-
86
ставляется особый интерес в контексте настоящей работы, так как именно в лоне информатики возникла идея тезауруса как хранилища семантической информации (развитие которой привело в последствии к созданию электронных информационно-поисковых тезаурусов).
В качестве информационной единицы информатика рассматривает уже не сигнал, а символ, т. е. двусторонний знак. Для адекватной оценки содержательной стороны информации представители информатики обращаются к семиотическим учениям о структуре знака. В частности, большое влияние оказала концепция Р. Карнапа, определяющего значение знака как его место в системе знаков. Карнап предложил определять величину семантической информации посредством логической вероятности: чем больше логическая вероятность высказывания, тем меньше его содержание [Карнап, 1971]. На первый взгляд эта идея соотносится с положением Н. Винера о повторяемости информации, однако, последний имел в виду воспроизводство только на уровне означающего, Карнап же говорит о воспроизводстве логических структур на уровне означаемого. Эта концепция вполне заслуженно критикуется, так как при ее последовательном развитии фраза «На Луне есть нефть» окажется содержащей больше семантической информации, чем фраза «На Земле есть нефть» [Чурсин, 1982]. Тем не менее, идея измерения содержания информации путем измерения ее формы стала в информатике одной из основополагающих.
Формой существования и хранения семантической информации является тезаурус. Данная концепция тезауруса наиболее последовательно развивается в трудах Ю.А. Шрейдера. Тезаурус у него - формальная модель описания представлений о внешнем мире некоторого наблюдателя [Шрейдер, 1963]. Данная модель строится на базе общей теории систем и ее частных ответвлений - теории связи (Шенноновская теория информации) и кибернетики.
«Сложная система, - пишут Ю.А. Шрейдер и A.A. Шаров, - имеет семиотическую (т. е. полноценно языковую) природу информационных связей
87
между подсистемами в противовес системам, где имеется функциональная сигнализация» [Шрейдер 1982, с. 16]. Таким образом, должны различаться методы исследования систем, передающих информацию сигналами (этим занимался Шеннон: хотя он исследовал языковую информацию, она интерпретировалась как информация, передаваемая сигналами) и методы изучения сложных семиотических систем.
Шрейдер опирается на такое свойство семиотических объектов, как «способность знака в ряде случаев замещать обозначаемое», где под последним имеется в виду денотат [Шрейдер, 1975, с. 4], и пишет, что «выражаемое знаком свойство денотата, то понятие о денотате, которое несет данный знак, называется концептом этого знака» [Шрейдер, 1975, с. 7]. Соответственно, передача информации посредством знаков осуществляется на семантическом уровне, в отличие от передачи информации сигналами, происходящей на синтаксическом уровне (об этом тоже говорил Шеннон).
Из семиотических учений воспринимается также мысль о трех аспектах существования системы знаков: семантическом, синтаксическом и прагматическом. Семантическая информация, передаваемая сложной системой, отождествляется с информацией прагматической, поскольку, независимо от того, сколько информации передано, воспринимается только та информация, которая необходима, ценна для принимающей системы.
Таким образом, семантическая модель передачи информации - тезаурус - необходима для того, чтобы решить проблемы понимания информации. В шенноновской теории информации проблема восприятия даже не ставится, главное внимание уделено процессу передачи информации, а ее восприятие зависит от того, как настроен приемник, и по умолчанию считается, что он всегда правильно настроен. Однако, это не так.
Тезаурус представляет собой семиотическую систему, на основе которой происходит восприятие информации, ее обработка и присвоение. «Речь идет о том, что одно и то же сообщение может по-разному восприниматься
различными приемниками информации. Для описания подобной ситуации
88
оказывается эвристически полезным представление о тезаурусе приемника, от состояния которого зависит возможность воспринять тот или иной фрагмент информации из данного сообщения и дать ему определенную интерпретацию в рамках данного тезауруса» [Шрейдер, 1982, с. 118].
Тезаурус выступает как система репрезентаторов - способов представления сведений о действительности. Можно говорить о тезаурусе отдельного человека и целого коллектива. Тезаурус полностью определяет то, какие из поступаемых сведений будут восприняты (и как они будут восприняты), а какие - нет (так как не укладываются в существующий тезаурус, не находят в нем соответствующих для себя форм).
Данная мысль затем неоднократно воспроизводилась в работах других исследователей. Так, H.H. Чурсин задает вопрос: «Почему академики не учат первоклассников?», и отвечает: потому что несопоставимы их тезаурусы, поскольку «тезаурус академика несравненно богаче, шире и сложнее тезауруса школьника первоклассника» [Чурсин, 1982, с. 59]. Из той информации, которую передает академик (буквально, из всех слов, которые произносит академик), школьник способен воспринять только очень незначительную ее часть (буквально, ему будут знакомы только несколько слов, но и они не все могут быть поняты в том контексте, в котором они употреблены).
Тезаурус по сути дела задает систему семантических связей понятий. Каждое понятие в тезаурусе объясняется через набор других, т.е. характеризуется своим положением в тезаурусе. Фактически тезаурус человека - это «вербализованная, соотнесенная со словесным материалом совокупность его представлений о мире, включающая его познавательные установки» [Шрейдер, 1982, с. 119]. Последние определяют ценность получаемой информации.
Итак, воспринимается только та информация, которая соотносится с имеющимся тезаурусом и только немного превышает заданное в нем количество информации (грубо говоря, только несколько из сообщаемых слов могут быть неизвестны получающему информацию человеку). То количество информации, которое превышает заданную в тезаурусе, является ценной ин-
89
формацией. Таким образом, обмен информацией между семиотическими системами происходит как получение ценной информации.
Из этого следует, что информационный обмен представляет собой процесс телеологичный по своей сути. Если получаемая информация полностью совпадает с имеющимся тезаурусом, то она не несет никакой ценности. В таком случае, по мнению Шрейдера, можно говорить, что переданное количество информации равно нулю. Информация, определяемая как количество информации — это только ценная информация. В этом смысле семантическая информация тождественна прагматической.
Как видно, при таком подходе имеется качественно иное основание (в отличии от идеи Шеннона) для понимания количества информации. Если в концепции К. Шеннона количество информации понималось чисто математически (в предложенной им формуле количества информации подразумевается статистический подсчет частоты появления букв алфавита в сообщении), то при тезаурусном подходе количество информации можно измерить как изменение тезауруса воспринимающей системы. «При восприятии текста тезаурус человека может меняться. Изменение тезауруса можно записать алгебраически: равенство Ь=х(а) означает, что субъект с тезаурусом а, восприняв текст х, изменяет свой тезаурус, превращая его в Ь» [Шрейдер, 1982, с. 119].
Проблема состоит в том, что пока неизвестно, как можно измерить содержательную сторону тезауруса, гипотеза Шрейдера строится на очень важном допущении: «допустим, мы научились некоторым способом вычислять степень содержательности тезауруса» [Шрейдер, 1982, с. 119]. Таким образом, Шрейдер не предлагает математической формулы для исчисления количества семантической информации, которая бы соответствовала формуле Шеннона для количества материальной информации. Однако это не мешает выстроить довольно последовательную в целом концепцию.
Так, развивается идея об уровнях восприятия информации. Самый низкий уровень - синтаксический, где главное - воспринимать структуру фразы,
90
не вдаваясь в смысл (например, предварительное чтение текста на иностранном языке). В гносеологическом плане этот уровень проявляется как подмена вопроса о содержании на вопрос о форме. Следующий уровень — поверхностно-семантический, на этом уровне познается буквальный смысл сообщения. В гносеологическом плане это уровень прямых соответствий наблюдаемых фактов общепринятой концепции. Третий уровень - глубинно-семантический, на этом уровне постигается метафорический смысл текста. В познании природы глубинно-семантический уровень приводит к необходимости такого системного подхода, при котором причинностное объяснение оказывается недостаточным, возникает необходимость целевого или ценностного объяснения. Этим отличается тезаурусный подход к изучению информационных процессов от рассмотренного в рамках теории систем: хотя тезаурусный подход вырос из теории систем и теории информации, он актуализирует ценностные и целевые установки в поведении и развитии системы. Наконец, существует и четвертый уровень понимания информации - «диалоговый» (на формирование этой идеи оказали влияние работы М.М. Бахтина). Обмен информацией - процесс общения с текстом [Шрейдер, 1982, с. 122].
Трактовка тезауруса как системно организованной семантической информации в настоящее время широко развивается в синергетике, науке о самоорганизации системных процессов. Синергетика интегрирует точные, естественные и общественные науки, обосновывая изоморфизм эволюционного развития различных систем в природе и обществе, используя математические методы исследования. Развитие данного направления - также одно из закономерных последствий общей теории систем, в котором на новом научном витке переосмысляются понятия системы и структуры, закономерности и случайности, развития и стабильности в более общих философских категориях порядка и хаоса.
Синергетика изучает открытые системы, способные к саморазвитию в процессе вещественного, энергетического и информационного обмена со средой.
Информация в синергетике понимается как случайный и запомненный выбор одного варианта из нескольких возможных и равноправных. Если представители общей теории систем и кибернетики пытались выстроить такую модель развития системы, при которой вероятность случайных событий не может привести к полному хаосу, так как предполагается наличие общей структуры ряда процессов, то представители синергетики, очевидно, не удовлетворившись идеей структуры, пытаются объяснить отсутствие хаоса наличием памяти системы. Система не сделает абсолютно случайный выбор, просто не все причины/мотивы ее поведения объективно можно наблюдать. Объяснение, как это происходит, осуществляется при помощи изучения тезауруса системы.
Понятие тезауруса в синергетике также связано с семантической (или «логической» [Корогодин, электронный ресурс]) информацией, которая, как и в концепции Шрейдера, трактуется через категории цели и ценности: «Ценность информации зависит от цели, которую преследует рецептор» [Чернавский, 2004а, с. 17]. Однако, если в тезаурусной концепции Шрейдера количество получаемой информации равно количеству ценной информации, то в синергетических исследованиях понятия количества и ценности информации не всегда совпадают.
Так, В.И. Корогодин в книге «Информация и феномен жизни» вводит понятие «информационной тары» [Корогодин, электронный ресурс], в качестве которой выступают различные носители информации, а также человеческие языки. При переводе с одного языка на другой количество информации изменяется (буквально, необходимо иное количество букв или слов), однако количество ценной информации не изменяется, если перевод осуществлен без смысловых потерь.
Как видно, в связи с представлением о ценной информации появляется представление об осмысленной информации. Если ценная информация субъективна, связана с целями системы, то осмысленная информация объективна и зависит от тезауруса. В традиционной информатике не ставится во-
92
прос об эволюции ценной информации, поскольку цели развития информации определяются из вне. В синергетике открытая самоорганизующаяся система способна порождать цели внутри себя (подобные идеи были намечены еще в общей теории систем). Поэтому рецепция информации, при которой система осуществляет выбор на основе имеющегося тезауруса - это, с одной стороны, выбор самой системы, но с другой стороны, - это выбор, навязанный из вне, поскольку тезаурус - это то, чему система научается (приобретает) из внешней информационной среды. Система (в роли которой, вполне может выступать и человек, личность) делает выбор сама, но выбор, который она обречена сделать.
Если в концепции семантической информации, развивающейся в информатике, тезаурус трактуется как система, необходимая для понимания поступающей информации, то в синергетике тезаурус нужен и для понимания информации (рецепции), и для ее генерации. То, какая информация выбирается при рецепции, обусловливается тезаурусом — это выбор, навязанный системе; однако, если выбор случаен - имеет место генерация новой информации. Иными словами, если в систему семантических связей, которая уже сложилась на данный момент, вносится новый элемент, это и есть генерация новой информации, и это и есть проявление случайности, поскольку происходит некоторая дестабилизация сложившихся связей, что не может быть целью самоорганизующейся системы, а может быть только случайным эффектом.
Как и в рассмотренных выше концепциях, в синергетике тезаурус понимается как иерархическая система. Отличие состоит в том, что в данном случае рассматривается иерархия ценностных уровней. Д.С. Чернавский иллюстрирует систему ценностных уровней следующим примером. Учась говорить, ребенок получает информацию от своих родителей, так у него складывается языковой тезаурус. Повзрослев, человек овладевает определенной специальностью, появляется профессиональный тезаурус. Он и дальше будет
делать ценностные выборы в жизни, но каждый выбор будет возможен толь-
93
ко на основе прежних, более ранних, ведь выбор осуществляет не просто человек, владеющий языком, но и владеющий специальностью [Чернавский, 2004а, с. 20-21]. Используя термины синергетики, этот же пример можно изложить так: в развивающейся системе необходимость выбора возникает, когда она находится в неустойчивом состоянии, т. е. в точке бифуркации; из множества вариантов делается выбор, который определяется типом бифуркации.
Отсюда ясно, какую роль играет тезаурус в генерации ценной информации: без него отсутствует множество, из которого следует сделать выбор. Выбор из любого другого множества будет иметь нулевую ценность.
Ценность информации эволюционирует в свою противоположность по оценке: неценная информация становится ценной, бессмысленная - осмысленной. Здесь уместно вспомнить замечание Н. Винера по поводу того, что воссоздаваемая машиной только на фонетическом уровне словесная «тарабарщина» не имеет никакого смысла. С точки зрения синергетики (а до представителей синергетики об этом говорил Ю.А. Шрейдер), со временем и подобная бессмысленная «тарабарщина» эволюционирует в информацию, имеющую смысл. Она может стать ценной и осмысленной для рецептора, в роли которого выступает, например, ученый, поставивший своей целыо изучить эту «тарабарщину».
Отметим, кстати, что в качестве аналогичной тарабарщины предстает человеческий язык и перед новорожденным ребенком. Как ребенок научается языку? Как бессмысленная информация эволюционирует для него в осмысленную? Как он приобретает свой самый первый тезаурус, на основе которого будет восприниматься уже вся последующая информация? — С точки зрения синергетики, переход к каждому последующему информационному уровню возможен, только на основе уже имеющегося к данному моменту тезауруса, иначе не из чего будет сделать выбор. Следовательно, у ребенка, к тому моменту, как он начинает учиться языку у родителей, уже должен
иметься какой-то элементарный тезаурус? Представители синергетики гово-
94
рят, что «необходимый для этого тезаурус у ребенка присутствует от рождения» [Чернавский, 2004а, с. 21].
Данное утверждение вызывает ассоциации с учением о врожденности языковой способности Н. Хомского. Однако, как и в учении Хомского, так и в цитируемой работе Чернавского, идея врожденности языковых структур появляется там, где, опираясь на достижения современной науки, невозможно доказать, откуда берутся эти исходные знания.
Современная концепция изучения информации имеет своим предметом исследование систем и информационных процессов, которые хотя бы до определенной степени поддаются исчислению и описанию при помощи математического категориального аппарата. Тем не менее, современные естественно-научные исследования предлагают новое понимание информации, которое не может игнорироваться лингвистами, тем более что выдвигаемые концепции информации не потеряли общего методологического статуса.
Так, новым является представление о том, что процесс обмена информацией происходит без существенных потерь информации. Инженер-математик С.Я. Янковский доказывает, что процесс передачи информации происходит так, что передаваемая средой информация не исчезает из среды, а сохраняется в ней: «Любое взаимодействие между объектами, в процессе которого один приобретает некоторую субстанцию, а другой ее не теряет, называется информационным взаимодействием. При этом передаваемая субстанция называется Информацией» [Янковский, 2000]. Стоит обратить внимание, что информация не отождествляется ни с энергией, ни с веществом, но называется «субстанцией». Однако далее автор говорит, что информация переносится формами вещества или энергии, которые именуются «кодами», продолжая традицию понимания информации как формы.
Для принятия информации объект должен обладать аппаратом интерпретации, или системой свойств, позволяющих ему воспринимать получаемые коды как некоторую информацию. Воспринимается далеко не вся информация, а только та, восприятие которой предполагается свойствами объ-
95
екта. Следовательно, по выражению С. Янковского, воспринятая информация «необходимо целесообразна» для принимающего ее объекта, так как ее восприятие обусловлено его собственными свойствами.
Под интерпретационным аппаратом у животных в данном случае понимаются рецепторы и неврологическая система в целом. Янковский рассматривает эволюцию интерпретационного аппарата от имеющегося у простейших до свойственного сложным многоклеточным организмам, у которых интерпретационный аппарат представляет собой сложное взаимодействие нейронов мозга. От приемников входящей информации по организму начинает расходиться «следящая» информация, которая проходит путь через «промежуточные узлы» до центра - головного мозга, - где она преобразуется в «управляющую» информацию, вызывающую реагирование организма на полученную информацию. Наличие промежуточных узлов говорит о том, что не вся информация доходит до центра - некоторая ее часть расходится в промежуточных узлах, что, по мысли С. Янковского, обеспечивает существование «вещи в себе». Иначе говоря, «вещь в себе» существует не потому, что мы не можем «пробиться» к ней своей «управляющей информацией» (проще говоря, сознанием), а потому, что информация о «вещи в себе» расходится в промежуточных узлах и не доходит до главного центра, который, по сути, осуществляет рефлексию.
Продвижение информации в организме вызывает ее качественное преобразование, заключающееся в обобщении информации, которое представляет собой «преобразование информации о наличии множества простых частных событий в информацию о наличии некоего события более высокого уровня, в которое эти частные события входят как отдельные его элементы» [Янковский, 2000]. Следовательно, обобщение - это свойство интерпретационного аппарата, грубо говоря, факт взаимодействия нейронов, а не проявление Разума.
Как видно, концепция информации С. Янковского не только объясняет детали информационного обмена, но и позволяет преодолеть традиционные для философии Нового времени проблемы Разума и «вещи в себе».
В ходе эволюции у многоклеточных развился «аппарат условной интерпретации информации», работу которого обеспечивают миллиарды нейронов. По предположению С. Янковского, помимо нейронов, получающих информацию непосредственно из среды, «должны» существовать и другие нейроны, получающие информацию в уже обобщенном виде. Эти «другие» нейроны могут вмешиваться в информационное взаимодействие первых нейронов и влиять на его развитие. Следовательно, в таких информационных процесса принимает участие информация, не воспринятая напрямую из среды. Подобные информационные процессы С.Я. Янковский сравнивает с «условными рефлексами» Павлова. Развитие «аппарата условной интерпретации» представляет собой настройку исходного интерпретационного аппарата, имеющегося у организма от рождения, на конкретные условия его существования.
Таким образом, концепция Янковского объясняет с физиологической точки зрения проблему понимания информации, а также создает основания для положения о том, что поступаемая из среды информация интерпретируется организмом как условия его существования. Иначе говоря, мы живем в мире условий, потому что таков наш интерпретационный аппарат, мы можем специфически реагировать на эти условия вплоть до постулирования их отрицания, но не можем преодолеть информационную обусловленность бытия.
В рассмотренных ранее работах по синергетике и информатике с представлением Янковского об интерпретационном аппарате соотносится представление о тезаурусе. Можно предположить, что Янковский дает физиологическое обоснование существования и функционирования тезауруса. Однако тезаурус представляет собой семиотическую сущность, семиотический аппарат интерпретации, в то время как в концепции Янковского не представ-
лено, на какой стадии эволюции появляется семиотический интерпретационный аппарат.
Складывается общее впечатление, что ему соответствует высокоразвитый нейронный аппарат человека, однако, свойствами целенаправленного выбора при восприятии информации (то, что составляет функции тезауруса) обладает и более простой интерпретационный аппарат животного и даже простейшего. Более того, поскольку свойство к обобщению информации в концепции Янковского является свойством самой информации, а не, скажем, сознания, разума, того, что традиционно понималось, как нечто способное интерпретировать семиотическую информацию, то возникают два противоположных предположения: либо простейшие интерпретационные аппараты рассматривать как некие биологические тезаурусы, либо впадать в вечный поиск сущности семиотической информации. В концепции информации Янковского нет четких предпосылок выделять качественно разные типы информации. Главными свойствами информации являются только, во-первых, невозможность существования вне взаимодействия и, во-вторых, невозможность потери информации передающим объектом.
Подводя итог рассмотрению естественно-научных концепций, имеющих отношение к изучению тезауруса, выделим те моменты, в которых прослеживается согласованность идей с рассмотренными в предыдущем параграфе лингвистическими концепциями, и те моменты, которые могут дополнить и изменить существующее в лингвистке представление о тезаурусе.
Как и в лингвистике, в естествознании тезаурус рассматривается как система, состоящая из элементов и отношений между ними. Элементами признаются семиотические сущности, отношениями между ними - отношения на материальном и семантическом уровне. Связи между элементами можно изучать как структуру данной системы.
Основной принцип организации структуры тезауруса видится и лингвистам, и представителям естественных наук как иерархический принцип,
однако и те и другие подчеркивают важность горизонтального развертывания связей для определения специфики каждого уровня иерархии.
Развертывание тезауруса по горизонтали и вертикали создает сеть, обеспечивающую непрерывность информации, в том числе напрашивается предположение о непрерывности перехода материальных связей в семантические (по крайней мере, ни в лингвистических, ни в естественно-научных исследованиях не указывается, где проходит четкая граница между ними, напротив, говорится о наличии и «идеального», и «материального» как во внешнем по отношению к человеку мире, так и в его субъективной системе).
Эта система интерпретируется как связующая знания индивида и объективированные в виде семиотических сущностей знания, поэтому тезаурус имеется и в голове индивида, и как внешняя по отношению к индивиду информация.
Тезаурус - это знаниевая система.
В обоих направлениях тезаурус связывается с идеей поиска информации и памятью. И алгоритм поиска, и память интерпретируются двояко - как материальные информационные процессы и семантические.
Для изучения так организованной информации предлагаются логические методы исследования для анализа семантической стороны, а также статистические методы для анализа материальной стороны.
И в лингвистике, и в естествознании встает проблема роли субъекта познания в связи с изучением таких сложных систем.
Тезаурус рассматривается как система, содержащая метаинформацию, изучающий ее субъект познания - как метасубъект.
Вообще, следует заметить, что в большинстве естественно-научных исследований, имеющих отношение к языку, демонстрируются весьма общие представления о том, что такое язык. Так, в теории информации Шеннона количество информации, передаваемой языком, приравнивается к количеству букв алфавита. Однако, нет ни одного лингвистического учения, в котором
язык приравнивался бы к алфавиту. Система письма, естественно, изучается
99
лингвисткой, но вовсе не с письменной формой связано общее представление о языке как о явлении, феномене, системе, хотя бы потому, что письмо как система знаков для передачи информации возникла гораздо позже разговорного языка и является средством передачи знаков первого. Изучение буквенных знаков, безусловно, важно в теории информации, особенно при создании телеграфных передающих устройств, но нельзя строить умозаключения о языке как информационной системе, опираясь только на графическую его сторону.
Представители кибернетики пытаются ставить проблемы смысла информации, хотя отождествляют процесс передачи информации языком с передачей информации сигналами; однако, не только в лингвистике, но в целом ряде других наук, связанных с семиотикой, признается знаковая природа языка, качественно отличающаяся от сигнальной.
Немало примеров, демонстрирующих довольно поверхностное представление о языке, приводится и в синергетике. Так, в отношении упоминавшегося выше рассуждения о сохранении ценной информации в процессе перевода с одного языка на другой «без потерь» можно найти немало возражений в работах по теории и практике перевода, свидетельствующих, что перевод без смысловых потерь в принципе невозможен.
Представители естественных наук позволяют себе рассуждать о языке, опираясь только на свои знания носителя языка, не обремененного тезаурусом профессионального лингвиста, поэтому в рамках лингвистического исследования многие их утверждения стоило бы пересмотреть. Например, идея о врожденности языковых структур, по выражению Ю.Н. Караулова, «граничит уже с мистикой» [Караулов, 1981, с. 7].
Впрочем, некоторые высказывания представителей естественных наук о языке соотносимы с лингвистическими учениями. Так, идея ценности информации в информатике и синергетике сопоставима с учением о ценности знака Ф. де Соссюра, только у Соссюра ценность знака связана с его положением в системе знаков, а в информатике и синергетике это положение опре-
100
деляется еще и целью системы. Также синергетические представления о противопоставлении «условной» информации (передающейся кодом, например системой букв или слов) и «безусловной» (случайной, невыводимой из данной системы слов, служащей кодом) сопоставимы с соссюровскими представлениями о произвольности знака.
Главным ограничением естественно-научных представлений является то, что они работают с математическими моделями, а не с реально существующими «вещественными» системами. Поэтому формируемые ими положения не всегда оказываются вполне соответствующими действительности. Используемый, преимущественно математический, категориальный аппарат также не всегда поддается переложению на метаязык гуманитарных наук, поскольку последний не имеет точных одно-однозначных значений.
Однако, изучение достижений естественных наук необходимо, поскольку это позволяет не только встроить исследование в более широкий научный контекст, но и не выполнять вторично работу, уже проделанную другими учеными. В частности, концепция общей теории систем позволяет унифицировать знания о различных системах и применять их для более адекватного изучения конкретных системных объектов.
Так, изучение системы тезауруса в естествознании позволяет расширить лингвистические взгляды на его сущность.
Концепция тезауруса в естествознании базируется на таких фундаментальных категориях, как система и информация. Для формирования общего представления о тезаурусе в естествознании, необходимо соотнести понятия «система», «информация» и «тезаурус».
Тезаурус - это открытая система (открытость тезауруса, изучаемая в синергетике согласуется, с лингвистическими идеями Ю.Н. Караулова о непрерывности тезауруса как словаря и о тезаурусе, как когнитивном уровне языковой личности), следовательно, ему должны быть свойственны общие черты всех открытых систем. К ним относятся «поведение» как ответная реакция на воздействие внешней среды, осуществляемое по некоей заданной
101
структуре, вследствие чего это поведение можно в определенной степени контролировать и управлять им.
Открытая система способна к развитию, протекающему как эволюционный процесс самоорганизации. Развитие соотносится с целями системы и потому это телеологичный процесс.
Вместе с тем, при взаимодействии со средой возможны случайности, но общая структура жизнедеятельности системы учитывает случайности, поскольку имеет вероятностную природу, зависящую от частоты повтора некоторых событий. Структура существует и потому, что система как свидетельствуют синергетические исследования, запоминает выбор, сделанный ей в аналогичной ситуации, поэтому случайностью является то, что в данный момент не соотносилось с целями системы, и случайно ей стало полезно. Итак, парадокс заданности структуры и случайности выбора ее поведения преодолевается телеологичностью жизнедеятельности системы.
Окружающий мир практически сплошь состоит из систем, простые системы являются элементами систем более высокого порядка, последние выступают для первых средой.
Взаимодействие тезаурусной системы и среды представляет собой информационный процесс. Понятие «информация» в естественно-научных исследованиях имеет гораздо больше граней, чем относительно унифицированное понятие «система».
Информация - это физическая величина, соотносимая с понятием энергии, некая материальная субстанция.
Информация передается от одного физического объекта к другому. Передача информации представляет собой передачу неких материальных вещественных форм. Трудно определить, чем отличается форма от вещества, но очевидно, что информацию можно измерить, исчисляя ее вещественные формы. Поэтому информацию можно определить как количество информации.
Материальная информация представляет собой обозначение некоего содержания; это форма организации системы, а в количественном отношении - мера ее организации. Передача информации протекает как материальный процесс, допускающий случайности, но сама суть информации как меры организации не позволяет случайностям создать хаос в системе. Благодаря информации как мере организации система имеет вероятностную природу. Информация обеспечивает телеологичность системы.
С телеологичностыо поведения системы связано понятие ценной информации. Воспринимается не вся информация, а только та, которая нужна системе, т. е. соотносится с ее структурой и нужна для восполнения или развития структуры. Поскольку рассматриваемая система - тезаурус, то воспринимается только та информация, которая соотносится с имеющимся тезаурусом.
Передаваясь от объекта к объекту, информация эволюционирует. Эволюция информации протекает как изменение ценной информации в неценную, а неценной в ценную.
Ценная информация, выступающая как мера организации системы -это семантическая информация, т.е. имеющая определенную логику. Такая информация передается материальными формами, являющимися знаками. Следовательно, семантическая информация - это семиотическая информация, возможность измерения которой допускается через исчисление ее материальных форм.
Информация представляет собой случайный и запомненный выбор системы, сделанный на основании множества имеющихся равноправных вариантов. При передаче информации от одного объекта к другому передающий объект информацию не теряет, а получающий - приобретает, таким образом, происходит постоянное увеличение и усложнение информации.
Тезаурус - это семиотическая система знания, жизнедеятельность которой осуществляется в ходе обмена семантической информацией тезауруса
отдельного индивида со средой - тезаурусами других индивидов. Тезаурусом также называется модель данной системы.
Тезаурус определяет цели и ценность семантической информации при обмене индивида знаниями со средой. Это система, необходимая индивиду для рецепции входящей информации и генерации новой знаниевой информации.
Тезаурус - это система связей семиотических объектов, сами семиотические объекты - семантическая информация. Тезаурус - организация информации (сеть), информация - мера организации (количество семиотических объектов). Исследование сети невозможно без изучения образующих ее объектов, поэтому тезаурус как модель системы знания включает информацию в качестве элементов системы.
Изучать систему знания можно путем исследования изменения тезауруса реципиента семантической информации.
Методологические трудности, связанные с разграничением материального и семантического, а также системы и информации обусловлены свойствами самой информации: расходясь по сети не вся информация улавливается и восстанавливается познающим субъектом. Однако, очевидно, та информация, которая улавливается, является не просто отражением мира, а фрагментом мира, существующим в виде знаниевой системы субъекта.
Итак, в течение XX века шло бурное развитие наук, занимающихся разработкой и изучением общих принципов работы систем. Несмотря на их значительный вклад в общую систему человеческого знания, нельзя не отметить ряд моментов, заслуживающих критики.
Общая теория систем как научная парадигма XX в. критикуется за то, что стремление выявить универсальные принципы работы систем в некоторых направлениях выразилось в редукционизме сложных явлений и процессов к простым. Также критикуются методы исследования, которые нередко носят чисто описательный характер: предлагается описание работы систем «в
принципе», не зависимо от вещественных характеристик системы и всех свя-
104
занных с ними особенностей. Концепция, претендующая на универсальность, должна учитывать и специфические особенности систем, не только их общие принципы. Также представители системного подхода критикуются за именование своей науки новой методологией и философией науки [Лекторский, электронный ресурс].
Мы абсолютно согласны с тем, что изучение системы обязательно должно строиться, прежде всего, на анализе ее вещественной онтологии. В частности, концепция тезауруса как системы знания, которая сложилась в естествознании еще в 1960-1980-е г.г. прошлого века, базируется на довольно общих представлениях об онтологии языка, хотя и подразумевает человеческий язык в качестве вещественной субстанции тезауруса. Изучение тезауруса общими математическими методами системного анализа строится на допущениях, не соотносящихся с лингвистическими представлениями о сущности языка, что делает некоторые выводы схематичными и далекими от реальности. Думается, что исследование системы тезауруса должно учитывать общие методы исследования систем, но в качестве базовых, основополагающих для формулирования теоретических положений, использовать лингвистические методы анализа.
Также мы абсолютно согласны с тем, что фундаментальной методологией науки является философия, и потому любая теория должна учитывать философское осмысление научных процессов, происходящих в различных отраслях современного знания.3
1.3. Философско-методологические истоки теории тезауруса
Практически все изложенные методологические разработки нашли отражение в исследованиях других наук, следовательно, системный подход оп-
з
Результаты осуществленного критического анализа естественно-научных концепций тезауруса изложены в нашей работе в издании из перечня ВАК [Осокина, 2014а].
ределяет методологию науки XX века. Хотя в начале своего становления теория систем критиковалась радикальными позитивистами за «туманность» проводимых ею аналогий между различными объектами действительности (впрочем, Л. фон Берталанфи сам признавал, что представители теории систем иногда эктраполируют выводы относительно одних объектов на другие без необходимости [Берталанфи, 1969, с. 31]), в целом теория систем продолжает позитивизм науки Нового времени, так как соответствует принципам телеологичности развития знания во благо человечества. Отличие состоит в том, что телеологичность осмысляется на качественно новом уровне — вместо идеи «разумной воли», «творца», «души», «абсолюта» предлагается идея всеобъемлющей структуры, подчиняющейся определенным принципам развития. Эту структуру можно сконструировать (воссоздать), прогнозировать ее развитие, ею можно управлять.
Вместе с идеей изоморфной структуры представители теории систем вынуждены были признать и идею ограниченности свободы: «Так как структура является практически синонимом потери свободы, то можно сказать, что лишь потеря свободы позволяет нам избежать рассмотрения громадного числа возможных комбинаций элементарных отношений» [Тода, 1969, с. 329].
Осознание потери свободы, в частности, свободы творчества, привело к формированию негативной философской рефлексии на структурализм во второй половине века. Эта рефлексия выразилась в положениях философии постмодернизма. Основная идея постмоденистской критики теории систем и выросшего из нее структурализма состоит в указании на то, что любая наука и любая теория - есть, прежде всего, дискурс, т. е. словесная коммуникация, осуществляющаяся в соответствии с правилами функционирования языка; следовательно, прежде чем создавать определенную теорию, необходимо понять, каким языком мы говорим. Соответственно, не только научные теории, но и человеческое знание вообще, видение человеком мира зависит от языка: «Таким образом, грядущее общество соотносится не столько с ньютоновской
антропологией (как структурализм или теория систем) сколько с прагматикой языковых частиц» [Лиотар, 1998, с. 11].
Постмодернизм не имеет парадигмального определения в силу чрезвычайной разносторонности взглядов и подходов внутри него, поэтому более приемлемо определять постмодернизм как «явление, характерное в последние десятилетия для Запада, выразившееся в конструктивной критике классического рационализма и традиционно ориентированной метафизики мышления» [Керимов, 2004, с. 529].
Постмодернизм критикует, в первую очередь, концепцию общей теории систем за продолжение научного позитивизма Нового времени, однако, теория систем сама возникла как критическая реакция на ньютоновскую механику Нового времени. Следовательно, теория систем является научной критикой мировоззрения Нового времени, в широком смысле именуемого эпохой «модерна», а постмодернизм - критикой уже на эту критику, философской рефлексией с оглядкой назад.
Постмодернизм зародился в 30-е г.г. прошлого века, т. е. одновременно со становлением теории систем (стоит отметить, что в это же время происходит становление концепции системы языка и структурализма в языкознании, что, на наш взгляд, не может быть случайным совпадением). Хотя изначально термин «постмодернизм» применялся для обозначения течений в искусстве, пришедших на смену модернизму 10-20-х г.г., его появление одновременно с теорией систем знаменует новую веху в развитии человеческого знания - новую парадигму мышления. Несмотря на то, что теория систем в широком понимании и постмодернизм являются концепциями взаимопротивоположными и критикующими друг друга, сосуществование таких противоположных концепций не отрицает факт их принадлежности одной научной парадигме, наоборот, с точки зрения концепции научных революций, свидетельствуют о единстве данной парадигмы [Кун, 1977].
Таким образом, философия постмодернизма достраивает научное видение мира, изложенное в теории систем и связанных с ней естественно-
107
научных направлениях, до органически целостной концепции, развитие которой привело в нач. 21 в. к осознанию необходимости создания теории тезауруса.
Изоморфизм теории систем и философии постмодернизма прослеживается уже в базовых методологических основаниях обоих подходов. Так, постмодернизм декларирует отказ от идеи строгого логицизма в поиске истины как единственно возможного способа ее достижения, тем самым выходя на позиции релятивизма; теория систем, напротив, избирает логический анализ в качестве своей основной стратегии научного поиска, но при этом изначально стоит на позиции относительности исходной точки отсчета. Следовательно, обе концепции представляют релятивистский взгляд на мир - это первое общее фундаментальное основание.
Второе, вытекающее из первого, связано с пониманием роли познающего субъекта. Представители постмодернизма декларируют деконструкцию познающего субъекта, однако за этим встает осознание неразделенности объекта познания и субъекта, их нерасчленимого взаимодействия, увидеть которое со стороны может только метасубъект, не вовлеченный в эту систему взаимоотношений, роль которого и играют приверженцы философии постмодернизма. Взгляд со стороны метасубъекта является фундаментальным основанием и теории систем.
Хотя постмодернизм ассоциируется с работами Ж.-Ф. Лиотара, Ж. Делеза, Ф. Гваттари, У. Эко М. Фуко, Ю. Хабермаса, постмодернизм как парадигма философского знания имеет гораздо более глубокие истоки, и в сущности, всю философию XX века, связанную с исследованием языка, включая философию языка, феноменологию и структурализм, можно назвать постмодернизмом в широком смысле. Подобной точки зрения придерживается Ю. Хабермас, связывающий вступление в эпоху постмодернизма с работами Ф. Ницше [Хабермас, 2003], а также другие исследователи, подчеркивающие, что постмодернизм (понимаемые широко и включающий «пост-
структурализм») является закономерным продолжением и итогом модернизма [Ильин, 1998].
Критикуются реальность, истина и способы их выражения - знаки, критикуется язык и коммуникация, человек, история, знание, а также сама философия. Реальность рассматривается как результат философских практик, истина - как лингвистический продукт.
Поскольку тезаурус, как следует из предыдущих параграфов, рассматривается как система знания, обусловленная информационными (знаковыми) структурами языка, нас интересует постмодернистская критика языка, знако-вости, структуры и знания.
Язык объявляется основным условием существования мысли и знания. В отличие от философии диалектического материализма, в которой мир познается деятельностно, постмодернизм отстаивает идею, что мир познается в ходе языковых практик. Рождаясь, человек осваивает мир не непосредственно сам, а с помощью языка - слов, текстов, которые достались ему по наследству [Философия постмодернизма, электронный ресурс]. Мышление, не наученное мыслить самостоятельно, пользуется словом, текстом, ограничивая спектр значений заданными смыслами. Свою задачу представители постмодернизма видят в том, чтобы разрушить язык для того, чтобы разглядеть реальность.
В качестве образцов разрушения языка принимаются произведения художественной литературы, альтернативные популярной беллетристике — тексты Борхеса, Эко, Фаулза и др. Массовая популярная литература, напротив, предоставляет образцы текстов, благодаря которым человеческое сознание загоняется в клетку стереотипов, делая человечество легко управляемой толпой.
Идея получения знания о мире в ходе коммуникации ребенка с родителями аналогична синергетическому представлению о том, как происходит становление тезауруса у ребенка при общении с взрослыми, только постмодернисты ставят основной акцент не на устной коммуникации, а на комму-
109
никации с использованием уже готовых текстов. Концепция тезауруса в естествознании не поднимает вопрос о стереотипности мышления, которая является неизбежным следствием овладения языком в ходе разговорных практик.
Стереотипность мышления - не проблема, требующая рефлексии, с точки зрения естественно-научного подхода. Напротив, наличие стереотипов, точнее стереотипность языковых формулировок, из которых складывается тезаурус, является необходимым условием понимания других людей и получения нового знания. Это необходимое явление, и потому в нем не может быть ничего негативного.
Представители постмодернизма видят в стереотипности языковых формулировок, особенно популяризируемых массовой литературой и СМИ, тотальное ограничение свободы мысли, влекущее за собой полное подчинение власти, диктующей эти массовые стереотипы. Однако, борясь за разрушение языковых стереотипов, они не прослеживают последствия этого разрушения до конца - вероятность создания словесной тарабарщины, аналогичной той, которую демонстрируют машины, например, в фонетических экспериментах Н. Винера, и последующая вероятность полного непонимания.
Что выступает в роли стереотипов? - Воспроизводящиеся фрагменты уже известных текстов. Причем, если в произведениях постмодернистов отсылки к чужим текстам преподносятся в виде иронической обреченности использовать то, что уже сказано не раз, то в массовой литературе возобновление чужих текстов преподносится не как безысходность, а как нормальное состояние языка. Вследствие этого, популярные тексты «не расширяются до познавательных горизонтов» читателя, а, наоборот, «закрепляют в его сознании принятые и распространенные взгляды и вкусы, стандартизируя их и доводя до уровня предрассудков» [Ильин, 1998, с. 156]
Представители естествознания не могут четко поставить проблему стереотипности языковых формулировок, поскольку у них нет концептуального
лингвистического представления о том, что такое язык, для них язык - это
110
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.