Оптимизация индивидуальных лингвистических исследований средствами специализированной базы данных тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Клочко, Алексей Данилович
- Специальность ВАК РФ10.02.21
- Количество страниц 263
Оглавление диссертации кандидат филологических наук Клочко, Алексей Данилович
Введение
Глава I КРАТКИЙ ИСТОРИКО-НАУЧНЫЙ ОБЗОР РАЗВИТИЯ 3 КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ
1.1 Место компьютерной лингвистики в прикладной лингвис- 16 тике.
1.2 Развитие компьютерной лексикологии, машинного пере- 18 вода и корпусной лингвистики
1.3 Компьютерная лингводидактика
1.4 Методы квантитативной лингвистики
1.5 Компьютерное распознавание символов и речи
1.6 Лингвистическое обеспечение информационных систем и 43 гипертексты
Выводы
Глава II ФИЛОСОФСКИЕ КАТЕГОРИИ ОБЩЕГО И 54 ОСОБЕННОГО В РЕАЛИЗАЦИИ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ БАЗ ДАННЫХ
2.1 Основные понятия теории баз данных на примерах модели 54 «сущность-связь» в приложении к языковой системе
2.2 Иерархическая модель БД и оценка ее адекватности зада- 61 чам лингвистических исследований
2.3 Сетевая модель БД: ее преимущества и ограничения для 64 прикладных лингвистических разработок
2.4 Реляционная модель как оптимальное решение для разра- 68 ботки специализированных лингвистических БД
Выводы
Глава III ОПТИМИЗАЦИЯ СТРУКТУРЫ СПЕЦИАЛИЗИРО- 71 ВАННЫХ БД ДЛЯ ИНДИВИДУАЛЬНОГО ИССЛЕДОВАНИЯ (НА ПРИМЕРЕ КОМПОЗИТОВ)
3.1 Обработка текстового корпуса и маркировка цельно- 71 оформленности композитов средствами макросов
3.2 Семантическая многоуровневая классификация и рубрика- 79 ция лексических единиц
3.3 Трансформация классификационных рубрик в структур- 96 ные компоненты БД
3.4 Оптимизация пользовательского интерфейса для задач 101 лингвистического исследования
Выводы
Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Словосложение коллоквиальных существительных в современном английском языке2006 год, кандидат филологических наук Авдеева, Татьяна Борисовна
Субстандартное словообразование в немецком языке: на материале коллоквиальной лексики2011 год, кандидат филологических наук Шабанова, Наталья Алексеевна
Коллоквиальные субстантивные композиты в современном немецком языке2004 год, кандидат филологических наук Макарова, Наталья Владимировна
Когнитивные принципы образования и функционирования номинативно-причастных композитов в языке аналитического типа2006 год, кандидат филологических наук Никуличев, Михаил Юрьевич
Сопоставительный анализ коллоквиальных субстантивных композитов в английском и турецком языках: прагматический аспект2007 год, кандидат филологических наук Смирнова, Елена Александровна
Введение диссертации (часть автореферата) на тему «Оптимизация индивидуальных лингвистических исследований средствами специализированной базы данных»
Актуальность заявленной нами темы состоит в том, что индивидуальные лингвисты-исследователи, желающие оптимизировать сам процесс своих исследований с помощью баз данных для персонального компьютера, не имеют достаточного количества обобщающих работ по данной проблеме. Правда, имеются многочисленные публикации, в т.ч. обобщающего характера, о применении обучающих программ на платформе ПК (персональных компьютеров), но при этом предмет исследований лежит в дидактической и общепедагогической плоскости. Рабочими группами исследователей в различных научных центрах разработаны программы для ПК, напр., для разработки частотных словарей, т.е. для лексикологических исследований в области лингвостатистики. С другой стороны, существует обширная литература по бурно развивающейся области лингвистики, т.е. прикладной и математическая лингвистики, лабораторно-материальной базой которых служат большие ЭВМ, имеющие свой персонал ИТР и программистов, научные коллективы различных уровней и научных направлений. Их целью являются большие проекты: большие лингвистические базы данных, которые затем материализуются в многотомные словари (объемом до нескольких десятков томов), энциклопедические издания в области лингвистики (напр. «Языки мира»), постоянно пополняемые электронные базы данных лингвистической фактологии, применяемые для синхронических и диахронических исследований. Кроме того, мы можем найти достаточное количество литературы по разработке баз данных для применения в бизнесе или юридической практике. Но лингвистические исследования имеют свою ярко выраженную специфику и почти необозримую широту предметов исследования.
Мы констатируем, что существует своего рода «серая зона» между глобальными лингвистическими исследованиями, обеспеченные мощными материально-техническими и человеческими ресурсами - т.н. Большие Проек-ты(напр., рабочая группа по теме «Энциклопедия «Языки мира» в Ин-те языкознания РАН, отдел прикладного языкознания - А.К.Валентей,
А.И.Новиков - руководитель, Н.К.Рябцева, Е.И.Ярославцева, с группой группа "Языки мира" (М.А.Журинская, В.П.Калыгин, А.А.Кибрик, Н.Рогова, Я. Тестелец) [227], и исследованиями лингвистов-одиночек, ведущие исследования средствами 19 века (бумажные картотеки, выписки, лингвостатисти-ка вручную: использование калькулятора - не что иное, как ручной труд). Эти внутренние психологические барьеры преодолеваются частью индивидуальных лингвистов с большим трудом, что отмечают авторитетные специалисты в этой области: «Специалист часто оказывается в ситуации, когда ему неизвестны или недостаточно известны возможности применения ИТ для решения задач, входящих в его компетенцию. Незнание этих возможностей (или, что еще хуже, знания неполные и/или некорректные) приводит к тому, что филолог не умеет оценивать и выбирать нужные именно ему средства и, следовательно, не способен их адекватно использовать. В результате, сталкиваясь с некорректным использованием ИТ и не умея получить желаемый результат, преподаватель-филолог часто просто отвергает саму идею использования ИТ, оценивая их как средство дегуманизации науки» (Беляева Л. Н. 214).
Предлагаемая работа как раз и является попыткой обобщения и систематизации опыта создания и применения БД в указанных выше областях, а также изложением путей научно обоснованной оптимизации баз данных, специализированных для индивидуальных частнолингвистических исследований.
Объектом исследования являются специализированные лингвистические базы данных.
Предметом исследования является оптимизация электронных средств хранения и обработки лингвистических данных в целом, т.е. специализированных баз данных (основная роль) и присоединенных электронных таблиц и подпрограмм текстового процессора (вспомогательные роли).
Под оптимизацией средств в данном случае мы подразумеваем: а) учет все еще скромных возможностей аппаратного обеспечения ПК для обработки огромных массивов информации и б) оптимизация структуры лингвистической индивидуальной базы данных (БД), т.е. учет специфики лингвистических данных при разработке такой ее структуры, которая обеспечивала бы удобство конечного пользователя (индивидуального лингвиста-исследователя) в решении большинства исследовательских задач.
Имея в виду междисциплинарный характер данного исследования (на стыке лексикологии, словообразования, стилистики и информатики, в частности, теории баз данных), фактический материал по своему характеру был нами отобран в соответствии с указанными областями научного знания по следующим принципам:
А. Принципы отбора языкового материала: грамматико-категориальный принцип: определяемый компонент отбираемых лексем (с контекстуальными примерами их употребления) относятся к грамматической категории существительных; словообразовательный принцип: способ словообразования лексем композиция (словосложение); лексико-стилистический принцип: принадлежность лексем к функциональному разговорному стилю - от просторечного до фамильярного;
Б. Принципы оптимизации электронных (программных) средств хранения и компьютерной обработки лингвистического материала: принцип соответствия человеческого фактора и материально-технических средств лингвистического исследования, под которым мы понимаем соотношение «сложность исследовательских задач по объему объекта и теоретической глубине исследования / мощность доступного индивидуального аппаратного (ПК) и программного обеспечения»; принцип соответствия структуры объектов электронных баз данных целям лингвистического исследования: т.е. с одной стороны, наличие необходимой и достаточной номенклатуры элементов структуры соответствующих объектов, а с другой - возможность ее дальнейших модификаций в случае уточнения задач исследования; эргономический принцип оптимизации электронных средств лингвистического исследования: лингвист-исследователь изначально должен рассматривать эти средства как удобный инструмент и верного союзника, а не как неприятеля. В терминах информатики речь идет, в частности, об интуитивно понятном интерфейсе пользователя.
Цель исследования — обоснование, разработка и оптимизация структуры специализированной электронной базы данных для хранения и обработки данных лингвистического исследования для индивидуального лингвиста-исследователя.
Задачи исследования. Из поставленной цели исследования следует необходимость решить несколько исследовательских задач теоретического и практического плана. В теоретическом отношении мы делаем попытку: а) в историко-научном аспекте проследить развитие и современную проблематику компьютерной лингвистики и лингвистических баз данных различного типа, обсуждаемые в работах отечественных и зарубежных исследователей в области прикладной лингвистики, в т.ч. тенденции их развития, а также новые направления: компьютерная терминография и лексикография, корпусная лингвистика и многие др.; б) изучить и обобщить опыт применения больших ЭВМ в различных сферах прикладной лингвистики, особенно в области разработки и применения электронных БД, оценить возможность перенесения части этого опыта на платформу ПК (персональных компьютеров); в) определить возможности и ограничения персонального компьютера в оптимизации и интенсификации труда индивидуальных лингвистов, ведущих исследования по узкоспециальным темам частнолингвистического характера; г) на реальном примере частнолингвистического исследования (оптимизация структуры базы данных по словообразованию коллоквиальных существительных в английском языке) показать упомянутые возможности и ограничения ПК: какие задачи в области прикладной лингвистики он в состоянии решать, иными словами, для исследовательских задач какого уровня и объема его применение целесообразно - при наличии указанных выше человеческих и иных ресурсов (один исследователь, одна посильная частно-лингвистическая проблема, один ПК с его достаточно средними возможностями на сегодняшний день); д) предложить классификацию лингвистических баз данных и выбрать тип, посильный для разработки индивидуальными лингвистами-исследователями ;
Из общетеоретической цели исследования следуют частные практические задачи: а) формулирование принципов общий структуры и подсистем частно-лингвистической (словообразовательной) базы данных для индивидуального исследователя; б) выделение критериев (частичный аналог зон словарных статей в электронных словарях) для запросов на выборку в частнолингвистической
БД; в) компьютерный поиск и отбор языковых единиц и их эксплицитных словоформ по заданным параметрам; г) компьютерная обработка полученного массива контекстуальных примеров по нескольким параметрам и наглядное представление найденных закономерностей; д) разработка нескольких примеров частнолингвистических баз данных, специализированных и оптимизированных по некоторым субдисциплинам и разделам частной лингвистики (в т.ч. с выходом на общеязыковедческий уровень, но на примере частнолингвистического исследования) - с более подробным освещением БД «Словообразовательные аспекты коллоквиализмов» (См. в качестве приложения лазерный диск с файлом Colloq.mbd).
Методология предлагаемой работы опирается на теоретическую базу прикладной и компьютерной лингвистики, отраженную в работах отечественных: и зарубежных ученых в области теоретической и прикладной лингвистики (А.Е.Кибрик [69, 70, 71], Р.К.Потапова [56], Б.Ю.Городецкий [37], Л.Н.Беляева [19, 214], Р.Ю.Кобрин [36], С.Д.Шелов [93], Р.Г.Пиотровский [17, 18, 59, 99, 139, 140, 141, 142, 172], А.С.Герд [1, 19, 31, 32, 94, 148, 217, ], В.М.Лейчик [92, 93, ], А.Н.Баранов [13, 14, 15, ].и др.- см. раздел Библиография. С учетом междисциплинарного характера данного исследования, мы обратились также к теории баз данных (БД), аспекты которой изложены в трудах основоположника реляционных баз данных, американского математика Эдгар Кодд (F. Codd - A Relational Model of Data for Large Shared Data Banks www.cs.brown.edu/courses/cs295-ll/codd.pdf), а также экспертов по СУБД MS Access - Вейскас Дж. (John L. Viescas) [24], Дейт К. [43] и в работах отечественных экспертов по теории БД - Кагаловский М.Р. Бойко В.В., Каратыгин С.А. Харитонова И.А. [123, 194],Михеева В.Д. [123, 194],и мн. др. [103,108, 122, 180, 223, 234, 237, 244, 245, 250] Кроме того, мы использовали общенаучную методологию исследовательского процесса Кузина Ф.А.
Методы исследования
С учетом того обстоятельства, что данное исследование находится на стыке наук - теории баз данных и частной лингвистики - то и сама методика исследования комплексна по своему характеру.
А. Общенаучные методы а) Методы эмпирического исследования
Наблюдение применялось а) для поиска лингвистических фактов в электронных словарях, в Интернете, в оцифрованных литературных произведениях на лазерных носителях и т.п.; б) для оценки эргономичности и функциональности (соответствие задачам лингвистических исследований) отдельных подсистем БД (базы данных) с точки зрения конечного пользователя-лингвиста.
Сравнение было использовано а) при определении превалирующего способа графического оформления коллоквиальных композитов: дефис, слитное и раздельное написание; б) для определения более эффективных и эргономичных способов управления БД из нескольких, выполняющих аналогичную функцию.
Измерение применялось в качестве иллюстрации возможностей встроенных средств СУБД (системы управления базами данных) для обработки фактуры частнолингвистического исследования (т.е. методы лингвостатисти-ки в ходе исследования коллоквиальных композитов), а также для наглядного представления результатов.
Эксперимент, как метод научного исследования, предполагает «вмешательство в естественные условия существования предметов и явлений или воспроизведение определенных сторон предметов и явлений в специально созданных условиях с целью изучения их без усложняющих процесс сопутствующих обстоятельств» (Кузин Ф.А. Кандидатская диссертация». М.: 1998.). С экспериментом тесно связано моделирование, как метод научного познания. В нашем случае применение указанных методов заключалось: а) в отборе лингвистических контекстуальных примеров (коллоквиаль-ные композитные существительные) в указанных далее источниках - из всего множества лексических единиц коллоквиального стиля, и использование полученного подмножества композитных существительных как модель для дальнейшего исследования; б) в применении образцов лингвистических данных для экспериментирования с самой структурой лингвистической базы данных для ее последующей модификации с целью повышения функциональности. б) Методы эмпирического и теоретического уровня
Абстрагирование. Данный метод предполагает отвлечение от несущественных атрибутов объектов в целях выделения элементов подмножества объектов с существенными для целей исследования атрибутами. Примерами применения этого метода в нашем исследовании могут служить следующие: а) абстрагирование от графического способа оформления композитов; б) в разработанной нами БД «Словообразовательные аспекты коллоквиализмов» каждый из критериев выборки (= фильтрации данных), напр. «Одушевленные - Личность», и многие другие, уже сам по себе является абстракцией; в) принципы реляционной БД являются абстракцией в той мере, в какой они применимы к данным из различных понятийных областей. (О типах БД см. в описании хода исследования).
Анализ и синтез являются взаимосвязанными методами научного исследования. Имея в виду конечную цель - разработку БД, оптимизированной для конкретных задач лингвистического исследования - возникла необходимость семантического, морфологического и синтаксического (в нескольких случаях) анализа отобранных лингвистических данных. После соответствующей их классификации по нескольким основаниям была получена, «синтезирована» единая, работоспособная, функционально обоснованная лингвистическая база данных, управляемая как из одного виртуального «пульта» (Кнопочная форма), так и посредством иных элементов управления (пользовательское меню и встроенное окно БД).
Индукция и дедукция. Индуктивный метод (переход от разрозненных фактов к обобщениям) применялся нами не в самом начале исследования, поскольку сам поиск и отбор фактов изначально был достаточно целенаправленным (т.е. гипотеза в черновом варианте была уже сформулирована). Тем не менее, на средней стадии работы имело место доуточнение задач исследования как раз ввиду обнаружения новых фактов, не вписывающихся в предварительные классификации (например, семантическую рубрикацию компонентов композитов). Иными словами, происходило как бы циклическое возвращение (рекурренция) с этапа дедукции (подбор фактов для готовой гипотезы) к этапу индукции (новые факты уточняют гипотезу). Соответственно подвергалась модификации и сама структура БД, чтобы она отражала новую, уточненную семантическую рубрикацию содержащихся в ней данных - коллоквиализмов. в) Методы теоретического уровня исследования
Исторический метод правомерен в случае исследования развивающегося объекта. Применяя данный метод, и прослеживая историю развития компьютерной лингвистики как комплекса субдисциплин прикладной лингвистики, мы ставили перед собой задачу отбора таких ее областей, которые были бы адекватны ресурсам индивидуального исследователя-лингвиста, с учетом уже обнаруженных возможностей и ограничений этой технологии на переживаемом нами витке цивилизации.
Метод восхождения от абстрактного к конкретному (Кузин Ф.А.) разбивается на два этапа: а) переход от чувственно-конкретных фактов об объекте в действительности к совокупности абстрактных определений каждого из этих фактов; б) воспроизведение целостного объекта уже в мышлении - на новом уровне конкретного знания о всех его сторонах.
Подробнее применение этого метода дано в описании хода исследования. Пока приведем лишь один пример. В начале исследования мы исходили, что наш объект исследования - английские коллоквиальные композитные (сложные) существительные - являются в строгом смысле этого термина сложными цельнооформленными лексемами, характеризующиеся, в частности, слитным написанием или наличием дефиса. Предварительный анализ разрозненных лингвистических фактов по коллоквиальным композитам показал, что графическое оформление коллоквиальных композитов в английском языке не единообразно, поэтому не может быть надежным критерием отнесения соответствующего отрезка речи к композитам или словосочетаниям. Отсюда необходимость такой формулировки определения композитов, которая бы не настаивала на слитности их графического образа. Оставив графические признаки и изучив семантические характеристики коллоквиальных композитов, мы пришли к выводу об определяющей роли понятия (логическая и психолингвистическая категория) в идентификации композита. В дальнейшем мы нашли подтверждение этому предположению в Интернетресурсах энциклопедического характера, где подчеркивалась нестрогость английской графики в отношении словосложения (compounds, compound words, composition). Т.е. на уровне мышления через этап обобщения сформировался объект «коллоквиальные композитные существительные» уже на более полном описании их характеристик.
Б. Лингвистические методы Лингвистические методы подразделяются на общие и частные [ЛЭС, - М., 1990]. Поскольку наше исследование носит междисциплинарный характер (информатика с теорией информации и теорией баз данных, а также частная лексикология, семасиология, лексикография), то в нашем случае речь может идти о комплексе частных методов из частных дисциплин: сравнительно-сопоставительный метод, метод дефиниционного анализа. Как отмечает А.А. Уфимцева, «В наши дни так называемый дефиниционный анализ, т. е. использование словарных дефиниций как особого методического приема описания лексической семантики, возведен в ранг специального метода лингвистических исследований» [251].
Новизна исследования. Созданная нами специализированная база данных для хранения и обработки результатов индивидуальных лингвистических исследований на примере английских коллоквиализмов представляет собой опыт оптимизации и интенсификации НИР средствами БД для ПК в среде лингвистов-индивидуалов, т.е. не входящих в «команды Больших Проектов». Это особенность предлагаемой работы и определяет её новизну.
Теоретическая значимость данного исследования состоит в том, что оно вносит вклад в систематизацию и развитие компьютерных методов индивидуальных частнолингвистических исследований. Прикладной характер предлагаемой работы обусловил и значимость его результатов для компьютерной лингвистики в широком смысле. Сформулированные принципы создания и оптимизации специализированных лингвистических баз данных, модифицируемых для индивидуальных исследований, могут послужить стимулом для дальнейшей компьютеризации и информатизации НИР индивидуальных лингвистов с чисто гуманитарным менталитетом.
Практическое применение результатов исследования заключается: а) в возможности пополнения индивидуальными лингвистами-практиками разработанной нами БД «Словообразовательные аспекты коллоквиализмов» из доступных и непрерывно развивающихся источников разговорной лексики: новые видеофильмы и литературные произведения (в т.ч. озвученные) на лазерных дисках, сайты Интернета, посвященные разговорному стилю, там же - литературные произведения, зачастую еще не опубликованные в «твердом виде», а также тематические форумы Интернет, в которых возможно употребление разговорного стиля; б) полученный словник, пополняемый индивидуальными лингвистами с учетом научных и образовательных потребностей, может использоваться ими для конкретных задач, в т.ч. с учетом особенностей контингента обучаемых, если речь идет о лингводидактическом применении БД; в) в возможности разработки оригинальных БД для других специфических направлений индивидуальных лингвистических исследований, с учетом изложенных принципов и методов такой разработки.
Научная гипотеза: индивидуальная электронная лингвистическая база данных (ИЭЛБД) является особым видом БД, обладающей специфической структурой, оптимизированной для индивидуальных лингвистических исследований и предусматривающей возможность модификации в случае уточнения задач, что неизбежно в ходе НИР. Положения, выносимые на защиту:
1. Существующие аппаратные и программные средства для лингвистических исследований в подавляющем своем большинстве разрабатывались или оптимизировались для научных коллективов и т.н. Больших Проектов.
2. Опыт применения персональных компьютеров в прикладной лингвистике, особенно БД, также относится в основном к исследовательским или проектным группам.
3. Существует необходимость оптимизации и интенсификации индивидуальных лингвистических исследований, которые зачастую ведутся без применения ПК (если не учитывать набор текста), что а) затягивает накопление фактического материала и его обработку и б) при ручном методе некоторые закономерности трудно прослеживаются или допускают субъективную интерпретацию.
4. Оптимальным решением было бы создание электронного рабочего места индивидуального лингвиста-исследователя, которое состояло бы из: а) системы управления базами данных (СУБД) с набором специализированных баз данных (БД) с оптимизированной структурой для задач исследования; б) приложений на основе электронных таблиц для автоматизации статистических вычислений; в) шаблонов MS Word для хранения макрокоманд, предназначенных для автоматической обработки больших текстовых корпусов (поиск словоформ, относящихся к одной грамматической категории или словообразовательной модели и мн. др).
5. Примером применения специализированной базы данных для индивидуальных лингвистических исследований может служить БД «Аспекты словообразования» (см. БДна лазерном диске в приложении к диссертации), в структуру которой входят: основная таблица, вспомогательные (подстановочные) таблицы со специализированными перечнями лингвистических критериев; запросы на выборку для группировки и сортировки данных в соответствии с задачами исследования; присоединенные электронных таблицы, с более удобными и разнообразными средствами математической обработки данных; меню для запуска: а) специализированных форм, б) запросов для извлечения и просмотра лингвистических данных; коллекцией ярлыков для быстрого запуска объектов БД; главного кнопочного меню для упрощения поиска и запуска лингвистически специализированных объектов БД.
6. Лингвистическая (лексико-грамматическая) БД потенциально может интегрировать многие из типологических признаков электронногословаря: справочный, переводной, учебный, инвентаризационный.
Апробация и внедрение результатов исследования в практику. Положения диссертации изложены в 8 публикациях общим объемом 3 п.л. Отдельные этапы исследования обсуждались на научных конференциях, статьи по темам выступлений опубликованы в материалах межвузовских научных конференций «Проблемы теории и практики преподавания научных конференции иностранных языков. Краснодар, КВАИ, 2002, 2003, 2004, 2005»; сборника научно-методических статей с материалами научно-методической конференции Армавирского лингвистического университета в феврале 2006 г. и межрегиональной научной конференции «Развитие внутривузовских систем обеспечения качества образования», в Армавирском Государственном педагогическом университете, 2004. Имеется акт о внедрении базы данных «Словообразовательные аспекты коллоквиализмов» в Армавирском Лингвистическом университете. На основе результатов исследования опубликовано три учебных пособия общим объемом 11 п.л.:
1) Клочко А.Д. Базы данных. Пособие для преподавателей гуманитарных специальностей. Армавир: АЛУ, 2005. - 65 с.
2) Фетисов О.В., Клочко А.Д. Средства выражения причинно-следственных отношений в английском языке. АЛУ, 2005. -50 с.
3) Т. Б. Авдеева, А.Д. Клочко. Сложные коллоквиальные существительные. Армавир: АЛУ, 2005. -170 с.
Объем и структура исследования. Композиция диссертации соответствует целям и задачам исследования и состоит из введения, трех глав, заключения, библиографии; в качестве приложений - иллюстрированный перечень объектов базы данных и CD-ROM с дистрибутивом лингвистической базы данных «Словообразовательные аспекты коллоквиализмов» объемом около 7 МБ.
Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Экзоцентрическое словосложение в немецкой обиходно-разговорной речи2009 год, кандидат филологических наук Нагамова, Наталья Викторовна
Композиты-номинации в языке экономики и юриспруденции на материале английского языка2012 год, кандидат филологических наук Климин, Андрей Александрович
Проблема создания словаря словообразовательных элементов: На материале немецких коллоквиальных глаголов2002 год, кандидат филологических наук Хомутская, Наталья Ивановна
Лингвистическое терминополе: структура, семантика, деривация: На материале английского языка2004 год, кандидат филологических наук Петросянц, Элина Геннадьевна
Композитное словообразование в нахских языках2009 год, доктор филологических наук Сулейбанова, Маржан Умаровна
Заключение диссертации по теме «Прикладная и математическая лингвистика», Клочко, Алексей Данилович
Выводы:
1. Примеры употребления коллоквиализмов представлены по всем основным словообразовательным и семантическим рубрикам, которые находят свое отражение в структуре разрабатываемой БД.
2. Вследствие урбанизации и использования всеми слоями общества почти всех благ современной материальной культуры («цивилизации»), а также под влиянием масс-медиа (как правило, в малохудожественной продукции, однако отражающие часть реальности), в разговорную речь проникли некоторые лексические единицы, характерные для научно-технического функционального стиля. Иначе говоря, понятийные области научно-технического тезауруса не чужды т.н. «уличной» речи, хотя и с полным изменением первоначального значения (метасемантизация).
3. Поэтому в примерах коллоквиализмов отражены и соответствующие словообразовательно-семантические средства, характерные не только для нейтрально-разговорного стиля, но и заимствованные из других сфер функционирования английского языка. Напр., суффикс с семантикой «деятель, инструмент» приобрел значение «событие»: eye-opener = случай, показавший, «кто есть кто», кто чего стоит.
4. Субстантивные композитные коллоквиализмы в структурном отношении представляют почти исключительно объекты действительности (в т.ч. абстрактные), тогда как коллоквиализмы, формально принадлежащие другим частям речи, называют свойства объектов (пространственные, временные и качественные). Поэтому рубрикация ( = перечень позиций в тезаурусе исследуемого языка) композитных коллоквиализмов объективно гораздо более разветвленная, изощренная, или, применяя сверхчастотную англоязычную характеристику, "(over)sophisticatecT.
5. Показательно, что не обнаружены примеры следующих рубрик :
Классификация по семантике главного компонента:
Экзотизмы, варваризмы (слова с ярко выраженной иностранной этимологией
Классификация по семантике определяющего (детерминирующего) компонента:
Экзотизмы, варваризмы (слова с ярко выраженной иностранной этимологией
Классификация по результирующей семантике:
Растения.
6. Электронная база данных обеспечивает лингвиста-исследователя достаточно обширным инструментарием ввода лингвистических данных, а также их сортировки, группировки ( = систематизации), промежуточных и итоговых вычислений, в сумме неизмеримо превышающих возможности традиционных картотек.
7. Структура БД должна соответствовать задачам индивидуального лингвистического исследования. Такая структура состоит из основной и вспомогательных таблиц и встроенных списков подстановки; запросов выборки данных по всем критериям, соответствующим применяемой классификации исследуемого материала; форм ввода данных для обеспечения удобства исследователя-пользователя при вводе и выводе данных; главной кнопочной формы для удобства запуска специализированных форм (согласно классификации материала); пользовательского меню запуска всех объектов лингвистической БД.
8. Пользовательский интерфейс должен быть рассчитан на исследователя-гуманитария, быть интуитивно понятным и самоочевидным. Разработчик должен снимать прогнозируемые затруднения исследователя-пользователя с помощью всех системных средств подсказки.
9. Помимо владения основными функциями таких широко используемых программных продуктов, как текстовые и табличные процессоры, лингвисту-исследователю крайне необходимо усвоить теоретически и практически основы разработки и использования специализированной базы данных, поскольку только сам исследователь лучше знает цели и задачи своего исследования и он сможет оперативно модифицировать структуру БД, в случае уточнения задач.
106
ЗАКЛЮЧЕНИЕ
Цель диссертационного исследования была двоякая: изучив основные вехи в развитии компьютерной лингвистики, выбрать оптимальные для индивидуального исследователя направления (с учетом человеческих и аппаратных ресурсов), и показать на примере частнолингвистической базы данных «Словообразовательные аспекты коллоквиализмов» широкие возможности для «настольного лингвистического НИИ». Отметим, что это метафора, однако имеющая своим аналогом ставший общепринятым термин «настольное издательство».
Для этого потребовалось изучить теорию баз данных в объеме, необходимом и достаточном для специалиста-гуманитария: типы моделей баз данных, (углубленно) реляционную модель БД; начала математической логики. В теории БД значителен удельный вес разделов, связанных с транзациями в корпоративных сетях с общим доступом, что оказалось возможным опустить в индивидуальном исследовании. Тем не менее, следует упомянуть, что используемая СУБД имеет достаточно встроенных средств для обеспечения корректного ввода новых данных в случае одновременной работы сравнительно небольших рабочих групп, созданных для осуществления более крупных проектов, в приемлемые сроки. Это касается и структуры предлагаемой нами БД.
Хотя вопросы лингвостатистики в данном исследовании затрагивались лишь в историко-научном аспекте (в главе о развитии компьютерной лингвистики), изучение соответствующей литературы (как одной из промежуточных задач исследования) привело автора этих строк к выводу, что разработанная им БД будет иметь эффективность на порядок выше в том случае, если БД станет компонентом рабочего места лингвиста-исследователя, наряду со следующими элементами такой системы: специализированные лингвистические базы данных с некоторыми вычислительными возможностями в среде некоторых из объектов БД (т.н. вычисляемые поля таблиц, запросов, форм и отчетов);
Список литературы диссертационного исследования кандидат филологических наук Клочко, Алексей Данилович, 2006 год
1. Аверина С.А., Азарова И. В., Алексеева Е.Л. и др. Прикладное языкознание. ред Герд. - Спб.: СпбГУ, 1996. - 525.
2. Berelson, Bernard. Content Analysis in Communication Research. New York: Free Press, 1952
3. Автоматизация в лингвистике. Сб. ст. ред. Засорина Л.Н. М.-Л. Наука, 1966.- 158 с.
4. Актуальные вопросы структурной и прикладной лингвистики: Сб. ст. -М.: МГУ, 1980.-232.
5. АНДРЕЕВ Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. Л. Наука, 1967. 403.
6. Андреев С.Н. Исследование языковой системы при помощи ЭВМ: Учебное пособие к спецкурсу.- Смоленск: СГПИ, 1987. -87 с
7. Арапов М.В., Херц М.М. Математические методы в исторической лингвистике. -М.: Наука, 1974 167 с.
8. Арапов, М.В. Квантитативная лингвистика. М.: Наука, 1988. 183. с
9. Арапов, М.В., Херц, М.М. Математические методы в лингвистике. -М., 1974.
10. Арнольд И.В. Основы научных исследований в лингвистике. М.: Выс. шк., 1991.- 139.
11. Бакулов А.Д., Леонтьева Н. Н. Теоретические аспекты машинного перевода // Искусственный интеллект. Справочник. Кн. 1. Системы общения и экспертные системы. М., 1990.
12. БакуловА. Д., Леонтьева Н. Н., Шаляпина 3. М. Отечественные системы машинного перевода// Искусственный интеллект. Справочник. Кн. 1. Системы общения и экспертные системы. - М., 1990.
13. Баранов А. Н. Введение в прикладную лингвистику. М. 2003. - 360 с. а также http://www.dialog-21.ru/Archive/2004/Baranov.htm
14. Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвисти15
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.