Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных тема диссертации и автореферата по ВАК РФ 05.13.16, кандидат физико-математических наук Исмоилова, Рано Мизробовна

  • Исмоилова, Рано Мизробовна
  • кандидат физико-математических науккандидат физико-математических наук
  • 1997, Душанбе
  • Специальность ВАК РФ05.13.16
  • Количество страниц 93
Исмоилова, Рано Мизробовна. Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных: дис. кандидат физико-математических наук: 05.13.16 - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук). Душанбе. 1997. 93 с.

Оглавление диссертации кандидат физико-математических наук Исмоилова, Рано Мизробовна

Глава I, Морфология слов таджикского языка, основы которых являются числительными.

§1, Основы морфологии ж некоторые сведения из формальной теории языков

1. Основы морфологии.

2. Некоторые сведения из формальной теории языков.

2.1. Строки и операции над ниш. , ЯЗЫКИ. .».,•.,. .Грамматики.

3.1. Вывод в грамматике.

3.2. Грамматики с ограничениями на вывод и условные грамматики.

§2. Лингвистическое обеспечение.

1. Структура языковых единиц морфологического уровня.

2. Правила морфемшш.

§3. Модели морфологии. .,.

1. Модель морфологического синтеза.

2. Модель морфологического анализа.

3. Обобщенный алгоритм грамматического разбора.

Глава II. Нормализация.

§1. Дополнительные сведения,

1. Лингвистические сведения. .,.

2. Схема локального перевода. Íí i iO JpIVt d «Jll'iO 1Д.у!1 i"? 9. ^"l1 I

§3. Нормализацияовоформ класса

1.'Алгоритм нормализации С.

2. Модель синтеза 1(0).

§4. Нормализация постредактирования.

1. Локальный перевод 1(G) на английский язык и необходимость постредактирования.

2. Нормализация постредактирования для локальных систем перевода с языка Ь^ на язык L,

3. Нормализация постредактирования слов S для перевода на cicíí^t яоык« • »•¡■«»«••«•••«••••«««••••«•«•••«•••«••-.•и 54"

1.x I.« Пэ рВ 130 Д в ••«•««•«•••••«««»••titiip«*«*»««*««»»*»*v«*»«

§1« Лингвистическая методика перевода слов С на английский

1. Классифжация системы АЛ С на английский язык.

2. Оператор прямого перевода с таджикского языка на английскмй ячзнис » • ее»*®««*«»»»***»*»*»*»*«*»*»»»»««*»«»®«*»*««».*» зт^

§2« Прямой перевод слов S на английский язык.

1. Модели синтеза переводов слов S? английский язык.

IЛ. Модель синтеза Т(а'). ..

1.2. Модель синтеза

1.3. Модель синтеза Т (мебсшА.). .. бз

2. Обобщенный алгоритм перевода слов S на английский язык,

2.1. Прямой перевод слов S'. ..

2.2. Прямой перевод слов S. ..

§3. Алгоритм прямого перевода слов С на английский язык.

I. Обобщенный алгоритм прямого перевода слов G на англий

СКИЙ язык, • » а

9 « в о * я в

Алгоритм прямого перевода слов С на английский язык. 2 « X « 1/ЛОВЗрВ » •

2.2. Правила синтактики. я « «

Глава IV. Реализация системы АН С на английский язык,

§1. Структурограмма системы АП С на английский язык.

§2. Способ хранения базы данных.

§3. Реализация системы.

1. База данных.

2. Программное обеспечение. Литература. . Приложение. * 3 8 в *

• «кем а « в в * е

2.3. Алгоритм прямого первода слов С на английский язык.

Рекомендованный список диссертаций по специальности «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», 05.13.16 шифр ВАК

Введение диссертации (часть автореферата) на тему «Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных»

Актуальность теш. По данным ЮНЕСКО более половины всего занятого населения нромышленно-развитых стран прямо или косвенно принимает участие в процессе производства или распространения информации. Современная цивилизация достигла такого уровня развития, при котором сумма человеческих знаний удваивается каждые 1-2 года. В такой же степени возрастает необходимость увеличения скорости реального освоения накопленной и вновь создаваемой информации. Так как практически вся информация организована средствами естественных языков, любая нация традиционно решает эту проблему посредством перевода.

Потребности в переводе и спрос на него резко возросли, существенно опередив при этом темпы роста контингента квалифицированных переводчиков. Классический закон "соответствия спроса и предложения" по каким-то причинам пока не сработал; нехватка переводчиков - это реальный факт, наблюдаемый повсеместно в мире; предотвратить дальнейшее усугубление ситуации пока никакими средствами не удается; и похоже, что никакие средства, кроме повышения производительности переводческого труда за счет использования новых информационных технологий не помогут. В настоящее время такой технологией является компьютеризация. Из всех средств компьютеризации наиболее полно проблему перевода с одного естественного языка на другой решают системы автоматического перевода.

Системы автоматического перевода предназначены для осуществления перевода без вмешательства человека. Это не исключает ни предварительной подготовки, текста, ни постредактирования. Однако, весь процесс перевода - с того момента» как введен входной текст» и до. выхода выходного текста - целиком обеспечивается самой системой автоматического перевода без какого-либо участия человека.

В связи с обретением государственной самостоятельности задача построения систем автоматического перевода, в которых входным или выходным языком являлся бы таджикский язык, для Таджикистана становится особо актуальной.

Созданием систем автоматического перевода занято научное направление, называемое автоматическим переводом (АЛ). Достаточно полное и всестороннее описание разработок в области АП и обширная библиография приводятся в известной монографии 0.С.Кулагиной [13.

Датой рождения АП как научного направления считают 1946г., когда А. Бут ж У.Уивер впервые в явном виде сформулировали задачу использования ЭВМ для перевода текстов с одного языка на другой. Однако» первые годы быт посвящены скорее дискуссиям о том, возможен ли автоматический перевод.

Толчком к повсеместному развитию работ в области АП послужил Джорджтаунский эксперимент, проведенный в 1954 г., который состоял в том, что впервые в мире был осуществлен перевод предложений с русского на английский.

В 1954 г. начались работы по АП и в СССР ¡21.

В последовавшее за этим десятилетие широкое развитие теоретических исследований в области АП привело не только к построению экспериментальных систем, но и к созданию первых практически-действующих систем.

В 60-х годах наблюдался спад интереса- к АП, усиливающийся по мере того, как выявлялись всё новые и всё более сложные лингвистические проблеме ж всё яснее осознавалось, что процесс перевода отнюдь не так легко поддается автоматизации, как это вначале думалось.

В семидесятых годах начался новый подъем работ в области АЛ. Это связано с развитием смежных и тесно связанных с АЛ математической и прикладной лингвистики. Большую роль также сыграло развитие программирования и увеличение возможностей ЭВМ. Кроме того АЛ перестал быть единственной областью, где рассматривается проблема переработки машинами текстов на естественных языках [3,43.

Исследователи, работающие в области АЛ, при решении лингвистических проблем АЛ почти целиком сосредоточили свое внимание на английском языке и вследствие этого разработали такие инструменты описания английского языка, которые специфичны именно для английского языка (а заодно по случайному совпадению для языков, сходнных с английским). Однако, английский язык нельзя считать вполне показательным примером естественного языка. Поэтому включение в область исследований АЛ любого естественного языка, для которого не разработан лингвистический аспект АЛ, имеет большое значение. В настоящее время одним ш таких языков является современный таджикский язык.

Цель работы. Целью диссертационной работы является разработка ж реализация системы автоматического перевода с таджикского на англйский язык на примере слов таджикского языка, основы которых являются именам числительными.

В дальнейшем будем обозначать множество всех слов таджикского языка, основы которых являются именами числительными, через С.

Выбор в качестве объекта перевода слов ссС позволяет наиболее ножю проверить концепцию АП слов таджикского языка, т.к. слова ссС объединяют в себе свойства слов, основы которых являются именными частями речи, а количество основ-числительных в таджикском языке составляет всего 41 слово.

Диссертационная работа выполнена в рамках плана научно-исследовательских работ Математического института с ВЦ Академии наук Республики Таджикистан и Постановлений Совета Министров Республики Таджикистан о дальнейшем развитии таджикского языка.

Краткое содержание работы. Современная теория АП наиболее предпочтительной считает такую методику перевода, при которой перевод с одного языка на другой кроме этапов анализа и синтеза предполагает выполнение этапа межъязыковых операций. Необходимость этого этапа обусловлена неоднозначностью грамматик естественных языков. Поэтому обобщенный алгоритм перевода с одного языка на другой предполагает последовательное выполнение этапов:

I) анализа;

II) межъязыковых операций;

III) синтеза.

В соответствии с этим алгоритмом построена структура диссертацжшой работы: первая глава посвящена анализу слов таджикского языка, основы которых являются именами числительными; вторая - межъязыковым операциям, необходимым для реализации системы АЛ слов с€С на английский язык; третья - синтезу переводов слов ееС на английский язык; четвертая - программному обеспечению системы АН слов с

I) Анализ. В строящейся системе автоматического перевода объектом перевода являются слова. Следовательно, этап анализа осуществляется на уровне слова (на морфологическом уровне) и представляет собой морфологический анализ.

В результате морфологического анализа словоформа разделяется на основу и части, называемые морфами, каждой из которых ставится в соответствие некоторое смысловое значение, называемое морфологической характеристикой.

Содержательно морфологический анализ можно разделить на два подэтапа:

- представление словоформы в виде упорядоченной совокупности, состоящей из основы и морфов (морфологический разбор словоформы); установка соответствия между морфами и морфологическими характеристиками.

Первым шагом морфологического разбора является выделение из словоформы основы. Для выделение основы из словоформы сеС необходимо иметь словарь основ-числительных таджикского языка.

Выделив из словоформы некоторую ее часть б, являющуюся элементом словаря основ и удалив ее из словоформы, мы для дальнейшего разбора получаем усеченную словоформу с,=с\8

Остаток словоформе с,, состоит только из морфов, т.е. о^ 0« * * у где (,п) - 1-ый морф словоформы с. Поэтому для продолжения морфологического разбора мы должны иметь словарь морфов и правила употребления морфов (правила морфемики).

Выделив очередной морф ш. из остатка словоформы, мы ищем среди допустимых (согласно правилам морфемики) морфов морф т3+1, входящий в остаток словоформы

С^С\ (0ЙХЦ е. еШ^) =ПЦ +, е. «Ш .

Полученную в результате морфологического разбора линейную последовательность будем называть морфологически-разобранной словоформой с.

Известно, что каждый морф имеет свои морфологические характеристики (такие как чжло, лицо, порядковостъ ш т.д.).

Наиболее просто устанавливать соответствия между морфами и морфологическими характеристиками в 'процессе морфологического разбора словоформы, приписав каждому из морфов соответствующие ему морфологические характеристики непосредственно в словаре морфов.

Для реализации этапа морфологического анализа словоформ ссО автором построены". минимальный словарь основ-числительных таджикского языка, достаточный для анализа и синтеза любой словоформы сеО; словарь морфов и соответствующих им морфологических характеристик» используемых при словообразовании слов С из основ-числительных;

- база данных морфологии слов С, включающая в себя кроме словаря основ-числительных, словаря морфов ж соответствующих мм морфологических характеристик, правила употребления морфов;

- математическая модель морфологического анализа слов С;

- процедура морф логического анализа слов С.

II) Этап межъязыковых операций. Неоднозначно о ть естественных языков вызывает необходимость преобразования переводимого текста в процессе перевода к виду, удовлетворяющему грамматике выходного языка.

Так, в процессе перевода некоторых словоформ с*-С на английский язык возникает необходимость преобразования этих словоформ к виду, удовлетворяющему грамматике английского языка.

Преобразование подобного вида назовем межъязыковой нормализацией слов сеО при переводе на английский язык.

Содержательно этап межъязыковой нормализации словоформ сеС при переводе на английский язык можно разделить на два гюдэтапа:

11.1) снятие всех своеобразий морфологии слов сеО (нормализация слов сеС);

11.2) учет всех возможных потерь информации при переводе словоформы сеС на английский: язык вне контекста (нормализация постредактирования слов сеС).

11.1) Нормализация слов сеО осуществляется за счет одной из особенностей таджикского языка, заключающейся в том, что многие словоформы таджикского языка семантически эквивалентны целому выражению, состоящему из нескольких слов (словосочетанию, предложению) . Причем, употребление того или много слова таджикского языка в этом выражении обусловлено и тем» какие из морфов включает в себя исходная словоформа. Поэтому нормализацию слова ссС можно рассматривать как "перевод" с таджикского языка на таджикский. В процессе этого "перевода" происходит перенос особенностей строения слова ееС в область синтаксиса.

Для осуществления нормализации" слов сеС автором построены:

- таджикско-таджикский словарь» в каждой статье которого морфу т* из словаря морфов, ставится в соответствие такое слово таджикского языка в', что семантическое значение в* эквивалентно морфологической характеристике морфа пТ, а правила употребления слова з' обусловлены правилами употребления морфа ш';

- алгоритм нормализации слов сеС.

Результатом нормализации слова сеС является семантически и функционально эквивалентное ему выражение таджикского языка. Причем, результатом нормализации каждого из слов асЗ, составляющих это выражение, будет являться само слово з.

11,2) Для учета всевозможных потерь информации при переводе слов ссС на английский язык вне контекста достаточно преобразовать слова таджикского языка всЗ» составляющие полученные в результате нормализации слов сеС выражения, к виду, удовлетворяющему грамматике английского языка, т.е. провести нормализацию постредактирования

СЛОВ 8€5*

Для осуществления нормализации постредактирования слов з€3 автором построены:

- словарь, в каждой статье которого морфу т" из словаря морфов, морфологическая характеристика которого не выражается средствами английского языка вне контекста, поставлен в соответствие текст в котором перечисляются все возможные варианты выражения этой морф)логической характеристики средствами английского языка; - алгоритмы нормализации постредактирования слов scS.

Результатом нормализации постредактирования слова s€S является семантически-эквивалентное слову seS выражение, состоящее ив слова таджикского языка в -, для которого существует однозначный перевод на английский язык вне контекста, и текстов в которых перечислены все неоднозначности, возникающие при переводе слова э на английский язык.

Нормализация постредактирования слов scS завершает этап межъязыковых операций для системы ill слов ссО на английский язык.

Результатом межъязыковой нормализации слова ссС является семантически-эквивалентно исходной словоформе выражение, состоящее из слов таджикского языка s'iSf, для которых существует однозначный перевод на английский язык вне контекста, и текстов f^,,, в которых перечислены все неоднозначности, возникающие при переводе слова ссС на английский язык.

III) Синтез. Обычно в основу каждой системы АЛ полагается одна из двух лингвистических методик: прямой способ перевода (система АЛ изначально ориентирована на перевод с одного определенного языка на другой стлоь же определенный язык); непрямой способ перевода (синтез текста на выходном языке принципиально независим от анализа текста на входном языке).

Очевидно, что способ перевода, положенный в основу системы АЛ, полностью определяет структуру информации, необходимой для реализации этапа синтеза. Такой информацией для автоматического перевода словоформ таджикского языка на английский язык являются: таджикско-английский словарь, в каждой статье которого последовательности морфов (в случае прямого перевода) или последовательности морфологических характеристик (в случае непрямого перевода) ставится в соответствие семантически-эквивалентное выражение английского языка';

- правила, устанавливающие соответствие между правилами морфемики таджикского языка и грамматикой английского языка.

Часто переводом словоформ с<-:0 на английский язык является словосочетание или даже предложение английского языка. Поэтому установление соответствия между правилами морфемики таджикского языка и грамматикой английского языка для перевода слов сеС на английский язык автором проведено в два этапа:

- установление соответствия между правила?® морфемики таджикского языка, соответствующими морфам слов зе5, и правилами морфемики английского языка;

- установление соответствия между правилами морфемики таджикского языка, соответствующими морфам слов сеС, и правилами синтаксиса английского языка.

Для осуществления этапа синтеза перевода слов таджикского языка с€0 на английский язык автором построены:

- словарь, необходимый для прямого перевода слов веЗ; 1

При этом выражение английского языка может быть морфом, словом, словосочетанием или списком альтернативных возможностей.

- алгоритмы прямого перевода слов веБ;

•• модели синтеза слов анлкйского языка» являющихся переводами слов о ? ,-е ** з,

- алгоритм прямого перевода слов С;

- процедура перевода С.

Результат этапа синтеза представляет собой семантически и функционально эквивалентное исходной словоформе сеС выражение английского языка, которое ж является переводом ссС на английский язык.

Система А11 слов С на английский язык реализована в рамках СУБД

ИКАРАТ\М" на персональном компьютере РС АТ\28б. '

Автор выражает благодарность члену-корреспонденту АН Республики Таджикистан, доктору филологических наук, профессору Рустамову Ш.Р. за постоянное участие в обсуадении полученных результатов.

Основные результаты работы изложены в трех публикациях автора £5-7].

Похожие диссертационные работы по специальности «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», 05.13.16 шифр ВАК

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.