Теоретические основы и методы построения систем фразеологического машинного перевода тема диссертации и автореферата по ВАК РФ 05.13.17, доктор технических наук Хорошилов, Александр Алексеевич
- Специальность ВАК РФ05.13.17
- Количество страниц 250
Оглавление диссертации доктор технических наук Хорошилов, Александр Алексеевич
Введение.
Глава 1. Единицы языка и речи в системах автоматической обработки текстовой информации.
Глава 2. Концепция фразеологического машинного перевода текстов с одних естественных языков на другие.
2.1. Предварительные замечания.
2.2. Концепция фразеологического машинного перевода текстов.
2.3. Пути реализации концепции фразеологического машинного перевода.
2.3.1. Некоторые общие соображения.
2.3.2. Морфологический анализ и синтез русских и английских слов.
2.3.3. Семантико-синтаксический анализ и синтез текстов.
2.3.4. Концептуальный анализ и синтез текстов.
2.3.5. Разрешение грамматической неоднозначности английских слов с помощью метода аналогии.
2.3.6. Трансфер.
Выводы.
Глава 3. Архитектура систем фразеологического машинного перевода.
3.1. Декларативные и процедурные средства систем машинного перевода.
3.2. Общий порядок работы системы RETRANS.
Выводы.
Глава 4. Автоматизация составления и ведения словарей для систем фразеологического машинного перевода.
4.1. Предварительные замечания.
4.2. Составление словарей наименований понятий с контролем по тезаурусу.
4.3. Составление словарей наименований понятий без контроля по тезаурусу.
4.4. Установление переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам).
4.4.1 Статистический метод установления переводных соответствий между словами.
4.4.2. Статистический метод установления переводных соответствий между словосочетаниями.
4.4.3. Установление переводных соответствий между., словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой.
4.5. Общий порядок автоматизированного составления и ведения фразеологических машинных словарей.
Выводы.
Глава 5. Опыт создания и эксплуатации систем фразеологического машинного перевода.
5.1. Начальный этап создания системы RETRANS.
5.2. Дальнейшее развитие системы RETRANS.
5.3. Опыт эксплуатации системы RETRANS.
Выводы.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации1999 год, доктор технических наук Зеленков, Юрий Григорьевич
Концептуальный анализ текстов в системах автоматической обработки научно-технической информации2002 год, кандидат технических наук Козачук, Максим Вячеславович
Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода2011 год, кандидат физико-математических наук Кан, Дмитрий Александрович
Типы межъязыковых соответствий в русско-английском функционально-когнитивном словаре2006 год, кандидат филологических наук Валиева, Лейсан Юнировна
Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств)1983 год, кандидат филологических наук Ионов, Анатолий Иванович
Введение диссертации (часть автореферата) на тему «Теоретические основы и методы построения систем фразеологического машинного перевода»
переводчики".139
Приложение 2. Фрагменты основного русско-английского политематического словаря системы RETRANS.141
Приложение 3. Фрагменты основного англо-русского политематического словаря системы RETRANS.163
Приложение 4. Фрагменты словаря по аэронавтике и космонавтике.171
Приложение 5. Модификации системы фразеологического машинного перевода.175
Приложение 6. Программный комплекс "Система фразеологического машинного перевода
RETRANS 2005". Руководство пользователя.183
Приложение 7. Сервер-переводчик RETRANS
Server 2005. Руководство администратора.216
Приложение 8. Свидельства об официальной регистрации систем фразеологического машинного перевода.239
Приложение 9. Примеры перевода фрагментов текстов с английского языка на русский и с русского языка на английский с помощью системы RETRANS.242
Приложение 10. Практическое использование системы RETRANS в России и за рубежом.249
Приложение 11. Публикации о системе RETRANS в популярных компьютерных журналах.250
Введение
Современное человеческое общество характеризуется высоким уровнем активности в различных областях деятельности (экономика, политика, наука, техника, культура и др.). Это привело к быстрому росту объемов информации, циркулирующей между отдельными лицами и коллективами людей, и к трудностям по их освоению. Создалась ситуация, которую стали обозначать термином "информационный взрыв".
Положение осложнилось еще и тем, что между странами и народами существуют языковые барьеры, которые при возрастании потоков информации стало трудно преодолевать. Традиционные методы их преодоления (обучение языкам и переводческая деятельность) оказались недостаточными. Возникла необходимость искать альтернативные пути решения проблемы.
Возможность поиска новых путей решения проблемы появилась к середине 50-х годов прошлого столетия, когда были построены первые электронные вычислительные машины. Эти машины являются по существу универсальными алгоритмическими машинами, на которых можно решать не только "вычислительные" задачи, но и любые другие задачи, описываемые с помощью алгоритмов: логический вывод, распознавание образов, машинный перевод текстов, игра в шахматы и многие другие.
Перевод текстов с одних языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний предметных областей, к которым переводимые тексты относятся. Он осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько значения слов и их последовательностей, сколько мыслительные образы, порождаемые в сознании переводчика под их воздействием.
Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит прежде всего от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. А эти законы пока еще недостаточно изучены. Поэтому, решая задачу машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. Этот опыт свидетельствует о том, что в процессе перевода текстов в качестве основных единиц смысла выступают прежде всего не отдельные слова, а фразеологические словосочетания, выражающие понятия. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.
Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло более полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.
Первое разочарование наступило уже через 12 лет после начала работ по машинному переводу, когда в 1966 г. был опубликован доклад Консультативного комитета по автоматической обработке текстовой информации (Automatic Language Processing Advisory Committee -ALPAC), созданного при Национальной академии наук и Национальном исследовательском комитете США. Этот комитет рассмотрел состояние и основные проблемы перевода текстов - в основном русскоязычных - на английский язык и на другие языки в США и в Западной Европе, в том числе с помощью ЭВМ. Комитет пришел к выводу, что "хотя в настоящее время и имеются системы, осуществляющие перевод обычных научных текстов с использованием машины, реального МП нет. Более того, нет никаких оснований считать, что он возникнет в недалеком будущем или вообще в какие-либо реально планируемые сроки" [82].
В качестве второго авторитетного свидетельства неблагополучного состояния исследований и разработок в области машинного перевода можно рассматривать заявление руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото, сделанное им в одном из своих докладов, опубликованном в 1982 г. Он заявил следующее: "Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже". А в 1984 году он опубликовал статью [97], в которой предложил новую концепцию машинного перевода. Согласно этой концепции тексты должны переводиться по аналогии с другими текстами, ранее переведенными вручную
До Макото Нагао аналогичные идеи высказывал профессор Белоногов Г.Г. В 1975 году он сформулировал концепцию фразеологического машинного перевода текстов, которую опубликовал в предисловии к книге Д.А. Жукова "Мы - переводчики" [45]. Главным тезисом этой концепции является утверждение, что при переводе текстов в качестве основных единиц смысла следует рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Отдельные слова также могут использоваться, но во вторую очередь. Более подробно эта концепция изложена в главе 2.
В качестве пионеров машинного перевода в России выступили такие ученые как Панов Д.Ю., Ляпунов А.А., Мухин И.С., Вельская И.К [62, 63]. За ними последовали Кулагина О.С., Мельчук И.А., Моторин Ю.А.,. Марчук Ю.Н.,. Пиотровский Р.Г. и многие другие.
Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики машинного перевода. Но многие важнейшие проблемы ими не были решены. Например, до последнего времени неудовлетворительно решалась проблема выбора переводных эквивалентов для слов и словосочетаний исходного текста.
При решении этой проблемы стремились прежде всего получить грамматически правильный пословный перевод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени.
На наш взгляд, семантико-синтаксический преимущественно пословный машинный перевод текстов не имеет перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при переводе он не может быть "вычислен" на основе синтаксических и семантических признаков этих слов. Поэтому концепция семантико-синтаксического преимущественно пословного перевода должна быть заменена на концепцию семантико-синтаксического преимущественно фразеологического перевода [36]. Такой подход в большей мере соответствует природе естественных языков.
Целью настоящего исследования является разработка теоретических основ и методов построения систем фразеологического машинного перевода текстов с одних естественных языков на другие (на примере русского и английского языков).
Предметом исследования - понятийный состав русских и английских текстов, их семантико-синтаксическая структура, структура переводных соответствий между наименованиями понятий.
В процессе работы над диссертацией использовались следующие методы исследования: 1) Выявление понятийного состава русских и английских текстов по их репрезентативным выборкам; 2) изучение структуры переводных соответствий между смысловыми единицами русского и английского языков и составление двуязычных фразеологических словарей; 3) моделирование на ЭВМ процедур фразеологического машинного перевода текстов с русского языка на английский и с английского на русский; оценка эффективности построенных моделей.
Основные научные результаты работы:
1. Дано теоретическое обоснование возможности создания систем фразеологического машинного перевода текстов с одних естественных языков на другие.
2. При участии автора (а последние пять лет и под его руководством) разработана и реализована в виде действующей компьютерной модели система фразеологического машинного перевода текстов с русского языка на английский и с английского на русский -система RETRANS.
3. Разработан ряд основополагающих принципов и методов построения систем фразеологического машинного перевода, в частности:
3.1. Методы автоматизированного составления и ведения фразеологических машинных словарей. На основе этих методов к концу 2005 г. были составлены русско-английский и англо-русский политематические машинные словари общим объемом более 5 млн. 200 тыс. словарных статей.
3.2. Методы семантико-синтаксического анализа и синтеза русских и английских текстов.
3.3. Принципы построения и алгоритмы функционирования интерфейса пользователя системы фразеологического машинного перевода, позволяющего быстро настраивать эту систему на перевод текстов различной тематики.
3.4 Принципы функционирования системы RETRANS в среде телекоммуникационных сетей типа Internet и Intranet, позволяющие осуществлять машинный перевод текстов в режиме удаленного доступа.
Научная новизна работы:
1. Научная новизна работы состоит прежде всего в том, что автором диссертации совместно с коллективом разработчиков была впервые предложена, обоснована и реализована в виде действующей компьютерной модели архитектура системы фразеологического машинного перевода текстов с русского языка на английский и с английского на русский. Тем самым была доказана возможность фразеологического машинного перевода текстов с одних языков на другие. Это создало реальные перспективы выхода из того тупика, в котором в началу 80-х годов прошлого столетия оказались исследования и разработки по машинному переводу, ориентированные на семантико-синтаксический преимущественно пословный перевод.
2. Создание системы фразеологического машинного перевода текстов стало возможным благодаря тому, что автором были разработаны методы, алгоритмы и программы автоматизированного составления и ведения словарей для такой системы и совместно с другими ее разработчиками были составлены русско-английский и англо-русский фразеологические политематические машинные словари беспрецедентного объема - 2,6 млн. словарных статей каждый. Эти словари покрывают лексический состав современных текстов на 99,7% и представляют собой мощную двуязычную концептуальную модель широкого спектра областей человеческой деятельности.
Практическая значимость работы:
В диссертационной работе получены научные результаты, которые позволили впервые построить промышленную систему фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский.
Первая промышленная версия системы RETRANS была создана в 1993 году [28, 29], а в 1996 году она была зарегистрирована в РосАПО (свидетельство об официальной регистрации № 960342 от 30.07.1996 г.). В дальнейшем система RETRANS непрерывно совершенствовалась, создавались ее различные версии и в 2005 году она была зарегистрирована в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем "Система фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский RETRANS-2005" (свидетельство об официальной регистрации № 2005612876 от 7.11.2005 г.). Система RETRANS обеспечивает такое качество перевода, которое позволяет ее использовать в различных государственных учреждениях России и за рубежом.
Апробация:
Результаты исследований и разработок автора опубликованы в 49-ти тезисах докладов и научных статьях [24, 28, 29, 31-37, 39, 61, 75, 80, 88], а также в одной монографии [38]. Они неоднократно обсуждались на научных конференциях и реализованы в промышленных версиях системы фразеологического машинного перевода RETRANS.
Личный вклад автора в исследования и разработки:
Автор в течение более двадцати лет работал в ВИНИТИ в научном коллективе, проводившем под руководством проф. Белоногова Г.Г. широкий спектр исследований и разработок в области компьютерной лингвистики: автоматическое обнаружение и исправление орфографических ошибок в русских и английских текстах; автоматическая классификация документов, их автоматическое реферирование, индексирование и поиск; автоматическое составление различного рода словарей для систем автоматической обработки информации; машинный перевод текстов с русского языка на английский и с английского языка на русский.
Наиболее значительными являются исследования и разработки, выполненные автором в области фразеологического машинного перевода. Здесь он лично разработал методы, алгоритмы и программы автоматизированного составления и ведения фразеологических машинных словарей и методы семантико-синтаксического анализа и синтеза русских и английских текстов. С 2001 года и по настоящее время он осуществляет руководство всеми работами по дальнейшему развитию системы RETRANS.
Диссертация состоит из пяти глав и одиннадцати приложений. В первой главе обсуждаются различные точки зрения на статус единиц языка и речи и даются рекомендации по использованию этих единиц в системах автоматической обработки текстовой информации. Приводятся статистические данные о повторяемости в русских и английских текстах их отрезков различной длины, которые были получены путем анализа репрезентативных выборок из этих текстов.
Во второй главе излагается концепция фразеологического машинного перевода и указываются пути ее практической реализации. Описываются методы морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов.
В третьей главе рассматривается архитектура системы фразеологического машинного перевода и описывается порядок ее функционирования. Четвертая глава посвящена проблеме автоматизации составления и ведения словарей для систем фразеологического машинного перевода. Предлагаются методы решения этой проблемы. В заключительной пятой главе кратко излагается история создания системы RETRANS и описывается опыт ее промышленной эксплуатации. В Приложении приведены фрагменты машинных словарей, примеры перевода текстов с английского языка на русский и с русского на английский, руководство пользователя системы RETRANS 2005, руководство администратора системы RETRANS SERVER 2005 и другие материалы, подтверждающие основные положения диссертации.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Преобразование семантической информации в машинном переводе: на материале русско-арабского машинного перевода политических текстов2011 год, кандидат филологических наук Альотаиби Султан Маджед
Системно-аспектуальное функционирование компьютерной терминологии2009 год, доктор филологических наук Бабалова, Галина Григорьвна
Семантико-синтаксическая актуализация глагольных омографов в условиях типового контекста: На материале политических статей французской прессы1998 год, кандидат филологических наук Шульга, Александра Федоровна
Новейшие англоязычные заимствования в русском языке в свете теории перевода2010 год, кандидат филологических наук Дуплийчук, Валентина Анатольевна
Структурно-семантические особенности внутриязыкового перевода: На материале "Кентерберийских рассказов" Дж. Чосера и их переводов на современный английский язык2003 год, кандидат филологических наук Журавлева, Ольга Алексеевна
Заключение диссертации по теме «Теоретические основы информатики», Хорошилов, Александр Алексеевич
Выводы:
В системе машинного перевода RETRANS используются многие результаты исследований и разработок, полученные в течение полувекового периода развития систем автоматической обработки текстовой информации. Но у нее есть и ряд черт, характерных только для этой системы и отличающих ее от других систем аналогичного назначения. Такими отличительными чертами являются следующие:
1. Здесь впервые реализована прогрессивная концепция фразеологического машинного перевода, обеспечивающая более высокое качество перевода, чем господствовавшая ранее концепция семантико-синтаксического преимущественно пословного перевода;
2. Здесь также впервые в широких масштабах применен метод аналогии при построении процедур морфологического анализа и синтеза текстов и их синтаксического анализа, что делает эту систему "открытой" и облегчает ее настройку на перевод текстов любой тематики и с любым лексическим составом;
3. В системе RETRANS используются самые большие в мире русско-английские и англо-русские политематические фразеологические словари (общим объемом около 5 млн. 200 тыс. словарных статей), что благотворно влияет на качество перевода. Основное ядро этих словарей составлено по оригинальным текстам в процессе их автоматического концептуального анализа и в процессе машинного перевода;
4. При вводе в систему RETRANS новых слов и новых фразеологических единиц не требуется сопровождать их никакой грамматической информацией: такая информация определяется системой автоматически. Это создает большие удобства для пользователей системы.
Заключение
Проблема перевода человеческой речи с одних языков на другие существует с незапамятных времен, а профессия переводчика считается одной из древнейших [45]. И хотя за многие тысячелетия накоплен богатый опыт межплеменного и межнационального речевого общения, в настоящее время все еще возникают определенные трудности при переводе. Об этом свидетельствуют, например, гипотеза Сэпира-Уорфа о принципиальной невозможности точного перевода текстов с одного языка на другой и известное шутливое выражение "The translater is а traitor" (переводчик - предатель).
Трудности перевода текстов возникают в частности потому, что в различных языках, особенно не родственных, имеет место разная категоризация действительности - используются разные системы понятий. При этом часть понятий одного языка может полностью совпадать по объему с понятиями другого языка, другая часть - только частично. А для некоторых понятий их смысловые эквиваленты в другом языке вообще отсутствуют.
При машинном переводе текстов с одних языков на другие возникают дополнительные трудности, связанные с необходимостью формального описания их семантико-синтаксической структуры и установления переводных соответствий между смысловыми единицами. Примером тому может служить начальный период развития систем машинного перевода, когда их разработчики руководствовались неадекватной концепцией семантико-синтаксического преимущественно пословного перевода (см. Введение и Главы 1 и 2).
В качестве альтернативы этой концепции японский ученый профессор Макото Нагао предложил осуществлять машинный перевод текстов по аналогии с другими текстами, переведенными ранее вручную. При этом он предполагал, что может быть сформирован и загружен в мощную многопроцессорную ЭВМ достаточно большой массив текстов на одном языке и их переводов на другой язык (массив билингв) и, опираясь на этот массив, можно будет осуществлять перевод новых текстов [97]. Однако конкретные пути решения этой задачи им не были указаны. Попробуем представить их себе в самых общих чертах.
Прежде всего, зададим себе вопрос: как будет выбираться из массива билингв информация, необходимая для перевода исходного текста - сразу для всего этого текста или последовательно для его частей? Первый вариант заведомо исключается, так как трудно ожидать полного совпадения нового исходного текста с каким-либо ранее переведенным текстом или с его частью. Второй вариант более вероятен, но и здесь дело обстоит непросто: например, какого размера должны быть эти части, чтобы иметь шансы совпасть с какими-либо фрагментами ранее переведенных текстов? Из статистических данных, приведенных в Главе 1 диссертации, следует, что скорее всего это могут быть предложения или фрагменты предложений длиной не более 10-12 слов.
Предположим далее, что фрагменты исходного текста совпали с фрагментами какого-либо текста из массива билингв. Тогда возникает другой вопрос: а как найти переводные эквиваленты для найденных фрагментов? Чтобы получить такую информацию, нужно предварительно расчленить массив билингв на пары эквивалентных по смыслу коротких разноязычных фрагментов и зафиксировать переводные отношения между ними (отношения синонимии или квазисинонимии). Допустим, что это будут пары эквивалентных по смыслу разноязычных предложений. Но одни и те же предложения редко повторяются в разных текстах (см. Главу 1). Поэтому придется членить предложения на более короткие и более устойчивые единицы смысла. А это будут фразеологические единицы. Таким образом получается, что перевод текстов по аналогии с ранее переведенными текстами возможен только как их фразеологический перевод!
Нам неизвестно, была ли концепция Макото Нагао когда-либо реализована на практике. С некоторой натяжкой в качестве ее реализации можно рассматривать недавно появившиеся системы типа Translation Memory (другое их название - Sentence Memory). Но возможности таких систем весьма ограничены - они пригодны только для перевода узких классов однородных текстов, состоящих в основном из одинаковых предложений. В случае появления новых предложений они должны переводиться вручную [104]. При этом в качестве подсказки можно использовать информацию, извлекаемую из массива ранее накопленных двуязычных пар предложений.
Мы уже писали о том, что системы типа Translation Memory можно рассматривать в качестве частного случая систем фразеологического машинного перевода (см. параграф 3.2 Главы 3). Более того, в состав систем фразеологического перевода можно включать накопители двуязычных предложений и переводить тексты в режиме систем Translation Memory.
Итак, проблема автоматического перевода текстов с одних языков на другие должна решаться на основе концепции фразеологического машинного перевода. Другой разумной альтернативы нет. Об этом свидетельствует многолетний опыт исследований и разработок в области машинного перевода. Это должно быть положено в основу и при разработке будущих систем машинного перевода.
В последнее время большое значение придается автоматизированным информационным технологиям. Свидетельством тому является обсуждение этого вопроса на различных международных форумах. Так, 12 декабря 2003 года в Женеве (Швейцария) состоялся Всемирный Саммит, посвященный проблеме построения Информационного Общества. Он проходил под лозунгом: "Построение Информационного Общества - глобальный вызов нового тысячелетияСаммит принял два документа: Декларацию о принципах создания Информационного Общества и План работы по реализации этих принципов.
В Декларации формулируются принципы построения Информационного Общества с учетом социально-политических, правовых и гуманитарных аспектов. При этом подчеркивается центральная роль науки в развитии такого Общества и в развитии информационных и телекоммуникационных технологий.
В Плане конкретизируются пути построения открытого Информационного Общества. При этом указывается, что потенциал человеческих знаний и информационных и телекоммуникационных технологий следует направить на достижение задач развития, одобренных международным сообществом. Большое значение придается необходимости сохранения культурного многообразия и языковой самобытности народов, населяющих землю, и в этой связи подчеркивается важность исследований и разработок в области машинного перевода текстов с одних естественных языков на другие.
Но как решать проблему машинного перевода в масштабе всего мирового сообщества? Ведь по современным представлениям в мире насчитывается более 2500 различных языков [1]. Легко подсчитать, что если бы была поставлена задача перевода текстов с любого языка на любой другой, то пришлось бы создавать более 6 млн. 250 тыс. систем перевода (количество сочетаний из 2500 по два, помноженное на два). Это, конечно, нереально. Но если даже сократить количество привлекаемых языков до одной сотни, то и тогда число необходимых систем перевода будет достигать 9.900, что тоже неприемлемо.
Выходом из создавшегося затруднения мог бы быть отказ от построения систем машинного перевода с любого языка на любой другой, и вместо этого осуществлять перевод с помощью языка-посредника. Тогда можно было бы существенно сократить число разрабатываемых систем перевода. Так, например, в случае ста различных языков вместо 9.900 пришлось бы создавать только 99 систем перевода (в сто раз меньше!).
Идея языка-посредника была высказана еще на рубеже конца 50-х и начала 60-х годов прошлого столетия. Но она тогда не была реализована, так как для этого не было необходимых условий. Однако в настоящее время, в связи с улучшением качества машинного перевода, к этой идее можно было бы вернуться.
Среди различных предложений по языку-посреднику, выдвинутых пионерами машинного перевода, было предложение использовать в качестве такого языка искусственный язык Esperanto. На наш взгляд это неразумно, так как любой искусственный язык, имеет более бедную систему понятий, чем естественные языки, и не годится в качестве языка-посредника. В таком качестве может выступать только один из естественных языков с достаточно богатой системой понятий (например, русский, английский, немецкий или французский).
Скорее всего, развитие машинного перевода пойдет по пути разработки двуязычных систем перевода в интересах наиболее развитых стран мира. А по мере их создания постепенно будет появляться возможность перевода текстов и между новыми парами языков, не обеспеченными изначально системами перевода, через посредство имеющихся в наличии систем. И, возможно, только на более позднем этапе развития будет достигнуто соглашение о едином языке-посреднике или о нескольких таких языках.
Список литературы диссертационного исследования доктор технических наук Хорошилов, Александр Алексеевич, 2006 год
1. Большой энциклопедический словарь "Языкознание".- М.: Большая российская энциклопедия, 2000.
2. Автоматизированная словарная служба. Автоматическое индексирование документов. / Под ред. проф. Г.Г. Белоногова. II Вопросы информационной теории и практики М.: ВИНИТИ, 1985. - № 53.
3. Компьютерная лингвистика в системе научно-технической информации. / Под ред. проф. Г.Г. Белоногова. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1989. - № 58.
4. Действующие системы машинного перевода и автоматические словари. Обзорная информация, сер. "Машинный перевод и автоматизация информационных процессов". Вып. 3 .- М.: ВЦП, 1979.
5. Лингвистические исследования по машинному переводу. Сообщения ОМАИР. Вып. 2. М.: ВИНИТИ, 1961.
6. Промышленные системы машинного перевода. Обзорная информация. Сер. "Машинный перевод и автоматизация информационных процессов". Вып. 17. Вып. 20. М.: ВЦП, 1979, 1991.
7. Эволюционная эпистемология и логика социальных наук. Карл Поппер и его критики. М.: Едиториэл УРСС, 2000.
8. Абрамова Н.Н., Бевзенко Е.А., Зеленков Ю.Г. Алгоритм нормализации именных словосочетаний. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1985. - № 53.
9. Абрамова Н.Н., Белоногое Г.Г., Глобус Е.И., Кузнецов Б.А., Поздняк М.В. Ядерный машинный политематический словарь ключевых слов и словосочетаний по естественным и техническим наукам. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1989. - № 58.
10. Ю.Абрамова Н.Н., Бевзенко Е.А., Белоногое Г.Г и др. Автоматическое индексирование документов ключевыми словами и словосочетаниями. // Научно-техническая информация. Сер. 2. 1989. - № 4.
11. М.Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). М.: Просвещение, 1966.
12. Апресян Ю.Д. Лексическая семантика и синонимические средства языка. М.: Наука, 1974.13 .Апресян Ю.Д. и др. Лингвистическое обеспечение системы автоматического перевода ЭТАП-2. М.: Наука, 1989.
13. Апресян Ю.Д. и др. Лингвистическое обеспечение системы французско-русского автоматического перевода ЭТАП-1. II. Французская морфология. Французский комбинаторный словарь. // Препр. Ин-та рус. яз. АН СССР, №154, 1984.
14. Белоногое Г.Г. О некоторых статистических закономерностях в русской письменной речи. // Вопросы языкознания. 1962. - № 1.
15. Белоногое Г.Г Числовое кодирование понятий. Энциклопедия "Автоматизация производства и промышленная электроника". Т. 4. М.: 1964.
16. Белоногое Г.Г. Об использовании терминологических словосочетаний в автоматизированных ИПС. Сб. "Цифровая вычислительная техника и программирование". М.: Сов. радио, № 2, 1966.
17. Белоногое Г.Г. Автоматический тезаурус дескрипторных понятий. // Научно-техническая информация. Сер. 2. 1973. - № 12.
18. Белоногое Г.Г., Новоселов А.П., Рыбаков Б.П. Шемакин Ю.И. Автоматическое индексирование документов и запросов. // Научно-техническая информация. Сер. 1. 1973. - № 7.
19. Белоногое Г.Г., Богатырев В.И. Автоматизированные информационные системы. М.: Сов. радио, 1973.
20. Белоногое Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. // Проблемы кибернетики. 1974. - № 28.
21. Белоногое Г.Г., Загика Е.А., Калинин Ю.П., Хорошилов А. А. Автоматизация лингвистической обработки словарей. // Научно-техническая информация. Сер. 2. 1983. - № 11.
22. Белоногое Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983.
23. Белоногое Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты. / Под. ред. проф. В.И. Горьковой. // Итоги науки и техники. Серия "Информатика". Том. 8. М.: ВИНИТИ, 1984.
24. Белоногое Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Метод аналогии в компьютерной лингвистике. // Научно-техническая информация. Сер. 2. 2000. - № 1.
25. Белоногое Г.Г., Гиляревский Р.С., Козачук М.В., Новоселов А.П., Хорошилов А.А.,. Автоматическая классификация текстов. // Научно-техническая информация. Сер. 2. 2001. - № 1.
26. Белоногое Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М.В., Рыжова Е.Ю., Гусъкова Л.Ю., Каким быть машинному переводу в XXI веке. // Перевод: традиции и современные технологии. М.: ВЦП, 2002.
27. Белоногое Г.Г., Быстрое И.И., Козачук М.В. Новоселов А.П., Хорошилов А.А Автоматический концептуальный анализ текстов. // Научно-техническая информация. Сер. 2. 2002. - № 10.
28. Белоногое Г.Г., Калинин Ю.П., Хорошилов А. А. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации. М.: Русский мир, 2004.
29. Белоногое Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Единицы языка и речи в системах автоматической обработки текстовой информации. // Научно-техническая информация. Сер. 2. 2005. - № 11.
30. Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976.
31. Гумбольдт Вильгельм фон. О различии строения человеческих языков и его влиянии на духовное развитие человечества. Избранные труды по языкознанию./ Пер. с нем. Г.В. Рамишвили. М.: Прогресс, 1984.
32. Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов. // Научно-техническая информация. Сер. 2. 2005. - № 6.
33. Жуков Д.А. Мы переводчики. - М.: Знание, 1975.
34. Звегинцев В.А. История языкознания XIX-XX веков в очерках и извлечениях. В 2-х частях. М.: Просвещение, 1964-65.
35. Звегинцев В. А. Предложение и его отношение к языку и речи. М.: Издательство Московского университета, 1976.
36. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.
37. Кулагина О.С. Морфологический анализ русских глаголов. // Препринт ИПМ им. М.В. Келдыша, АН СССР, № 195, 1985.
38. Кулагина О.С. Морфологический анализ русских именных форм. // Препринт ИПМ им. М.В. Келдыша, АН СССР, № 10,1986.51 .Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов.//Препринт ИПМ им. М.В. Келдыша, АН СССР, №205,1987.
39. Кулагина О.С., Мельчук И.А. Машинный перевод с французского языка на русский. // Вопросы языкознания. 1956. - № 5.
40. ЛайонзДж. Введение в теоретическую лингвистику. М.: Прогресс, 1975.
41. Лубенская С.И. Русско-английский фразеологический словарь. М.: Языки русской культуры, 1997.
42. Лурия А.Р. Язык и сознание. Ростов на Дону: Феникс, 1998.
43. Максименко С.Д. Общая психология. М.: Рефл-бук, 2000.
44. Марчук Ю.Н., Тихомиров Б.Д., Щербинин В.И. Система машинного перевода с английского языка на русский. // Машинный перевод и автоматизация информационных процессов. М.: 1975.
45. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука, 1983.
46. Мельчук И.А. Морфологический анализ при машинном переводе (преимущественно на материале русского языка). // Проблемы кибернетики. Вып. 6. М.: Физматгиз, 1961.
47. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <=> текст". -М.: Наука, 1974.
48. Новоселов А.П., Хорошилов А.А. Алгоритм автоматической нормализации слов. // Вопросы информационной теории и практики. -М.: ВИНИТИ, 1985.-№53.
49. Панов Д.Ю., Ляпунов А.А., Мухин И.С. Автоматизация перевода с одного языка на другой. Сессия по научным проблемам автоматизации производства. М.: Издательство АН СССР, 1956.
50. Панов ДЮ. Автоматический перевод. М.: Издательство АН СССР, 1956.
51. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). Санкт-Петербург: Издательство РГПУ им. А.И. Герцена, 1999.
52. Пиотровский Р.Г. Новые горизонты машинного перевода. // Научно-техническая информация. Сер. 2. 2002. - № 1.
53. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. -М.: Высшая школа, 1977.
54. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979.
55. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.
56. Поспелов Г.С. Искусственный интеллект. Новая информационная технология. М.: Наука, 1986.
57. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 1. // НТИ. Сер. 2.-1998. № 1.
58. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 2. Логическая интерпретация понятий и их описание в концептуальном словаре. // НТИ. Сер. 2.-1999. -№5.
59. Рубашкин В.Ш., JIaxymu Д.Г. Семантический (концептуальный) словарь для информационных технологий. Часть 3. Методы формирования и ведения словаря. // НТИ. Сер. 2.- 2000. № 7.
60. Сиокум Дж. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. // Новое в зарубежной лингвистике. М.: Прогресс, 1989.
61. Соссюр Фердинанд де. Курс общей лингвистики // Труды по языкознанию -М.: Прогресс, 1977.
62. Толгская Е.Р., Хорошилов А.А., Белоногое Г.Г. Опыт внедрения программного комплекса "Переводчик" в налоговые органы России. // Научно-техническая информация. Сер. 2. 2005. - № 2.
63. Убин И.И. Автоматический переводной словарь. Принципы построения. -М.: ВЦП, 1989.
64. Убин И.И. ЭВМ и словарь. М.: ВЦП, 1992.
65. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. // Перевод в современном мире. М.: ВЦП, 2001.
66. Успенский В А., Семенов A.JI. Теория алгоритмов: основные открытия и приложения. М.,: Наука, 1987.
67. Хорошилов А.А. Архитектура систем фразеологического машинного перевода. // Научно-техническая информация. Сер. 2. 2006. - № 5.
68. Черный А И. Введение в теорию информационного поиска. М.: Наука, 1975.
69. Черный А И. Всероссийский институт научной и технической информации: 50 лет служения науке. М.: ВИНИТИ, 2005.
70. Шемакин Ю. И, Романов А. А. Компьютерная семантика. М.: Научно-образовательный центр "Школа Китайгородской", 1995.
71. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980.
72. Якушин Б.В. Слово, Понятие, Информация. М.: Молодая гвардия, 1975.
73. World summit on the information society. Declaration of Principles. Building the Information Society: a global challenge in the new Millennium. Document WSIS-03/GENEVA/DOC/4-E. 12 December 2003.
74. World summit on the information society. Plan of Action. Document WSIS-03/ GENEVA/DOC/5-E. 12 December 2003.
75. Machine translation of languages. Edited by W. Locke &Booth, 1955.
76. Bar-Hillel Y. Can translation be mechanized? // American scientist. 1954, 42. - № 2.91 .Booth A. Calculating machines and mechanical translation. // Discovery. -1954, 15.-№7.
77. Elliston J.S.G. Computer-aided translation: a business viewpoint. In Barbara M. Shell (ed.) Translating and the Computer. Amsterdam: North-Holland, 1979.
78. Somers Harold L. Current Research in Machine Translation. // The Third International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Language, 11-13 June 1990. Austin, Tex.
79. Hutchins W.J. Machine translation: Past, present, future. Chichester: Ellis Horwood, 1988.
80. Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle, in Artificial and Human Intelligence, ed. A. Elithorn and R. Banerji. North Holland, 1984.
81. Nirenburg Sergei (ed.) Machine Translation: Theoretical and methodological issues. Cambridge : Cambridge University Press, 1987.
82. Oettinger A. Automatic Language Translation. Harward Monographs in Applied Science. Massachusetts, 1960.
83. Slocum Jonathan. A survey of Machine Translation: its history, current status, and future prospects. // Computational linguistics. 1985. - 11.
84. SchankR.C., Lebowitz M., Birnbaum L. An integrated understander. // Amer. J. Comput. Ling. 1980,6. - № 1.
85. Vauquois Bernard, Christian Borret. Automated translation at Grenoble University. // Computational Linguistics -1985. -№11 .
86. Webb Lynn E. Advantages and Disadvantages of Translation Memory: a Cost/Benefit Analysis. San Francisco State University, 1992.
87. Wettler M. Semantisches Langezeit-gedaechtnis und das Verstehen von Sprache. Working Papers, Fondatione Dalle Moll, 1979.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.