Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Кан, Дмитрий Александрович

  • Кан, Дмитрий Александрович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2011, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 129
Кан, Дмитрий Александрович. Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2011. 129 с.

Оглавление диссертации кандидат физико-математических наук Кан, Дмитрий Александрович

ТАБЛИЦЫ.

РИСУНКИ.

ВВЕДЕНИЕ.:.

1. Задача формализации естественного языка.

2. Синтез.

3. Машинный перевод.

4. О структуре диссертации.

ГЛАВА 1. ПОДХОДЫ К ФОРМАЛИЗАЦИИ ЯЗЫКА И ТЕОРИЯ КОМПЬЮТЕРНОЙ СЕМАНТИКИ.

1.1. Грамматики Хомского.

1.2. Модель «смысл < - > текст» Мельчука.

1.3. Компьютерная семантика.

ГЛАВА 2. ЗАДАЧА АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ.

2.1. Задача разрешения анафорических ссылок.

2.2. Портрет объекта в тексте.

2.3. Формализация связей между объектами в тексте.

ГЛАВА 3. СИНТЕЗ ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ.

3.1. Обзор литературы.

3.1.1. Формальные грамматики.

3.1.2. Теория мереологии.

3.1.3. Статистические методы.

3.2. Простой статистический алгоритм упорядочивания слов.

3.3. Алгоритм линеаризации семантических структур.

3.3.1 Технические детали и асимптотическая оценка.

3.3.2 Выводы и обсуждение.

ГЛАВА 4. МАШИННЫЙ ПЕРЕВОД НА ОСНОВЕ КОМПЬЮТЕРНОЙ СЕМАНТИКИ.

4.1. Краткая история машинного перевода.

4.2. Алгоритмы статистического машинного перевода.

4.2.1 Алгоритмы на фразах (Moses).

4.2.2 Алгоритмы, основанные на машинном обучении (Sinuhe).

4.3. Машинный перевод и компьютерная семантика.

4.3.1. Метод автоматического построения переводного контекстного семантического словаря.

4.3.1.1. Giza++.

4.3.1.2. Снятие неоднозначности.

4.3.1.3 Алгоритм построения переводного семантического словаря.

4.3.1.3. Улучшение переводного семантического словаря.

4.3.1.5 Выводы и обсуждение.

4.3.2. Система машинного перевода.101.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода»

1. Задача формализации естественного языка

Задача формализации естественного языка является сложной в теории* и, на практике. Теоретические методы, опережая^ практику на многие годы, (а то и десятилетия), говорят о необходимости создавать базы знаний, которые будут основой искусственного интеллекта. Практические методы продолжают использовать в качестве метрики семантической близости двух документов косинус угла между их векторами. Адептам и первых и вторых методов* понятно, что без строгого семантического анализа на уровне естественного языка невозможно ни качественное решение задач информационного поиска, ни-создание базы знаний. Попытки смоделировать (формализовать) естественный язык на компьютере привели к двум фундаментальным подходам: статистическому [47] и классическому [19]. В рамках данной* работы приводятся результаты экспериментов, сочетающие оба подхода. В работе делается предположение и показывается экспериментально на практике; что сочетание этих двух подходов выводит идею машинного перевода на качественно новый уровень — уровень семантического анализа и синтеза.

Семантический анализ представляет собой первый важный этап на пути к пониманию и оценке того, что изложено в анализируемом документе. Следующим важным и ещё более трудоёмким этапом* является определение прагматической принадлежности документа и отдельных предложений. Предложение Маша любит Джорджа может быть успешно проанализировано семантически с выявлением объекта, действия и субъекта, а также всевозможных морфологических, синтаксических и грамматических характеристик слов, взагшодействуюгцих в этом предложении. Однако эта информация ничего не говорит нам о контексте предложения, о том, где разворачивается действие и что ему предшествует. Вычисление прагматики предложения является результатом анализа всего текста, в котором встречается данное предложение. К примеру, предложению "В молодости он готовил обед часами" серия про братьев Колобков придаёт новый смысл: готовить можно также и часами с кукушкой, используемыми как взбивающий прибор. Для-разрешения* подобных неоднозначностей необходимо вовлечение' новой предметной области, что создаёт предпосылку для создания базы знаний. Рассматривая каждое предложение как суперпозицию его слов, можно утверждать, что для анализа текста необходимо вычисление финальной' суперпозиции предложений*в тексте. .

Построение онтологии и анализ текста документа на её основе (ontology based information extraction) становится всё более популярным' методом семантического и прагматического анализа документа [45]. Исследователи преследуют несколько целей: вычисления мнений в тексте {sentiment récognition), распознавание свойств текста, таких как дата публикации, разрешение темпоральных ссылок (например, в прошлый понедельник), автор публикации, временное направление высказывания. Получаемые базы знаний представляют собой функционирующие системы с взаимодействующими объектами. Темпоральные (временные), атрибутные и реляционные характеристики [50] процессов дают возможность, составлять картину происходящего в тексте. Формализация правил и связей взаимодействующих объектов и загрузка их в базу данных может стать основой для« создания базы, знаний по конкретной области или знаний о мире в целом. База знаний может существенно улучшить качество машинного перевода, который зависит как от корректного семантического анализа на уровне отдельных предложений, так и семантико-прагматического анализа на уровне всего входного текста.

2. Синтез

Способом верификации семантического представления предложений является их синтез. Задача синтеза в целом принадлежит области порождения естественного языка (Natural Language Génération) [24]. Представлением семантического дерева в виде линейной структуры (предложения) занимается задача линеаризации как подзадача ЫЬС. Семантическим представлением предложения можно считать как выходные данные семантического анализатора проф. Тузова [19], так и список Л^-грамм, присутствующих в статистической? модели предложения; При синтезе предложения в случае статистического; анализа' нужно произвести; полный перебор; комбинаций/ пар (троек).' слов предложения, максимизируя? одновременное' присутствие биграмм (триграмм) в статистическихмоделяхпредложения и языка. Термин линеаризация [ 12]; точнее; обозначает процесс превращения»семантического/скобочного'Представленияшз; [19] в- предложение, чем этот же термин описывает поиск, в пространстве Ы-грамм, в случае: которого1 в западной литературе . предпочитают термин

Синтез предложений на естественном) языке; сопровождается встречей со многими трудностями: от выбора порядка однородных членов и групп членов (таких, как ряд деепричастных оборотов), до задачи разрешения;темпорального предшествования; простых предложений в: составе: сложносочинённого (:Я постучал, и Петя открыл мне дверь, а не наоборот).

У каждого из подходов — статистического и классического — есть свои ограничения:,. Статистика1 борется; за сужение пространства перебора по языковой- модели. Она напрямую зависит, от полноты и качества корпуса, используемого; для составления языковой модели. В классическом подходе нужно;долго; чаще всего вручную^. совершать глубокий, анализ;языка,, выявляя правила, построения предложений. Оба подхода обладают и своими преимуществами. Статистика, помимо высокой' степени автоматизируемости, позволяет генерировать предложения в стиле языковой модели, построенной по входному корпусу, который может быть литературным произведением; или потоком новостных сводок со свойственными им стилем и словарями. Классика, в- сочетании с теорией [19]^ даёт возможность» более точно семантически описать входной текст и более аккуратно проработать смысл генерируемых предложений;

Порождение предложений в целом, и линеаризация' семантического представления в частности, играют особо важную роль для машинного перевода. Когда все слова и конструкции переведены на целевой язык, нужно собрать их в предложение, где и подключается модуль линеаризации.

Альтернативным, способом- упрощения задачи- является^ вывод переведённых i конструкций в порядке их появления- в исходном предложении, что может давать приемлемые результаты для языков с похожим строем (русский и чешский).' Однако, в случае* пар языков; далёких друг от друга в этом* отношении; таких как английский и японский, без переупорядочивания не обойтись. Известно, что в японском-языке порядок,слов.предписывает цепочку Субъект — Объект — Глагол, что приводит к. рекурсивной структуре в случае со многими'экземплярами вложенных друг в друга цепочек. Так, предложение Репортёры сообщила, что IBM выпустила первый машинный переводчик должно- быть • преобразовано на японском языке в Репортёры- IBM первый машинный переводчик выпустила что сообщили.

3. Машинный перевод

С момента создания первой вычислительной-машины (40е годы ХХ века) машинный перевод являлся первой задачей; с- которой учёные собирались «расправиться» за короткие сроки [23]. Пёрвые опыты специалистами из IBM основывались главным, образом на словарном (прямом) методе и были весьма1, успешными для малого (250) количества входных предложений. Это обстоятельство подкрепляло уверенность в том, что задача машинного перевода — одна из самых простых задач компьютерной науки. Однако дальнейшие исследования, и доклад ALPAC (1966) [63] показали реальное состояние дел и то, что машинный перевод, по крайней мере, не является тривиальной задачей.

Переходя от прямого (словарного) метода к методу трансфера, а затем и к понятию интерлингвы [53], [54], алгоритмы машинного перевода (МП) поделились на две группы: статистические подходы, основанные на входном корпусе данных (Data Driven Machine Translation), и классические, изучающие каждый язык во всех лингвистических деталях {Rule Based Machine Translation).

В последнее десятилетие наибольшее внимание, если судить по количеству публикаций, в западной литературе уделяется статистическому МП, в то время как классический МП. считается- устаревающим: Заметим попутно, что в российской литературе ситуация* обратная: классические подходы привлекают значительно большее внимание специалистов.

Оба фундаментальных подхода имеют свои- недостатки. Вкратце, классические методы очень трудоёмки и требуют серьёзного труда лингвистов вместе с учёными компьютерной науки; Bi то время как качество работы статистических подходов напрямую зависят от качества входного корпуса, а также совершенно не учитывают семантический уровень формализации языка. Существуют и гибридные системы, делающие попытку вобрать лучшие характеристики классического и статистического МИ, минимизируя их недостатки.

В предлагаемой работе статистический подход применяется для автоматизации отображения семантики одного естественного языка на слова другого. Решается задача автоматического построения семантического переводного словаря и построения системы машинного перевода на его основе.

4: О структуре диссертации

Первая глава описывает формальные модели естественного языка. Три ключевые теории — грамматики Ноама Хомского, модель «смысл текст» И.А. Мельчука и функциональная теория В.А. Тузова — определили поворотные вехи в попытках учёных построить строгие формальные модели языка, понимаемые компьютером. Основная часть главы уделяет внимание тезисам и главным компонентам теории компьютерной семантики В.А. Тузова. Таким образом, в первой главе описывается теоретический аппарат, который лежит в основе алгоритмов и методов, предлагаемых в последующих главах работы.

Во второй главе описывается метод формализации связей в тексте на естественном языке. По классификации В.А. Тузова анализ текста начинается с анализа слова, продолжается^ анализом предложения и завершается выходом за пределы предложений в; тексте. Задача анализа теста содержит несколько подзадач. Среди них построение портретов объектов текста, формализация связей между объектами и разрешение анафорических ссылок. Решение задачи-анализа текста* необходимо для корректного решения задачи машинного перевода (МП), так как в общем виде МП должен происходить на уровне, выходящем за пределы -одного ^предложения.

Третья глава имеет дело с алгоритмами синтеза предложений на естественном языке. Делается обзор литературы по синтезу, основанному как на классических (контекстно-свободные грамматики, теория мереологии), так и на статистических методах (статистическое моделирование естественного языка). Предложенный далее статистический алгоритм, переупорядочивания слов на Диграммах служит иллюстрацией решения задачи синтеза статистическими методами; показываются сильные и слабые стороны подхода. Далее предлагается, и оценивается алгоритм линеаризации (термин предложен- И.А.Мельчуком в [12]) семантических структур, полученных с использованием семантического анализатора В.А.Тузова. Алгоритм' линеаризации решает частную задачу порождения предложений на естественном языке и имеет прямое приложение в машинном переводе.

Четвёртая глава описывает основные алгоритмы, и методы статистического и классического подходов к машинному переводу. Приводится краткий исторический обзор подходов к машинному переводу. Ставится и решается задача построения модели машинного перевода для пары русский-английский посредством скрещивания двух фундаментальных подходов (классика и статистика) к машинному переводу. Основное внимание уделяется методу автоматического построения и улучшения переводного семантического словаря.- На основе полученного словаря строится и оценивается« экспериментальная система машинного перевода. Проводится сравнение эффективности построенной системы с существующими на рынке статистическими и лингвистическими системами машинного перевода.

В конце каждой главы делаются выводы.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Кан, Дмитрий Александрович

Заключение

Задача машинного перевода занимает умы учёных компьютерной науки уже около пяти десятилетий. Изначальные представления учёных о чрезвычайной лёгкости задачи в 50-е гг. прошлого столетия, встретив существенные преграды на практике, показали свою недальновидность. Многочисленные безуспешные попытки решить задачу «одним махом» привели к затишью в научном мире на целое десятилетие. Машинный перевод на правилах, активно развивавшийся более 30 лет после затишья, в последнее время замещается статистическими алгоритмами. Предложенная профессором В.А. Тузовым функциональная теория естественного языка является фундаментом нового направления развития машинного перевода.

Целью работы было построение системы машинного перевода с применением семантического анализатора для снятия неоднозначностей и статистического моделирования для автоматической генерации переводного словаря.

Функциональная теория В.А. Тузова выступает фундаментом систем машинного перевода, начиная с семантического анализа текста на исходном языке и заканчивая синтезом предложений на целевом языке по переведённой семантической суперпозиции. Статистические методы были применены для автоматического построения переводных семантических словарей.

В результате исследования были построены:

• Алгоритм линеаризации семантических структур для синтеза предложений на естественном языке. Алгоритм вводит инвариант порядка слов предложений, находящихся внутри одной семантической области. Границы области определяются при помощи выполнения семантического анализа. Алгоритм имеет практическую реализацию.

• Метод анализа текстов на естественном языке. Предложен алгоритм построения портретов объектов в тексте и связей между ними. Произведена классификация связей между объектами в тексте. Изучается и теоретически решается задача разрешения анафорических ссылок в фокусе функциональной теории языка. Разрешение анафорических ссылок на основе теории» компьютерной семантики приводится впервые.

• Метод автоматического порождения переводного семантического словаря для пары языков русский<->английский. Метод применим для любого другого естественного языка в паре с русским при наличии соответствующего параллельного корпуса текстов. Русский язык выступает в этом случае исходным языком, с которого производится машинный перевод. Метод может быть применён и к таким парам языков, в которых в качестве исходного выступает любой язык: В.А. Тузовым доказано, что любой язык является функциональным. Построен также метод улучшения переводного семантического словаря посредством вовлечения предложно-падежных групп, как на этапе пополнения словаря, так и на этапе перевода.

• Переводной контекстно-зависимый семантический русско-английский-словарь, пригодный к автоматической обработке в составе системы машинного перевода. Словарь содержит около 18 тысяч статей. Словарь предложно-падежных групп, поставленных в соответствие английским предлогам (более 3,4 тысяч статей).

• Модель перевода, позволяющая избавиться от «шумов» в автоматически построенном переводном контекстном семантическом словаре.

• Экспериментальная система машинного перевода на основе построенных переводного семантического словаря и модели перевода.

Роль статистических методов при скрещивании их с функциональной теорией В.А. Тузова заслуживает дальнейшего глубокого теоретического и экспериментального исследования. Необходимо выявить новые подзадачи, где подобное скрещивание разумно. Приоритетным направлением исследования автора выступает построение функциональной модели других естественных языков таких, как английский и финский. Построение соответствующих семантических анализаторов позволит существенно улучшить системы машинного перевода, основанные на алгоритмах и методах теории компьютерной семантики В. А Тузова. В настоящий момент ведётся сотрудничество с финскими университетами и носителями финского языка с целью наладить диалог в направлении построения качественного машинного перевода для русского и финского языков. В частности, получен размеченный корпус для финского языка и его перевод на русский язык, что является основой для построения переводного семантического словаря.

Другой приоритетной задачей является представление теории компьютерной семантики [19] западному и российскому научному сообществу В частности, ведётся сотрудничество: с авторами корпуса ЦМС [59]; в рамках программы РЕШСТ [35,66], соединяющей Россию и Финляндию; с университетом г. Тампере (Финляндия).

Список литературы диссертационного исследования кандидат физико-математических наук Кан, Дмитрий Александрович, 2011 год

1. Кан Д.А. Задача синтеза предложений на естественном языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2009. Вып. 3. С. 205—212.

2. Кан Д.А., Лебедев И.С. Способ формализации связей в тексте при обработке естественно-языковых конструкций // Вестн. С.-Петерб. ун-та. Сер. 10, 2008. Вып. 2. С. 56—61.

3. Кан ДА., Лебедев И.С., Сухопаров Е.А. Идентификация объектов текста в информационных системах // Программные продукты и системы, 2009, 2(86). С. 163—168.

4. Кан Д.А., Лебедев И.С.: Линеаризация при синтезе предложений наестественном языке. Политехнический симпозиум «Молодые учёныепромышленности Северо-Западного региона»: материалы конференций. СПб.: Изд-во С.-Петерб. политехи, ун-та, 2007. С. 15—16.

5. Кутарба А.Ю. Построение семантического словаря для обработки англоязычных текстов: диссертация на соискание учёной степени кандидата физико-математических наук: 05.13.11.- Санкт-Петербург, 2006. 129 е.: ил. РГБ ОД, 61 06-1/686.

6. Лебедев И.С. Построение шаблонов кода по текстам спецификаций //Информационно-управляющие системы, 2009, 5. С. 39—42.

7. Липатов A.A., Мальцев A.A. Методы автоматизации построения и пополнения двуязычных словарей с использованием корпусов параллельных текстов // Труды международной конференции Диалог'2006, М. 2003.

8. Мельчук И.А. Русский язык в модели «смысл<->текст». — М.: Языки русской культуры, 1995. 682 с.

9. Мельчук И.А., Жолковский А.К.: Толково-комбинаторный словарь современного русского языка. Вена, 1984.

10. Плашенкова И.Н.: Автоматический синтез структурированных предложений. Математическая морфология. — Т. 4. - Вып. 1. 2002.

11. Свердлов С.З. Языки программирования и методы трансляции: Учебное пособие. СПб: Изд-во Питер, 2007. 638 с.

12. Сиротинина О.Б. Порядок слов в русском языке. Изд.З-е,стереотипное. -М.: КомКнига, 2006. 174 с.

13. Толпегин П.В. Информационные технологии анализа русских естественно-языковых текстов. Ч. 1 // Журнал «Информационные технологии», № 8. 2006. С. 41—50.

14. Тузов В.А. Компьютерная семантика русского языка. СПб: Изд-во С.-Петерб. ун-та, 2004. 400 с.

15. Хомский Н. Синтаксические структуры. В сб.: "Новое в лингвистике", вып. 2. М, Изд-во ин. лит., 1962. С. 412—527.

16. Al-Onaizan Y., Curin J., Jahr M., Knight К., Laerty J., Melamed D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine Translation. Final report, JHU Workshop, 1999.

17. Athanaselis Т., Bakamidis S., Dologlou I.: A Fast Algorithm for Words Reordering Based on Language Model. In: 16th International Conference Artificial Neural Networks ICANN 2006. P. 943—951.

18. Baker M.: Routledge Encyclopedia of Translation Studies, 2001. P. 140.

19. Baum L.E. An inequality and associated maximization technique in statistical estimation of probabilistic functions of a Markov process // Proceedings of the Third Symposium on Inequalities. New York. Academic Press. Vol. 3. P. 1—8. 1972.

20. Baykan, E., Henzinger, M., and Weber, I. Web page language identification based on URLs. // Proc. VLDB Endow, vol. 1 no. 1, 2008. P. 176—187.

21. Brown P.F., Delia Pietra V.J., Delia Pietra S.A., Mercer R.L. The mathematics of statistical machine translation: Parameter estimation // Computational Linguistics. Vol. 19. No. 2. P. 263—311. 1993.

22. Callison-Burch C., Osborne M., Koehn P. Re-evaluating the Role of Bleu in Machine Translation Research. Proceedings of EACL, 2006. P. 249—256.

23. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm // Journal of the Royal Statistical Society. Vol. 39. No. l.P. 1—38. 1977.

24. Elming, J.: Syntactic Reordering Integrated with Phrase-based SMT. Proceedings of the 22nd International Conference on Computational Linguistics, 2008. P. 209—216.

25. Fellbaum, C. (Ed.). WordNet. An Electronic Lexical Database. The MIT Press, 1998.

26. Gale, William A.; Church, Kenneth W.: "A Program for Aligning Sentences in Bilingual Corpora", 1993. Computational Linguistics 19 (1): pp. 75— 102.

27. Gimenez J. Empirical Machine Translation and its Evaluation. Ph.D. Thesis, Universität Politecnica de Catalunya, Barcelona, July, 2008.

28. John Hutchins. Petr Petrovich Troyanskii (1894-1950): A forgotten pioneer of mechanical translation. // Machine Translation, vol. 15 no. 3, 2000. P. 187—221.

29. Kääriäinen M. Sinuhe Statistical Machine Translation using a Globally Trained Conditional Exponential Family Translation Model. In Conference on Empirical Methods in Natural Language Processing, 2009. P. 1027-1036.

30. Kan D., Poroshin V. Semantic Analysis: Theory, Applications and Use Case. // Proceedings of 6th Seminar of Finnish-Russian University Cooperation in Telecommunications (FRUCT) Program, 2009. Helsinki, Finland. P. 191.

31. Koehn P. et al. Moses: Open Source Toolkit for Statistical Machine Translation. // Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June, 2007.

32. Lavie A., Agarwal A. Meteor: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments. // Proceedings of the117 "

33. Second Workshop on Statistical Machine Translation, ACL, Prague, June, 2007. P. 228- 231.

34. Liu Di, Gildea D; Syntactic Features; for Evaluation of Machine: Translation. Proceedings of ACL Workshop; on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005.

35. Maxim Mozgovoy. Enhancing Computer-Aided Plagiarism Detection.

36. University of Joensuu; Computer Science, Dissertations 18 . 131 pp. Joensuu, 2007t

37. Mitkov R., Belguith L., Stys M. Multilingual robust anaphora resolution. In! Proceedings of the 3rd Conference on Empirical Methods in Natural" Language Processing. P. 7—16. 1998.

38. Reiter E., Dale R.: Building Applied Natural Language Generation Systems. Cambridge,University Press, New York (2000).

39. Saggion H., Funk A., Maynard D., Bontcheva K. Ontology-Based Information Extraction for Business Intelligence // Lecture Notes in Computer Science. Vol: 4825/2008: Springer 2008. P. 843—856.

40. Stolcke A.: SRILM: An extensible language modeling toolkit. Speech Technology and Research Laboratory (2002).

41. Toutanova K., Klein D., Manning C., Singer Y. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In Proceedings of HLT-NAACC, 2003. P. 252—259.

42. Turney P.D. The Latent Relation Mapping Engine: Algorithm and Experiments. Journal of Artificial Intelligence Research 33, 2008. P. 615—655.

43. Zhang J., Zong C., Li S.: Sentence Type Based Reordering Model for Statistical Machine Translation. In: Proceedings of the 22nd International Conference on Computational Linguistics. 2008. P. 1089—1096.1. Электронные источники

44. Дерновой F. Семантический анализ и РОМИП, 2003. URL: http://romip.ru/romip2003/7 dernovov.pdf (дата обращения: 9.6.2011).

45. Кан Д.А. Курс «Введение в машинный перевод». Ч. 1. С. 19. URL: http://www.slideshare.net/dmitiTkariyintmduction-to-machine-translation-291103 8 (дата обращения: 2.02.2011).

46. Сайт проекта PROMT™' URL: http://translate.ru (дата обращения: 9.6.2011).

47. Clark S. Applications: Statistical Machine Translation, Part II: NLP, University of Cambridge.

48. URL: http://www.cl.cam.ac.uk/teaching/0809/NLP/slides-steve.pdfдата обращения: 9.6.2011).

49. Gerstenberger С. Why mereology for the linearization task in NLG? University of Saarland, 2006.

50. URL:http://www.coli.uni-saarland.de/proiects/igkycontents/Colloquium/WS-05/ciprian.pdf (дата обращения: 9.6.2011).

51. Kaariainen M. Sinuhe Statistical Machine Translation using a Conditional Exponential Family Translation Model. EMLNLP, Singapore, 2009: URL: www.cs.helsinki.fi/u/mtkaaria/sinuhe/emnlpslides.pdf (дата обращения: 9.6.2011).

52. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English Multilingual Corpus. // Proceedings of the Conference "Corpora 2008".

53. URL: http://ufal.mff.cuni.cz/umc/cer/ (дата обращения: 9.6.2011).

54. Philipp Koehn. Europarl: A Parallel Corpus for Statistical Machine Translation, MT Summit 2005.1. URL:http://www.iccs.inf.ed.ac.uk/~pkoehn/publications/europarl-mtsummit05.pdf (дата обращения: 9.06.2011).61. tree.hh: an STL-like С++ tree class.

55. URL: http://www.aei.mpg.de/~peekas/tree/, (дата обращения: 9.6.2011).

56. Демонстрация системы разрешения анафорических ссылок: TJRL; http://clg.wlv.ac.uk/demos/MARS/index.php (дата обращения: 9.6.2011).

57. Онлайн версия доклада ALPAC. XJRL; http://www.nap.edu/openbook.php?isbn=ARC000005 (дата обращения: 9.6.2011).

58. Сайт Джона Хатчинса: URL: http://www.hutchinsweb.me.uk/maiiTjTi^ (дата обращения: 9.6.2011).65. сайт компании URL: http://www.systran.со.uk/ (дата обращения: 10.6.2011).

59. Сайт проекта FRUCT (Finnish-Russian University Cooperation in Telecommunications) URL: www.fruct.org (дата обращения: 21.03.2010).

60. Сайт проекта Google Translate URL: http://www.translate.googlerr^n (дата обращения: 9.6.2011).

61. Сайт проекта Moses URL: http ://www. statmt.org/moses (дата обращения: 9.6.2011).

62. Сайт проекта Stanford Log-linear Part-of-Speech Tagger URL: http://nlp.stanford.edu/software/tagger.shtml (дата обращения: 9.6.2011).

63. Список английских предлогов:

64. URL: http://en.wikipedia.org/wiki/List of English prepositions (дата обращения: 9.6.2011).

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.