Математические основы автоматизированной таджикско-персидской конверсии графических систем письма тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Гращенко, Леонид Александрович
- Специальность ВАК РФ05.13.18
- Количество страниц 115
Оглавление диссертации кандидат физико-математических наук Гращенко, Леонид Александрович
Введение.
Концептуальная модель таджикско-персидской конверсии графических систем письма.
Глава 1. Анализ содержания таджикско-персидской конверсии текстов.
1.1. Систематизация исходных понятий предметной области.
1.2. Анализ содержания, целей и методов межъязыковой конверсии систем письма.
1.3. Математическая экспликация исходного понятийного базиса.
1.4. Анализ особенностей конверсии систем письма применительно к таджикско-персидской языковой паре.
1.5. Систематизация проблемных вопросов предметной области.
1.6. Анализ существующих и перспективных подходов, методов, методик конверсии систем письма применительно к таджикско-персидской языковой паре.
Выводы по 1 главе.
Глава 2. Исследование словарных множеств таджикско-персидской языковой пары и их отношений.
2.1. Формирование двуязычного таджикско-персидского словаря.
2.2. Разработка вспомогательных функций для преобразования символьных цепочек.
2.3. Разработка моделей морфологического представления словоформ таджикского и персидского языков.
2.4. Разработка моделей представления и выявления в тексте арабских заимствований таджикского и персидского языков.
2.5. Кластерный анализ словарных баз.
Выводы по 2 главе.
Глава 3. Моделирование системы таджикско-персидской конверсии текстов.
3.1. Обобщенная математическая модель процесса таджикско-персидской конверсии.
3.2. Алгоритмический и параметрический синтез модели таджикско-персидской конверсии графических систем письма.
3.3. Информационно-логическое и функциональное моделирование автоматизированной системы таджикско-персидской конверсии текстов
3.4. Описание проблемно-ориентированного программного комплекса таджикско-персидской конверсии графических систем письма.
3.5. Научно-технические предложения по практическому использованию результатов и положений настоящего исследования.
Выводы по 3 главе.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Структурная типология лексико-морфологической системы таджикского языка2010 год, кандидат филологических наук Фомин, Алексей Юрьевич
Современный таджикский литературный язык: Функционирование и развитие1997 год, доктор филологических наук Керимова, Аза Алимовна
Трактат Амир Хусрава Дихлави "Эъджази Хусрави" ("Чудо Хусрава") и традиции эпистолярного жанра в истории персидско-таджикской литературы: X - XIV вв.2009 год, доктор филологических наук Мисбохиддини Нарзикул
Персидско-таджикские переводы Корана и комментарии к нему в Х-ХII вв. и их литературное значение2012 год, доктор филологических наук Насриддинов, Фахриддин Абдуманонович
Становление и развитие персидско-таджикской научной терминологии: на материале научного наследия IX-XI вв.2008 год, доктор филологических наук Султонов, Мирзохасан Баротович
Введение диссертации (часть автореферата) на тему «Математические основы автоматизированной таджикско-персидской конверсии графических систем письма»
Существующая ситуация в области межкультурной коммуникации персоязычных народов во многом предопределена историческими событиями XIX - XX веков в Средней Азии и на Среднем Востоке, когда большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований - Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари - в Афганистане и таджикский - сначала на части территории бывшей Российской империи, потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана и Киргизии [3.1, 3.8, 3.25, 5.1], рисунок 0.1.
Рис. 0.1. География распространения персидского языка
Сохранив общую языковую систему, таджикский и персидский языки имеют в настоящее время разные системы письма: персидский (ПЯ) — письмо на основе арабской графики, а таджикский (ТЯ) - на основе расширенного кирилловского алфавита. При этом преобразование текстов с одного языка на другой нетривиально и не сводится к простой транслитерации [3.37, 5.1]. Неоднозначность соответствия букв используемых в ТЯ и ПЯ алфавитов создают проблему нахождения системы правил отображений между ними.
Так, фраза классика таджикско-персидской поэзии XVI века Бадриддина Хдполи из произведения «Еазалиёт», одинаково понятная на слух и таджикам, и персам, в письменной речи выглядит по-разному:
Сухан зо^ир кунад сузи нщонро Зи шамъи дил барафрузад цацонро. 1J Ch^ Ajjj^Л (jr^ LS*
Слово боль передаёт, что в душе таится, Искрой сердца целый мир может озариться.
Наметившееся относительно недавно и неизбежное в исторической перспективе сближение персоязычных стран нуждается в интенсификации документооборота, обеспечивающего экономический, культурный и научный обмен информацией, а также официальную, коммерческую и частную переписку участников межъязыковой коммуникации.
С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике проявляются серьезным сдерживающим фактором развития электронной коммуникации между гражданами и организациями этих стран, обуславливающим существование проектов перехода Таджикистана на арабскую графику, а Ирана, возможно, - к алфавиту на основе латиницы [3.12, 3.25].
Указанные факторы обуславливают актуальность проблематики согласования систем письменности таджикского и персидского языков за счет разработки, исследования и обоснования системы формализованных правил взаимной конверсии письменных текстов рассматриваемой языковой пары, а на её основе - средств автоматизации данных процессов.
Однако для разработки такой системы необходимо провести полномасштабные исследования на стыке филологии, компьютерной лингвистики и информационной науки. Для интенсификации таких исследований, возможно, потребуется разработать программные средства поддержки научных изысканий [5.1].
Степень разработанности проблемы
До недавнего времени рассматриваемая проблематика разрабатывалась, в основном, методами языкознания, при этом удовлетворительных решений найдено не было. Согласование систем письма производилось за счет разработки стандартов транслитерации таджикских и персидских текстов в промежуточный текст на основе латинской графики [5.3]. Недостатки этого подхода очевидны. Языковая ситуация с письменностями таджикского и персидского языков, в том числе и в исторической ретроспективе, отражена в ряде трудов (Мусаев К.М., Асимова Б.С., Исаев М.И., Collin R.O.).
Таким образом, для замены диффузной, интуитивно сформулированной и не имеющей полного решения лингвистической задачи на математическую задачу, логически сформулированную и имеющую алгоритмическое решение, целесообразна математическая экспликация указанной проблематики, методология которой дана в работах Пиотровского Р. Г. [2.11, 2.12].
Для решения поставленной задачи автором применен комплексный подход [5.4], сочетающий отдельные стороны детерминированного и вероятностного подходов, получивших отражение в научных трудах по компьютерной и математической лингвистике [2.11, 4.1]. Решение задачи основано на членении словоформ исходного таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения, автором разработан автоматический вероятностный морфологический анализатор ТЯ. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище.
Теоретическими основами для реализации описанного подхода явились научные работы в областях вероятностного машинного перевода [3.24, 3.30] (Koehn P., Brown Р.); автоматической транскрипции имен собственных [3.2, 3.3, 3.36, 3.39, 4.7] (Бондаренко А.В., Stalls В. G., Kevin К.); автоматической транскрипции для преобразования текст-речь [3.23, 4.8] (Azimizadeh A., Arab М.М., Quchani S.R.).
В качестве альтернативной выступает разработка на основе технологии Xerox Finite State Technology (Megerdoomian К., Parvaz D.), показывающая точность конверсии до 90% [3.37].
Значительный практический опыт обобщен рядом исследователей в области транслитерации личных имен [2.5, 3.22, 3.32, 3.36] (Ермолович Д.И., Arbabi М., Fischthal S., Pouliquen В., Steinberger R.), а также систем межъязыковой транслитерации: англо-японских [3.41, 3.29] (Finch A., Sumita Е., Knight К., Graehl J.), англо-персидских [3.33] (Karimi S., Scholer F., Turpin А.) и англо-арабских [3.19] (AbdulJaleel N., Larkey L.); системы конверсии текстов пенджабского языка [3.35] (Saini T.S., Lehal G.S.).
Математическая база для практической реализации систем обработки текстов, модели словообразования и морфоанализа для ТЯ и ПЯ отражены в ряде работ ученых Таджикистана [3.14, 2.7, 4.4] (Усманов З.Д., Исмаилов М.А., Худойбердыев Х.А.).
Лингвистические основы преобразования систем письменности и типизации словарного многообразия таджикско-персидской языковой пары представлены рядом работ таджикских лингвистов [2.1, 3.16, 3.17] (Фомин А.Ю., Амонова Ф.).
Приведенные выше сведения подтверждают актуальность задачи автоматизации конверсии графических систем письма для указанной пары языков, а также позволяют уточнить и сформулировать цель диссертационных исследований: разработать эффективный вычислительный алгоритм таджикско-персидской конверсии графических систем письма и реализовать его в виде проблемно-ориентированного программного комплекса.
Для достижения этой цели была сформулирован и решен ряд частных научных задач:
1. Анализ и систематизация существующих научных знаний в области автоматической межъязыковой конверсии текстов.
2. Исследование закономерностей отображения множества таджикских словоформ в персидские при таджикско-персидской конверсии текстов (ТПКТ).
3. Разработка, исследование и обоснование математической модели ТПКТ.
4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматической ТПКТ и их реализация в виде проблемно-ориентированного программного обеспечения.
5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Объектом диссертационного исследования являются системы письма и множество словоформ таджикско-персидской языковой пары.
Предметом исследований выступают методы и средства (комплекс алгоритмов), которые необходимо реализовать для обеспечения автоматизированной таджикско-персидской конверсии систем письма.
Научная новизна выполненных в диссертационной работе исследований обусловлена:
1. применением математической экспликации рассматриваемой предметной области;
2. сочетанием детерминированного и вероятностного подходов к решению задачи ТГЖТ, за счет чего нивелированы недостатки и суммированы достоинства каждого из них в отдельности;
3. применением нового подхода к морфологическому анализу заимствованных слов ТЯ, учитывающему морфологические правила языков, из которых произошло заимствование;
4. проведением комплексного кластерного анализа множества словоформ ТЯ, позволившего получить перечни и статистические распределения для различных морфологических элементов ТЯ.
Практическая значимость работы состоит в возможности широкого внедрения созданных средств конверсии в системах документооборота, а также в качестве элемента многозвенных систем машинного перевода.
Теоретическая ценность работы состоит в том, что разработанный подход к математическому моделированию и реализации вычислительных алгоритмов в области межъязыковой конверсии текстов эффективно приспосабливаются для решения как обратной задачи персидско-таджикской конверсии текстов, так и аналогичных задач для других языковых пар.
Исходя из поставленной цели исследований по разработке инструментария таджикско-персидской конверсии текстов, определена структура и содержание диссертационной работы. Она содержит введение, три главы, заключение и приложения.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Иранистика и таджиковедение в немецкоязычной историографии: ХV -нач. ХХI вв.2010 год, доктор исторических наук Вохидова, Санавбар
Анализ использования компьютерной лингвистики в текстах на персидском языке2015 год, кандидат наук Мухсен Рахими
Становление и развитие таджикской переводной лексикографии ХХ и начала ХХI вв."2013 год, доктор филологических наук Мамадназаров, Абдусалом
Формирование орфографических правил таджикского языка в XX веке2015 год, кандидат наук Хомидова, Замирахон Абдухафизовна
Сопоставительный анализ лексических единиц таджикского и узбекского языков: в условиях взаимодействия2007 год, кандидат филологических наук Раджабова, Раъно Рахматовна
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Гращенко, Леонид Александрович
Выводы по 3 главе
1. На основе обобщенной математической модели ТПКГСП (6) и частных моделей представления словоформ ТПЯП (1) - (5) произведено содержательное описание уточненной модели конверсии на основе выбранного в данном исследовании комплексного подхода.
2. В результате обобщения результатов анализа предметной области, введенных требований и ограничений (§§ 1.5, 1.6), предложены структурная и функциональная модели автоматизированной системы ТПКГСП.
3. Практически реализован прототип АС ТПКГСП, произведены его натурные испытания, подтвердившие применимость предложенных в работе моделей и алгоритмов.
4. Предложены дальнейшие направления исследований, продолжающих рассматриваемую в работе тематику.
ЗАКЛЮЧЕНИЕ
В соответствии с поставленной научной задачей диссертационных исследований по разработке моделей и эффективного вычислительного алгоритма автоматизированной таджикско-персидской конверсии графических систем письма и реализации его в виде проблемно-ориентированного программного комплекса, в работе были получены следующие научно-практические результаты.
1. Произведена систематизация понятийного базиса в области межъязыковой конверсии графических систем письма, с точки зрения системного подхода рассмотрен процесс конверсии систем письма, его содержание и характеристики.
2. Применительно к задачам настоящего исследования дано описание особенностей таджикско-персидской языковой пары, произведен анализ содержания таджикско-персидской конверсии графических систем письма. На основе анализа подходов, методов и средств конверсии предложен комплексный подход к решению задач настоящего исследования.
3. На этапе исследования отношений словарей таджикского и персидского языков разработаны модели представления и сравнения словоформ, а также детализованные модели представления словоформ ТПЯП на основе учета языка, из которого они были заимствованы.
4. Получены результаты кластерного анализа словарных баз, подтверждающие правильность гипотезы начального этапа исследования о возможности нахождения конечного числа правил однозначного отображения в словоформы ПЯ для значительного числа словоформ ТЯ, легшей в основу комплексного подхода к решению научной задачи.
5. Доказана достоверность полученных в работе результатов исследования на основе обоснования и доказательства правильности выбора методов исследования, корректности сделанных допущений и ограничений, согласованности полученных результатов с результатами исследования в других предметных областях, а также по тематике, близкой к теме диссертации.
6. Осуществлена программная реализация прототипа АС ТПКГСП. На основе проведенных экспериментов доказана адекватность и применимость разработанных моделей и алгоритмов.
7. Помимо выносимых на защиту, к качественно новым результатам, полученным в работе, относятся:
- на основе математической экспликации предметной области выполнен анализ содержания межъязыковой конверсии систем письма к ТПЯП;
- предложен подход к рассмотрению входного текста, подлежащего конверсии как последовательности элементов некоторого числа классов — словоформ различного языкового происхождения, по отношению к которым необходимо разрабатывать различные модели представления и конверсии;
- предложен алгоритм генерации двуязычного таджикско-персидского словаря.
Таким образом, основными результатами исследований, полученными в ходе решения научной задачи и выносимыми на защиту, являются:
- результаты кластерного анализа множеств словоформ ТЯ и ПЯ, двуязычного таджикско-персидского словаря;
- математическая модель таджикско-персидской конверсии текстов;
- алгоритм и структура системы автоматической таджикско-персидской конверсии текстов.
Цель диссертационных исследований достигнута. В качестве направления перспективных исследований, развивающих полученные результаты, можно предложить решение обратной задачи - разработку основ построения автоматизированных систем персидско-таджикской конверсии текстов.
Список литературы диссертационного исследования кандидат физико-математических наук Гращенко, Леонид Александрович, 2010 год
1. Нормативно-правовые акты, стандарты
2. Л. ГОСТ 7.79-2000 (ИСО 9-95). Правила транслитерации кирилловского письма латинским алфавитом М.: Изд-во стандартов, 2002. - 19 с.
3. ГОСТ 19.701-90 (ИСО 5807-85). Единая система программной документации. Схемы алгоритмов, программ, данных и систем. Условные обозначения и правила выполнения М.: Изд-во стандартов, 1990. -24 с.
4. ГОСТ 7.28-2002 (ИСО 5426-83, ИСО 5426-2-96). Система стандартов по информации, библиотечному и издательскому делу. Расширенный набор символов латинского алфавита для обмена информацией Минск: Изд-во стандартов, 2003. - 19 с.
5. ГОСТ 27465-87. Системы обработки информации. Символы. Классификация, наименование и обозначение М.: Изд-во стандартов, 1988. -24 с.
6. ГОСТ Р ИСО/МЭК 12207-99. Информационная технология. Процессы жизненного цикла программных средств М.: Изд-во стандартов, 2000.-46 с.
7. Проект отраслевого стандарта. Информационные технологии. Термины Юникод Электронный ресурс. : http://gsnti-norms.ru/norms/common/doc.asp?Q&/norms/dict/unicode.htm
8. ISO 233-3:1999. Information and documentation. Transliteration of Arabic characters into Latin characters. Part 3: Persian language Simplified transliteration. - ISO TC46, 1999. - 14 pp.
9. The Unicode Standard, Version 5.2. Mountain View, CA: The Unicode Consortium, Электронный ресурс.: http://www.unicode.Org/versions/Unicode5.2.0/
10. Книги, монографии, руководства
11. Амонова Ф.Р. Именное аффиксальное словообразование в современном персидском и таджикском языках: Учеб. пособие. — Душанбе: 1982.-55 с.
12. Бердыева Т. Лексика и грамматические элементы арабского языка в таджикском. Душанбе: «Дониш», 1968. - 23 с.
13. Бильгаева Н.Ц. Теория алгоритмов, формальных языков, грамматик и автоматов: Учебное пособие. Улан-Удэ: Изд-во ВСГТУ, 2000. - 51 с.
14. Грязнухина Т.А., Дарчук Н.П., Комарова Л.И. и др. Лингвистические проблемы автоматизации редакционно-издательских процессов. Киев: «Наукова думка», 1986. - 231 с.
15. Ермолович Д.И. Имена собственные на стыке языков и культур. — М.: Р.Валент, 2001. 200 с.
16. Зиндер Л.Р. Очерк общей теории письма. Л.: «Наука», 1987. — 112с.
17. Исмаилов М.А. Основы автоматизированного морфологического анализа слов таджикского языка. Душанбе: ПИО НПИЦентр, 1994. - 156 с.
18. Колмогоров А.Н., Драгалин А.Г. Математическая логика. Дополнительные главы: Учеб. пособие. М.: Изд-во Моск. ун-та, 1984. - 120 с.
19. Комиссаров В.Н. Теория перевода (лингвистические аспекты). Учеб. для ин-тов и фак. иностр. яз. М.: Высшая школа, 1990. - 253 с.
20. Персидско-русский словарь: в 2-х томах. Свыше 60000 слов / под ред. Ю. А. Рубинчика. 2-е изд., стереотип. М.: Русский язык, 1983. т. 1 — 800 е.; т. 2-864 с.
21. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: «Высшая школа», 1977. - 383 с.
22. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: «Наука», 1979. - 112 с.
23. Практическая транскрипция фамильно-именных групп / под. ред. Р.С. Гиляревского. М.: Физматлит, 2004. - 224 с.
24. Расторгуева B.C. Краткий очерк грамматики таджикского языка // Таджикско-русский словарь / под ред. М. В. Рахими, JT. В. Успенской. Гл. ред. Е. Э. Бертельс. М., 1954.- 791 с.
25. Рубинчик Ю.А. Грамматика современного персидского литературного языка /Ю.А. Рубинчик; РАН. Ин-т востоковедения, МГУ им. М.В.Ломоносова. Ин-т стран Азии и Африки. Москва: Восточная литература, 2001.- 600 с.
26. Смит Б. Методы и алгоритмы вычислений на строках. М.: Вильяме, 2006. - 496 с.
27. Советов Б.Я., Яковлев С.А. Моделирование систем: Учеб. для вузов. М.: Высш. шк, 2001 - 343 с.
28. Сухотин Б.В. Исследование грамматики числовыми методами // Инт рус. языка АН СССР. Отв. ред. А.А. Зализняк. М.: Наука, 1990. - 176 с.
29. Таджикско-русский словарь, т.1 /под ред. С.Д. Холматовой, С. Солехова, С. Каримова. Душанбе: «Дониш», 2004. - 388 с.
30. Таджикско-русский словарь, т.2 /под ред. Д. Саймиддинова, С.Д. Холматовой, С. Каримова. Душанбе: «Дониш», 2005. - 461 с.
31. Тарабрин С.И. Основы правописания персидского языка: учебная разработка. М.: Военный университет министерства обороны, 2004. - 21 с.
32. Файн B.C., Рубанов Л.И. Машинное понимание текстов с ошибками. М.: «Наука», 1991. - 151 с.3. Статьи, доклады.
33. Асимова Б.С., Исаев М.И. Состояние алфавитов и орфографий иранских языков народов СССР // Опыт совершенствования алфавитов и орфографий языков народов СССР М.: «Наука», 1982. - С. 189 - 194.
34. Бондаренко А.В. и др. Автоматизация процесса транскрипции для задачи многоязыковой передачи имен собственных // Известия Академии Наук. Теория и системы управления том 43, №6 - 2004. - С. 892-898.
35. Бондаренко А.В. и др. Метод фонетической транскрипции с использованием единого промежуточного фонетического представления / Препринт Института Прикладной Математики им Келдыша М.В. М.: РАН, №90, 2003.-28 с.
36. Бондаренко А.В., Герасименко А.А. Автоматическая транскрипция именных групп в процессах обработки машиносчитываемых проездных документов // Вестник компьютерных и информационных технологий. 2008. -№3. — С. 8-17.
37. Галенко В.Т. Многоязычная коммуникация кириллических языков // Библиотековедение. 2007. - № 2. - С. 60-63.
38. Мазуренко И.Л., Бабин Д.Н., Холоденко А.Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы, 2004, том 8, вып. 1-4. С. 45-70.
39. Каспарова Н.Н. Язык библиографической записи / Каспарова Н.Н. // Библиотека. 2004. - № 5. - С. 43-45.
40. Мусаев К.М. Разработка и усовершенствование алфавитов и орфографий языков народов СССР // Опыт совершенствования алфавитов и орфографий языков народов СССР М.: «Наука», 1982. — С. 5 - 18.
41. Назаров Р.С. База постфиксов компьютерного морфологического анализа слов таджикского литературного языка // Доклады АН РТ том 49, №7 -2006.-С. 620-627.
42. ЗЛО. Ножов И.М. Прикладной морфологический анализ без словаря // КИИ-2000. Труды конференции. -М.: Физматлит, 2000. Т.1. - С. 424-429.
43. Садовский М.Г. О сравнении символьных последовательностей // Вычислительные технологии том 10, №3 - 2005. - С. 108 - 116.
44. Сиддикзода С. Таджикский язык: с приставкой «фарси» или без нее? // Media Insight Central Asia 2002. - №27. - 3 с.
45. Усманов З.Д., Абдухамидов А.А., Исмаилов М.А. О статистических закономерностях слогового разнообразия таджикского языка // Доклады АН РТ, 2002, т. 45,№5-6-С. 9-14.
46. Усманов З.Д., Исмаилов М.А., Гафуров Д.А. Распознавание словоформ таджикского языка // Доклады АН РТ, 2002, т. 45, №5-6 С. 4-8.
47. Усманов З.Д., Довудов Г.М. О формировании базы префиксов таджикского литературного языка // Доклады АН РТ том 52, №6 - 2009. — С. 431 -436.
48. Фомин А.Ю. Система признаков автоматизированного распознавания арабских заимствований в таджикских текстах // Доклады АН РТ-том 52, №1 -2009.-С. 17-22.
49. Фомин А.Ю. Система признаков русско-интернациональных заимствований в таджикском языке Электронный ресурс.: http://taipers.narod.ru/ailicle4.htiTil
50. Шакиб-Мапеш Амир. Свободно распространяемая программа Persian multi-language dictionary версии 2.0 Электронный ресурс. : http ://users. i vu. fi A~am i s hak/.
51. AbdulJaleel N., Larkey L.S. English to Arabic Transliteration for Information Retrieval: A Statistical Approach. In Proceedings of the twelfth international conference on Information and knowledge management, New Orleans, LA, USA, 2003, pp. 139 146.
52. AbdulJaleel N., Larkey L.S. Statistical Transliteration for English-Arabic Cross Language Information Retrieval. In Proceedings of CIKM2003, pp. 139-146.
53. AleAhmad A., Amiri H., Rahgozar M., Oroumchian F. Hamshahri: A Standard Persian Text Collection. Database research Group, University of Tehran, 2008.- 12 p.
54. Arbabi M., Fischthal S. M., Cheng V. C., Bart E. Algorithms for Arabic name transliteration. In IBM Journal of Research and Development, 1994, vol. 38(2), pp. 183-193.
55. Azimizadeh A., Arab M.M., Quchani S.R. Persian part of speech tagger based on Hidden Markov Model. In JADT 2008: 9es Journees Internationales d Analyse statistique des Donnees Textuelles, pp. 121-128.
56. Brown P., Pietra S. D., Pietra V. D., Mercer R. The mathematics of statistical machine translation: parameter estimation. In Computational Linguistics, 1991, vol. 19(2), pp. 263-311.
57. Collin R.O. Revolutionary Scripts: The Politics Of Writing Systems. Report presented on Vernacular 2005 Conference on Language and Society. Электронный ресурс. : http://www. omnivlot. coniflariguase/articles/revohitionarv scripts, doc
58. Darrudi E., Hejazi M.R., Oroumchian F. Assessment of a Modern Farsi Corpus. In Proceedings of the 2nd Workshop on Information Technology & its Disciplines (WITID), Iran, ITRC, 2004 5 p.
59. Denoual E., Lepage Y. The character as an appropriate unit of processing for non-segmenting languages. In Proceedings of the 12th Annual Meeting of The Association ofNLP, 2006, pp. 731-734.
60. Esfahbod B. Persian Computing with Unicode. In Proceedings of the 25th Internationalization and Unicode Conference, Washington, DC, 2004 — 22 p.
61. Knight K., Graehl, J. Machine Transliteration. In Computational Linguistics, 1998, vol. 24(4), pp. 599-612.
62. Koehn P., Och F.J., Marcu D. Statistical Phrase-Based Translation. In Proceedings of the Human Language Technology Conference2003 (HLT-NAACL 2003), 2003, Edmonton, Canada.
63. Oroumchian F., Aleahmad A., Hakimian P., Mahdikhani F. N-Gram And Local Context Analysis For Persian Text Retrieval. In Proceedings of International
64. Symposium on Signal Processing and its Applications. ISSPA. Sharjah, United Arab Emirates, 2007.
65. Pouliquen В., Steinberger R., Ignat C., Temnikova I., Widiger A., Zaghouani W., Zizka J. Multilingual person name recognition and transliteration Электронный ресурс. : arxiv.org/pdf/cs/0609051
66. Karimi S., Turpin A., Scholer F. Corpus Effects on the Evaluation of Automated Transliteration Systems. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic, June 2007, pp. 640-647.
67. Saini T.S., Lehal G.S. Shahmukhi to Gurmukhi Transliteration System: A Corpus based Approach. In Research in Computing Science (Mexico), 2008, vol. 33, pp. 151-162.
68. Stalls B. G., Kevin K. Translating Names and Technical Terms in Arabic Text. In COLING ACL Workshop on Computational Approaches to Semitic Languages, 1998, pp. 34-41.
69. Megerdoomian K., Parvaz D. Low-density language bootstrapping: the case of Tajiki Persian. In Proceedings of 6th Language Resources and Evaluation Conference, Marrakech, Morocco, 2008. 6 p.
70. Megerdoomian K. Finite-State Morphological Analysis of Persian. In Proceedings of the Workshop on Computational Approaches to Arabic Script-Based Languages, COLING 2004. University of Geneva, Switzerland.
71. Megerdoomian K. The Structure of Persian Names. MITRE Technical Report (MP080034), Washington, D.C. 2008 15 p.
72. Foreign Names Committee Geographic Names Standardization Policy for Afghanistan. Version 2.2c. 2007. - 99 p.
73. Finch A., Sumita E. Phrase-based Machine Transliteration. In Proceedings of IJCNLP 2008, Workshop on Technologies and Corpora for Asia-Pacific Speech Translation (TCAST'), Janurary 2008, pp. 13-18.
74. Диссертации, авторефераты, НИРы
75. Кушерян С.А. Вероятностно-статистические методы и алгоритмы автоматической морфологической сегментации слов естественных языков. Автореф. дис. . канд. техн. наук. Киев: ЕрГУ- 1991. - 14 с.
76. Манукян А.Х. Формализация, алгоритмическое описание и реализация морфологического анализа (на материале русского языка). Автореф. дис. . канд. техн. наук. Ереван - 1990. - 18 с.
77. Мухабатов А. Спортивная терминология современного персидского языка. Автореф. дис. . канд. фил. наук. Душанбе - 2007. - 22 с.
78. Худойбердыев Х.А. Комплекс программ синтезирования таджикской речи по тексту. Дис. . канд. физ.-мат. наук. Душанбе - 2009. - 113 с.
79. Abouei J. Entropy of Persian Language. B.Sc. Project, Isfahan University of Technology, Iran, 1993. Электронный ресурс. : http://shannon2.uwaterloo.ca/~iabouei/Jamshid%20Abouei Home%20page/Bachelur project.pdf
80. Ido S. Towards an Alternative Description of Incomplete Sentences in Agglutinative Languages. A thesis submitted in fulfillment of the requirements for the degree of Doctor of Filosophy. University of Sydney. - 2001. -210 p.
81. Karimi S. Machine Transliteration of Proper Names between English and Persian. A thesis submitted in fulfillment of the requirements for the degree of Doctor of Philosophy. RMIT University, Victoria, Australia. - 2008.
82. Ziai R. Finite State Methods Applied to Verbal Inflection in Persian. A thesis submitted in fulfillment of the requirements for the degree Bachelor of Arts in Computational Linguistic. Eberhard-Karls University. - 2006. - 35 p.5. Работы автора
83. Усманов З.Д., Гращенко J1.A., Фомин А.Ю. Информационные основы автоматизированной таджикско-персидской транслитерации // Известия АНРТ-№1(130)-2008 г.-С. 20-26.
84. Гращенко Л.А. Алгоритм формирования словаря соответствий таджикских и персидских словоформ // Доклады АН РТ том 51, №5 - 2008 г. -С. 339-345.
85. Гращенко Л.А., Фомин А.Ю. Опыт реализации средств таджикско-персидской конверсии графических систем письма // Доклады АН РТ том 51, №8-2008 г.-С. 580-583.
86. Гращенко Л.А. Концептуальная модель таджикско-персидской конверсии графических систем письма // Доклады АН РТ — том 52, №2 — 2009 г. -С. 111-115.
87. Таджикско-персидский конвертер графических систем письма: Свидетельство о регистрации интеллектуального продукта № 091TJ от 16.03.2009 г. / Гращенко Л.А., Усманов З.Д., Фомин А.Ю. (Республика Таджикистан); заявл. 06.03.2009; 7 с.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.