Модели и методы распознавания иероглифических текстов на примере древнеегипетского языка тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Кугаевских, Александр Владимирович
- Специальность ВАК РФ05.13.18
- Количество страниц 118
Оглавление диссертации кандидат технических наук Кугаевских, Александр Владимирович
Оглавление
Введение
Глава 1. Состояние вопроса и задачи исследования
1.1 Современное состояние вопроса компьютерного представления древнеегипетского текста
1.2 Обзор методов распознавания текстов
1.3 Выводы
Глава 2. Модель распознавания древнеегипетского текста
2.1 Модель идентификации структурных элементов текста
2.2 Модель определения синтаксических параметров текста
2.3 Выводы
Глава 3. Программный комплекс поддержки деятельности египтолога
3.1 Архитектура программного комплекса
3.2 Описание иероглифического текстового редактора
3.3 Описание модуля хранения текстов
3.4 Описание использования технологии параллельных вычислений
3.5 Выводы
Глава 4. Описание вычислительных экспериментов
4.1 Описание механизма тестирования системы распознавания
4.2 Пример распознавания
4.3 Выводы
Выводы по диссертационной работе
Список источников и литературы
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Разработка и исследование методов и средств распознавания текста факсимильных сообщений2003 год, кандидат технических наук Цопкало, Николай Николаевич
Разработка методики автоматизированного дешифрирования изображений топографических объектов с использованием нейросетевых методов2006 год, кандидат технических наук Волков, Алексей Васильевич
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Моделирование процесса идентификации графических объектов2011 год, кандидат технических наук Курушин, Даниил Сергеевич
Модель сознательного внимания и биоподобного анализа изображений на базе ансамбля АРТ-нейросетей2010 год, кандидат физико-математических наук Мищенко, Алесь Викторович
Введение диссертации (часть автореферата) на тему «Модели и методы распознавания иероглифических текстов на примере древнеегипетского языка»
Введение
Актуальность работы. Одной из частных задач распознавания образов является распознавание иероглифических текстов, которое наиболее актуально для стран Юго-Восточной Азии и при изучении древних культур, где языки построены на применении иероглифического письма. В то же время изучение письменности исчезнувших культур порождает дополнительные трудности, связанные со слабой изученностью лингвистики языка и существованием в древних языках синтаксических элементов, связанных с группировкой иероглифов, а также наличие повреждений иероглифов и других синтаксических элементов. Наряду с этим для этих языков требуется использовать применяемые историками методы кодирования текстов.
Решение проблемы распознавания иероглифических текстов наиболее актуально для групп историков, работающих в Берлино-Бранденбургской академии наук (Германия), Центре египтологических исследования РАН (Россия), Утрехтском университете (Нидерланды), Королевском колледже (Оксфорд, Великобритания).
К настоящему времени накоплена достаточная база методов сегментации изображений и их распознавания. В области распознавания образов известны результаты научных школ Загоруйко Н.Г. (Институт математики им. СЛ. Соболева), JI. Бреймана (университет Беркли), Дж. Фридмана (Стэндфордский университет), Я. Лекуна (Университет Нью-Йорка), К. Фукушимы (университет Kansai, Осака, Япония). Задачей распознавания иероглифических текстов занимаются научная школа АЛ. Шамиса (компания ABBYY), фирма NJStar Software Corp и научная школа Фей Йина (Институт автоматизации Китайской Академии Наук).
При этом результаты всех научных школ направлены на распознавание текстов с известной лингвистикой, что недостаточно для распознавания текстов на языках с неизвестной или слабо изученной лингвистикой. Примером такого языка является древнеегипетский язык.
Для компьютерной обработки древнеегипетских текстов в 80-е годы XX века европейские исследователи из Центра по автоматизации египтологических исследований (CCER) разработали стандарт Manuel de Codage (MdC). Решению проблем автоматического преобразования изображений текстов, полученных с исторических артефактов, в цифровой код были посвящены работы французских исследователей Д. Арриваля и Н. Ричарда (D. Arrivault, N. Richard), которые не дали практически значимых результатов. В тоже время историки до сих пор не имеют в своем арсенале инструментальных средств, позволяющих автоматизировать обработку древнеегипетских текстов.
Цель работы - разработка методов распознавания иероглифических текстов для языков со слабо изученной лингвистикой, имеющих в своей структуре сложные грамматические элементы, построенные из нескольких иероглифов, а также создание программного комплекса для работы с древнеегипетскими текстами. Задачи исследования.
1. Разработка математической модели представления синтаксических структур иероглифических текстов для языков с неизвестной или слабоизученной семантикой.
2. Разработка нейросети распознавания структурных элементов и синтаксических параметров иероглифических текстов и алгоритмов обучения.
3. Разработка программного комплекса, включающего кодировку синтаксических элементов в стандарте MdC, распознавание структурных элементов и синтаксических параметров и систематизацию иероглифических текстов.
4. Проведение вычислительных экспериментов с целью проверки адекватности предложенных методов и алгоритмов.
Объектом исследования являются растровые цветные изображения высокого разрешения, являющиеся фотокопиями иероглифических текстов.
Предметом исследования являются методы сегментации и распознавания текстов.
Методы исследования - алгоритмы сегментации изображений, искусственные нейронные сети, технология параллельных вычислений, объектно-ориентированный подход программирования, математические модели поиска.
На защиту выносится следующее: Пункт 1. Разработка новых математических методов моделирования объектов и явлений.
1. Метод математического моделирования иероглифических текстов, соответствующий требованиям стандарта кодирования МйС.
2. Метод нейросетевого распознавания изображения иероглифических текстов, построенный на применении фильтра Габора для выявления сегментов текста и степени их повреждения.
3. Метод нейросетевого распознавания синтаксических элементов древнеегипетских текстов (групповых структур и картушей) и представления текста в формате МйС.
Пункт 4. Разработка, обоснование и тестирование эффективных численных методов с применением ЭВМ.
4. Авторская модификация алгоритма обучения Д. Хебба для нейросети распознавания синтаксических элементов древнеегипетских текстов.
Пункт 5. Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.
5. Архитектура программного комплекса работы с древнеегипетскими текстами, реализующая математические модели распознавания иероглифов и способы визуализации текстов, кодированных в стандарте Мс1С.
Научная новизна заключается в следующем:
1. Предложена математическая модель описания иероглифических текстов, включающая структурные элементы текста (иероглифы и
рамки картушей) и синтаксические параметры согласно стандарту кодирования MdC.
2. Разработана нейросетевая модель выявления структурных элементов иероглифических текстов, включающая функции сегментации на базе фильтра Габора и выявления степени повреждения сегментов.
3. Разработана нейросетевая модель распознавания синтаксических параметров иероглифических текстов, позволяющая идентифицировать иероглифические группы и картуши.
4. Модифицирован алгоритм обучения Д. Хебба для нейросети, позволяющий выявлять синтаксические элементы, включающие несколько иероглифов и картуши.
Практическая значимость. Разработана архитектура программного комплекса для работы с древнеегипетскими текстами, реализующая математические модели распознавания иероглифов и способы визуализации текстов, кодированных в стандарте MdC.
Достоверность и обоснованность научных положений и результатов определяется применением нейросетевых методов распознавания изображения, модели фильтра Габора, использованием векторной модели поиска и технологии параллельных вычислений CUD А, а также подтверждается сравнением результатов, полученных в вычислительных экспериментах с иероглифическими текстами.
Реализация и внедрение результатов. Программный комплекс поддержки деятельности египтолога апробирован в системе TLA Берлино-Бранденбургской Академии Наук (Германия).
Апробация работы. Основные результаты докладывались на международной конференции ГрафиКон-2010 (Санкт-Петербург, 2010г.), научной сессии НИЯУ МИФИ (Москва, 2010г.), всероссийской конференции Нейроинформатика-2010 (Москва, 2010г.).
По результатам исследований опубликовано 13 печатных работ, из которых в рекомендованных ВАК РФ периодических изданиях - 1, получены 3 свидетельства о регистрации программ для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Объем диссертации составляет 117 страниц, содержит 45 рисунков, 6 таблиц. Библиографический список включает 99 наименований работ российских и зарубежных авторов.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Высокоточное нейросетевое распознавание в системах технического зрения2011 год, кандидат технических наук Руденко, Ольга Валентиновна
Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов1999 год, кандидат технических наук Федоренко, Олег Григорьевич
Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации2005 год, кандидат технических наук Цымбал, Дмитрий Александрович
Разработка и исследование методов распознавания рукописных арабских текстов2003 год, кандидат технических наук Салюм Саид Салех
Комбинированные алгоритмы поддержки принятия решений при автоматизированной идентификации зашумленных структурированных изображений2012 год, кандидат технических наук Булдаков, Николай Сергеевич
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Кугаевских, Александр Владимирович
Выводы по диссертационной работе
1. Разработан метод нейросетевого распознавания изображения иероглифических текстов, состоящий из двух этапов: идентификация структурных элементов текста (иероглифов и рамок картушей); определение синтаксических параметров текста и его элементов (группы иероглифов, картуши)
2. Модифицирована нейросетевая модель сегментации изображения иероглифического текста за счет использования ядра фильтра Д. Габора в функции активации нейрона, что позволяет идентифицировать структурные элементы текста даже при их повреждении.
3. Модифицирован алгоритм обучения нейросети сегментации изображения с учетом степени повреждения элементов текста.
4. Разработана нейросетевая модель распознавания синтаксических элементов древнеегипетских текстов и их кодирования в стандарте МйС. Предложенная модель позволяет выделять группы иероглифов и картуши.
5. Модифицирован алгоритм обучения Д. Хебба нейросети распознавания синтаксических элементов древнеегипетских текстов, позволяющий идентифицировать иероглифы, входящие в группу и в картуши.
6. Разработана архитектура программного комплекса, взаимодействие между компонентами которой реализовано на обмене данными в формате М/С. Предложенная архитектура позволяет работать как с изображениями иероглифических текстов, так и с текстами, переведенными ранее в формат МйС.
7. Разработан программный комплекс, включающий компоненты: редактор иероглифических текстов, распознавание синтаксических параметров и элементов текста, систематизации и поиска текстов, который обеспечивает полную инструментальную базу для работы с древнеегипетскими текстами. Программный комплекс позволит в
96 дальнейшем реализовывать системы автоматизированного перевода и нахождения лингвистических правил древнеегипетского языка.
8. Произведено распознавание изображений текстов с 358 исторических артефактов, выполненных в пергаменте, папирусе, керамике и камне. Тексты включали 240 тысяч иероглифов, 50 тысяч картушей и групп иероглифов, выполнены в виде строк и колонок, включающих тексты с инверсным направлением письма. Среднее качество распознавания синтаксических элементов составило 82%, что подтверждает адекватность разработанных методов и моделей распознавания иероглифических текстов.
Список литературы диссертационного исследования кандидат технических наук Кугаевских, Александр Владимирович, 2012 год
Библиография
Добавить
Изменить
Удалить
| Авторы Наименование Издательство Год издания
► -пейогус* ЗпиНе London 1978 I
* " , ■¡В
< Г ! ■
Добавить
Отмена
_I
Рис. 34. Окно редактирования источника
Модуль хранения текстов обеспечивает упорядоченное хранение иероглифических текстов с сопутствующей информацией. Механизм информационного поиска представляется полезным с учетом сложности цифрового представления текстов. Наличие истории правок и централизованное хранение текстов позволяет отслеживать все современные тенденции исследований текстов.
3.4 Описание использования технологии параллельных вычислений
Вследствие больших объемов вычислений при работе нейронной сети является целесообразным применение технологии параллельных вычислений [54]. При этом вычисления на нейронах просты, но многочисленны. Скорость обработки данных нейросети будет выше при вычислениях на видеокарте, чем на многоядерном процессоре ввиду большего количества ядер, выполняющих инструкции одновременно и оптимизации памяти видеокарты под двумерную выборку. Из всех технологий, реализующих GPGPU (произвольных вычислений на видеокартах), наиболее проработана на данный момент архитектура Nvidia CUD А [45].
Технология CUDA использует gr/ii-модель памяти, кластерное моделирование потоков и SIMD инструкции.
Вычислительная архитектура CUDA основана на концепции одна команда на множество данных (SIMD) и понятии мультипроцессора. Концепция SIMD подразумевает, что одна инструкция позволяет одновременно обработать множество данных. Мультипроцессор — это многоядерный SIMD процессор, позволяющий в каждый определенный момент времени выполнять на всех ядрах только одну инструкцию. Каждое ядро мультипроцессора скалярное, т.е. оно не поддерживает векторные операции в чистом виде.
Логически видеокарта {Device) представляется как набор мультипроцессоров. Каждый мультипроцессор обладает своей памятью. Особенностью архитектуры CUDA является блочно-сеточная организация, необычная для многопоточных приложений (рис. 35). Алгоритмы работы нейронной сети разбиваются на структуры типа Kernel. Все потоки {Thread), выполняющие это ядро, объединяются в блоки {Block), а блоки, в свою
очередь, объединяются в сетку (Grid). Применительно к нашей нейронной сети, сетка обрабатывает слой нейронов, блок - плоскость нейронов, а поток рассчитывает выход отдельного нейрона. Один блок исполняется на одном мультипроцессоре.
Блок задач (потоков) выполняется на мультипроцессоре частями, или пулами, называемыми warp. Размер warp равен 32 потокам. Задачи внутри пула warp исполняются в SIMD стиле, т.е. во всех потоках внутри warp одновременно может выполняться только одна инструкция. Warp является тем минимальным объединением потоков, про который можно говорить, что все потоки внутри него выполняются одновременно [45].
Синхронизация всех задач внутри блока осуществляется вызовом
функции _synchtreads. Обмен данными возможен через разделяемую
память, так как она общая для всех задач внутри блока.
Организация параллельных вычислений на уровне программного кода осуществляется через применение нитей. При этом есть отличия нитей, выполняемых на процессоре и видеокарте:
1. нити на GPU обладают крайне небольшой стоимостью создания, управления и уничтожения (контекст нити минимален, все регистры распределены заранее);
2. для эффективной загрузки GPU необходимо использовать много тысяч отдельных нитей, в то время как для CPU обычно достаточно 1020 нитей.
Host
Kernel 1
Device Grid 1
IBi
It
Block CO, 0)
Block (1- 0)
Block
V, 0)
Kernel 2
Block / Block (1. l)
i'
Block
(2, 1)
*вщ»|р|рНМП!
-1 ■
Grid 2 :
Block (l, 1)
Рис. 35. Архитектура С1ЮА
В С1ЮА выделяют шесть видов памяти (рис. 36). Это регистры, локальная, глобальная, разделяемая, константная и текстурная память. Такое обилие обусловлено спецификой видеокарты и первичным ее предназначением.
Grid Block (0, 0)
Block (1, 0)
ШШ
Shared Memory
Shared Memory
Registers
t
Registers
t
Registers
■¡и
Registers i t i
Thread (0,0) Thread (1, 0) Thread {0, 0) Thread (1, 0)
t
A An
Local Memory
Gjobal Memory
Constant Mèmory
Texture Memory.
t
Local Memory
t
Local Memory
4 a.
X
AiLiL
Local Memory
Рис. 36. Структура памяти С1ЮА
Входные данные для вычислений выходов нейронов помещаются в текстурную память, так как она специально оптимизирована под двумерную выборку и обладает приемлемым сочетанием размер/скорость. Редко используемые переменные помещаются в глобальную память.
Операции нейронной сети легковесны и независимы, что позволяет задействовать большое число одновременно исполняемых потоков. Для хранения данных нейрона, которых немного, идеально подходит разделяемая память.
Для дальнейшего увеличения скорости вычисления на нейронах преобразуются к матричным операциям, которые вызываются с помощью библиотеки CUBLAS.
Для оценки времени обучения и функционирования нейронной сети использовалась следующая аппаратная конфигурация: Intel Core 2 Duo 3GHz, 8Gb DDR2, GeForce 9800 GTX (128 ядер, частота ядра 675MHz). Обучение нейронной сети проводилось на двухъядерном процессоре и на видеокарте. Количество ядер графического процессора видеокарты равное 128 является минимально возможным, при котором используется технология CUD А.
За счет применения технологии CUDA время обучения снизилось в 4
раза с 90 часов на процессоре до 22 часов на видеокарте (рис. 37).
Рис. 37. Сравнение времени обучения на процессоре и видеокарте
Время, требуемое на распознавание 1 символа, удалось снизить в 5 раз с 78 секунд на процессоре до 14 секунд на видеокарте (рис. 38).
Рис. 38. Сравнение времени функционирования на процессоре и
видеокарте
Несмотря на то, что технология CUDA ориентирована на применение на видеокартах NVIDIA, программный код параллельных вычислений может исполняться на любых видеокартах через библиотеку OpenCL.
3.5 Выводы
1. Разработана архитектура программного комплекса, взаимодействие между компонентами которой реализовано на обмене данными в формате MdC. Предложенная архитектура позволяет работать как с изображениями иероглифических текстов, так и с текстами, переведенными ранее в формат MdC.
2. Разработан программный комплекс, включающий компоненты: редактор иероглифических текстов, распознавание синтаксических параметров и элементов текста, систематизации и поиска текстов, который обеспечивает полную инструментальную базу для работы с древнеегипетскими текстами. Программный комплекс позволит в
дальнейшем реализовывать системы автоматизированного перевода и нахождения лингвистических правил древнеегипетского языка.
3. Предложена реализация нейросетевых алгоритмов распознавания структурных элементов иероглифического изображения и алгоритма обучения этой сети с использованием технологии NVIDIA CUDA, что позволило уменьшить время выполнения алгоритмов в 4 раза.
Глава 4. Описание вычислительных экспериментов 4.1 Описание механизма тестирования системы распознавания
Проверка адекватности построенной модели и применяемых алгоритмов проводилась в четыре этапа. Для каждого этапа была составлена тестовая выборка. Показателем адекватности служит качество распознавания, измеряемое соотношением количества верно распознанных элементов к общему числу элементов текста. Проверка осуществляется путем предъявления на вход нейросети изображения элемента и имени класса, к которому он относится, после чего сравнивается ответ нейросети и эталонное имя класса.
На первом этапе оценивалось качество функционирования модели распознавания символов. Для этого разработанная нейронная сеть проверялась с помощью обучающей выборки.
Обучающая выборка формировалась путем предъявления нейросети для распознавания эталонных изображений иероглифов из базы символов Hieroglyphica 2 [34], с добавлением зеркальных отражений символов и символов, повернутых на углы а 6 [0,7г] с шагом 15°. Общая численность изображений составила 164280 отдельных изображений символов древнеегипетского языка.
На первом этапе на обучающей выборке нейронная сеть показала качество распознавания в 99%. Такое высокое значение объяснимо наличием для каждого элемента обучающей выборки группы нейронов, осуществляющих распознавание.
На следующем этапе необходимо оценить влияние степени повреждения изображения символа на качество распознавания.
Тестовая выборка формировалась из символов обучающей выборки со случайными повреждениями образа символа в каждой из четвертей. Общая численность изображений составила 657120 отдельных изображений символов древнеегипетского языка.
На втором этапе на тестовой выборке нейронная сеть показала результат в 86%. На рисунке 39 приведена зависимость качества распознавания от степени повреждения образа символа. При увеличении степени повреждения до 50% и более наблюдается резкое снижение качества распознавания. Это объясняется большим количеством символов алфавита и их похожестью, так как при повреждении изображений символов может быть потеряна информация о важных признаках, отличающих символ от других.
Степень повреждения
Рис. 39. Зависимость качества распознавания от степени повреждения
На третьем этапе осуществлялась проверка качества выделения групп иероглифов в зависимости от степени повреждения изображения группы. Обучающая выборка нейронной сети составила 38 образов эталонных групп иероглифов. Тестовая выборка была составлена из выделенных изображений групп иероглифов из набора текстов, хранящихся в системе TLA. Общее число текстов составило 39, общее число групп иероглифов - 168. Результаты проверки качества выделения групп для каждого из 15 типов приведены в таблице 4 и на рисунке 40.
Таблица 4.
Результаты проверки качества выделения групп.
Тип группы Кол-во групп Качество выделения
Тип I 5 70%
Тип II 4 70%
Тип III 7 73%
Тип IV 8 73%
Тип V 9 74%
Тип VI 15 74%
Тип VII 5 78%
Тип VIII 13 76%
Тип IX 16 79%
Тип X 9 76%
Тип XI 5 77%
Тип XII 27 80%
Тип XIII 18 78%
Тип XIV 13 79%
Тип XV 14 79%
Итого 168 76%
82% 80% 78% 76% 74% 72% 70% 68% 66% 64%
.-.у
: ! ■* !
Т ......................!
{ I
IV V VI VII VIII IX X XI XII XIII XIV XV
Рис. 40. Качество выделения групп.
Степень повреждения изображения группы может существенно повлиять на качество ее выделения (рис. 41).
Рис. 41. Зависимость качества выделения групп от степени
повреждения
На четвертом этапе осуществлялась общая проверка качества распознавания текстов.
Тестовая выборка для проведения экспериментов по качеству распознавания текстов составила 358 изображений текстов [62-95].
Тестовую выборку текстов можно условно разделить на четыре группы по материалу:
1. папирус, холст, кожа,
2. камень,
3. керамика,
4. дерево.
Материал из каждой группы обладает разной фактурой и степенью повреждения, что по-разному влияет на качество распознавания. Результаты проверки на текстах из каждой группы приведены в таблице 4. Лучше всего сохранился камень, его фактура практически не влияет на качество распознавания. Тексты на керамике обладают большей степенью повреждения. Чуть лучше сохранились тексты на деревянных носителях, но фактура дерева приводит к ошибочной сегментации и распознавании. Тексты на папирусах сохранились чуть хуже, чем на камне. Фактура материала практически не влияет на сегментацию и распознавание. Более низкий результат качества распознавания объясним беглостью письма на папирусах и меньшей детализацией прорисовки символов.
Также в таблице 5 приведено сравнение показателей качества распознавания без применения и с применением фильтра Габора.
Таблица 5.
Результаты проверки качества распознавания.
Материал Кол-во текстов Качество распознавания, без применения фильтра Габора Качество распознавания, с применением фильтра Габора
Папирус, холст, кожа 32 79,9% 82,1%
Камень 294 79,1% 84,6%
Керамика 7 78,4% 80,3%
Дерево 25 78% 81%
Итого 358 78,85% 82%
Как видно из таблицы 4, добавление слоя сегментации с помощью фильтра Табора позволило увеличить качество распознавания текстов. Хотя улучшение незначительно, тем не менее, в условиях невозможности применения лингвистической пост-обработки распознанного текста, прирост в 3,2% все же ощутим (рис. 42).
86,00%
84,00%
82,00% 80,00% 78,00% 76,00% 74,00%
.ШЕШ
а»
■а
и,
Папирус Камень Керамика Дерево
I без фильтра Габора I с фильтром Габора
Рис. 42. Сравнение качества распознавания с фильтром Габора и без
него.
В процессе проверки качества распознавания текстов могут быть допущены ошибки двух типов. Ошибками 1 рода является неправильная классификация выделенного сегмента. Ошибка 2 рода возникает, когда механизм выявления групп иероглифов не выявляет ее там, где она есть.
В результате анализа случаев ошибочной оценки были выявлены причины, вызывающие указанные ошибки, и выработаны необходимые действия, направленные на уменьшение числа таких ошибок.
Ошибки первого рода:
1. Наличие шума на изображении приводит к образованию ложного сегмента. Отсечение шума на этапе сегментации не представляется возможным, так как может быть потеряна важная информация об изображениях символов. Тем не менее ложные сегменты успешно распознаются нейронной сетью в качестве шумовых и не попадают в множество
2. Наличие повреждений на изображениях символов может приводить к неправильной классификации ввиду недостатка важных признаков. В этом случае помогло бы наличие механизма лингвистической пост-обработки распознанного текста, но в настоящее время из-за недостаточного знания лингвистики языка внедрение такого механизма не представляется возможным.
Ошибки второго рода:
1. Повреждение изображений символов могут дать неправильную оценку высоты сегмента. В этом случае возможно не выявление группы символов, так как механизм выявления групп основывается в первую очередь на малом размере символов групп по отношению к общему размеру символов текста. Исправить данную ситуацию помогает анализ распознанных строк на предмет наличия в одной строке нескольких символов с малым размером.
2. Повреждение изображений символов также может приводить к неправильному кодированию выявленной группы в МйС-код. Если элемент группы полностью поврежден, это может привести к неправильному определению типа группа. В этом случае также могло бы помочь наличие лингвистической пост-обработки.
Перечисленные меры позволяют исключить некоторую часть ошибок, допускаемых системой.
Итоговые результаты тестирования системы сведены в таблицу 6.
Таблица 6.
Итоговые результаты тестирования
Этап Результат
Проверка на обучающей выборке 99%
Качество распознавания поврежденных символов 86%
Качество распознавания поврежденных изображений групп иероглифов 76%
Распознавание текстов 82%
4.2 Пример распознавания
Рассмотрим работу системы распознавания на примере текста с одной
из стен храм Ком-Омбо (рис. 43). Часть стены отсутствует на изображении,
тем не менее, из-за специфики обрезанных изображений символов это не
повлияет на качество распознавания. В процессе сегментации с помощью
фильтра Габора была оценена степень граничности пикселей изображения
(рис. 44). На этом этапе из-за повреждений материала были выявлены
ошибочные сегменты, которые не повлияют на качество распознавания,
ввиду незначительного размера. На рисунке 45 представлены выявленные
сегменты изображений символов. Для удобства представления они были
показаны не описанными вокруг них прямоугольниками, а цветным
93
выделением самих символов. В реальности система распознавания описывает
вокруг каждого сегмента прямоугольник.
Рис. 43. Пример текста для Рис. 44. Выделение границ сегментов
распознавания
Рис. 45. Выявленные сегменты изображений символов
В тексте присутствуют практически все структурные элементы древнеегипетского текста, 3 группы иероглифов и 2 картуша. Результатом функционирования модуля распознавания будет МаЮ-код этого текста: Е15-г: С4:Х1 *Z7 - / <-М->-тЗ-Н-тА-из 2-! <-г:21:тп:п->-тЗ-Н-В1-т-1
Система выявила, что текст написан в строки и одним цветом. Направление письма было оценено системой по изображениям картушей как письмо «справа-налево».
4.3 Выводы
1. Произведено распознавание изображений текстов с 358 исторических артефактов, выполненных в пергаменте, папирусе, керамике и камне. Тексты включали 240 тысяч иероглифов, 50 тысяч картушей и групп иероглифов, выполнены в виде строк и колонок, включающих тексты с инверсным направлением письма. Среднее качество распознавания синтаксических элементов составило 82%, что подтверждает адекватность разработанных методов и моделей распознавания иероглифических текстов.
2. Исследовано влияние степени повреждения элементов текста на качество распознавания иероглифов и иероглифических групп. Показано, что при повреждении более 50 % изображения существенно ухудшается идентификация этих синтаксических элементов (вероятность идентификации менее 30%).
Выводы по диссертационной работе
1. Разработан метод нейросетевого распознавания изображения иероглифических текстов, состоящий из двух этапов: идентификация структурных элементов текста (иероглифов и рамок картушей); определение синтаксических параметров текста и его элементов (группы иероглифов, картуши)
2. Модифицирована нейросетевая модель сегментации изображения иероглифического текста за счет использования ядра фильтра Д. Габора в функции активации нейрона, что позволяет идентифицировать структурные элементы текста даже при их повреждении.
3. Модифицирован алгоритм обучения нейросети сегментации изображения с учетом степени повреждения элементов текста.
4. Разработана нейросетевая модель распознавания синтаксических элементов древнеегипетских текстов и их кодирования в стандарте МйС. Предложенная модель позволяет выделять группы иероглифов и картуши.
5. Модифицирован алгоритм обучения Д. Хебба нейросети распознавания синтаксических элементов древнеегипетских текстов, позволяющий идентифицировать иероглифы, входящие в группу и в картуши.
6. Разработана архитектура программного комплекса, взаимодействие между компонентами которой реализовано на обмене данными в формате М/С. Предложенная архитектура позволяет работать как с изображениями иероглифических текстов, так и с текстами, переведенными ранее в формат МйС.
7. Разработан программный комплекс, включающий компоненты:
редактор иероглифических текстов, распознавание синтаксических
параметров и элементов текста, систематизации и поиска текстов,
который обеспечивает полную инструментальную базу для работы с
древнеегипетскими текстами. Программный комплекс позволит в
96
дальнейшем реализовывать системы автоматизированного перевода и нахождения лингвистических правил древнеегипетского языка.
8. Произведено распознавание изображений текстов с 358 исторических артефактов, выполненных в пергаменте, папирусе, керамике и камне. Тексты включали 240 тысяч иероглифов, 50 тысяч картушей и групп иероглифов, выполнены в виде строк и колонок, включающих тексты с инверсным направлением письма. Среднее качество распознавания синтаксических элементов составило 82%, что подтверждает адекватность разработанных методов и моделей распознавания иероглифических текстов.
Список источников и литературы
1. Gardiner А. Н. Egyptian Grammar. 3rd ed. Oxford, Griffith Institute, 1957
2. Loprieno A. Ancient Egyptian: A Linguistic Introduction. Cambridge, 1995.
3. Baurman J., Grimai N. Manuel de Codage des textes hiroglyphiques en vue de leur saisie sur ordinateur. 1988
4. Коростовцев M.A. Введение в египетскую филологию. - M.: Издательство восточной литературы, 1963
5. Шамис A.JI. Пути моделирования мышления. - М.: КомКнига, 2006.
6. Дуда Р., Харт. П. Распознавание образов и анализ сцен. Пер. с англ. -М.: Мир, 1976.
7. Вархаген К., Дейн Р., Грун Ф.и др. Распознавание образов: состояние и перспективы. Пер. с англ. - М.: Радио и связь, 1985.
8. Arrivault D., Richard N., Bouyer P. A Fuzzy Hierarchical Attributed Graph Approach for Handwritten Egyptian Hieroglyphs description and matching, Document Analysis and Recognition, International Conference on, pp. 898903, Eighth International Conference on Document Analysis and Recognition (ICDAR'05), 2005.
9. Гонсалес P., Вудс P. Цифровая обработка изображений.- M.: Техносфера, 2005
Ю.Форсайт Д., Понс Ж. Компьютерное зрение. Современный поход.: Пер. с англ.- М.: Издательский дом «Вильяме», 2004
11.Вежневец А., Баринова О. Методы сегментации изображений: автоматическая сегментация. Компьютерная графика и мультимедиа. Выпуск №4(4)/2006. http://cgm.computergraphics.ru/content/view/147
12.Canny, J., A Computational Approach То Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986
13.Simona E. Grigorescu, Nicolai Petkov, and Peter Kruizing - Comparison of Texture Features Based on Gabor Filters, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 11, NO. 10, OCTOBER 2002, 1160-1167
H.Fast Multiscale Image Segmentation (CVPR 2000) - Eitan Sharon, Achi Brandt Ronen Basriy, Dept. of Applied MathThe Weizmann Inst, of Science, Israel
15.Segmentation and Boundary Detection Using Multiscale Intensity Measurements (CVPR 2001) - Eitan Sharon, Achi Brandt, Ronen Basri
16.Texture Segmentation by Multiscale Aggregation of Filter Responses and Shape Elements (ICCV 2003) - Meirav Galun, Eitan Sharon, Ronen Basri, Achi Brandt
17.Мерков А.Б. Основные методы, применяемые для распознавания рукописного текста -
http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.htm
18.Vapnik V.N. Statistical Learning Theory, New York: Wiley, 1998.
19.Хайкин С. Нейронные сети: полный курс, 2-е издание. Пер. с англ. - М.: Издательский дом "Вильяме", 2008.
20.Kohonen Т. Self-Organizing Maps, 3rd edition, New York: Springer-Verlag, 2001.
21.Препарата Ф., Шеймос M. Вычислительная геометрия: Введение. - М.: Мир, 1989.
22.Aleksander I., Morton Н. An Introduction to Neural Computing, London: Chapman and Hall, 1990.
23.Carpenter G., Grossberg S. Adaptive Resonance Theory, The Handbook of Brain Theory and Neural Networks, 2nd edition, Cambridge: MIT Press, 2002.
24.Carpenter G., Grossberg S. ARTMAP: Supervised Real-Time Learning and Classification of Nonstationary Data by a Self-Organizing Neural Network, Neural Networks, Vol. 4, pp. 565-588, 1991.
25.Rummelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Backpropagation Errors, Nature, 323: 533-536, 1986
26.LeCun Y., Bottou L., Bengio Y. and Haffiier P. Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.
27.K. Fukushima: "Neocognitron for handwritten digit recognition", Neurocomputing, 51, pp. 161-180 (2003).
28.Yoav Freund and Robert E. Schapire. A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence, 14(5):771-780, September, 1999.
29.Jerome Friedman, Trevor Hastie, and Robert Tibshirani. Additive logistic regression: A statistical view of boosting. The Annals of Statistics, 38(2):337-374, April 2000.
30.Breiman, Leo. "Random Forests". Machine Learning 45 (1): 5-32, 2001
31.Charles Poynton (1999). "YUV and luminance considered harmful: A plea for precise terminology in video", www.poynton.com. Accessed January 2010.
32.Parameter values for the HDTV standards for production and international programme exchange. April, 2002. http://www.itu.int/rec/R-REC-BT.709/en
33.Николлс Дж. Г., Мартин А.Р., Валлас Б.Дж., Фукс П.А. - От нейрона к мозгу: Пер. с англ. Изд. 2-е. - М. ЛКИ, 2008.
34 Jonathan A.: Receptive Field Functions for Face Recognition, Cognitive Science Research Papers, 391, 1995
35.Добеши И. - Десять лекций по вейвлетам. - Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001
36.Berg, Н. van den, Grimal, N., Hallof, G., Hallof, J. Hieroglyphica. 2nd ed. Paris & Utrecht, 2000
37.JSesh. - http://isesh.qenherkhopeshef.org/
38.InScribe. - http://www.saqqara.org/inscribe/inscribe3.htm
39.Amanuense. - http://www.egiptomania.com/jeroglificos/amanuen.htm
40.WinGlyph. - http://www.ccer.nl/
41.Hieroglyphica. - http://www.hieroglyphica.com/hieroglyphica.php
100
42.Хьюбел Д. Глаз, мозг, зрение: Пер.с англ. - М.: Мир, 1990
43.Goodale & Milner (1992). «Separate pathways for perception and action.». Trends inNeuroscience 15 (1): 20-25. D01:10.1016/0166-2236(92)90344-8.PMID 1374953.
44.Ungerleider and Mishkin Analysis of Visual Behavior / Ingle DJ, Goodale MA and Mansfield RJW — MIT Press, 1982.
45.NVIDIA CUDA С programming guide.
46.Кугаевских A.B. Агломеративный метод сегментации иероглифического текста: Труды конференции ГрафиКон-2010. Санкт-Петербург, 2010. С. 181-187.
47. J. J. Kulikowski and Р. О. Bishop, "Fourier analysis and spatial representation in the visual cortex," Experientia, vol. 37, pp. 160-163, 1981.
48. J. G. Daugman, "Two-dimensional spectral analysis of cortical receptive field profiles," Vis. Res., vol. 20, pp. 847-856, 1980.
49.R. L. DeValois, D. G. Albrecht, and L. G. Thorell, "Spatial frequency selectivity of cells in macaque visual cortex," Vis. Res., vol. 22, pp. 545559, 1982.
50. J. P. Jones and A. Palmer, "An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex," J. Neurophys., vol. 58, pp. 1233-1258,1987.
51.P. Kruizinga and N. Petkov, "Nonlinear operator for oriented texture," IEEE Trans. Image Processing, vol. 8, pp. 1395-1407, Oct. 1999.
52.Changeux J.P., Danchin A. Selective stabilization of developing synapses as a mechanism for the specification of neural networks. Nature, 1976, vol. 264, p.705-712.
53.Stent G.S. A physiological mechanism for Hebb's postulate of learning. Proceedings of the National Academy of Science, USA, 1973, vol. 70, p.997-1001.
54.Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. - С-Пб. : БХВ-Петербург, 2004. - 608 с.
55.Троелсен Э. Язык программирования С# 2010 и платформа .NET 4.0, 5-е изд.: Пер. с англ. - М.: ООО «И.Д. Вильяме», 2011.
56.Windows Metafile Format Specification 10.0.
57.Rich Text Format Specification 1.9.1.
58.Seidlmayer, S. J. Der Thesaurus Linguae Aegyptiae im Internet // GM. H.
203. 2004. S. 99-104. 59.Seidlmayer, S. J. Die neue Version des Thesaurus Linguae Aegyptiae im
Internet//GM. H. 207. 2005. S. 107-111. 60.K. Fukushima, K. Nagahara, H. Shouno, Training neocognitron to recognize handwritten digits in the real world, pAs'97 (2nd Aizu International Symposium on Parallel Algorithms=Architectures Synthesis), IEEE Computer Society Press, Silver Spring, MD, 1997, pp. 292-298. 61 .Шрифт Egyptian Transliteration Font v.2.1. -http://213.132.220.88/ccer/article49.html
62.Katalog: "Ägyptens Aufstieg zur Weltmacht"; Mainz: 1987, 133 (Nr. 41; Ingeborg Müller).
63.John W. BARNS, The Ashmolean Ostracon of Sinuhe; Oxford: 1952.
64. Samuel BIRCH, Inscriptions in the Hieratic and Demotic Characters; London: 1868, Taf. 23.
65.Aylward M. BLACKMAN, Middle-Egyptian Stories, 1. The story of Sinuhe, 2. The shipwrecked sailor (Bibliotheca Aegyptiaca II); Bruxelles: 1972, 1-41.
66.Ludwig BORCHARDT, Bemerkungen zu den aegyptischen Handschriften des Berliner Museums; in: ZÄS 27 (1889), 118- 122, 118, 120.
67.Ronald BULLOCK, The story of Sinuhe; London: 1978.
68.Ricardo A. CAMINOS, Literary Fragments in the Hieratic Script; Oxford: 1956,51-52, Taf. 24- 25.
69.Jaroslav CERNY/ Alan Henderson GARDINER, Hieratic Ostraca, Vol. I; Oxford: 1957, 28, Taf. 105.2; 4, Taf. 11.3.
70.Georges DARESSY, Ostraca (Catalogue général des Antiquities Égyptiennes de Musée de Caire); Kairo: 1901, Taf. 41.
71. Jean- Jaques CLERE, Three new Ostraca of the Story of Sinuhe; in: JEA 25 (1939), 16- 29, Taf. 4- 6.
72. John L. FOSTER, Thought Couplets in The Tale of Sinuhe (Münchener Ägyptologische Untersuchungen, Band 3); Frankfurt am Main: Berlin: Bern: New York: Paris: Wien: 1993.
73.Charles W. GOODWIN, On a hieratic inscription upon a stone in the British Museum; in: ZÄS 10 (1872), 20- 24.
74.Hermann GRAPOW, Untersuchungen zur ägyptischen Stilistik I. Der stilistische Bau der Geschichte des Sinuhe (Deutsche Akademie der Wissenschaften zu Berlin, Institut für Orientforschung, Veröffentlichung Nr. 10); Berlin: 1952.
75.Rez.: ArOr 19 (1951 sie), 630- 631 (F. Lexa); CdE 28, No. 56 (1953), 298302 (B. van de Walle); OLZ 48 (1953), 101- 109 (A. Hermann).
76.Francis Llewellyn GRIFFITH, Fragments of Old Egyptians Stories. From the British Museum and Amherst Collections; in: PSBA 14 (1892), 451472, 5 Taf.
77. William Christopher HAYES, Ostraka and Name Stones from the Tomb of Sen-Mut (No. 71) at Thebes (Publications of the Metropolitan Museum of Art, Egyptian Expedition 15); New York: 1942, 29, 162; Taf. 28.
78.Roland KOCH, Die Erzählung des Sinuhe (Bibliotheca Aegyptiaca XVII); Bruxelles: 1990.
79.Karl Richard LEPSIUS, Denkmaeler aus Aegypten und Aethiopien, 6. Abtheilung, Vol. XI und XII (Taf. I- CXXVII); Berlin: 1858; Geneve: 1973, Taf. 104- 107.
80.Gaston Camille C. MASPERO, Le papyrus de Berlin no. 1; in: MdA 3 (1876), 69- 84, 132- 160.
81.Gaston Camille C. MASPERO, Les Premières Lignes des Mémoires de
r
Sinouhit restituées d près l'ostracon 27419 de Musée de Boulaq; in: Etudes
de mythologie et d'archéologie égyptiennes (Bibliothèque égyptologique, Vol. VIII), Vol. IV; Paris: 1900, 281- 305. auch in: Mémoires de l'Institut égyptien, Vol. II; Paris: 1889, 1-23.
82.Georg MÖLLER, Hieratische Lesestücke fur den akademischen Gebrauch, Erstes Heft: Alt- und Mittelhieratische Texte; Leipzig: 1909, Taf. 6- 12.
83.Georg MÖLLER, Hieratische Paläographie. Die aegyptische Buchschrift in ihrer Entwicklung von der fünften Dynastie bis zur römischen Kaiserzeit, Erster Band: Bis zum Beginn der 18. Dynastie; Leipzig: 1909, 14- 16, Taf. 6.
84.Ludwig BORCHARDT, Zwei Kalksteinscherben mit literarischen Aufschriften; in: ZÄS 66 (1931), 14- 15, Taf. 2.
85.George POSENER, Catalogue des ostraca hiératiques littéraires de Deir el-Mèdineh, Tome I (Documents de fouilles de l'Institut français d'archéologie orientale du Caire 1); Le Caire: 1938.
86.George POSENER, Catalogue des ostraca hiératiques littéraires de Deir el-Mèdineh, Tome II (Documents de fouilles de l'Institut français d'archéologie orientale du Caire 18); Le Caire: 1951/ 1952.
87.George POSENER, Catalogue des ostraca hiératiques littéraires de Deir el-Mèdineh, Tome III (Documents de fouilles de l'Institut français d'archéologie orientale du Caire 20); Le Caire: 1977/ 1978.
88.Percy E. NEWBERRY, The Amherst Papyri; London: 1899, 9- 10, Taf. 1.
89.Alan H. GARDINER/ Georg MÖLLER, Hieratische Papyrus aus den Königlichen Museen zu Berlin, Band III, Schriftstücke der VI. Dynastie aus Elephantine, Zaubersprüche für Mutter und Kind, Ostraka; Leipzig: 1911, Taf. 42.
90.Alan H. GARDINER, Hieratische Papyrus aus den Königlichen Museen zu Berlin, Band V, Literarische Texte des Mittleren Reiches II, Die Erzählung des Sinuhe und die Hirtengeschichte; Leipzig: 1909, 3- 7, 9- 14, Taf. 1-15.
91.Abraham ROSENVASSER, A new duplicate Text of the Story of Sinuhe; in: JEA 20 (1934), 47- 50, Taf. 9.1.
104
92.Alessandro ROCCATI, Tra i papiri torinesi (Scavi nel Museo di Torino, VII); in: OrAnt 14 (1975), 243- 253.
93.Kurt SETHE, Ägyptische Lesestücke zum Gebrauch im akademischen Unterricht, Texte des Mittleren Reiches; Darmstadt 31959, 3- 17.
94.Boris TURAEFF, Die Geschichte von Sinuhe, dem Ägypter (dtsch. Überstzg. d. russ. Titels); Moskau: 1915, Taf. geg. 2.
95.Die Altaegyptischen Pyramidentexte Pyramidentexte nach den Papierabdrucken und Photographien des Berliner Museums Leipzig : J. C. Hinrichs'sche Buchhandlung, 1908.
96.Холзнер С. XML. Энциклопедия, 2-е изд. - СПб.: Питер, 2004.
97.Уолтере Р., Коулс М. SQL Server 2008: ускоренный курс для профессионалов. — М.: «Вильяме», 2008.
98.Маннинг К., Рагхаван П., Шютце X. Введение в информационный поиск. — Вильяме, 2011.
99. Дональд Кнут 4. Генерация всех деревьев. История комбинаторной генерации // Искусство программирования. — М.: «Вильяме», 2007. — Т. 4.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.