ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ОБРОБКИ, СТИСКУ ТА ПЕРЕДАЧІ ЕЛЕКТРОННИХ РАСТРОВИХ ДОКУМЕНТІВ




  • скачать файл:
Название:
ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ОБРОБКИ, СТИСКУ ТА ПЕРЕДАЧІ ЕЛЕКТРОННИХ РАСТРОВИХ ДОКУМЕНТІВ
Тип: Автореферат
Краткое содержание:

ОСНОВНИЙ ЗМІСТ РОБОТИ


У вступі дисертації обґрунтовано актуальність завдань, які розв’язуються, сформульовано наукову проблему, мету дослідження, наукову новизну та практичну значущість роботи. Подані відомості про особистий внесок автора, апробацію, публікації та зв’язки з науковими програмами.


У першому  розділі проведено аналіз сучасного стану методів і технологій обробки та передачі по електронним мережам растрових документів.


Використання електронних документів визначається особливостями формату, в якому збережено даний документ. Цей факт визначає структуру першого розділу – в ньому наведені особливості існуючих програмних рішень, розглянуті методи роботи з інформаційними прошарками електронних документів.


У розділі розглядаються найпоширеніші формати зберігання і передачі електронних растрових документів: PDF, JPEG, JPEG 2000, DJVU.   Дані у форматі PDF мають великий обсяг, бо цей формат орієнтований на розповсюдження поліграфічної продукції. Формати JPEG та JPEG 2000 були розроблені для стиску повнокольорових зображень, але вони не  враховують специфіку растрового документу – наявність символів та «ділової графіки», через що в декодованому зображенні багато артефактів та сам закодований документ має великий обсяг. Найбільш вдалим для стиску растрових документів є DJVU, що був розроблений групою дослідників, серед яких П. Хафнер, Л. Ботоу, П. Ховард, Я. Ле Кун. Його реалізація базується на розбитті документу на інформаційні прошарки (прошарок бінарної маски, прошарок кольорів бінарної маски, прошарок фону) та застосуванні до кожного прошарку свого алгоритм стиску. Разом з тим, DJVU має свої проблеми – локалізація символів на складному фоні, локалізація та окрема обробка ліній. Недоліком усіх форматів є їх принципова локальність, що не дозволяє контролювати розповсюдження інформації.


Виходячи з прогресивної ідеї про поділення інформації в електронному растровому документі на прошарки, у подальшому були розглянуті сучасні підходи до локалізації та кластеризації символьного прошарку, локалізації та векторизації ліній, стиску кольору в прошарку зображень. 


Найбільш поширеним методом для локалізації символьного прошарку є метод гістограм,  який може бути застосований до бінарізованих зображень,  якщо текст розташовано чіткими  рядками. Також існують методи, що базуються на виділенні контурів символів та побудові зв’язних компонент і подальшому їхньому аналізу.


Кластеризація  зв’язних компонент – це спосіб зменшити обсяг даних, що мають в собі символи,  завдяки збереженню тільки шаблону кластеру (елементу, який найбільш вдало характеризує всі елементи кластеру) замість того, щоб зберігати кожну  зв’язну компоненту окремо. Були розглянуті ієрархічні та неієрархічні методи кластеризації, увага приділена методу k-середніх та його модифікаціям, виявлено, що більшість методів кластеризації потребують попередньої інформації про наявну кількість кластерів для стабільної роботи.


Виділення прошарку «ділова графіка» може бути виконано за рахунок використання операторів Собела, Превіта, Робертса у рамках задачі знаходження контурів. Найбільш вдалим вважається фільтр, названий на честь Д. Кенні, що дає досить хороші показники знаходження чітких ліній та не дуже чітких, що до них примикають. Важливим етапом обробки слою «ділова графіка» є етап векторизації, коли послідовність точок на площині заміняється на їхній аналітичний опис з відповідними параметрами. Це надає можливість зменшити обсяг прошарку «ділова графіка». Перевірку, чи може буди множина точок представлена у вигляді прямої, можна проводити використовуючи  перетворення Хафа. У більш складних випадках рекомендується застосовувати ламану чи сплайни. У цьому напрямку достатньо робіт таких вчених як  М.П. Корнійчук,  К. де Бур, А.О. Лигун, О.О. Шумейко, О.П. Приставка, Б.О.Попов та інших.


Як показали дослідження, методи стиску кольору в прошарку зображень спираються на відповідний апарат стиску люмінесцентної компоненти зображення.  Тобто для кольорів, що зберігаються у форматі JPEG йде мова про дискретно-косінусоідальне  перетворення, а для JPEG 2000 – про дискретно вейвлетне перетворення. До недоліків методів можна віднести відсутність впливу на реконструкцію кольору люмінесцентної компоненти, яка зберігається з більшої якістю та наявність артефактів, відповідних до обраного формату стиску зображень (наприклад, квадратна структура у JPEG).


Другий розділ дисертації присвячений обробці та стиску прошарку символів в електронних растрових документах. Перший підрозділ розкриває ідею представлення електронного растрового документу як інформаційної моделі, що складається з прошарків:


1.      Прошарок символів. До такого прошарку належать всі текстові елементи, які зустрічаються в електронному растровому документі – символи, знаки пунктуації. Зазвичай, у подальшому будемо розуміти під символами всі елементи цього прошарку. Для цього прошарку характерні часті появи символів, які по суті є одними й тими ж. Ця властивість є базовою для стиску такого прошарку.


 2.     Прошарок «ділова графіка». До цього прошарку відносяться лінії, діаграми, таблиці. Виходячи зі специфіки таких даних з точки зору їхнього стиску найбільш ефективно використовувати методи векторизації для того, щоб замість збереження бінарного виду прошарку, зберігати основні вузли елементів і відновлювати за допомогою відповідних апаратів наближення.


 3.     Прошарок зображень. Цей прошарок складається з зображень, які зустрічаються у тексті. Це можуть бути, наприклад комікси, ілюстрацій, діаграми. Для стиску елементів цього прошарку використовуються методи стиску зображень зі втратами або без втрат.


 4.     Прошарок фону. В залежності від того, як виглядає фон – це просто білий колір, або текстура, або зображення, наприклад, як в журналах, до нього можна використовувати різні методи стиску. У загальному випадку фон стискається як звичайне зображення з більш високим показником стиску.


Наступний підрозділ носить допоміжний характер і присвячений оптимальному (в середньоквадратичному сенсі) алгоритму квантування (Ллойда-Макса). Під квантуванням будемо розуміти розбиття множини значень неперервної або дискретної величини на задане скінченне число проміжків з подальшою відповідністю точок кожного проміжку номеру інтервалу. Ґрунтуючись на квантуванні Ллойда-Макса, запропоновано ітераційний алгоритм, який використовується в подальшому для виділення символів, сегментації зображень та ін.


 


Спираючись на наведені результати, у підрозділі 2.3 розглянута задача локалізації прошарку символів. Складність розв’язку таких задач пов’язана з невизначеністю поняття   символу. Тому, ключовою частиною даного підрозділу є формалізація критерію поняття «символ».

Заказать выполнение авторской работы:

Поля, отмеченные * обязательны для заполнения:


Заказчик:


ПОИСК ДИССЕРТАЦИИ, АВТОРЕФЕРАТА ИЛИ СТАТЬИ


Доставка любой диссертации из России и Украины


ПОСЛЕДНИЕ СТАТЬИ И АВТОРЕФЕРАТЫ

ГБУР ЛЮСЯ ВОЛОДИМИРІВНА АДМІНІСТРАТИВНА ВІДПОВІДАЛЬНІСТЬ ЗА ПРАВОПОРУШЕННЯ У СФЕРІ ВИКОРИСТАННЯ ТА ОХОРОНИ ВОДНИХ РЕСУРСІВ УКРАЇНИ
МИШУНЕНКОВА ОЛЬГА ВЛАДИМИРОВНА Взаимосвязь теоретической и практической подготовки бакалавров по направлению «Туризм и рекреация» в Республике Польша»
Ржевский Валентин Сергеевич Комплексное применение низкочастотного переменного электростатического поля и широкополосной электромагнитной терапии в реабилитации больных с гнойно-воспалительными заболеваниями челюстно-лицевой области
Орехов Генрих Васильевич НАУЧНОЕ ОБОСНОВАНИЕ И ТЕХНИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ВЗАИМОДЕЙСТВИЯ КОАКСИАЛЬНЫХ ЦИРКУЛЯЦИОННЫХ ТЕЧЕНИЙ
СОЛЯНИК Анатолий Иванович МЕТОДОЛОГИЯ И ПРИНЦИПЫ УПРАВЛЕНИЯ ПРОЦЕССАМИ САНАТОРНО-КУРОРТНОЙ РЕАБИЛИТАЦИИ НА ОСНОВЕ СИСТЕМЫ МЕНЕДЖМЕНТА КАЧЕСТВА