Математичне моделювання процесу поліпшення розпізнавання спотворених текстів: грудня 2012

Дивовижна інновація

Повністю автоматичну систему, здатну оцифровувати книжки з блискавичною швидкістю без участі оператора, розробили у Японії. Вона отримала назву BFS-Auto (book flipping scanning) і сканує (точніше, фотографує) сторінки за частки секунди, акуратно перегортає їх і встигає розпізнавати текст миттєво. Для цього книжку кладуть на похилу підставку з функцією автоматичного перегортання.

На розкритий фоліант проектують лазерну опорну сітку, а три камери знімають розвороти з різних ракурсів. Далі програма об'єднує три зображення в одне. Середня швидкість обробки - 250 сторінок за хвилину. Появу швидкісної BFS-Auto у продажу очікують у 2013 році.

Актуальність покращення якості розпізнавання тексту у промисловості

Існує ряд програмних продуктів, які здатні розпізнавати скановані документи високої якості з текстовою інформацією з імовірністю більше 90%. Тому можна використовувати такі програми в офісах при розпізнаванні документів, а також в промисловості для контролю продукції і маркуваннi деталей.
При розпізнаванні паперових документів на практиці помилки в 10 буквах на одному аркуші не так значимі, як помилки, що одержанi в промисловій галузi. Різні умови навколишнього середовища при отриманні знімків деталей (рис. 1), а так само можливі пошкодження маркування (відколи, подряпини, плями та ін) призводять до зниження ймовірності коректного розпізнавання символу на деталі. Існуючі програмні продукти розпізнавання текстової інформації здатні прибрати слабкі перешкоди у вигляді зернистого шуму, пов'язаного з низькою якістю зйомки. Більш великі перешкоди наявні програмні продукти не здатні визначити і видалити зі знімків.

Рис. 1 - Приклад промислового зображення

Загальні методи розпізнавання тексту

Розпізнавання напечатаних символів різних зображень забзпечує вирішення ряду наукових та прикладних задач при ідентифікації об'єктів різної природи. Сучасні методи розпізнавання символів використовуються для вирішення як типових задач, наприклад розпізнавання тексту, так і спеціалізованих задач, орієнтованих на розпізнавання символьної інформації, нанесеної на поверхню різних об'єктів. Існує достатньо велика кількість програм, призначених для розпізнавання тексту (наприклад, FineReader, Readiris, ScanSoft OmniPaeg та ін.). Кожна з цих програм пропонує свою реалізацію вирішення задачі обробки та розпізнавання зображень. Ці програми є комерційними, тому методи, закладені для вирішення задач, відомі лише розробникам.На даний час такі технології реалізуються трьома методами – структурним, ознаковим і шаблонним. Кожен з методів орієнтований на свої умови застосування, для яких він є ефективним. Кожен метод має вади. Найбільш суттєві з них – висока чутливість до афінних і проективних спотворень.

Шаблонний метод

При шаблонному методі проводиться порівняння зображення, що треба розпiзнати, з еталонними зразками з бази даних системи. При порівнянні обирається той еталон, який буде мінімально відрізнятися від аналізованого зображення. Перевага методу – висока точність розпізнавання дефектних символів. Недолік методу – неможливість розпізнати шрифт, який хоч трохи відрізняється від закладеного в систему.

Структурний метод

Структурні методи розпізнавання зберігають інформацію не про поточкове написання символу, а про його топологію. Еталон містить інформацію про взаємне розташування окремих складових частин символу. Перевага методу – стійкість до зсуву і повороту символу на невеликий кут, до різних стильових варіацій шрифтів. Однак, при повороті на кут, більший десяти градусів, даний метод не може бути використаний для розпізнавання символів. При застосування цього методу неважливими стають такі ознаки як розмір букви, що розпізнається і навіть шрифт, яким вона напечатана. Проте, основною проблемою цього методу є ідентифікація знаків, які містять певні дефекти (наприклад, розрив ліній або з'єднання сусідніх ліній).

Ознаковий метод

Ознаковi методи базуються на тому, що зображенню ставиться у відповідність N-мірний вектор ознак. Розпізнавання полягає в порівнянні вектора ознак з набором еталонних векторів тієї ж розмірності. Переваги методу – простота реалізації, хороша узагальнююча здатність, висока швидкiсть розпiзнавання. Недолік методу – висока чутливість до дефектів зображення. Крім того, ознакові методи мають інший недолік - на етапі вилучення ознак відбувається незворотня втрата частини інформації про символ. Вилучення ознак проходить незалежно, тому інформація про взаємне розташування елементів символів втрачається.

Математичне моделювання процесу поліпшення розпізнавання спотворених текстів

середу, 19 грудня 2012 р.

Дивовижна інновація

Актуальність покращення якості розпізнавання тексту у промисловості

Загальні методи розпізнавання тексту

Шаблонний метод

Структурний метод

Ознаковий метод

Про мене

середу, 19 грудня 2012 р.

Дивовижна інновація

Актуальність покращення якості розпізнавання тексту у промисловості

Загальні методи розпізнавання тексту

Шаблонний метод

Структурний метод

Ознаковий метод

середу, 19 грудня 2012 р.