Определение достоверности результатов распознавания символа в системе Cognitive Forms


Скачать 175.42 Kb.
НазваниеОпределение достоверности результатов распознавания символа в системе Cognitive Forms
страница1/4
ТипДокументы
filling-form.ru > Туризм > Документы
  1   2   3   4

Определение достоверности результатов распознавания символа в системе Cognitive Forms

В. В. Арлазаров, В. М. Кляцкин.


В данной работе рассмотрен важный вопрос определения достоверности результата распознавания символа в рамках задачи распознавания форм структурированных документов. Проанализированы различные пути решения этой задачи и приведено решение, реализованное в системе Cognitive Forms.

Введение


В современном мире ежедневно вводится с бумаги несколько десятков миллионов различных форм документов – почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода бумажных анкет, отчетов и множество других документов. Сотни тысяч операторов выполняют однообразную последовательность действий – бросают взгляд на очередную страницу, находят и читают текст заполнения и быстро набирают его на клавиатуре. Как альтернатива ручному вводу существуют технологии автоматизированного ввода форм.

Такие технологии обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это без перерыва на обед. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество – корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии или даже лучшего). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план. Таким образом, разработка систем массового ввода стандартизованных форм документов представляется актуальной задачей. Эти технологии опираются на достижения в обработке изображений и распознавании – двух самостоятельных быстро развивающихся областях искусственного интеллекта.

Важная задача, определяющая, наряду с качеством распознавания, эффективность системы ввода – выявление необходимости ручного контроля результатов распознавания, грубо говоря, это означает автоматическое определение достоверности результатов распознавания – т.е. способ определения, правильно ли распознан тот или иной объект без помощи человека.

Основные понятия и обзор методов определения достоверности результатов распознавания


Введем основные понятия, необходимые для дальнейшего изложения.

Система распознавания (далее классификатор) – это функция, решающая проблему определения, к какому классу из классов (далее алфавит распознавания) принадлежит образ в виде



где - классифицирующая функция, а - вектор альтернатив. Каждая альтернатива представляет из себя пару , где - индекс класса, - оценка принадлежности к -му классу. Альтернативы в векторе отсортированы по убыванию оценки принадлежности , т.е. и . При этом оценка принадлежности тем больше, чем больше, по мнению , возможность принадлежности образа к классу. Необходимо отметить, что природа оценки может быть как вероятностной, тогда , так и иметь не вероятностную природу, например, расстояние между эталоном и образцом , пример таких классификаторов приведены в работах [Koh86], [Koh90], где - эталонная модель класса . Необходимо отметить, что в задаче распознавания документов, как и во многих других задачах классификации, пока не достижима 100% точность работы классифицирующих алгоритмов и схем. Исходя из этого, возникает необходимость каким-либо образом детектировать те случаи, когда классифицирующая функция дала неверный результат, т.е. классификатор выдал максимальную оценку для класса, к которому образ в реальности не принадлежит. В задачах же ввода документов ошибки распознавания могут приводить к серьезным последствиям (например, если неправильно распознать адресат платежа на платежном документе, деньги могут быть неверно переведены), и задача определения достоверности результатов распознавания весьма актуальна.

Определим множество - множество образов распознавания и введем функцию



разбивающую множество на подмножества - правильно распознанных образов и - множество неправильно распознанных образов. Далее определим некоторое решающее правило - - функция определения достоверности, которое определяет достоверность результата распознавания i-го образа множества на основании результатов распознавания и множества внешних параметров . Это решающее правило разобьет подмножество на - множество правильно распознанных и достоверных образов и - множество правильно распознанных и признанных недостоверными. Множество разбивается на - множество неправильно распознанных и недостоверных образов и - множество образов с ошибкой распознавания признанных достоверными. Объединение множеств и дает множество правильно обработанных системой распознавания образов.

Вначале дадим обзор методов определения достоверности результатов распознавания, когда оценки являются либо апостериорным вероятностями принадлежности, либо существует простое преобразование из шкалы оценок классификатора к апостериорным вероятностям. Заменим на и будем считать, что выполняется условие . В этом случае правило выбора альтернативы с максимальной оценкой является правилом Байеса, схемы и методы распознавания с таким правилом выбора будем называть Байесовыми. В работе [Cho70] Чу, модифицировал правило Байеса, дополнив его возможностью отказа от классификации в случае недостаточной достоверности результата, сформулировав следующее правило

,

где - цена ошибки распознавания признанной достоверной, - цена обработки отбракованного символа и - цена ввода правильного символа. Это правило минимизирует Байесов риск

.

Основная идея этого правила заключена в том, что если образ лежит вблизи границы двух классов, оценки принадлежности к ним будет достаточно близки и в этом случае, в зависимости от задачи, может быть лучше признать образ недостоверно распознанным или вообще отказаться от распознавания этого образа. Это правило прямо опирается на оценку первой альтернативы - поэтому мы будем в дальнейшем называть такие правила «первой» альтернативы. В дальнейшем это правило было уточнено и модифицировано в работах [DM93] и [Ha96] – улучшено поведение на границах классов и в областях неразличимости классов, другой подход можно увидеть в работах [FRG00], [CSS95].

В работах [FST+99], [CFS+98] авторами был предложен и исследован более сложный подход к построению правила определения достоверности. Этот подход заключается в использовании двух «первых» альтернатив для Байесовых схем распознавания. Авторы ввели две дополнительные функции и , где - максимальная оценка принадлежности (), а - следующая за ней. Видно, что малые значения сигнализирует о низкой апостериорной вероятности принадлежности, а низкие значения сигнализируют о малой разнице в оценках принадлежности к двум разным классам. Далее авторы предлагают несколько правил отбраковки, различным способом комбинирующие и :

, ,

,

,

в результате получается 4 вида функций отбраковки







,

и задача сводится к нахождению выбору функции и нахождению порога , обеспечивающего решение поставленной задачи. В статье приведены практические результаты использования и показана эффективность применения вышеперечисленных критериев в системах, использующих для распознавания схему, выдающую оценки альтернатив в виде апостериорных вероятностей принадлежности образа к классу. Еще несколько различных подходов к решению этой проблемы приведено в работах [FR01],[Aki96], [SMT94].

В работе [Gor97] предложен более комплексный и системный подход к решению задачи построения правил определения достоверности результатов распознавания для случая распознавания рукописных полей документов. Для построения решающего правила автор ставит проблему определения достоверности как обычную задачу распознавания с двумя возможными классами: «достоверные», «не достоверные» в рамках парадигмы выбора Байеса, т.е.:

  1. Необходимо определить пространство признаков каждого вектора альтернатив;

  2. Вычислить в этом пространстве апостериорную вероятность принадлежности к классам «достоверно» и «не достоверно»;

  3. Применить решающие правило Байеса с различными ценами ошибки и отбраковки.

После серии экспериментов автор формирует пространство признаков разделив его на три категории:

  1. «Абсолютные» - не зависящие от применения системы параметры, такие как число альтернатив с ненулевой оценкой, логарифм от абсолютного значения оценки и т.д.

  2. «Относительные» - не зависящие от применения системы параметры, т.е. параметры, значения которых вычисляются с помощью некоторых функций от вектора альтернатив.

  3. Параметры, зависящие от области применения, например цена ошибки или отбраковки и т.д.

Далее автор использует нейронную сеть для получения апостериорных вероятностей и приводит результаты для задачи распознавания банковских чеков, которые показывают правильность такого системного подхода к задаче определения достоверности результатов распознавания.

Проблема вышеперечисленных критериев заключена в том, что они опираются на вероятностную природу оценки, переход к которой для схем распознавания выдающих оценку распознавания в не вероятностном виде может быть достаточно затруднительным.
  1   2   3   4

Похожие:

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconCognitive Forms cистема массового ввода структурированных документов
Приводится обзор системы массового ввода форм документов Cognitive Forms. Рассматриваются основные этапы технологии ввода структурированных...

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconО. А. Славин Работа посвящена распознаванию печатных и рукопечатных...
Рассматриваются алгоритмы комбинирования нескольких методов распознавания, оптимизированные к различным деформациям образов символов....

Определение достоверности результатов распознавания символа в системе Cognitive Forms icon15 Обеспечение качества результатов испытаний
Целью данной процедуры является обеспечение достоверности результатов проводимых в ил испытаний и подтверждение их соответствия установленным...

Определение достоверности результатов распознавания символа в системе Cognitive Forms icon2. Перечень проверяемых образовательных результатов
Цель работы: определение уровня сформированности предметных результатов при переходе обучающихся в следующий класс

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconОтчет результатов самообследования деятельности мбдоу «Детский сад №111»
Оценка результатов деятельности коллектива работников мдоу №111 «Сказка» за 2015-2016 учебный год, разработка целей и перспектив...

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconСистема оценки достижения планируемых результатов освоения основной...
Федеральный государственный образовательный стандарт содержит чёткие требования к системе оценки достижения планируемых результатов...

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconGraphics and Drawing in Windows Forms 10
Работа с растровыми и векторными изображениями с использованием классов Image, Bitmap и Metafile 35

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconОб утверждении Административного регламента
Российской Федерации государственной услуги по проведению государственной экспертизы проектной документации, результатов инженерных...

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconОб утверждении Административного регламента
Российской Федерации государственной услуги по проведению государственной экспертизы проектной документации, результатов инженерных...

Определение достоверности результатов распознавания символа в системе Cognitive Forms iconГотовимся к диагностической работе в системе СтатГрад Основные правила заполнения бланков егэ
В случае отсутствия у участника егэ указанных ручек и использования, вопреки настоящим правилам, шариковой ручки, контур каждого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск