Сканирование документов Несмотря на возрастание доли документов, передаваемой в электронной форме, в ближайшие годы в делопроизводстве сохранится значительный процент бумажных документов, ввод которых в систему полнотекстового хранения и электронного документооборота требует их сканирования.
Операция сканирования, т.е. перевода документа из бумажной в электронную форму, остаётся одной из самых трудоёмких и требующих тщательной проработки.
Различают текущее и ретроспективное сканирование. В первом случае сканируются документы текущего делопроизводства, во втором – документы, отложившиеся за прошедшие годы. Чаще всего ретроспективное сканирование осуществляется для перевода в электронную форму документов постоянного и долговременного сроков хранения.
Ретроспективное сканирование документов целесообразно в следующих случаях:
Частое обращение к документам прошлых лет (несколько раз в год);
Преобладание тематических запросов, требующих для своего выполнения просмотра текстов документов.
Высокие требования к оперативности выполнения запроса.
Необходимость вывода из обращения для обеспечения сохранности оригиналов постоянно используемых ценных документов.
Потребность в организации удалённого доступа к документам (филиалов, руководства, находящегося в командировке и т.п.), например через Internet.
При организации сканирования необходимо учитывать следующие параметры:
определить объём имеющихся материалов, предполагаемое их ежегодное увеличение;
формат бумаги, процентное соотношение документов формата А4, А3 и выше;
качество бумаги (стандартная, тонкая, ветхая и т.п.);
одно и двусторонние размещение текста;
наличие фотографий, цветных оригиналов, негативов и др.
переплёт, возможность расшивки документов для сканирования.
необходимость повторного переплёта, возможность замены дорогостоящего переплёта вакуумной упаковкой.
Исходя из объёма и процентного соотношения вышеперечисленных типов документов выбирается соответствующая сканирующая техника.39
Следующий этап перевода документов в электронную форму – распознавание текстов документов. При собственно сканировании в компьютер поступает изображение страницы документа, а программы распознавания (OCR - Optical Character Recognition) преобразуют изображение в текст, на основе которого в дальнейшем производится полнотекстовый поиск информации. Наиболее распространённые программы OCR – FineReader фирмы ABBYY и разработка Cognitive Technologies – Cuneform (в настоящее время – версии FineReader 5.0 и Сuneiform 2000 R2 соответственно). При необходимости копия распознанного текста может быть загружена в текстовый редактор типа MS Word и использована для подготовки других документов.
В большинстве случаев сохраняется как изображение каждой страницы документа, так и распознанный текст. Хотя размер изображения, занимаемый им в памяти компьютера, на порядок превышает размер страницы текста, это необходимо, так как документ может содержать графические элементы – резолюции, пометы, печати и др., которые отсутствуют в распознанном тексте. Кроме того, следует учитывать, что несмотря на значительное усовершенствование программ распознавания в последние годы, тем не менее пока что при переводе документов в электронную форму возможны ошибки. Их устранение требует дополнительной операции – считки документа, самой трудоёмкой и сразу же на порядок повышающей трудоёмкость и стоимость всего процесса сканирования. Поэтому обычно считку используют только при вводе наиболее важных документов или тех, распознавание которых затруднено. Наличие 2-3 ошибок распознавания на лист как правило не влияет на читаемость документа, а возможность в любой момент обратиться к изображению оригинала снимает возможные проблемы.
Параллельно со сканированием на каждый документ заводится регистрационная карточка, к которой прикрепляются полученные изображение и распознанный текст документа.
|