Цифровий архів за 7 днів
Припустимо, є шафа з паперовими документами: договорами, юридичної або бухгалтерською документацією, офісної кореспонденцією та ін. (Але тільки це не документи-форми, і створюється не база даних, це - особлива технологія.). У шафі - сотня папок, у кожній по 150 аркушів = 300 сторінок, разом - 30 тисяч сторінок.
Для вирішення «максимум ефекту при мінімумі витрат» знадобиться:
- Документальний сканер - наприклад, дуплексне пристрій з рекомендованою навантаженням до 3000 листів в день. Архів отсканируется за 5 днів. Ціна близько 15 тис грн. Можливо, підійде і офісне МФУ, але автоподатчик обов'язковий, і треба звернути особливу увагу на характеристики сканування.
- ABBYY FineReader Corporate Edition - саме ця версія, оскільки у неї є можливість запуску завдань за розкладом, без участі людини. Вартість ліцензії на робоче місце - близько 900 грн, конкурентної ("плаваючою") - близько 1500 грн.
- Продуктивна робоча станція. Наприклад, ноутбук з iCore 5, 2 ядра, 4Г ОЗУ витрачає менше 4 секунд на сторінку А4 хорошої якості. Швидкість може бути нижче при падінні якості зображень. Припускаємо, що така робоча станція не буде коштувати нам додаткових грошей, тому ми плануємо її навантажувати в неробочий (нічний час. При швидкості 15 стор/хв (4 секунди на сторінку) за 10 годин з 22-00 до 8-00 знадобиться 4 дні.
- Люди, які будуть укладати документи в сканер. У найпростішому випадку доведеться діставати документи з папки і укладати в автоподатчик і класти відскановані папери на місце (якщо документи односторінковий). Якщо ж вони багатосторінкові, то доведеться кожен документ відокремити від наступного порожній сторінкою - ми ж хочемо, щоб кожен документ зберігся в окремий файл? Припустимо, що людина за хвилину здатний обробляти 10 таких листів. Нехай чистої роботи в день вийде 4 години. Тоді це дає 4,8 тис сторінок в день, або менше 7 днів на весь архів.
Разом, загальна вартість близько 16000 грн «зовнішніх» витрат плюс сканер, який залишиться у володінні організації. З часу - близько 7 людино-днів. Більше людей і сканерів - буде швидше. Сканування - основний критичний шлях проекту.
Справедливості заради відзначимо обмеження підходу:
- Немає перевірки розпізнавання (верифікації). Це означає, що при якісному розпізнаванні в більшості випадків інформація буде знаходитися. Це вже непогане досягнення, але для 100% гарантії знадобилася б перевірка кожної сторінки людиною. Верифікувати чи ні - окрема цікава тема, про неї в інший раз
- Вихідні документи не прошиті та не простеплены. Інакше часу на їх розшивку та складання буде потрібно набагато більше. Можливо, навіть доведеться розглянути варіант фотографування замість сканування.
І останнє. Як налаштувати FineReader? Точніше, не сам FineReader, а утиліту HotFolder & Scheduling, яка йде в його складі. Дивіться скріншоти. Документи відкриваються з однієї папки, а результат складається в іншу або на MS Sharepoint. Також вказується час початку сканування.