Technologia OCR – reader, sprawdzony OCR program

Zastosowanie technologii OCR (Optical Character Recognition – Optyczne Rozpoznawanie Znaków) pozwala uwolnić pracowników od żmudnej, odtwórczej pracy dając czas na realizowanie ich głównych zadań.

Aby uniknąć ręcznego przepisywania dokumentów wystarczy zeskanować dokument i przetworzyć go wykorzystując oprogramowanie klasy OCR. ABBYY FineReader 9.0 odczytuje pismo drukowane na zeskanowanym dokumencie i zapisuje tekst w postaci pliku edytowalnego. Odtworzony zostaje nie tylko tekst, ale również krój czcionek, formatowanie akapitów, przenoszone są elementy graficzne (ilustracje, wykresy). Dzieje się to w tempie nieosiągalnym dla człowieka przepisującego ręcznie, konwersja 1 strony A4 trwa około minuty. Poprawność rozpoznawania przekracza 99,9% co oznacza, że mniej niż jeden znak na 1000 rozpoznawany jest niepewnie.

Każda przetworzona automatycznie strona to oszczędność około 30 minut. Oszczędność tym większa, że koszt jednostanowiskowej wersji programu OCR wynosi kilkaset złotych.

Jeszcze większym usprawnieniem jest wykorzystanie systemów informatycznych do pobierania danych z formularzy – dokumentów o ustalonym układzie graficznym (wzorze), zwykle wypełnianych ręcznie i przetwarzanych masowo. Znajdują tu zastosowanie szybkie skanery automatyczne oraz technologia ICR (Intelligent Character Recognition) pozwalająca odczytywać blokowe pismo ręczne. Wykorzystanie programu ABBYY FormReader 6.5 skraca czas wprowadzania danych z formularzy, eliminuje błędy oraz obniża koszty. Wiele banków oraz instytucji publicznych korzysta z specjalizowanych systemów tworzonych na zamówienie. Dostępne są także gotowe aplikacje “pudełkowe”, tanie i łatwe w eksploatacji, realizujące cały proces przechwytywania danych z formularzy i zapisu do plików lub baz. Już przy przetwarzaniu kilkudziesięciu formularzy dziennie warto zainwestować we wdrożenie technologii OCR/ICR. System o dziennej wydajności 1000 stron przynosi w skali miesiąca oszczędność rzędu 500 EUR.

Automatyczne przetwarzanie dokumentów zdobywa coraz szersze zastosowania. Ilość przetwarzanych dokumentów sprawia, że system OCR staje się nie luksusem lecz koniecznością we współczesnym biurze.

Technologia IPA

Proces rozpoznawania obrazu przez FineReader’a obejmuje analizę pliku przekazywanego przez skaner (analiza układu strony) oraz rozpoznawanie każdego znaku. Proces analizy układu strony (zaznaczenie obszarów rozpoznawanych, tabelek, grafiki, linii i pojedynczych znaków) oraz rozpoznawania dokumentu są mocno z sobą powiązane: analiza układu strony używa informacji o rozpoznanym tekście w celu zapewnienia najwyższego poziomu poprawności analizy.

Jak wspomniano powyżej, rozpoznawanie obrazu oparte jest o technologię IPA.

  • Integrity – rozpoznawany obiekt jest opisany jako całość przez zbiór elementów i relacji między nimi.
  • Purposefulness – rozpoznawanie jest procesem generowania hipotez i sprawdzania ich prawdopodobieństwa.
  • Adaptivity – to umiejętność systemu do uczenia się i bycia trenowanym.

Te trzy elementy stoją u podstaw działania systemu. System generuje hipotezę na temat rozpoznawanego obiektu (znak, część znaku, kilka zlepionych znaków – ligatura), a następnie akceptuje je lub odrzuca, próbując krok po kroku znaleźć wszystkie elementy struktury znaku i relacje między nimi. Te elementy struktury są komputerowymi odpowiednikami fragmentów znaków odpowiedzialnych za ich rozpoznawanie przez człowieka (łuki, okręgi, kropki, itp.). Następnie program dopasowuje je do tekstu – używając informacji uzyskanych podczas rozpoznawania pierwszych poprawnie rozpoznanych znaków. Wyszukiwanie informacji o kontekście znaku pozwala systemowi rozpoznać nawet mocno uszkodzone znaki, dzięki czemu jest prawie niewrażliwy na błędy druku.

Efektem końcowym jest rozpoznany tekst, który możesz zobaczyć w okienku Tekst. Tekst ten możesz edytować i zapisać w jakiejkowiek potrzebnej Ci formie.

FineReader – programy OCR dla wymagających

Programy OCR nie są rynkową nowością – przedsiębiorcy czy instytucje publiczne korzystały z nich już w latach 90. ubiegłego wieku. Wówczas jednak oprogramowanie to było drogie, a dodatkowo skan musiał być bardzo dobrej jakości, aby technologia OCR poradziła sobie z rozpoznaniem poszczególnych znaków. Dziś programy OCR spełniają oczekiwania nawet najbardziej wymagających klientów – ich skuteczność wynosi niemal 100 proc. Są także o wiele tańsze, czyli dostępniejsze – OCR polski kosztuje kilkaset złotych za jedno stanowisko.

Dzięki dużej precyzji rozpoznawania znaków program OCR przydaje się w niemal każdej firmie. Przedsiębiorcy mogą wykorzystać go m.in. do usprawnienia obiegu dokumentów między pracownikami czy stworzenia cyfrowego archiwum. To pozwala zaoszczędzić miejsce, które jest potrzebne do przechowywania papierowych dokumentów.

OCR – polski nie jest dla FineReader wyzwaniem!

Nie każdy program OCR jest zaprojektowany w taki sposób, aby rozpoznawać znaki we wszystkich językach. Z reguły dostawcy OCR koncentrują się na najpopularniejszych językach. Programy OCR oferowane przez ABBYY doskonale radzą sobie z językiem polskim oraz językami programowania. Dzięki temu mogą być wykorzystywane bardzo szeroko – OCR polski przyda się nie tylko firmom, ale również bibliotekom, które część swoich zbiorów chcą zaoferować w formie zdigitalizowanej. Także użytkownicy indywidualni, zamierzający założyć firmę, powinni zainteresować się tą technologią – mogą dzięki niej uniknąć wysyłania dokumentów w formie papierowej.

Z uwagi na to, ż program OCR może być przeznaczony na konkretny rynek, przed wyborem produktu warto sprawdzić, czy wybrany OCR język polski ma wbudowany w swoje funkcjonalności.

Program OCR FineReader to oszczędność czasu i nie tylko

Współcześnie programy OCR są wykorzystywane głównie w firmach i instytucjach publicznych, gdzie usprawniają pracę biurową. Oszczędność czasu nie jest jednak jedyną zaletą technologii OCR. Inne korzyści płynące z wykorzystania programów OCR to:

  • redukcja liczby pomyłek – technologia OCR doskonale radzi sobie z odczytywaniem znaków w różnych językach (OCR polski nie będzie miał problemu z odczytaniem znaków charakterystycznych dla języka polskiego), a dodatkowo liczba błędów jest ograniczona do minimum,
  • sprawniejszy obieg dokumentów w firmie – program OCR FineReader umożliwia zapisanie dokumentów w formacie np. PDF, a następnie przekazanie ich drogą elektroniczną do dowolnego pracownika czy klienta, co również wpływa na czas, w jakim dokument zostanie dostarczony do adresata,
  • automatyzacja procesu biznesowego – zdefiniowane słowa zawarte w zeskanowanym dokumencie mogą pomóc w przydzielaniu zapisanych plików do właściwych komórek, jednostek czy oddziałów firmy i korzystnie wpływać na szybkość rozpatrzenia spraw.

Z digitalizacją dokumentów wiąże się jeszcze jedna korzyść – redukcja liczby zarówno wykorzystanych kartek papieru, jak i akcesoriów biurowych. Stosując program OCR, firma może być bardziej konkurencyjna, a także podkreślić swoją dbałość o środowisko. To kolejne powody, dla których OCR polski powinien znaleźć się w firmach i instytucjach, które na co dzień mają do czynienia z dziesiątkami, setkami czy tysiącami dokumentów.