Zainstaluj Tesseract OCR w Linux

Zainstaluj Tesseract OCR w Linux
Ten samouczek wyjaśnia, jak zainstalować Tesseract w Linux za pomocą zarówno menedżera Pakietów Debian Apt, jak i repozytoriów GIT dla innych dystrybucji Linux.

Tesseract to bezpłatne i prawdopodobnie najlepsze rozwiązanie OCR na rynku. Od 2006 roku jest sponsorowany przez Google; Wcześniej został opracowany przez Hewlett Packard w C i C ++ w latach 1985–1998. System może zidentyfikować nawet pismo odręczne; może się uczyć, zwiększając swoją dokładność i należy do najbardziej rozwiniętych i kompletnych na rynku.

Jeśli jest odpowiednio przeszkolony, może pokonać konkurentów komercyjnych, takich jak Abby; Jeśli szukasz poważnego rozwiązania dla OCR, Tesseract jest najdokładniejszy, ale nie oczekuj masywnych rozwiązań: wykorzystuje rdzeń na proces, co oznacza 8 podstawowy procesor (akceptowany hiperthreading) będzie mógł przetworzyć 8 lub 16 obrazów jednocześnie.

Tesseract jest świetnym rozwiązaniem, ale zanim się nad tym zastanowić, musisz wiedzieć, że wersje ostatniego Tesseract przyniosły duże ulepszenia, z których niektóre oznaczają ciężką pracę. Podczas gdy trening może trwać godziny lub dni, ostatnie szkolenie w wersji Tesseract może trwać dni, tygodnie, a nawet miesiące, szczególnie jeśli szukasz wielojęzycznego rozwiązania OCR.

Instalowanie Tesseract w Debian i Ubuntu:

Aby zainstalować Tesseract w dystrybucji Debian lub Ubuntu Linux, użyj Apt, jak pokazano na zrzucie ekranu poniżej.

sudo apt instal Tesseract -Cor -y

To zainstaluje Tesseract Under /usr/share/tesseract-croc/4.00/Tessdata.

Notatka: W przypadku innych dystrybucji Linuksa przeskakuj, aby zainstalować Tesseract ze źródeł.

Domyślnie Tesseract zainstaluje pakiet języka angielskiego. Aby zainstalować dodatkowe języki, składnia to następujące. W poniższym przykładzie zainstaluję hebrajski pakiet języka.

sudo apt instaluj Tesseract-cocheb

Aby zainstalować wszystkie dostępne języki, uruchom:

sudo apt instal Tesseract-Coc-all -y

Aby Tesseract działał prawidłowo, będziemy musieli użyć polecenia „Konwertuj”. To polecenie jest przydatne do konwersji między formatami obrazu i rozmiaru obrazu, rozmycia, uprawy, despeck, dither, rysowania, odwrócenia, dołączania, ponownego próbki i wielu więcej. To narzędzie jest dostarczane przez ImageMagick:

sudo apt instaluj ImageMagick

Teraz przetestujmy Tesseract, znajdź obraz zawierający tekst i uruchom:

Tesseract

Tesseract wyodrębni tekst z obrazu.

Kiedy pracowałem z Tesseract, potrzebowaliśmy tylko dokumentów dotyczących liczby słów. Jak w każdym innym programie, możesz i musisz go wyszkolić, aby zrozumieć pismo odręczne.

W zaawansowanych edytorach tekstu możemy zdefiniować niektóre symbole, które można policzyć, czy nie, czy liczyć, czy nie liczby itp., To samo z możliwością jest dostępne w Tesseract.

Optymalizacja Tesseract:

  • Optymalizacja wielkości: Według oficjalnych źródeł optymalny rozmiar piksela dla obrazu, który ma zostać pomyślnie przetworzony przez Tesseract, wynosi 300dpi. Będziemy musieli przetworzyć dowolny obraz za pomocą parametru -R, aby egzekwować ten DPI. Zwiększenie DPI również zwiększy czas przetwarzania.
  • Rotacja strony: Jeśli po skanowaniu strona nie jest odpowiednio ustawiona i pozostanie 180 ° lub 45 °, dokładność Tesseract zmniejszy się, więc możesz użyć skryptu Pythona do automatycznego wykrywania i naprawy problemów z rotacją.
  • Usuwanie granic: Według oficjalnego człowieka Tesseracta granice można błędnie wybierać jako postacie, zwłaszcza ciemne granice i tam, gdzie istnieje różnorodność gradacji. Usunięcie granic może być dobrym krokiem, aby osiągnąć maksymalną dokładność za pomocą Tesseract.
  • Usuwanie hałasu: Według źródeł tesseract hałas „to losowa zmiana jasności lub koloru na obrazie”. Możemy usunąć tę różnicę w etapie binaryzacji, co oznacza polaryzację jego kolorów.

Wprowadzenie do procesu szkolenia Tesseract:

Wcześniej w tym artykule obejmował proces szkoleniowy Tesseract, który ewoluował do bardziej ręcznego procesu, który zasługuje na dedykowany artykuł. Dlatego ta sekcja obejmuje tylko informacje teoretyczne na temat procesu szkolenia i instrukcji instalacji narzędzi szkoleniowych Tesseract i ich uruchomienia.

Według oficjalnej wiki Tesseract mamy 3 aktualne opcje szkolenia naszego systemu OCR:

  • "Dostroić. Zaczynając od istniejącego wyszkolonego języka, trenuj na konkretnych dodatkowych danych. Może to działać w przypadku problemów zbliżonych do istniejących danych treningowych, ale w pewnym subtelnym sposobie, jak szczególnie niezwykła czcionka. Może działać nawet z niewielką ilością danych szkoleniowych.
  • Odetnij górną warstwę (lub jakąś dowolną liczbę warstw) z sieci i przekazaj nową górną warstwę za pomocą nowych danych. Jeśli dopracowanie nie działa, najprawdopodobniej jest to kolejna najlepsza opcja. Jeśli zaczniesz od najbardziej podobnego skryptu, odcięcie górnej warstwy może nadal działać na szkolenie zupełnie nowego języka lub skryptu.
  • Przekształcić od zera. O ile nie masz bardzo reprezentatywnego i wystarczająco dużego zestawu szkoleniowego dla twojego problemu, jest to zniechęcające zadanie. Jeśli nie, prawdopodobnie skończysz z nadmierną siecią, która naprawdę dobrze radzi sobie z danymi szkoleniowymi, ale nie na rzeczywistych danych.

Przed kontynuowaniem instrukcji szkolenia Tesseract będziemy musieli zainstalować dodatkowe biblioteki:

sudo apt instal libicu-dev libicu-dev libcairo2-dev

W dystrybucjach Linux opartych na Debian zainstaluj pakiet programistyczny Tesseract, w tym narzędzia szkoleniowe Tesseract za pomocą APT, jak pokazano poniżej. Jeśli nie korzystasz z dystrybucji Linux z Debiana, przeczytaj instrukcje, aby zainstalować narzędzia szkoleniowe Tesseract ze źródeł.

sudo apt instal libtesseract -dev -y

Po instalacji będziesz mógł zobaczyć narzędzia szkoleniowe pod /usr/share/tesseract-coct/ jak pokazano niżej.

LS/USR/SHARE/TESSERACT-COCR

Przed rozpoczęciem szkolenia języka musisz podać treść Tesseract, z której można się uczyć.

W tym celu musisz utworzyć katalog Langdata i subkwatory ENG w głównym katalogu instalacji Tesseract. Następnie utwórz plik tekstu szkoleniowego, jak pokazano poniżej.

sudo mkdir/usr/share/tesseract-coc/langdata/
sudo mkdir/usr/share/tesseract-coc/langdata/eng/
sudo nano/usr/shar.trening_text

Notatka: Pamiętaj, aby dodać zawartość do Eng.trening_text plik.

Po dodaniu pliku tekstowego szkolenia składnia do rozpoczęcia szkolenia języka jest następująco. Następujące polecenie jest szkolenie języka angielskiego zdefiniowanego jako „Eng".

./Tesstrain.sh--lang eng--langdata_dir/usr/share/tesseract-coc/langdata--tessdata_dir/usr/share/tesseract-coc/tessdata

Ten proces może potrwać dużo czasu. Oczywiście zależy to również od twoich plików tekstowych szkoleniowych. To jest wprowadzenie do procesu szkolenia Tesseract. Opublikujemy nowy artykuł skupiony wyłącznie na procesie szkoleniowym.

Rozwiązywanie problemów z brakującymi czcionkami:

W moim przypadku otrzymałem błąd, próbując trenować Tesseract. Brakowało odważnej czcionki Arial Bold. Rozwiązałem to, uruchamiając poniższe polecenie.

sudo apt instal ttf-mscorefonts-installer

Zainstaluj Tesseract ze źródeł w Linux:

W różnych rozkładach Linux można uzyskać Tesseract za pomocą GIT, jak pokazano poniżej.

Git Clone https: // github.com/tesseract-coc/tesseract.git

Po sklonowaniu przejdź do katalogu Tesseract, uruchamiając CD.

CD Tesseract

Następnie uruchom Autogen.cii skrypt, jak pokazano poniżej.

sudo ./Autogen.cii

Powyższe polecenie tworzy pliki instalacyjne; Teraz uruchom następujące polecenie, aby rozpocząć proces instalacji.

sudo ./skonfiguruj

Uruchomić robić Aby rozpocząć kompilację Tesseract.

Sudo Make

Następnie uruchomić Zrób instalację, jak pokazano na zrzucie ekranu poniżej.

sudo wykonaj instalację

Wykonać LDCONFIG jak pokazano niżej.

sudo ldconfig

Aby skompilować narzędzia szkoleniowe, uruchom następujące polecenie.

sudo dokonaj szkolenia

Następnie uruchomić:

sudo dokonaj instalacji treningowej

Teraz możesz postępować zgodnie z instrukcjami, aby rozpocząć proces szkolenia.

Wniosek:

Jak widać, instalacja Tesseract w Linux jest dość łatwa, szczególnie w dystrybucjach Linux z siedzibą w Debian. Kiedy korzystałem z Tesseract, zarządzaliśmy tysiącami potencjalnych klientów, przesyłając odręczne treści, obrazy z tekstem itp. Użyliśmy 48 serwerów podstawowych z BatabaseByDesign, a następnie z AWS; Nigdy nie mieliśmy problemu z zasobami.

Mieliśmy przesyłanie, który rozróżniał pliki tekstowe, takie jak Microsoft Office lub Otwarte pliki biurowe i obrazy lub zeskanowane dokumenty. Przesyłanie określił, jakie skrypty OCR lub PHP przetworzyłyby zamówienie w polu rozpoznawania tekstu.

Z mojego doświadczenia wynika, że ​​Tesseract jest najlepszym rozwiązaniem OCR dostępnym na rynku i jest to open source.

Dziękujemy za przeczytanie tego samouczka Wyjaśnienie, jak zainstalować i skonfigurować OCR Tesseract w Linux. Śledź nas, aby uzyskać dodatkowe porady i samouczki Linux.