Tesseract to bezpłatne i prawdopodobnie najlepsze rozwiązanie OCR na rynku. Od 2006 roku jest sponsorowany przez Google; Wcześniej został opracowany przez Hewlett Packard w C i C ++ w latach 1985–1998. System może zidentyfikować nawet pismo odręczne; może się uczyć, zwiększając swoją dokładność i należy do najbardziej rozwiniętych i kompletnych na rynku.
Jeśli jest odpowiednio przeszkolony, może pokonać konkurentów komercyjnych, takich jak Abby; Jeśli szukasz poważnego rozwiązania dla OCR, Tesseract jest najdokładniejszy, ale nie oczekuj masywnych rozwiązań: wykorzystuje rdzeń na proces, co oznacza 8 podstawowy procesor (akceptowany hiperthreading) będzie mógł przetworzyć 8 lub 16 obrazów jednocześnie.
Tesseract jest świetnym rozwiązaniem, ale zanim się nad tym zastanowić, musisz wiedzieć, że wersje ostatniego Tesseract przyniosły duże ulepszenia, z których niektóre oznaczają ciężką pracę. Podczas gdy trening może trwać godziny lub dni, ostatnie szkolenie w wersji Tesseract może trwać dni, tygodnie, a nawet miesiące, szczególnie jeśli szukasz wielojęzycznego rozwiązania OCR.
Instalowanie Tesseract w Debian i Ubuntu:
Aby zainstalować Tesseract w dystrybucji Debian lub Ubuntu Linux, użyj Apt, jak pokazano na zrzucie ekranu poniżej.
sudo apt instal Tesseract -Cor -y
To zainstaluje Tesseract Under /usr/share/tesseract-croc/4.00/Tessdata.
Notatka: W przypadku innych dystrybucji Linuksa przeskakuj, aby zainstalować Tesseract ze źródeł.
Domyślnie Tesseract zainstaluje pakiet języka angielskiego. Aby zainstalować dodatkowe języki, składnia to następujące. W poniższym przykładzie zainstaluję hebrajski pakiet języka.
sudo apt instaluj Tesseract-cocheb
Aby zainstalować wszystkie dostępne języki, uruchom:
sudo apt instal Tesseract-Coc-all -y
Aby Tesseract działał prawidłowo, będziemy musieli użyć polecenia „Konwertuj”. To polecenie jest przydatne do konwersji między formatami obrazu i rozmiaru obrazu, rozmycia, uprawy, despeck, dither, rysowania, odwrócenia, dołączania, ponownego próbki i wielu więcej. To narzędzie jest dostarczane przez ImageMagick:
sudo apt instaluj ImageMagick
Teraz przetestujmy Tesseract, znajdź obraz zawierający tekst i uruchom:
Tesseract
Tesseract wyodrębni tekst z obrazu.
Kiedy pracowałem z Tesseract, potrzebowaliśmy tylko dokumentów dotyczących liczby słów. Jak w każdym innym programie, możesz i musisz go wyszkolić, aby zrozumieć pismo odręczne.
W zaawansowanych edytorach tekstu możemy zdefiniować niektóre symbole, które można policzyć, czy nie, czy liczyć, czy nie liczby itp., To samo z możliwością jest dostępne w Tesseract.
Optymalizacja Tesseract:
Wprowadzenie do procesu szkolenia Tesseract:
Wcześniej w tym artykule obejmował proces szkoleniowy Tesseract, który ewoluował do bardziej ręcznego procesu, który zasługuje na dedykowany artykuł. Dlatego ta sekcja obejmuje tylko informacje teoretyczne na temat procesu szkolenia i instrukcji instalacji narzędzi szkoleniowych Tesseract i ich uruchomienia.
Według oficjalnej wiki Tesseract mamy 3 aktualne opcje szkolenia naszego systemu OCR:
Przed kontynuowaniem instrukcji szkolenia Tesseract będziemy musieli zainstalować dodatkowe biblioteki:
sudo apt instal libicu-dev libicu-dev libcairo2-dev
W dystrybucjach Linux opartych na Debian zainstaluj pakiet programistyczny Tesseract, w tym narzędzia szkoleniowe Tesseract za pomocą APT, jak pokazano poniżej. Jeśli nie korzystasz z dystrybucji Linux z Debiana, przeczytaj instrukcje, aby zainstalować narzędzia szkoleniowe Tesseract ze źródeł.
sudo apt instal libtesseract -dev -y
Po instalacji będziesz mógł zobaczyć narzędzia szkoleniowe pod /usr/share/tesseract-coct/ jak pokazano niżej.
LS/USR/SHARE/TESSERACT-COCR
Przed rozpoczęciem szkolenia języka musisz podać treść Tesseract, z której można się uczyć.
W tym celu musisz utworzyć katalog Langdata i subkwatory ENG w głównym katalogu instalacji Tesseract. Następnie utwórz plik tekstu szkoleniowego, jak pokazano poniżej.
sudo mkdir/usr/share/tesseract-coc/langdata/
sudo mkdir/usr/share/tesseract-coc/langdata/eng/
sudo nano/usr/shar.trening_text
Notatka: Pamiętaj, aby dodać zawartość do Eng.trening_text plik.
Po dodaniu pliku tekstowego szkolenia składnia do rozpoczęcia szkolenia języka jest następująco. Następujące polecenie jest szkolenie języka angielskiego zdefiniowanego jako „Eng".
./Tesstrain.sh--lang eng--langdata_dir/usr/share/tesseract-coc/langdata--tessdata_dir/usr/share/tesseract-coc/tessdata
Ten proces może potrwać dużo czasu. Oczywiście zależy to również od twoich plików tekstowych szkoleniowych. To jest wprowadzenie do procesu szkolenia Tesseract. Opublikujemy nowy artykuł skupiony wyłącznie na procesie szkoleniowym.
Rozwiązywanie problemów z brakującymi czcionkami:
W moim przypadku otrzymałem błąd, próbując trenować Tesseract. Brakowało odważnej czcionki Arial Bold. Rozwiązałem to, uruchamiając poniższe polecenie.
sudo apt instal ttf-mscorefonts-installer
Zainstaluj Tesseract ze źródeł w Linux:
W różnych rozkładach Linux można uzyskać Tesseract za pomocą GIT, jak pokazano poniżej.
Git Clone https: // github.com/tesseract-coc/tesseract.git
Po sklonowaniu przejdź do katalogu Tesseract, uruchamiając CD.
CD Tesseract
Następnie uruchom Autogen.cii skrypt, jak pokazano poniżej.
sudo ./Autogen.cii
Powyższe polecenie tworzy pliki instalacyjne; Teraz uruchom następujące polecenie, aby rozpocząć proces instalacji.
sudo ./skonfiguruj
Uruchomić robić Aby rozpocząć kompilację Tesseract.
Sudo Make
Następnie uruchomić Zrób instalację, jak pokazano na zrzucie ekranu poniżej.
sudo wykonaj instalację
Wykonać LDCONFIG jak pokazano niżej.
sudo ldconfig
Aby skompilować narzędzia szkoleniowe, uruchom następujące polecenie.
sudo dokonaj szkolenia
Następnie uruchomić:
sudo dokonaj instalacji treningowej
Teraz możesz postępować zgodnie z instrukcjami, aby rozpocząć proces szkolenia.
Wniosek:
Jak widać, instalacja Tesseract w Linux jest dość łatwa, szczególnie w dystrybucjach Linux z siedzibą w Debian. Kiedy korzystałem z Tesseract, zarządzaliśmy tysiącami potencjalnych klientów, przesyłając odręczne treści, obrazy z tekstem itp. Użyliśmy 48 serwerów podstawowych z BatabaseByDesign, a następnie z AWS; Nigdy nie mieliśmy problemu z zasobami.
Mieliśmy przesyłanie, który rozróżniał pliki tekstowe, takie jak Microsoft Office lub Otwarte pliki biurowe i obrazy lub zeskanowane dokumenty. Przesyłanie określił, jakie skrypty OCR lub PHP przetworzyłyby zamówienie w polu rozpoznawania tekstu.
Z mojego doświadczenia wynika, że Tesseract jest najlepszym rozwiązaniem OCR dostępnym na rynku i jest to open source.
Dziękujemy za przeczytanie tego samouczka Wyjaśnienie, jak zainstalować i skonfigurować OCR Tesseract w Linux. Śledź nas, aby uzyskać dodatkowe porady i samouczki Linux.