Jak zainstalować Tesseract w systemie Windows

Jak zainstalować Tesseract w systemie Windows

Tesseract to bezpłatnie dostępne narzędzie rozpoznawania tekstu open source znane również jako OCR (rozpoznawanie znaków optycznych). Służy przede wszystkim do identyfikacji i wyodrębnienia tekstu z obrazów. Odczytuje tekst z danych obrazu i zapisu w nowym .plik txt. Tesseract działa również pod Pythonem, ponieważ służy głównie do rozpoznawania pisma ręcznego z obrazów. Używa modelu LSTR (długa pamięć krótkoterminowa). Tesseract działa pod Apache 2.0 Licencja.

Na tym blogu opracujemy metodę instalacji Tesseract na Windows.

Więc zacznijmy!

Jak zainstalować Tesseract w systemie Windows?

Tesseract to narzędzie wiersza poleceń, które jest używane do ekstrakcji tekstu z obrazów. Aby zainstalować Tesseract w systemie Windows, musisz kontynuować instrukcje podawane poniżej.

Krok 1: Pobierz instalator Tesseract

Po pierwsze, przejdź do linku do podłożonego poniżej i pobierz instalator Tesseract zgodnie ze specyfikacją systemu:

https: // github.com/ub-mannheim/tesseract/wiki

Krok 2: Uruchom instalator Tesseract

Odwiedzić "Pliki”Katalog, w którym pobierany jest instalator Tesseract. Aby zainstalować Tesseract w systemie Windows, wykonaj instalator Tesseract, klikając go dwukrotnie:

Krok 3: Wybierz język

Wiele języków jest obsługiwanych przez instalator Tesseract. Aby wchodzić w interakcje z interfejsem instalatora, wybierz „język angielski”Jako twój język i kliknij„OK”:

Krok 4: Zainstaluj Tesseract

Po tym, na ekranie pojawi się Kreator konfiguracji OCR Tesseract. Aby rozpocząć instalację Tesseract, naciśnij „Następny" przycisk:

Zaakceptować „Umowa licencyjna", Kliknij "Zgadzam się" przycisk:

Wybierz "Zainstaluj dla wszystkich osób korzystających z tego komputera”Opcja i naciśnij„Następny" przycisk:

Jeśli chcesz dodać dane o skrypcie lub dołączyć inny język, zaznacz ich odpowiednie pola wyboru i naciśnij „Następny" przycisk. Ponieważ nie chcemy żadnego dodatkowego skryptu danych lub języka, będziemy kontynuować z domyślnymi wybranymi opcjami:

Wybierz lokalizację instalacji i kliknij „Następny" przycisk:

Jeśli nie chcesz tworzyć skrótu w menu Start, zaznacz „Nie twórz skrótów”Chink i naciśnij„zainstalować" przycisk:

Następnie rozpocznie się instalacja Tesseract. Poczekaj, aż instalacja zakończy się i uderzy w „Następny" przycisk:

Na koniec kliknij „Skończyć" przycisk:

Krok 5: Ustaw zmienną środowiskową

Po instalacji musisz ustawić zmienną środowiskową Tesseract. Aby to zrobić, najpierw odwiedź katalog, w którym zainstalowałeś Tesseract i skopiuj ścieżkę z „Adres" bar:

Poszukaj „Zmienne środowiska" w "Uruchomienie„Menu i otwarte”Edytuj zmienne środowiskowe systemu”:

Wewnątrz ustawień przejdź do „Zaawansowany”Ustawienie menu i kliknij„Zmienne środowiska" przycisk:

Wybierz "Ścieżka„Zmienna od„Zmienne systemowe”Panel i naciśnij„Edytować" przycisk:

Po tym "Edytuj zmienną środowiskową„Okno pojawi się na ekranie. Wciśnij "Nowy” button and paste the copied Tesseract installation directory path here. Na koniec kliknij „OK" przycisk:

Krok 6: Sprawdź instalację Tesseract

Aby zweryfikować instalację Tesseract, otwórz wiersz polecenia Windows, wyszukując „Wiersz polecenia" w "Uruchomienie" menu:

Sprawdź wersję Tesseract za pomocą podanego polecenia:

> Tesseract --version

Poniższe dane wyjściowe wskazuje, że pomyślnie zainstalowaliśmy wersję Tesseract „” „v5.2.0”W systemie Windows:

Idźmy naprzód, aby sprawdzić, jak używać Tesseract w Windows.

Jak używać Tesseract w systemie Windows?

Tesseract służy do czytania pisma ręcznego lub wyodrębnienia tekstu ze zdjęć. Zobaczmy, jak to działa:

Krok 1: Wybierz obraz

Wybierz obraz, z którego chcesz wyodrębnić tekst. Jak wybraliśmy „1.png”:

Krok 2: Wyodrębnij tekst z obrazu

Po otwarciu CMD. Użyj „płyta CD„Polecenie zmiany katalogu, w którym obraz jest przechowywany. Następnie uruchom „Tesseract”Wykonaj i zdefiniuj nazwę pliku obrazu, jak określliśmy„1.png". „„Tekst”Parametr pokazuje nazwę pliku wyjściowego:

> CD C: \ Users \ anuma \ onedrive \ Pictures \ zapisane zdjęcia
> Tesseract 1.png „tekst”

Krok 3: Sprawdź ekstrakcję tekstu

Aby zweryfikować ekstrakcję tekstu, przejdź do katalogu, w którym istnieje plik obrazu. Możesz zobaczyć, że plik wyjściowy „Tekst”Jest również zapisane tutaj. Kliknij dwukrotnie plik wyjściowy, aby sprawdzić, czy Tesseract wyodrębnił tekst z obrazu, czy nie:

Widać, że pomyślnie wyodrębniliśmy tekst za pomocą narzędzia wiersza poleceń Tesseract:

Wykazaliśmy technikę instalowania i używania Tesseract w systemie Windows.

Wniosek

Aby zainstalować Tesseract w systemie Windows, należy pobrać instalator Tesseract. W tym celu postępuj zgodnie z pierwszą sesją tego artykułu. Następnie ustaw zmienną środowiska ścieżki, aby użyć i uzyskiwać dostęp do Tesseract z wiersza polecenia Windows. Następnie wybierz plik obrazu i użyj „Tesseract„Polecenie rozpoznawania i wyodrębnienia tekstu z obrazu. Tutaj nauczyłeś się instalować, a także korzystać z „Tesseract„W systemie Windows.