Tesseract to bezpłatnie dostępne narzędzie rozpoznawania tekstu open source znane również jako OCR (rozpoznawanie znaków optycznych). Służy przede wszystkim do identyfikacji i wyodrębnienia tekstu z obrazów. Odczytuje tekst z danych obrazu i zapisu w nowym .plik txt. Tesseract działa również pod Pythonem, ponieważ służy głównie do rozpoznawania pisma ręcznego z obrazów. Używa modelu LSTR (długa pamięć krótkoterminowa). Tesseract działa pod Apache 2.0 Licencja.
Na tym blogu opracujemy metodę instalacji Tesseract na Windows.
Więc zacznijmy!
Jak zainstalować Tesseract w systemie Windows?
Tesseract to narzędzie wiersza poleceń, które jest używane do ekstrakcji tekstu z obrazów. Aby zainstalować Tesseract w systemie Windows, musisz kontynuować instrukcje podawane poniżej.
Krok 1: Pobierz instalator Tesseract
Po pierwsze, przejdź do linku do podłożonego poniżej i pobierz instalator Tesseract zgodnie ze specyfikacją systemu:
https: // github.com/ub-mannheim/tesseract/wiki
Krok 2: Uruchom instalator Tesseract
Odwiedzić "Pliki”Katalog, w którym pobierany jest instalator Tesseract. Aby zainstalować Tesseract w systemie Windows, wykonaj instalator Tesseract, klikając go dwukrotnie:
Krok 3: Wybierz język
Wiele języków jest obsługiwanych przez instalator Tesseract. Aby wchodzić w interakcje z interfejsem instalatora, wybierz „język angielski”Jako twój język i kliknij„OK”:
Krok 4: Zainstaluj Tesseract
Po tym, na ekranie pojawi się Kreator konfiguracji OCR Tesseract. Aby rozpocząć instalację Tesseract, naciśnij „Następny" przycisk:
Zaakceptować „Umowa licencyjna", Kliknij "Zgadzam się" przycisk:
Wybierz "Zainstaluj dla wszystkich osób korzystających z tego komputera”Opcja i naciśnij„Następny" przycisk:
Jeśli chcesz dodać dane o skrypcie lub dołączyć inny język, zaznacz ich odpowiednie pola wyboru i naciśnij „Następny" przycisk. Ponieważ nie chcemy żadnego dodatkowego skryptu danych lub języka, będziemy kontynuować z domyślnymi wybranymi opcjami:
Wybierz lokalizację instalacji i kliknij „Następny" przycisk:
Jeśli nie chcesz tworzyć skrótu w menu Start, zaznacz „Nie twórz skrótów”Chink i naciśnij„zainstalować" przycisk:
Następnie rozpocznie się instalacja Tesseract. Poczekaj, aż instalacja zakończy się i uderzy w „Następny" przycisk:
Na koniec kliknij „Skończyć" przycisk:
Krok 5: Ustaw zmienną środowiskową
Po instalacji musisz ustawić zmienną środowiskową Tesseract. Aby to zrobić, najpierw odwiedź katalog, w którym zainstalowałeś Tesseract i skopiuj ścieżkę z „Adres" bar:
Poszukaj „Zmienne środowiska" w "Uruchomienie„Menu i otwarte”Edytuj zmienne środowiskowe systemu”:
Wewnątrz ustawień przejdź do „Zaawansowany”Ustawienie menu i kliknij„Zmienne środowiska" przycisk:
Wybierz "Ścieżka„Zmienna od„Zmienne systemowe”Panel i naciśnij„Edytować" przycisk:
Po tym "Edytuj zmienną środowiskową„Okno pojawi się na ekranie. Wciśnij "Nowy” button and paste the copied Tesseract installation directory path here. Na koniec kliknij „OK" przycisk:
Krok 6: Sprawdź instalację Tesseract
Aby zweryfikować instalację Tesseract, otwórz wiersz polecenia Windows, wyszukując „Wiersz polecenia" w "Uruchomienie" menu:
Sprawdź wersję Tesseract za pomocą podanego polecenia:
> Tesseract --version
Poniższe dane wyjściowe wskazuje, że pomyślnie zainstalowaliśmy wersję Tesseract „” „v5.2.0”W systemie Windows:
Idźmy naprzód, aby sprawdzić, jak używać Tesseract w Windows.
Jak używać Tesseract w systemie Windows?
Tesseract służy do czytania pisma ręcznego lub wyodrębnienia tekstu ze zdjęć. Zobaczmy, jak to działa:
Krok 1: Wybierz obraz
Wybierz obraz, z którego chcesz wyodrębnić tekst. Jak wybraliśmy „1.png”:
Krok 2: Wyodrębnij tekst z obrazu
Po otwarciu CMD. Użyj „płyta CD„Polecenie zmiany katalogu, w którym obraz jest przechowywany. Następnie uruchom „Tesseract”Wykonaj i zdefiniuj nazwę pliku obrazu, jak określliśmy„1.png". „„Tekst”Parametr pokazuje nazwę pliku wyjściowego:
> CD C: \ Users \ anuma \ onedrive \ Pictures \ zapisane zdjęcia
> Tesseract 1.png „tekst”
Krok 3: Sprawdź ekstrakcję tekstu
Aby zweryfikować ekstrakcję tekstu, przejdź do katalogu, w którym istnieje plik obrazu. Możesz zobaczyć, że plik wyjściowy „Tekst”Jest również zapisane tutaj. Kliknij dwukrotnie plik wyjściowy, aby sprawdzić, czy Tesseract wyodrębnił tekst z obrazu, czy nie:
Widać, że pomyślnie wyodrębniliśmy tekst za pomocą narzędzia wiersza poleceń Tesseract:
Wykazaliśmy technikę instalowania i używania Tesseract w systemie Windows.
Wniosek
Aby zainstalować Tesseract w systemie Windows, należy pobrać instalator Tesseract. W tym celu postępuj zgodnie z pierwszą sesją tego artykułu. Następnie ustaw zmienną środowiska ścieżki, aby użyć i uzyskiwać dostęp do Tesseract z wiersza polecenia Windows. Następnie wybierz plik obrazu i użyj „Tesseract„Polecenie rozpoznawania i wyodrębnienia tekstu z obrazu. Tutaj nauczyłeś się instalować, a także korzystać z „Tesseract„W systemie Windows.