Najlepsze aplikacje OCR dla Linux

Najlepsze aplikacje OCR dla Linux
W tym artykule obejmie listę użytecznego oprogramowania „rozpoznawania znaków optycznych” dostępnych dla Linux. Oprogramowanie optyczne rozpoznawania znaków (OCR) próbuje wykryć treść tekstu plików innych niż te tekst. Na przykład oprogramowanie OCR może zidentyfikować tekst z obrazów, pdf lub innych zeskanowanych dokumentów w formatach plików cyfrowych za pomocą różnych algorytmów i rozwiązań opartych na AI.

To oprogramowanie OCR jest szczególnie przydatne do konwersji i zachowania starych dokumentów, ponieważ można je użyć do identyfikacji tekstu i tworzenia kopii cyfrowych. Czasami zidentyfikowany tekst może nie być w 100% dokładny, ale oprogramowanie OCR usuwa potrzebę ręcznych edycji w dużym stopniu, wyodrębniając jak najwięcej tekstu. Ręczne edycje można później dokonać, aby jeszcze bardziej poprawić dokładność i stworzyć repliki jeden do jednego. Większość oprogramowania OCR może wyodrębnić tekst na osobne pliki, choć niektórzy obsługują również nakładanie ukrytej warstwy tekstowej na oryginalne pliki. Nakładany tekst pozwala odczytać zawartość w oryginalnym wydruku i formatu, ale pozwala również na wybór i kopiowanie tekstu. Ta technika jest specjalnie stosowana do digitalizacji starych dokumentów w formacie PDF.

Tesseract OCR

Tesseract OCR to bezpłatne i otwarte oprogramowanie OCR dostępne dla Linux. Sponsorowany przez Google i utrzymywany przez wielu wolontariuszy, jest to prawdopodobnie najbardziej kompleksowy pakiet OCR, który może nawet pokonać płatne, zastrzeżone rozwiązania. Zapewnia narzędzia wiersza poleceń, a także interfejs API, który możesz zintegrować we własnych programach. Może wykrywać tekst w wielu językach z dobrą dokładnością. Jest wyposażony w zestaw wstępnie wyszkolonych danych, których można użyć do identyfikacji i wyodrębnienia tekstu. Możesz także użyć własnych wyszkolonych danych, jeśli potrzebujesz niestandardowego rozwiązania lub możesz uzyskać więcej modeli od stron trzecich. Tesseract OCR jest wyposażony w wiele silników wykrywania i możesz je używać zgodnie z Twoimi potrzebami w zależności od metody instalacji.

Aby zainstalować Tesseract OCR w Ubuntu, użyj polecenia określonego poniżej:

$ sudo apt Zainstaluj Tesseract-Coct

Możesz go zainstalować w innych dystrybucjach Linux z domyślnych repozytoriów za pośrednictwem menedżera pakietów. Uniwersalny plik Appimage i więcej instrukcji instalacji są dostępne tutaj.

Tesseract OCR jest wyposażony w wsparcie domyślnie w zakresie wykrywania treści języka angielskiego. Jeśli chcesz włączyć dodatkowe języki, być może będziesz musiał pobrać więcej pakietów językowych. Powyższy link zawiera instrukcje instalowania dodatkowych pakietów językowych. W Ubuntu możesz bezpośrednio znaleźć pakiety językowe, uruchamiając poniższe polecenie:

$ apt-cache Wyszukaj Tesseract-Coct-

Powyższe polecenie wyświetli nazwy pakietów dla różnych pakietów językowych. Po prostu zainstaluj je, uruchamiając polecenie w następującym formacie:

$ sudo apt instal

Możesz uzyskać listę wszystkich zainstalowanych pakietów językowych, uruchamiając poniższe polecenie:

$ Tesseract-List-Langs

Po zainstalowaniu głównego pakietu OCR i dodatkowych pakietów językowych możesz rozpocząć wykrywanie tekstu z obrazów i plików PDF. Aby wyodrębnić tekst, użyj poleceń w następujących formatach:

$ Tesseract Obraz.PNG wyjściowe -l eng
$ Tesseract Obraz.PNG wyjściowe -l ENG+SPA
$ Tesseract Obraz.PNG wyjściowe -l eng pdf

Pierwsze polecenie wyodrębnie tekst z „obrazu.Plik png ”w języku„ ENG ”i przechowuj go w pliku o nazwie„ Wyjście ”. Drugie polecenie przeanalizuje obraz za pomocą wielu pakietów językowych. Trzecie polecenie można użyć do utworzenia pliku PDF z warstwą tekstową nałożoną na plik obrazu.

Aby uzyskać więcej informacji na temat korzystania z wiersza poleceń Tesseract OCR, użyj następujących dwóch poleceń:

$ Tesseract -Help
$ Man Tesseract

Gimagereader

Gimagereader jest graficznym klientem wspomnianego powyżej silnika OCR Tesseract. Możesz go użyć do uruchomienia większości opcji i działań wiersza poleceń obsługiwanych przez Tesseract OCR, w tym wyodrębnienie tekstu z wielu plików, sprawdzanie wyodrębnionego tekstu i wykonywanie przetwarzania końcowego w zidentyfikowanym tekście.

Aby zainstalować GimageReader w Ubuntu, użyj polecenia określonego poniżej:

$ sudo apt instal gimagereader

Możesz go zainstalować w innych dystrybucjach Linux z domyślnych repozytoriów za pośrednictwem menedżera pakietów. Więcej pakietów specyficznych dla dystrybucji jest dostępnych tutaj.

Papierkowa robota

Dokumenty to bezpłatny menedżer dokumentów typu open source. Możesz go użyć do wydajnego zarządzania biblioteką dokumentów, zwłaszcza jeśli masz dużą kolekcję. Jest również wyposażony w wbudowany tryb OCR, który wykorzystuje „Pyocr”, moduł Python oparty na silnikach Tesseract i Cuneiform OCR. Inne główne funkcje dokumentów obejmują możliwość edytowania zeskanowanych dokumentów, pasek wyszukiwania w celu wyszukiwania biblioteki dokumentów, możliwość sortowania dokumentów, wsparcie skanera i tak dalej.

Aby zainstalować dokumenty w Ubuntu, użyj polecenia określonego poniżej:

$ sudo apt Zainstaluj dokumenty-gtk

Możesz go zainstalować w innych dystrybucjach Linux z domyślnych repozytoriów za pośrednictwem menedżera pakietów. Dostępny jest również uniwersalny pakiet Flatpak.

Ocrfeeder

OCRFEEDER to bezpłatne i otwarte oprogramowanie OCR prowadzone przez zespół GNOME. Obsługuje rozpoznawanie tekstu w wielu językach i może eksportować treści w wielu formatach plików. Obsługuje wiele silników OCR, w tym Tesseract OCR, GOCR, OCRAD i Cuneiform. Umożliwia także wykonanie przetwarzania końcowego w celu poprawy formatowania i układu wyodrębnionej zawartości tekstu.

Aby zainstalować OCRFeeder w Ubuntu, użyj polecenia określonego poniżej:

$ sudo apt instal ocrfeeder

Możesz go zainstalować w innych dystrybucjach Linux z domyślnych repozytoriów za pośrednictwem menedżera pakietów. Dostępny jest również uniwersalny pakiet Flatpak.

Zauważ, że w moich testach OCRFEEDER zainstalowany z repozytoriów Ubuntu został wyposażony w tylko jeden silnik OCR. Jednak kompilacja Flatpak została dostarczona ze wszystkimi czterem obsługiwanymi silnikami OCR, choć pobrała około 2 GB danych. Pakiet zawarty w repozytorium Ubuntu był znacznie mniejszy.

Gscan2pdf

GSCAN2PDF to bezpłatne i open source narzędzie, które może identyfikować i wyodrębniać tekst z różnych formatów plików. Może bezpośrednio współpracować ze skanerami w celu skanowania dokumentów, a następnie eksportować OCR wykryty treść tekstową do plików PDF. Obsługuje również wiele silników OCR, w tym Tesseract OCR, GOCR, Ocropus i Cuneiform, o ile pakiety dla tych silników są zainstalowane w systemie. Oprócz bezpośredniego skanowania papierów, możesz również importować pliki obrazów i wyodrębniać z nich tekst.

Aby zainstalować GSCAN2PDF w Ubuntu, użyj polecenia określonego poniżej:

$ sudo apt instint gscan2pdf gocr cuneiform tesseract-coctor

Możesz go zainstalować w innych dystrybucjach Linux z domyślnych repozytoriów za pośrednictwem menedżera pakietów. Kod źródłowy i pliki binarne są również dostępne tutaj.

Wniosek

Są to jedne z najbardziej przydatnych linii poleceń oraz graficzne silniki i oprogramowanie OCR dostępne dla Linux. Tesseract OCR to najbardziej aktywnie rozwinięte i najbardziej wszechstronne narzędzie do wykrywania tekstu i powinno wystarczyć dla większości twoich potrzeb. Chociaż możesz również wypróbować inne aplikacje wymienione w tym artykule, jeśli nie jesteś zadowolony z wyników Tesseract OCR.