Instalowanie Textract w Linux
Możesz zainstalować Textract w Linux z menedżera pakietów PIP. Możesz zainstalować menedżer pakietów PIP w Ubuntu, uruchamiając poniższe polecenie:
$ sudo apt instal Python3-Pip
Po zainstalowaniu PIP Manager uruchom następujące polecenie, aby zainstalować zależności dla Textract:
$ sudo apt instal Python3-dev libxml2-dev libxslt1-dev aniword Untf Poppler-Utils pstotext Tesseract -Cl flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources
Teraz użyj menedżera pakietów PIP, aby zainstalować Textract w Ubuntu:
$ PIP3 Zainstaluj Textract
Możesz zainstalować menedżer pakietów PIP w innych dystrybucjach Linux z menedżera pakietów. Alternatywnie możesz zainstalować menedżer pakietów PIP w systemie Linux, postępując zgodnie z oficjalnymi instrukcjami instalacji dostępnymi tutaj. Po zainstalowaniu menedżera pakietów PIP możesz użyć polecenia PIP określonego powyżej lub postępować zgodnie z dalszymi instrukcjami instalacyjnymi dostępnymi w oficjalnej dokumentacji Textract (tylko dla dystrybucji Linux innych niż Ubuntu).
Wyodrębnienie tekstu z plików
Zgodnie z oficjalną dokumentacją Textract można go użyć do wyodrębnienia tekstu z następujących formatów plików:
Aby wyodrębnić tekst z dowolnego z tych obsługiwanych plików i wyświetlić dane wyjściowe jako stdout w terminalu, uruchom polecenie w następującym formacie:
$ Textract Plik.PDF
Możesz wymienić „Plik.PDF ”z dowolnym innym formatem plików obsługiwanym przez Textract. W zależności od zawartości pliku należy zobaczyć dane wyjściowe podobne do tego:
Aby zapisać wyodrębnione wyjście w innym pliku, uruchom polecenie w następującym formacie:
$ Textract Plik.plik pdf -o.tekst
W razie potrzeby możesz wymienić nazwy plików. Przełącznik „-O” służy do określenia nazwy pliku wyjściowego, w którym zostanie zapisany tekst wyodrębniony.
Textract automatycznie wykrywa typ rozszerzenia pliku i używa odpowiedniej technologii do analizowania i wyodrębnienia zawartości pliku. Aby wykryć i wyodrębnić tekst z pliku obrazu, możesz po prostu użyć wyżej wymienionego polecenia i podać obsługiwany typ pliku obrazu jako argument. Tak długo, jak użyjesz obsługiwanego typu pliku i poprawnie określ nazwę pliku z rozszerzeniem w wierszu poleceń, Textract wykona całą pracę dla Ciebie. Na przykład, aby wyodrębnić treść tekstu z pliku „PNG” lub „OGG”, możesz po prostu uruchomić te polecenia:
$ Textract Plik.Plik png -o.tekst
$ Textract Plik.plik OGG -O.tekst
Aby dowiedzieć się więcej o użyciu wiersza poleceń Textract, uruchom następujące polecenie:
$ Textract - -Help
Używanie Textract jako modułu Python
Możesz użyć Textract w programie Python, począwszy od następującej próbki kodu:
importować Textract
Text = Textract.proces („plik.png ")
Drukuj (tekst)
Pierwsza instrukcja importuje główny moduł Textract. Następnie wywoływana jest metoda „procesu”, podając jej nazwę pliku jako argument. Podobnie jak narzędzie wiersza poleceń, metoda procesu automatycznie wykrywa bieżący typ pliku za pomocą jego nazwy rozszerzenia, a następnie używa odpowiedniego parsera zawartości i wyodrębnienia odpowiedniego dla rozszerzenia pliku.
Możesz także ręcznie zastąpić rozszerzenie pliku za pomocą argumentu „rozszerzenia”. Oto próbka kodu:
importować Textract
Text = Textract.proces („plik.ogg ", extension =" ogg ")
Drukuj (tekst)
Jeśli chcesz ręcznie zastąpić metodę automatycznej ekstrakcji stosowaną przez Textract, możesz użyć argumentu „Metoda” (jak pokazano w poniższej próbce kodu):
importować Textract
Text = Textract.proces („plik.OGG ", Method =" Sox ")
Drukuj (tekst)
Obsługiwane typy plików i metody ekstrakcji są wymienione tutaj.
Aby dowiedzieć się więcej o Textract Python i ich użyciu, możesz wyświetlić dokumentację API dostępną tutaj.
Wniosek
Textract zapewnia pojedynczy zunifikowany interfejs wiersza poleceń i interfejs Python do wyodrębnienia tekstu z wielu różnych typów plików. Możesz nawet użyć go do wyodrębnienia treści z plików multimedialnych. Jest to szczególnie odpowiednie w przypadkach, w których nie chcesz przejść przez wiele różnych narzędzi linii poleceń, aby obsłużyć ekstrakcję tekstu i chcesz użyć jednego interfejsu API do wszystkiego.