Jak używać Textract do wyodrębnienia tekstu z plików

Jak używać Textract do wyodrębnienia tekstu z plików
W tym artykule obejmie przewodnik po użyciu modułu Pythona „Textract” i narzędzia wiersza poleceń do wyodrębnienia treści tekstowych z różnych formatów plików. Może wyodrębnić tekst z ponad 20 różnych formatów plików i możesz go używać programowo we własnym programie Python, importując jego główny moduł. Być może użyłeś innych podobnych narzędzi wiersza poleceń ekstrakcji tekstu. Są one jednak w większości ograniczone do jednego lub dwóch konkretnych formatów plików. Textract zapewnia rozwiązanie jednego stop z ujednoliconym interfejsem do wyodrębnienia tekstu z wielu różnych formatów plików. Może nawet użyć optycznych rozpoznawania znaków (OCR) i technologii rozpoznawania mowy do wyodrębnienia tekstu odpowiednio z plików obrazu i audio.

Instalowanie Textract w Linux

Możesz zainstalować Textract w Linux z menedżera pakietów PIP. Możesz zainstalować menedżer pakietów PIP w Ubuntu, uruchamiając poniższe polecenie:

$ sudo apt instal Python3-Pip

Po zainstalowaniu PIP Manager uruchom następujące polecenie, aby zainstalować zależności dla Textract:

$ sudo apt instal Python3-dev libxml2-dev libxslt1-dev aniword Untf Poppler-Utils pstotext Tesseract -Cl flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources

Teraz użyj menedżera pakietów PIP, aby zainstalować Textract w Ubuntu:

$ PIP3 Zainstaluj Textract

Możesz zainstalować menedżer pakietów PIP w innych dystrybucjach Linux z menedżera pakietów. Alternatywnie możesz zainstalować menedżer pakietów PIP w systemie Linux, postępując zgodnie z oficjalnymi instrukcjami instalacji dostępnymi tutaj. Po zainstalowaniu menedżera pakietów PIP możesz użyć polecenia PIP określonego powyżej lub postępować zgodnie z dalszymi instrukcjami instalacyjnymi dostępnymi w oficjalnej dokumentacji Textract (tylko dla dystrybucji Linux innych niż Ubuntu).

Wyodrębnienie tekstu z plików

Zgodnie z oficjalną dokumentacją Textract można go użyć do wyodrębnienia tekstu z następujących formatów plików:

Aby wyodrębnić tekst z dowolnego z tych obsługiwanych plików i wyświetlić dane wyjściowe jako stdout w terminalu, uruchom polecenie w następującym formacie:

$ Textract Plik.PDF

Możesz wymienić „Plik.PDF ”z dowolnym innym formatem plików obsługiwanym przez Textract. W zależności od zawartości pliku należy zobaczyć dane wyjściowe podobne do tego:

Aby zapisać wyodrębnione wyjście w innym pliku, uruchom polecenie w następującym formacie:

$ Textract Plik.plik pdf -o.tekst

W razie potrzeby możesz wymienić nazwy plików. Przełącznik „-O” służy do określenia nazwy pliku wyjściowego, w którym zostanie zapisany tekst wyodrębniony.

Textract automatycznie wykrywa typ rozszerzenia pliku i używa odpowiedniej technologii do analizowania i wyodrębnienia zawartości pliku. Aby wykryć i wyodrębnić tekst z pliku obrazu, możesz po prostu użyć wyżej wymienionego polecenia i podać obsługiwany typ pliku obrazu jako argument. Tak długo, jak użyjesz obsługiwanego typu pliku i poprawnie określ nazwę pliku z rozszerzeniem w wierszu poleceń, Textract wykona całą pracę dla Ciebie. Na przykład, aby wyodrębnić treść tekstu z pliku „PNG” lub „OGG”, możesz po prostu uruchomić te polecenia:

$ Textract Plik.Plik png -o.tekst
$ Textract Plik.plik OGG -O.tekst

Aby dowiedzieć się więcej o użyciu wiersza poleceń Textract, uruchom następujące polecenie:

$ Textract - -Help

Używanie Textract jako modułu Python

Możesz użyć Textract w programie Python, począwszy od następującej próbki kodu:

importować Textract
Text = Textract.proces („plik.png ")
Drukuj (tekst)

Pierwsza instrukcja importuje główny moduł Textract. Następnie wywoływana jest metoda „procesu”, podając jej nazwę pliku jako argument. Podobnie jak narzędzie wiersza poleceń, metoda procesu automatycznie wykrywa bieżący typ pliku za pomocą jego nazwy rozszerzenia, a następnie używa odpowiedniego parsera zawartości i wyodrębnienia odpowiedniego dla rozszerzenia pliku.

Możesz także ręcznie zastąpić rozszerzenie pliku za pomocą argumentu „rozszerzenia”. Oto próbka kodu:

importować Textract
Text = Textract.proces („plik.ogg ", extension =" ogg ")
Drukuj (tekst)

Jeśli chcesz ręcznie zastąpić metodę automatycznej ekstrakcji stosowaną przez Textract, możesz użyć argumentu „Metoda” (jak pokazano w poniższej próbce kodu):

importować Textract
Text = Textract.proces („plik.OGG ", Method =" Sox ")
Drukuj (tekst)

Obsługiwane typy plików i metody ekstrakcji są wymienione tutaj.

Aby dowiedzieć się więcej o Textract Python i ich użyciu, możesz wyświetlić dokumentację API dostępną tutaj.

Wniosek

Textract zapewnia pojedynczy zunifikowany interfejs wiersza poleceń i interfejs Python do wyodrębnienia tekstu z wielu różnych typów plików. Możesz nawet użyć go do wyodrębnienia treści z plików multimedialnych. Jest to szczególnie odpowiednie w przypadkach, w których nie chcesz przejść przez wiele różnych narzędzi linii poleceń, aby obsłużyć ekstrakcję tekstu i chcesz użyć jednego interfejsu API do wszystkiego.