Parsowanie plików PDF jest bardzo żmudne i skomplikowane dla każdego programisty, nie dlatego, że jest złożony, ale ze względu na charakter plików PDF. Pliki PDF zawierają obiekty identyfikowane przez unikalny numer. Obiekty PDF mogą gromadzić informacje, takie jak obrazy, tekst i inne. Te obiekty są szyfrowane i ściśnięte, co czyni prawie niemożliwe przetwarzanie plików PDF jako dokumentów tekstowych.
Ten przewodnik dowie się, jak analizować dokumenty PDF za pomocą języka programowania PHP.
Organizować coś
Pierwszym krokiem jest założenie środowiska programistycznego. Zaczniemy od zainstalowania PHP i wymaganych bibliotek.
Aby zainstalować PHP, otwórz terminal i wprowadź polecenie:
$ sudo apt-get instaluj php7.5 -y
Po zainstalowaniu php użyj go do instalacji kompozytora, jak pokazano w poleceń:
php -r "copy ('https: // getComposer.org/installer ”,„ kompozytor-zestaw.php '); "Po zainstalowaniu i skonfigurowaniu kompozytora możemy przejść do użycia biblioteki PDFPARSER.
Otwórz terminal i wprowadź polecenie:
$ sudo php kompozytor.Phar wymaga smalot/pdfparser
Wygeneruj plik PDF
Następnym krokiem jest wybranie pliku PDF do użycia. Istnieją różne sposoby i zasoby, których możesz użyć do utworzenia pliku PDF. Na przykład, jeśli jesteś w systemie Windows, możesz wyeksportować .Dokument DOC/DOCX do PDF.
Jednak w tym przykładzie będziemy używać bezpłatnych plików łatwo dostępnych w Internecie. Otwórz przeglądarkę i przejdź do zasobu podanego poniżej:
https: // plik plików.com/formaty/pdf
Wybierz jeden z dostępnych plików PDF i zapisz je w swoim systemie.
NOTATKA: Przed użyciem takich dokumentów upewnij się, że sprawdź złośliwe pliki. Narzędzia takie jak Virustotal to świetne zasoby.
https: // www.Virustotal.com/gui/
Poniżej znajduje się raport skanowania próbki 1.plik PDF.
https: // www.Virustotal.com/gui/file/6B22904A7DE5B77BF40598C37E94E01771485E1B900651B58BF50AF7009F8056
Wyciągnij metadane PDF
Aby wyodrębnić metadane z PDF za pomocą biblioteki parserów PDF, możemy zaimplementować przykładowy kod, jak pokazano poniżej:
// Uwzględnij Autoloader kompozytoraPowyższy kod powinien pobierać informacje o metadanych o pliku. Takie informacje obejmują:
CreationDate: 2016-12-22T11: 43: 55-05: 00Wyodrębnij tekst
Aby wyodrębnić tekst z każdej strony przesłanego PDF, możemy zaimplementować kod, jak pokazano poniżej:
Dołącz „dostawca/autoload.php ";Po uruchomieniu powyższego kodu powinniśmy zobaczyć tekst wyodrębniony z próbki 1.plik PDF. Przykład Ouput jest jak pokazano poniżej:
Zamknięcie
Ten przewodnik pokazuje, w jaki sposób możesz przeanalizować pliki PDF za pomocą PHP i biblioteki PDFPARSER. Sprawdź dokumentację, aby dowiedzieć się więcej.