Instalacja Pyquery
Aby zainstalować PyQuery w Ubuntu, użyj polecenia określonego poniżej:
$ sudo apt instal Python3-pyquery
Możesz także zainstalować najnowszą wersję PyQuery z Menedżera pakietów „PIP”, uruchamiając następujące dwa polecenia z rzędu:
$ sudo apt instal Python3-Pip
$ pip3 instaluj pyquery
Aby zainstalować PyQuery w innych dystrybucjach Linux, zainstaluj „PIP3” z menedżera pakietów i uruchom drugie wspomniane polecenie.
Tworzenie parsowalnego drzewa dokumentów
Zanim będziesz mógł przeanalizować i wyodrębnić dane z dokumentu HTML, musisz utworzyć drzewo dokumentów. Możesz utworzyć drzewo dokumentów z prostego znacznika HTML za pomocą poniższej próbki kodu:
Od Pyquery Import Pyquery jako PQPierwsze oświadczenie importuje klasę „PyQuery” z modułu „PyQuery”. Następnie powstaje nowa instancja klasy Pyquery. Po uruchomieniu próbki kodu powyżej należy uzyskać następujące dane wyjściowe:
Witaj świecie !!Zwróć uwagę na drugą linię w wyjściu. Tutaj „Dokument”, który jest instancją klasy „Pyquery”, nie zwraca obiektu typu ciągów. Możesz szybko zapytać o wszystkie metody dostępne do instancji „Dokument”, dodając następującą dodatkową linię do powyższego przykładu kodu:
Od Pyquery Import Pyquery jako PQMożesz także przeglądać interfejs API na klasę Pyquery Online.
Aby utworzyć drzewo dokumentu z adresu URL, użyj zamiast tego następującego kodu (zastąp „URL” własnym pożądanym adresem):
Od Pyquery Import Pyquery jako PQAby utworzyć lokalny plik HTML z formularza dokumentu, użyj poniższego kodu (zastąp wartość „nazwy pliku” zgodnie z potrzebami):
Od Pyquery Import Pyquery jako PQTeraz, gdy masz drzewo dokumentów, możesz zacząć je analizować.
Manipulowanie drzewem dokumentów
Możesz wyodrębnić dane i manipulować drzewami dokumentów za pomocą różnych metod. Niektóre z najczęstszych metod wymieniono poniżej z próbkami. Wszystkie metody użyteczne można znaleźć w interfejsie API dostępnym tutaj.
Możesz użyć metody „tekstowej”, aby uzyskać treść tekstu elementu:
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Możesz wybrać określony znacznik / element, dostarczając jego nazwę jako argument do instancji „Dokument”. Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Witaj świecie !!
Możesz uzyskać atrybuty znacznika za pomocą metody „ATT”. Aby to zrobić, wybierz tag, który chcesz przeanalizować („P” w tym przypadku) i podać nazwę atrybutu jako argument („id” w tym przypadku) lub użyj notacji kropkowej.
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Witaj świecie !!
Możesz manipulować CSS za pomocą metody „CSS”. Aby dodać style CSS do
Lub dowolny inny tag, możesz użyć następującego kodu:
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Wymień część „„ kolor ”:„ czerwony ”” na własne niestandardowe style. Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe i możesz sprawdzić, czy CSS został poprawnie zastosowany:
Witaj świecie !!
Jeśli masz klasę w stylu, możesz po prostu użyć metody „AddClass” do zastosowania istniejących stylów.
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Możesz dołączyć i przygotować własny niestandardowy znaczniki za pomocą poniższej próbki kodu:
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Cześć
")Do widzenia
")Zastąp argumenty w metodzie „Przygotuj” i „dołącz” własnymi wartościami. Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Cześć
Witaj świecie !!Do widzenia
Aby usunąć zawartość elementu, użyj metody „pustej”.
Od Pyquery Import Pyquery jako PQWitaj świecie !!
")Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Możesz użyć metody „Filtr”, aby wybrać określone elementy, gdy istnieje wiele znaczników tego samego typu. Na przykład poniższy kod odbiera „
„Tag ma„ id ”jako„ Hello ”:
Od Pyquery Import Pyquery jako PQCześć
Świat !!
")Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Cześć
Można znaleźć wiele tagów / elementów jednocześnie za pomocą metody „Znajdź”:
Od Pyquery Import Pyquery jako PQCześć
Świat !!
")Podaj nazwę znacznika / elementu jako argument do metody „Znajdź”. Po uruchomieniu powyższej próbki kodu należy uzyskać następujące dane wyjściowe:
Cześć
Świat !!
Możesz przełączać się między parserami między „XML” i „HTML” za pomocą dodatkowego argumentu „Parser”:
Od Pyquery Import Pyquery jako PQCześć
Świat !!
", parser =" html ")Jeśli potrzebujesz dalszej pomocy w PyQuery, zapoznaj się z jej oficjalną dokumentacją i przykładami dostępnymi tutaj.
Wniosek
PyQuery pozwala szybko przeanalizować dokumenty HTML, pisząc minimalny kod, ponieważ zawiera wiele funkcji pomocniczych, które całkowicie pomijają potrzebę pisania niestandardowego kodu. Jego „jQuery”, takie jak składnia i struktura, pomagają również w wyborze elementów i węzłów bez głębiej wchodzenia w drzewo dokumentów, szczególnie gdy istnieje wiele zagnieżdżonych znaczników.