W Python 3 pakiet Urllib umożliwia użytkownikom eksplorację stron internetowych z ich skryptu. Urllib zawiera kilka modułów do zarządzania różnymi funkcjami URL. Podczas otwierania adresu URL w programowaniu Python biblioteka urllib jest kluczowa. Pozwala odwiedzać i wchodzić w interakcje ze stronami internetowymi, wykorzystując ich uniwersalny lokalizator zasobów. Ta biblioteka zapewnia nam pakiety takie jak: urllib.żądanie, urllib.Błąd, urllib.parsja i urllib.RobotParser.
W tym fragmencie, mimo że jest to duży temat do zrozumienia naraz, po prostu zwrócimy uwagę na urllib.Moduł parsji. W szczególności metoda urlParse ().
Urllib.Moduł Parse jest wykorzystywany do analizowania adresów URL stron internetowych. Oznacza to, że dzieląc adres URL, możemy uzyskać jego różne części. Dodatkowo może być użyte do uzyskania dowolnego adresu URL z adresu URL źródłowego i ścieżki referencyjnej.
Ładowanie urllib:
Python zawiera urllib jako standardową bibliotekę. Aby go użyć, musimy najpierw zaimportować tę bibliotekę. W tym celu otworzymy narzędzie Spyder i napiszemy następujące polecenie:
Importować urllibURLPARSE () Moduł:
Moduł urlParse () oferuje określoną metodę analizowania jednolitego lokalizatora zasobów (URL) w odrębne sekcje. Mówiąc prosto, ten moduł umożliwia nam łatwe oddzielenie adresów URL na różne komponenty i odfiltrowanie dowolnej konkretnej części URL. Po prostu podziel adres URL na 6 komponentów, które odnoszą się do ogólnej składni A
URL: schemat:/netLoc/Path; parametry?Zapytanie#Fragment.
Zacznijmy teraz nasz samouczek z praktycznym przykładem.
z urllib.Parse Import Urlparse, UrlunParseW tym fragmencie kodu pierwszą rzeczą, jaką zrobiliśmy, jest import URLPARSE i URLUNPARSE z urllib.analizować. Umożliwi to wszystkie wymagane funkcje metody urlparse () w naszym narzędziu.
z urllib.Parse Import UrlparseTeraz, ponieważ możemy użyć metody urlparse (). Zdefiniowaliśmy zmienną o nazwie „exampleRl”, która będzie przechowywać wartości ciągów. Następnie użyliśmy operatora przypisania „=” do przypisania wartości. Obok niego nazywaliśmy metodą „urlparse ()”. Wewnątrz aparatów ortodontycznych metody URLPARSE (. Szelki instrukcji print () zawierają cytowany tekst i nazwę zmienną, oddzieloną przecinkiem.
Poniższy obraz pokazuje nam następujące dane wyjściowe.
Widać, że dostarczony adres URL jest podzielony na 6 komponentów. Teraz, zanim zanurzymy się w nauce tych komponentów, najpierw nauczymy się, jak odłożyć te komponenty z powrotem do oryginalnego adresu URL.
W tym celu stosowana metoda to „urlunparse ()”.
z urllib.Parse Import Urlparse, UrlunParseJuż zaimportowaliśmy urlunparse z urllib.Parse na powyższym fragmencie. Teraz utworzymy zmienną o nazwie „UNPAR_URL”. Wzywając metodę „urlunparse ()” i pisanie nazwy zmiennej, przydzielamy otwarcie adresu URL dla metody urlparse () i.mi. „Przykładowy”. W ostatnim kroku użyj instrukcji „print ()”, aby wyświetlić tekst i nazwę zmienną do niezaparcia adresu URL.
Przetestowany adres URL jest wyświetlany na obrazie dołączonym poniżej.
Wykorzystanie funkcji urlParse () i urlunparse () zostało wykazane. Teraz zbadajmy znaczenie każdego elementu Parseresult, który został zwrócony.
URLPARSE () Komponenty:
Metoda urlParse () dzieli dostarczone adres URL na 6 fragmentów, które są schematem, netLoc, ścieżką, paramą, zapytaniem i fragmentem.
Pierwszy składnik to schemat. Program jest wykorzystywany do określenia protokołu, który ma być wykorzystany do pozyskiwania zasobów online, które mogą być HTTP lub HTTPS. Następny komponent to NETLOC: net odnosi się do sieci, a LOC oznacza lokalizację. Tak więc mówi nam o dostarczonej lokalizacji sieci URLS. Składnik ścieżka zawiera precyzyjną ścieżkę, którą przeglądarka internetowa musi podjąć, aby uzyskać dostarczone zasób. Params to parametry elementów ścieżki. zapytanie przestrzega komponentu ścieżki i oferuje strumień danych, które zasób może wykorzystać. Ostatni komponent fragment po prostu klasyfikuje część.
Jak wspomniano wcześniej, każdy z tych elementów zawiera niektóre dane na adres URL. Ponieważ zwrócony obiekt jest dostarczany jako krotek, wszystkie te komponenty mogą być również odzyskane przy użyciu pozycji indeksu.
z urllib.Parse Import UrlparseW tym fragmencie kodu zdefiniowaliśmy indeksy dla każdego komponentu osobno w instrukcji print (). Użyliśmy nazwy zmiennej z nazwą komponentu, na której wspomnialiśmy o nazwie zmiennej z pozycją indeksu, w której leży w strumieniu. Będziemy nadal używać tej sekwencji, dopóki nie wspomniemy o wszystkich komponentach z odpowiednimi pozycjami indeksu.
Powstałe struny można zobaczyć na zdjęciu tutaj.
Mimo że stanowią one większość indeksowanych treści, można również użyć więcej słów kluczowych do pobrania niektórych dodatkowych funkcji, takich jak nazwa hosta, nazwa użytkownika, hasło i port. Nazwa hosta identyfikuje nazwę hosta określonego adresu URL, nazwa użytkownika zawiera nazwę użytkownika, hasło utrzymuje hasło, a użytkownik Port informuje numer portu.G\
Wniosek
W dzisiejszym temacie omówiliśmy moduł urlparse () dostarczany przez urllib.analizować. Wyjaśniliśmy cel i użyteczność metody urlparse (). Opracowaliśmy różne komponenty metody urlparse (), a także sposób, w jaki dajemy dostęp. Wdrażając praktyczne przykładowe kody na adresie URL dowolnej określonej witryny wykorzystującej narzędzie Spyder, staraliśmy się, aby było to proste, zrozumiałe, ale korzystne uczenie się.