urllib.RobotParser

urllib.RobotParser
W tym poście dowiesz się o module RobotParser w pakiecie Urllib, który zapewnia klasę RobotFileParser do ustalenia, czy dany agent użytkownika może uzyskać dostęp do adresu URL określonego w robotach.plik txt.

Klasa RobotFileParser

Klasa RobotFileParser zapewnia różne metody czytania, analizowania i odpowiadania na pytania dotyczące robotów.plik txt w danym zasobie.

Obsługiwane metody obejmują:

  1. set_url () - definiuje adres URL dla robotów.plik txt.
  2. czytaj () - czyta roboty.plik txt i zasila go w roboty.TXT PARSER.
  3. Parse (linie) - analizuje argument linii.
  4. can_fetch (useragent) - Sprawdza, czy określony agent użytkownika może uzyskać dostęp do określonego adresu URL określonego w robotach.plik txt.
  5. MTime () - Zwraca czas roboty.Plik TXT został pobrany,
  6. modyfikowane () - aktualizuje ostatni czas pobierania robotów.TXT do aktualnego czasu.
  7. CRALL_DELAY (Useragent, URL) - Zwraca wartość parametru Crawl_delay.
  8. request_rate (useragent) - Zwraca parametr żądania jako nazwany krotek.
  9. Site_maps () - Zwraca parametr SITEMAP z robotów.plik txt jako lista.

Przykładowy przypadek użycia

Poniższy kod pokazuje użycie klasy RobotFileParser i dostarczonych metod.

importować urllib.RobotParser
rp = urllib.RobotParser.RobotFileParser ()
Rp.set_url ("https: // linuxhint.com/roboty.tekst")
Rp.Czytać()
req_rate = rp.request_rate („*”)
req_rate.sekundy
Rp.crawl_delay („*”)
Rp.can_fetch („*”, „https: // linuxhint.COM/Subskrypcja do-linuxhint-com/”)
Rp.can_fetch („*”, „https: // linuxhint.cOM/Subcribise-to-Linuxhint-Com/WP-Admin ”)

Powyższy kod zaczyna się od zaimportowania modułu RobotParser i utworzenia instancji klasy RobotFileParser.

Następnie przekazujemy adres URL robotom.plik txt i wyślij plik do parsera. Następnie używamy dostarczonych metod do wykonywania różnych działań.
Kod powyżej powinien zwrócić:

5
30
PRAWDA
FAŁSZ

Wniosek

W tym artykule omówiliśmy, jak korzystać z modułu RobotParser z pakietu Urllib, umożliwiającym wykonywanie różnych działań w robotach.plik txt. Zapraszam do zbadania kodu źródłowego, aby uzyskać więcej informacji.