To ma wpływ. Implikacja polega na tym, że istnieje wiele przydatnych danych w Google i że wymaga potrzeby zeskrobania tych złotych danych. Zeskanowane dane mogą być wykorzystywane do analizy danych i odkrycia wspaniałych spostrzeżeń. W jednej próbie może być również ważne w uzyskaniu świetnych informacji badawczych.
Mówiąc o skrobaniu, można to zrobić za pomocą narzędzi zewnętrznych. Można to również zrobić za pomocą biblioteki Python znanej jako Scrapy. Scrapy jest oceniany jako jeden z najlepszych narzędzi do skrobania i może być używany do zeskrobania prawie każdej strony internetowej. Możesz dowiedzieć się więcej na temat biblioteki złomowej.
Jednak niezależnie od mocnych stron tej wspaniałej biblioteki. Skrobanie danych w Google może być jednym trudnym zadaniem. Google mocno upadają na wszelkie próby skrobania w sieci, upewniając się, że skrobanie skryptów nawet nie składają tylu 10 żądań zeskrobania w ciągu godziny przed zablokowaniem adresu IP. To sprawia, że strony trzecie i osobiste skrobaki skrobania internetowe bezużyteczne.
Google daje możliwość zeskrobania informacji. Jednak niezależnie od skrobania, które można zrobić, musi być za pośrednictwem interfejsu programowania aplikacji (API).
Po prostu nie wiesz jeszcze, czym jest interfejs programowania aplikacji, nie ma się czym martwić, ponieważ podam krótkie wyjaśnienie. Z definicji interfejs API jest zestawem funkcji i procedur, które umożliwiają tworzenie aplikacji, które uzyskują dostęp do funkcji lub danych systemu operacyjnego, aplikacji lub innej usługi. Zasadniczo interfejs API umożliwia uzyskanie dostępu do końcowego wyniku procesów bez konieczności uczestnictwa w tych procesach. Na przykład interfejs API temperatury zapewniłby ci wartości Celsjusza/Fahrenheita miejsca bez konieczności wyjeżdżania z termometrem, aby samodzielnie wykonać pomiary.
Wprowadzając to do zakresu skrobania z Google, interfejs API, którego będziemy korzystać. Za pośrednictwem interfejsu API możemy po prostu mieć dostęp do efektu końcowego (po tym, jak Google „skrobanie” na końcu) bez pisania kodu do skrobania stron internetowych.
Chociaż Google ma wiele interfejsów API do różnych celów, będziemy korzystać z niestandardowego API wyszukiwania JSON w celu tego artykułu. Więcej informacji na temat tego interfejsu API można znaleźć tutaj.
Ten interfejs API pozwala nam na bezpłatnie dokonywać 100 pytań dotyczących wyszukiwania, a plany cenowe dostępne w razie potrzeby w celu uzyskania większej liczby zapytań.
Aby móc korzystać z niestandardowego interfejsu API wyszukiwania JSON, potrzebujemy niestandardowego identyfikatora wyszukiwarki. Jednak musielibyśmy najpierw utworzyć niestandardową wyszukiwarkę, którą można zrobić tutaj.
Podczas wizyty na stronie wyszukiwarki niestandardowej kliknij przycisk „Dodaj”, aby utworzyć nową wyszukiwarkę.
W polu „Witryny do wyszukiwania” po prostu umieść „www.Linuxhint.com ”oraz w polu„ Nazwa wyszukiwarki ”, umieść dowolną opisową nazwę wyboru (Google byłoby preferowane).
Teraz kliknij „Utwórz”, aby utworzyć niestandardową wyszukiwarkę i kliknij przycisk „Panel sterowania” ze strony, aby potwierdzić powodzenie tworzenia.
Zobaczysz sekcję „identyfikator wyszukiwarek” i pod nim identyfikator, czyli identyfikator, którego potrzebujemy do interfejsu API i odniesiemy się do niego później w tym samouczku. Identyfikator wyszukiwarki powinien być utrzymywany prywatnie.
Zanim odejdziemy, pamiętaj, że włożyliśmy „www.Linuhint.com ”wcześniej. Dzięki temu ustawieniu otrzymalibyśmy tylko wyniki ze strony. Jeśli chcesz uzyskać normalne wyniki z całkowitego wyszukiwania sieci, kliknij „Ustaw” z menu po lewej stronie, a następnie kliknij kartę „Podstawy”. Przejdź do sekcji „Wyszukaj całą sieć” i włącz tę funkcję.
Tworzenie klucza API
Po utworzeniu niestandardowej wyszukiwarki i uzyskaniu jego identyfikatora, następnym byłoby utworzenie klucza API. Klucz API umożliwia dostęp do usługi API i powinien być bezpieczny po utworzeniu, podobnie jak identyfikator wyszukiwarki.
Aby utworzyć klawisz API, odwiedź stronę i kliknij przycisk „Pobierz klucz”.
Utwórz nowy projekt i nadaj mu opisową nazwę. Po kliknięciu „Dalej” wygenerowałbyś klucz API.
Na następnej stronie mielibyśmy różne opcje konfiguracji, które nie są konieczne dla tego samouczka, więc po prostu kliknij przycisk „Zapisz” i jesteśmy gotowi do pracy.
Dostęp do API
Dobrze zrobiliśmy uzyskanie niestandardowego identyfikatora wyszukiwania i klucza API. Następnie użyjemy API.
Chociaż możesz uzyskać dostęp do interfejsu API z innymi językami programowania, będziemy to robić z Pythonem.
Aby mieć dostęp do interfejsu API z Pythonem, musisz zainstalować klienta Google API dla Pythona. Można to zainstalować za pomocą pakietu instalacji PIP z poniższym poleceniem:
PIP Instaluj Google-API-Python-Client
Po pomyślnej instalacji możesz teraz zaimportować bibliotekę do naszego kodu.
Większość tego, co zostanie zrobione, będzie poprzez poniższą funkcję:
z GoogleapicLient.Discovery Import BuildW powyższej funkcji, my_api_key I my_cse_id Zmienne należy wymienić odpowiednio klawiszem API i identyfikatorem wyszukiwarki jako wartości ciągu.
Wszystko, co należy teraz zrobić, to wywołać funkcję przechodzącą w wyszukiwanym terminie, klawisz API i identyfikator CSE.
wynik = Google_Search („kawa”, my_api_key, my_cse_id)Powyższe połączenie funkcji wyszukiwałoby słowo kluczowe „kawa” i przypisałby zwróconą wartość do wynik zmienna, która jest następnie drukowana. Obiekt JSON jest zwracany przez niestandardowy interfejs API wyszukiwania, dlatego wszelkie dalsze analizowanie powstałego obiektu wymagałoby małej wiedzy o JSON.
Można to zobaczyć z próbki wyniku, jak pokazano poniżej:
Obiekt JSON zwrócony powyżej jest bardzo podobny do wyniku z wyszukiwania Google:
Skrobanie Google w poszukiwaniu informacji nie jest tak naprawdę warte stresu. Niestandardowy interfejs API wyszukiwania ułatwia wszystkim, ponieważ jedyną trudnością jest analizowanie obiektu JSON dla potrzebnych informacji. Jako przypomnienie, zawsze pamiętaj o utrzymaniu niestandardowego identyfikatora wyszukiwarki i wartości kluczy API prywatnych.