Jak używać kleju AWS

AWS Glue to w pełni zarządzana usługa integracji danych, która dostarcza i integruje dane oraz pozwala użytkownikom uruchomić pełzanie oraz tworzenie i monitorowanie ETL (wyodrębnienie, transformację i ładowanie). AWS Glue działa w środowisku bezserwerowym i pozwala użytkownikom wykonywać działania w skalowalnej infrastrukturze. AWS Glue pobiera dane z innych usług Amazon, takich jak S3 lub AWS Kinesis, i integruje dostępne dane.

Kiedy użytkownicy tworzą zadania ETL i pełzanie kleju AWS, muszą odpowiednio określić i zadeklarować docelową lokalizację danych i źródła danych. Oznacza to, że klej AWS nie może być używany sam, ale użytkownik musi przechowywać dane w usługach pamięci masowej, takich jak S3 Buckets, a następnie udostępniać te dane dla usługi kleju AWS. Użytkownicy mogą również tworzyć bazy danych, tabele, schematy, połączenia itp., w kleja AWS.

W tym artykule wyjaśniono proces używania kleju AWS w łatwych krokach.

Jak używać kleju AWS?

Aby zrozumieć użycie kleju AWS, najpierw zaloguj się do konsoli AWS, a następnie wyszukaj klej AWS w usługach AWS.

Na pierwszym interfejsie kleju AWS pojawi się menu po lewej stronie, które będzie zawierało listę wszystkich możliwych zadań, które można wykonać za pomocą kleju AWS, takich jak roboty, bazy danych, tabele, schematy itp.

Jeśli klikniemy przycisk „Zacznij”, następny interfejs wyświetli trzy różne zadania, i.mi., Wyświetl zadania, wyświetl monitorowanie i wyświetl złącza.

Aby tworzyć zadania w klepie AWS, użytkownik musi najpierw skonfigurować zadanie zgodnie z szczegółami, takimi jak lokalizacja wiader S3, obiektów, folderów i klastrów AWS. Tak więc, aby użyć kleju AWS. Jest wymagany do przechowywania niektórych plików w serwisie pamięci S3 AWS.

Utwórz wiadro S3

Najpierw odwiedź usługę AWS „Amazon S3” i stwórz tam nowe wiadro S3.

Utwórz foldery w wiadrze

Po utworzeniu nowego wiadra S3 w Amazon S3, utwórz w nim folder, otwierając szczegóły wiadra, a następnie klikając „Utwórz folder”.

Po prostu podaj nazwę folderowi:

W ten sposób folder jest tworzony.

Teraz utwórz kolejny folder w wiadrze.

Prześlij obiekty

Teraz przejdź do „Obiekty” i kliknij przycisk „Prześlij”. Przejrzyj pliki z systemu, które mają być przesłane do nowo utworzonego wiadra Amazon S3.

Komunikat o sukcesie u góry interfejsu sprawdza, czy obiekty wybrane z systemu są z powodzeniem przesyłane do wiadra AWS S3.

Otwórz klej AWS

Po przesłaniu obiektów i dodaniu folderów do wiadra S3, użytkownik może wykonywać zadania na kleju AWS. Wyszukaj i otwórz usługi kleju AWS z usług AWS.

Utwórz Crawler

Po lewej stronie będzie menu zawierające nazwy wszystkich zadań wykonanych na klepie AWS. Wybierz opcję „Crawlery” z podanego menu i utwórz Crawler.

Wpisz nazwę dla The Crawler.

Wybierz nowo utworzone wiadro jako ścieżkę S3 Crawlera, aby ten robak mógł uzyskać dostęp do tego wiadra:

Dokonaj docelowej bazy danych, wybierając dowolną bazę danych utworzonych w klepie AWS lub utwórz nową bazę danych, a następnie wybierz ją:

Po skonfigurowaniu wszystkiego potrzebnego do utworzenia frawlera kliknij przycisk „Utwórz Crawler”:

Po utworzeniu Crawlera kliknij przycisk „Run Crawler”, aby uczynić Crawler:

Utwórz pracę ETL

Wybierz opcję „Zadania” z menu po lewej stronie:

Chodziło o to, jak używać kleju AWS.

Wniosek

AWS Glue to usługa AWS bez serwera, która pobiera dane z innych usług AWS, takich jak S3 Buckets. Mogą być klastry, bazy danych, zadania itp., Stworzony w klepie AWS. Jednym z głównych zadań kleju AWS jest stworzenie pracy ETL. Po przechowywaniu niektórych plików w zakresie usług pamięci AWS, zadania ETL można tworzyć, konfigurując szczegóły zadania w taki sposób, aby uzyskać dostęp do plików.

Pyton

Python nie wszystkie argumenty przekonwertowane podczas formatowania ciągu

Ten błąd można naprawić, korygując składnię operatora %, przy użyciu funkcji format () zamiast opera...

Renata Borowiec

System systemu Windows

Co to jest Windows Pakiet Manager

Menedżer pakietu Windows lub Wining to potężne narzędzie do instalowania i zarządzania pakietami opr...

Bertram Jóźwiak

Pyton

Pandas read_csv multiprocessing

W celu poprawy prędkości ładowania danych, w tym ich korzyści i ograniczeń „PD.Funkcja read_csv () ”...

Oliwia Makowski