Co to jest Amazon Redshift
AWS Redshift to hurtownia danych specjalnie używana do analizy danych na mniejszych lub większych zestawach danych. Jest to usługa zarządzana przez AWS, więc możesz to łatwo skonfigurować w krótkim czasie za pomocą kilku kliknięć. Aby skonfigurować przessanie ku czerwieni, musisz utworzyć węzły, które łączą się, tworząc klaster Redshift. Klaster może mieć maksymalnie 128 węzłów. Z czego jeden węzeł jest skonfigurowany jako węzeł główny, który może zarządzać wszystkimi innymi węzłami i przechowywać zapytane wyniki. Każdy węzeł może zająć do 128 TB danych do przetworzenia. Korzystając z Redshift, możesz zapytać dane około dziesięć razy szybciej niż zwykłe bazy danych.
Zwykle dane, które należy analizować, są umieszczane w wiadrze S3 lub w innych bazach danych. Ale możesz również bezpośrednio zapytać o dane w S3 za pomocą widma przesunięcia ku czerwieni. Ponadto możesz również użyć instancji Kinesis Data Firehose lub EC2 do zapisywania danych do klastra Redshift.
Ta usługa jest ograniczona tylko do działania w jednej strefie dostępności, ale możesz zrobić migawki klastra Redshift i skopiować je do innych stref. Proces ten może być również zautomatyzowany, aby pomóc w odzyskiwaniu po awarii.
W następnej sekcji omówimy, jak utworzyć i skonfigurować klaster Redshift na AWS za pomocą konsoli zarządzania AWS i interfejsu wiersza poleceń.
Tworzenie klastra Redshift za pomocą konsoli
Najpierw zaloguj się na swoje konto AWS przy użyciu poświadczeń AWS i wyszukaj RedShift za pomocą górnego paska wyszukiwania. To zabierze Cię do konsoli ku czerwieni.
Kliknij na Utwórz klaster Aby zacząć tworzyć nowy klaster Redshift.
W sekcji konfiguracyjnej musisz podać identyfikator lub nazwę dla klastra Redshift. Nazwa klastra Redshift musi być unikalna w regionie i może zawierać od 1 do 63 znaków.
Po dostarczeniu unikalnego identyfikatora klastra zapyta, czy chcesz wybrać między produkcją lub bezpłatny poziom. Aby uniknąć dodatkowych kosztów, użyjemy darmowego typu poziomu do tych celów demonstracyjnych.
Z bezpłatnym typem poziomu otrzymujesz jeden DC2.Duży węzeł przesunięcia ku czerwieni z typami pamięci SSD i mocą obliczeniową 2 VCPU.
Dzięki opcji bezpłatnej warstwy AWS automatycznie przesyła przykładowe dane do klastra Redshift, aby pomóc Ci dowiedzieć się o AWS Redshift.
Przykładowe dane przesłane przez AWS nazywa się TickIt i używa przykładowej bazy danych o nazwie TickIt. Tickit zawiera poszczególne przykładowe pliki danych: dwa tabele faktów i pięć wymiarów.
Po załadowaniu przykładowych danych poprosi o bezpieczne uwierzytelnienie nazwy użytkownika administratora i hasła za pomocą AWS Redshift. Możesz albo ustawić hasło administratora samodzielnie, albo można je automatycznie generować, klikając Auto Generate przycisk hasła.
Po dostarczeniu nazwy użytkownika administratora i hasła możemy utworzyć nasz klaster, klikając Utwórz klaster w prawym dolnym rogu.
To stworzy nasz nowy klaster Redshift i załaduje w nim przykładowe dane. Możesz zobaczyć dostępne klastry w konsoli ku czerwieni.
Redshift to jakaś baza danych SQL, która może uruchamiać analizy w zestawach danych i obsługiwać zapytania typu SQL. Aby uruchomić analizę za pomocą Redshift, wybierz żądany klaster i kliknij Dane dotyczące zapytania Aby stworzyć nowe zapytanie.
Aby uruchomić zapytanie, musisz połączyć się z klastrem Redshift. Aby to osiągnąć, wybierz opcję dostępną u góry w Dane dotyczące zapytania Sekcja.
Najpierw musisz wybrać połączenie, które będzie nowym połączeniem, jeśli zamierzasz użyć klastra Redshift po raz pierwszy. Nie utworzyliśmy żadnego parametru uwierzytelniania za pomocą Menedżera Secrets, więc wybierzemy tymczasowe poświadczenia.
Następnie musimy wybrać identyfikator klastra, nazwę bazy danych i użytkownika bazy danych. Następnie kliknij połącz w prawym dolnym rogu.
Jeśli połączenie zostanie ustanowione pomyślnie, możesz wyświetlić status „podłączony” u góry w sekcji danych zapytania.
Po udanym połączeniu możesz po prostu napisać zapytanie SQL za pomocą dostarczonego edytora. Utworzymy nową tabelę z tytułem osoby i posiadanie pięciu atrybutów. Po zakończeniu zapytania możesz je wykonać za pomocą uruchomić opcja na dole.
Utwórz osoby z tabeli (
Personid int,
LastName Varchar (255),
FirstName varchar (255),
Adres Varchar (255),
City Varchar (255)
);
Po kliknięciu Uruchomić przycisk, utworzy tabelę o nazwie Osoby z atrybutami określonymi w zapytaniu.
Schemat całej bazy danych można zobaczyć po lewej stronie w tej samej sekcji. Możesz wyświetlić nowo utworzoną tabelę i jej atrybuty tutaj:
Więc tutaj widzieliśmy, jak utworzyć klaster ku czerwieni i uruchomić zapytania za pomocą go w prosty sposób.
Tworzenie klastra Redshift za pomocą AWS CLI
Teraz zobaczymy, jak używać interfejsu wiersza polecenia AWS do skonfigurowania klastra Redshift. Gdy przyzwyczaisz się do wiersza poleceń i uzyskasz doświadczenie, znajdziesz go bardziej zadowalające i wygodne niż konsola zarządzania AWS.
Najpierw musisz skonfigurować AWS CLI w swoim systemie. Aby skonfigurować poświadczenia CLI, odwiedź następujący artykuł:
https: // linuxhint.com/configure-AWS-CLI-CREDENTYS/
Aby utworzyć nowy klaster Redshift, musisz uruchomić następujące polecenie za pomocą CLI:
$: AWS Redshift Create Claster \
--typ węzła\
--typ klastra\
--Liczba nod\
--Master-Username\
--Master-User-Password < username password> \
--identyfikator klastra
Jeśli klaster zostanie pomyślnie utworzony na koncie AWS, otrzymasz szczegółowe dane wyjściowe, jak pokazano na poniższym zrzucie ekranu:
Tak więc klaster jest tworzony i konfigurowany. Jeśli chcesz wyświetlić wszystkie klastry przesunięcia ku czerwieni w określonym regionie, będziesz potrzebować następującego polecenia. To dostarczy Ci szczegółów na temat wszystkich klastrów utworzonych na Twoim koncie AWS.
$: AWS Redshift Opisz-klastry
Wreszcie widzieliśmy, jak łatwo utworzyć klaster ku czerwieni za pomocą AWS CLI.
Wniosek
Amazon Redshift to w pełni zarządzana usługa magazynowania danych, której można korzystać z innymi usługami AWS, takimi jak S3 Buckets, bazy danych RDS, instancje EC2, Firehose Data Kinesis, Quicksight i wiele innych w celu uzyskania pożądanych wyników z danych danych danych. Może zapewniać kopie zapasowe w przypadku jakiejkolwiek awarii odzyskiwania po awarii i ma wysokie bezpieczeństwo za pomocą szyfrowania, zasad IAM i VPC. Jest to więc bardzo bezpieczna i niezawodna usługa, która może analizować duże zestawy danych w szybkim tempie.