Instalowanie Apache Spark na Ubuntu

Instalowanie Apache Spark na Ubuntu
Apache-Spark to open source ramy dla przetwarzania dużych zbiorów danych, wykorzystywane przez profesjonalnych naukowców i inżynierów do wykonywania działań na temat dużych ilości danych. Ponieważ przetwarzanie dużych ilości danych wymaga szybkiego przetwarzania, maszyna do przetwarzania/pakiet musi być wydajny. Spark używa harmonogramu DAG, buforowania pamięci i wykonywania zapytania, aby przetwarzać dane tak szybko, jak to możliwe, a tym samym do dużego obsługi danych.

Struktura danych Spark oparta jest na RDD (akronim odpornego zestawu danych rozproszonego); RDD składa się z niezmiennej rozproszonej kolekcji obiektów; Te zestawy danych mogą zawierać dowolny rodzaj obiektów związanych z Python, Java, Scala i mogą również zawierać klasy zdefiniowane przez użytkownika. Szerokie użycie Apache-Spark wynika z jego mechanizmu działającego, który następuje:

Apache Spark działa na zjawiskach mistrza i niewolników; Zgodnie z tym wzorem, centralny koordynator Spark jest znany jako „kierowca”(Działa jako mistrz), a jego rozproszone pracownicy są nazywani„ wykonawcami ”(działa jako niewolnik). A trzeci główny składnik Spark jest „Menedżer klastrów”; Jak sama nazwa wskazuje, jest menedżerem, który zarządza wykonawcami i kierowcami. Wykonawcy są uruchamiani przez „Menedżer klastrów”I w niektórych przypadkach kierowcy są również uruchamiane przez tego menedżera Spark. Wreszcie, wbudowany menedżer Spark jest odpowiedzialny za uruchomienie dowolnej aplikacji Spark na maszynach: Apache-Spark składa się z wielu znaczących funkcji, które są tutaj konieczne do omówienia, aby podkreślić fakt, dlaczego są one wykorzystywane w dużym przetwarzaniu danych? Tak więc funkcje Apache-Spark opisano poniżej:

Cechy

Oto kilka charakterystycznych funkcji, które sprawiają, że Apache-Spark jest lepszym wyborem niż jego konkurenci:

Prędkość: Jak omówiono powyżej, używa harmonogramu DAG (planuje zadania i określa odpowiednią lokalizację dla każdego zadania), wykonywanie zapytań i biblioteki wspierające do skutecznego i szybko wykonywania dowolnego zadania.

Wsparcie wielu języków: Wielojęzyczna funkcja Apache-Spark umożliwia programistom budowanie aplikacji opartych na Javie, Python, R i Scala.

Przetwarzanie w czasie rzeczywistym: Zamiast przetwarzania przechowywanych danych użytkownicy mogą uzyskać przetwarzanie wyników przez przetwarzanie danych w czasie rzeczywistym, a zatem daje natychmiastowe wyniki.

Lepsza analityka: W przypadku analityki Spark wykorzystuje różne biblioteki do zapewnienia analizy, takich jak algorytmy uczenia maszynowego, zapytania SQL itp. Jednak jego konkurent Apache-MapReduce używa jedynie mapy i zmniejszania funkcji w celu zapewnienia analizy; To różnicowanie analityczne wskazuje również, dlaczego Spark przewyższa MapReduce.

Skupiając znaczenie i niesamowite cechy Apache Spark; Nasze dzisiejsze pisanie utoruje drogę do zainstalowania Apache Spark na ubuntu

Jak zainstalować Apache Spark na Ubuntu

W tej sekcji poprowadzi Cię do zainstalowania Apache Spark na Ubuntu:

Krok 1: Zaktualizuj system i zainstaluj Java

Przed uzyskaniem wglądu podstawowej części instalacji; Zaktualizujmy system za pomocą wspomnianego poniżej polecenia:

Aktualizacja $ sudo apt

Po aktualizacji polecenie napisane poniżej zainstaluje środowisko Java, ponieważ Apache-Spark jest aplikacją opartą na Javie:

$ sudo apt Zainstaluj default-jdk

Krok 2: Pobierz plik Apache Spark i wyodrębnij

Po pomyślnym zainstalowaniu Java możesz pobrać plik Apache Spark z Internetu, a następujące polecenie pobierze najnowsze 3.0.3 Build of Spark:

$ wget https: // archiwum.Apache.org/dist/ark/ark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ

Musisz wyodrębnić pobrany plik, więc; Poniższe polecenie wykona ekstrakcję (w moim przypadku):

$ TAR XVF Spark-3.0.3-bin-hadoop2.7.TGZ

Następnie przenieś wyodrębniony folder do „/optować/”DIREGATOR, postępując zgodnie z poniższym poleceniem:

$ sudo mv spark-3.0.3-bin-hadoop2.7//opt/iskra

Po zakończeniu powyższych procesów oznacza, że ​​skończysz z pobieraniem Apache Spark, ale poczekaj; Nie zadziała, dopóki nie skonfigurujesz środowiska Spark, nadchodzące sekcje poprowadzą Cię do konfiguracji i używania Spark:

Jak skonfigurować środowisko Spark

W tym celu musisz ustawić niektóre zmienne środowiskowe w pliku konfiguracyjnym „~/.profil”;

Uzyskaj dostęp do tego pliku za pomocą edytora (w moim przypadku nano), napisane poniżej polecenie otworzy ten plik w nano Editor:

$ sudo nano ~/.profil

I napisz następujące wiersze na końcu tego pliku; Po zakończeniu naciśnij „naciśnij”Ctrl+s„Aby zapisać plik:

Eksport Spark_Home =/Opt/Spark
Eksport ścieżka = $ ścieżka: $ spark_home/bin: $ spark_home/sbin
Eksport PYSPARK_PYTHON =/USR/BIN/PYTHON3

Załaduj plik, aby uzyskać zmiany dla środowiska Spark:

$ źródło ~/.profil

Jak uruchomić samodzielny serwer główny Spark

Po ustawieniu zmiennych środowiska; Teraz możesz rozpocząć proces samodzielnego serwera głównego za pomocą polecenia napisanego poniżej:

$ start-master.cii

Po rozpoczęciu procesu; Interfejs internetowy serwera głównego można pobrać za pomocą adresu wspomnianego poniżej; Napisz następujący adres na pasku adresu przeglądarki

https: // localhost: 8080/

Jak uruchomić serwer Slave/Worker of Spark

Serwer Slave można uruchomić przy użyciu polecenia określonego poniżej: zauważa się, że potrzebujesz adresu URL serwera głównego, aby uruchomić pracownika:

$ start-slave.SH Spark: // Adnan: 7077

Po uruchomieniu; Uruchom adres (https: // localhost: 8080) i zauważysz, że dodano jednego pracownika „Pracownicy" Sekcja. Zauważa się, że pracownik używa „1” rdzenia procesora i 3.Domyślnie 3 GB pamięci RAM:

Na przykład ograniczymy liczbę rdzeni pracowników za pomocą flagi „-C”: na przykład wspomniane poniżej polecenie uruchomi serwer z rdzeniami „0” zużycia procesora:

$ start-slave.SH -C 0 Spark: // Adnan: 7077

Możesz zobaczyć zmiany, przeładowując stronę (https: // localhost: 8080/):

Dodatkowo możesz ograniczyć pamięć nowych pracowników, używając „-M„Flaga: Polecenie napisane poniżej uruchomi niewolnika z użyciem pamięci 256 MB:

$ start-slave.SH -M 256M Spark: // Adnan: 7077

Dodany pracownik o ograniczonej pamięci jest widoczny na interfejsie internetowym (https: // localhost: 8080/):

Jak rozpocząć/zatrzymać Master i Slave

Możesz zatrzymać lub star master i niewolnik od razu, używając wspomnianego poniżej polecenia:

$ start-all.cii

Podobnie polecenie podane poniżej zatrzyma wszystkie instancje jednocześnie:

$ stop-all.cii

Aby rozpocząć i zatrzymać tylko instancję główną, użyj następujących poleceń:

$ start-master.cii

I zatrzymać bieżącego mistrza:

$ stop-master.cii

Jak uruchomić Shell Shell

Po zakończeniu konfiguracji środowiska Spark; Możesz użyć poniższego polecenia, aby uruchomić powłokę Spark; W ten sposób jest testowany również:

$ Spark-Shell

Jak prowadzić Python w Spark Shell

Jeśli w systemie działa powłoka Spark, możesz uruchomić Python w tym środowisku; Uruchom następujące polecenie, aby to uzyskać:

$ PYSPARK

Notatka: Powyższe polecenie nie będzie działać, jeśli pracujesz z Scala (domyślny język w Spark Shell), możesz wyjść z tego, wpisując „: Q”I naciskanie„Wchodzić”Lub po prostu naciśnij„Ctrl+c".

Wniosek

Apache Spark to open source Unified Analytics, który jest wykorzystywany do przetwarzania dużych zbiorów danych przy użyciu kilku bibliotek i najczęściej używany przez inżynierów danych i innych, którzy muszą pracować nad ogromnymi ilościami danych. W tym artykule przedstawiliśmy przewodnik instalacyjny Apache-Spark; a także konfiguracja środowiska Spark jest również szczegółowo opisana. Dodanie pracowników o ograniczonej liczbie lub rdzeniach i określonej pamięci byłoby pomocne w oszczędzaniu zasobów podczas pracy z Spark.