Struktura danych Spark oparta jest na RDD (akronim odpornego zestawu danych rozproszonego); RDD składa się z niezmiennej rozproszonej kolekcji obiektów; Te zestawy danych mogą zawierać dowolny rodzaj obiektów związanych z Python, Java, Scala i mogą również zawierać klasy zdefiniowane przez użytkownika. Szerokie użycie Apache-Spark wynika z jego mechanizmu działającego, który następuje:
Apache Spark działa na zjawiskach mistrza i niewolników; Zgodnie z tym wzorem, centralny koordynator Spark jest znany jako „kierowca”(Działa jako mistrz), a jego rozproszone pracownicy są nazywani„ wykonawcami ”(działa jako niewolnik). A trzeci główny składnik Spark jest „Menedżer klastrów”; Jak sama nazwa wskazuje, jest menedżerem, który zarządza wykonawcami i kierowcami. Wykonawcy są uruchamiani przez „Menedżer klastrów”I w niektórych przypadkach kierowcy są również uruchamiane przez tego menedżera Spark. Wreszcie, wbudowany menedżer Spark jest odpowiedzialny za uruchomienie dowolnej aplikacji Spark na maszynach: Apache-Spark składa się z wielu znaczących funkcji, które są tutaj konieczne do omówienia, aby podkreślić fakt, dlaczego są one wykorzystywane w dużym przetwarzaniu danych? Tak więc funkcje Apache-Spark opisano poniżej:
Cechy
Oto kilka charakterystycznych funkcji, które sprawiają, że Apache-Spark jest lepszym wyborem niż jego konkurenci:
Prędkość: Jak omówiono powyżej, używa harmonogramu DAG (planuje zadania i określa odpowiednią lokalizację dla każdego zadania), wykonywanie zapytań i biblioteki wspierające do skutecznego i szybko wykonywania dowolnego zadania.
Wsparcie wielu języków: Wielojęzyczna funkcja Apache-Spark umożliwia programistom budowanie aplikacji opartych na Javie, Python, R i Scala.
Przetwarzanie w czasie rzeczywistym: Zamiast przetwarzania przechowywanych danych użytkownicy mogą uzyskać przetwarzanie wyników przez przetwarzanie danych w czasie rzeczywistym, a zatem daje natychmiastowe wyniki.
Lepsza analityka: W przypadku analityki Spark wykorzystuje różne biblioteki do zapewnienia analizy, takich jak algorytmy uczenia maszynowego, zapytania SQL itp. Jednak jego konkurent Apache-MapReduce używa jedynie mapy i zmniejszania funkcji w celu zapewnienia analizy; To różnicowanie analityczne wskazuje również, dlaczego Spark przewyższa MapReduce.
Skupiając znaczenie i niesamowite cechy Apache Spark; Nasze dzisiejsze pisanie utoruje drogę do zainstalowania Apache Spark na ubuntu
Jak zainstalować Apache Spark na Ubuntu
W tej sekcji poprowadzi Cię do zainstalowania Apache Spark na Ubuntu:
Krok 1: Zaktualizuj system i zainstaluj Java
Przed uzyskaniem wglądu podstawowej części instalacji; Zaktualizujmy system za pomocą wspomnianego poniżej polecenia:
Aktualizacja $ sudo apt
Po aktualizacji polecenie napisane poniżej zainstaluje środowisko Java, ponieważ Apache-Spark jest aplikacją opartą na Javie:
$ sudo apt Zainstaluj default-jdk
Krok 2: Pobierz plik Apache Spark i wyodrębnij
Po pomyślnym zainstalowaniu Java możesz pobrać plik Apache Spark z Internetu, a następujące polecenie pobierze najnowsze 3.0.3 Build of Spark:
$ wget https: // archiwum.Apache.org/dist/ark/ark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ
Musisz wyodrębnić pobrany plik, więc; Poniższe polecenie wykona ekstrakcję (w moim przypadku):
$ TAR XVF Spark-3.0.3-bin-hadoop2.7.TGZ
Następnie przenieś wyodrębniony folder do „/optować/”DIREGATOR, postępując zgodnie z poniższym poleceniem:
$ sudo mv spark-3.0.3-bin-hadoop2.7//opt/iskra
Po zakończeniu powyższych procesów oznacza, że skończysz z pobieraniem Apache Spark, ale poczekaj; Nie zadziała, dopóki nie skonfigurujesz środowiska Spark, nadchodzące sekcje poprowadzą Cię do konfiguracji i używania Spark:
Jak skonfigurować środowisko Spark
W tym celu musisz ustawić niektóre zmienne środowiskowe w pliku konfiguracyjnym „~/.profil”;
Uzyskaj dostęp do tego pliku za pomocą edytora (w moim przypadku nano), napisane poniżej polecenie otworzy ten plik w nano Editor:
$ sudo nano ~/.profil
I napisz następujące wiersze na końcu tego pliku; Po zakończeniu naciśnij „naciśnij”Ctrl+s„Aby zapisać plik:
Eksport Spark_Home =/Opt/Spark
Eksport ścieżka = $ ścieżka: $ spark_home/bin: $ spark_home/sbin
Eksport PYSPARK_PYTHON =/USR/BIN/PYTHON3
Załaduj plik, aby uzyskać zmiany dla środowiska Spark:
$ źródło ~/.profil
Jak uruchomić samodzielny serwer główny Spark
Po ustawieniu zmiennych środowiska; Teraz możesz rozpocząć proces samodzielnego serwera głównego za pomocą polecenia napisanego poniżej:
$ start-master.cii
Po rozpoczęciu procesu; Interfejs internetowy serwera głównego można pobrać za pomocą adresu wspomnianego poniżej; Napisz następujący adres na pasku adresu przeglądarki
https: // localhost: 8080/
Jak uruchomić serwer Slave/Worker of Spark
Serwer Slave można uruchomić przy użyciu polecenia określonego poniżej: zauważa się, że potrzebujesz adresu URL serwera głównego, aby uruchomić pracownika:
$ start-slave.SH Spark: // Adnan: 7077
Po uruchomieniu; Uruchom adres (https: // localhost: 8080) i zauważysz, że dodano jednego pracownika „Pracownicy" Sekcja. Zauważa się, że pracownik używa „1” rdzenia procesora i 3.Domyślnie 3 GB pamięci RAM:
Na przykład ograniczymy liczbę rdzeni pracowników za pomocą flagi „-C”: na przykład wspomniane poniżej polecenie uruchomi serwer z rdzeniami „0” zużycia procesora:
$ start-slave.SH -C 0 Spark: // Adnan: 7077
Możesz zobaczyć zmiany, przeładowując stronę (https: // localhost: 8080/):
Dodatkowo możesz ograniczyć pamięć nowych pracowników, używając „-M„Flaga: Polecenie napisane poniżej uruchomi niewolnika z użyciem pamięci 256 MB:
$ start-slave.SH -M 256M Spark: // Adnan: 7077
Dodany pracownik o ograniczonej pamięci jest widoczny na interfejsie internetowym (https: // localhost: 8080/):
Jak rozpocząć/zatrzymać Master i Slave
Możesz zatrzymać lub star master i niewolnik od razu, używając wspomnianego poniżej polecenia:
$ start-all.cii
Podobnie polecenie podane poniżej zatrzyma wszystkie instancje jednocześnie:
$ stop-all.cii
Aby rozpocząć i zatrzymać tylko instancję główną, użyj następujących poleceń:
$ start-master.cii
I zatrzymać bieżącego mistrza:
$ stop-master.cii
Jak uruchomić Shell Shell
Po zakończeniu konfiguracji środowiska Spark; Możesz użyć poniższego polecenia, aby uruchomić powłokę Spark; W ten sposób jest testowany również:
$ Spark-Shell
Jak prowadzić Python w Spark Shell
Jeśli w systemie działa powłoka Spark, możesz uruchomić Python w tym środowisku; Uruchom następujące polecenie, aby to uzyskać:
$ PYSPARK
Notatka: Powyższe polecenie nie będzie działać, jeśli pracujesz z Scala (domyślny język w Spark Shell), możesz wyjść z tego, wpisując „: Q”I naciskanie„Wchodzić”Lub po prostu naciśnij„Ctrl+c".
Wniosek
Apache Spark to open source Unified Analytics, który jest wykorzystywany do przetwarzania dużych zbiorów danych przy użyciu kilku bibliotek i najczęściej używany przez inżynierów danych i innych, którzy muszą pracować nad ogromnymi ilościami danych. W tym artykule przedstawiliśmy przewodnik instalacyjny Apache-Spark; a także konfiguracja środowiska Spark jest również szczegółowo opisana. Dodanie pracowników o ograniczonej liczbie lub rdzeniach i określonej pamięci byłoby pomocne w oszczędzaniu zasobów podczas pracy z Spark.