Jak zainstalować i skonfigurować Apache Hadoop na Ubuntu

Jak zainstalować i skonfigurować Apache Hadoop na Ubuntu
Apache Hadoop to oparta na Java, open source, swobodnie dostępna platforma oprogramowania do przechowywania i analizy dużych zestawów danych w klastrach systemowych. Utrzymuje swoje dane w systemie rozproszonym Hadoop (HDFS) i procesów wykorzystujących MapReduce. Hadoop był używany w technikach uczenia maszynowego i wydobywania danych. Służy również do zarządzania wieloma dedykowanymi serwerami.

Podstawowymi elementami Apache Hadoop są:

  • HDFS: W Apache Hadoop HDFS to system plików, który jest dystrybuowany w wielu węzłach.
  • MapReduce: Jest to ramy dla opracowywania aplikacji, które obsługują ogromną ilość danych.
  • Hadoop Common: Jest to zestaw bibliotek i narzędzi, które są potrzebne modułom Hadoop.
  • Hadoop Yarn: W Hadoop przędza Hadoop zarządza warstwami zasobów.

Teraz sprawdź poniżej podane metody Instalowanie i konfigurowanie Apache Hadoop w systemie Ubuntu. A więc zacznijmy!

Jak zainstalować Apache Hadoop na Ubuntu

Po pierwsze, otworzymy nasz terminal Ubuntu, naciskając „Ctrl+alt+t”, Możesz także wpisać„terminal”W pasku wyszukiwania aplikacji w następujący sposób:

Następnym krokiem jest aktualizacja repozytoriów systemowych:

Aktualizacja $ sudo apt

Teraz zainstalujemy Jawa w naszym systemie Ubuntu, pisząc następujące polecenie w terminalu:

$ sudo apt Zainstaluj openjdk-11-jdk

Wchodzić "T/y”Aby umożliwić kontynuowanie procesu instalacji:

Teraz sprawdź istnienie zainstalowanej Java, sprawdzając jej wersję:

$ java -version

Utworzymy osobnego użytkownika do uruchamiania Apache Hadoop w naszym systemie, wykorzystując „Dodaj użytkownika" Komenda:

$ sudo adduser hadoopuser

Wprowadź hasło nowego użytkownika, pełną nazwę i inne informacje. Typ "T/y„Aby potwierdzić, że podane informacje są poprawne:

Czas zmienić bieżącego użytkownika z utworzonym użytkownikiem Hadoop, czyli „to„ ”Hadoopuser" w naszym przypadku:

$ su - hadoopuser

Teraz skorzystaj z komendy poniżej danej do generowania pary kluczy prywatnych i publicznych:

$ ssh -keygen -t rsa

Wprowadź adres pliku, w którym chcesz zapisać parę kluczy. Następnie dodaj hasło, którego będziesz używać w całej konfiguracji użytkownika Hadoop:

Następnie dodaj te pary kluczowe do SSH autoryzowane_keys:

w ~/.ssh/id_rsa.pub >> ~/.ssh/autoryzowane_keys

Ponieważ przechowyliśmy wygenerowaną parę klucza w autoryzowanym kluczu SSH, teraz zmienimy uprawnienia do plików na „640”Co oznacza, że ​​tylko my jako„właściciel”Pliku będzie miał uprawnienia do odczytu i zapisu,„grupy„Będzie miał tylko zgodę na odczyt. Żadne zezwolenie nie zostanie przyznane „inni użytkownicy”:

$ chmod 640 ~/.ssh/autoryzowane_keys

Teraz uwierzytelnij hosta lokalnego, pisząc następujące polecenie:

$ ssh localhost

Użyj poniżej dania wget polecenie instalacji frameworka Hadoop dla twojego systemu:

$ wget https: // pobieranie.Apache.org/hadoop/common/hadoop-3.3.0/Hadoop-3.3.0.smoła.GZ

Wyodrębnij pobrane „Hadoop-3.3.0.smoła.GZ”Plik z poleceniem TAR:

$ tar -xvzf hadoop -3.3.0.smoła.GZ

Możesz także zmienić nazwę wyodrębnionego katalogu, tak jak to zrobimy, wykonując poniższe polecenie:

$ mv Hadoop-3.3.0 Hadoop

Teraz skonfiguruj zmienne środowiskowe Java do konfigurowania Hadoop. W tym celu sprawdzimy lokalizację naszej „Java_home" zmienny:

$ dirname $ (dirname $ (readLink -f $ (który java)))

Otworzyć "~/.Bashrc”Plik w„Nano" Edytor tekstu:

$ nano ~/.Bashrc

Dodaj następujące ścieżki w otwartym „~/.Bashrc" plik:

Eksport java_home =/usr/lib/jvm/java-11-openjdk-amd64
Eksport hadoop_home =/home/hadoopuser/hadoop
Eksport hadoop_install = $ hadoop_home
Eksport hadoop_mapred_home = $ hadoop_home
Eksport hadoop_common_home = $ hadoop_home
Eksport hadoop_hdfs_home = $ hadoop_home
Eksport hadoop_yarn_home = $ hadoop_home
Eksport hadoop_common_lib_native_dir = $ hadoop_home/lib/natywna
Eksport ścieżka = $ ścieżka: $ hadoop_home/sbin: $ hadoop_home/bin
Eksport Hadoop_Opts = "-Djava.biblioteka.ścieżka = $ hadoop_home/lib/Native "

Następnie naciśnij „Ctrl+o„Aby zapisać zmiany, które wprowadziliśmy w pliku:

Teraz napisz poniżej dany polecenie, aby aktywować „Java_home" Zmienna środowiskowa:

$ źródło ~/.Bashrc

Następną rzeczą, którą musimy zrobić, to otworzyć plik zmiennej środowiska Hadoop:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.cii

Musimy ustawić nasze „Java_home„Zmienna w środowisku Hadoop:

Eksport java_home =/usr/lib/jvm/java-11-openjdk-amd64

Znowu naciśnij „Ctrl+o„Aby zapisać zawartość pliku:

Jak skonfigurować Apache Hadoop na Ubuntu

Do tego momentu pomyślnie zainstalowaliśmy Java i Hadoop, utworzyliśmy użytkowników Hadoop, skonfigurowaliśmy uwierzytelnianie oparte na kluczu SSH. Teraz pójdziemy naprzód, aby ci pokazać Jak skonfigurować Apache Hadoop na Ubuntu system. W tym celu krok jest stworzenie dwóch katalogów: DataNode I Namenode, wewnątrz katalogu domowego Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode

Zaktualizujemy Hadoop „Site Core.XML”Plik, dodając naszą nazwę hosta, więc najpierw potwierdź nazwę hosta systemu, wykonując to polecenie:

$ nazwa hosta

Teraz otwórz „Site Core.XML”Plik w„Nano„Redaktor:

$ nano $ hadoop_home/etc/hadoop/rdzeń.XML

Nasza nazwa hosta systemu w „Linuxhint-Vbox”, Możesz dodać następujące wiersze o nazwie hosta systemu w otwartym„ rdzeniu.plik hadoop xml ”:



fs.defaultfs
hdfs: // hadoop.Linuxhint-Vbox.com: 9000

Naciskać "Ctrl+o”I zapisz plik:

W "Site HDFS.XML„Plik, zmienimy ścieżkę katalogu„DataNode" I "Namenode”:

$ nano $ hadoop_home/etc/hadoop/hdfs-site.XML


DFS.Replikacja
1


DFS.nazwa.reż
Plik: /// home/hadoopuser/hadoopdata/hdfs/namenode


DFS.dane.reż
Plik: /// home/hadoopuser/hadoopdata/hdfs/datanode

Ponownie, aby napisać dodany kod w pliku, naciśnij „Crtl+o”:

Następnie otwórz „Mapred.XML”Plik i dodaj do niego kod poniżej:

$ nano $ hadoop_home/etc/hadoop/mapred-miejsce.XML


MapReduce.struktura.nazwa
przędza

Naciskać "Ctrl+o„Aby zapisać zmiany wprowadzone w pliku:

Ostatni plik, który należy zaktualizować, to „strona przędzy.XML". Otwórz ten plik Hadoop w „Nano„Redaktor:

$ nano $ hadoop_home/etc/hadoop/przędza.XML

Napisz poniżej podane wiersze w „strona przędzy.XML" plik:



przędza.Nodemanager.Usługi aux
MAPREDUCE_SHUFLE

Musimy założyć klaster Hadoop, aby obsługiwać Hadoop. W tym celu sformatujemy nasze „Namenode" Pierwszy:

$ hdfs namenode -Format

Teraz rozpocznij klaster Hadoop, pisząc poniższe polecenie w terminalu:

$ start-dfs.cii

W trakcie uruchamiania klastra Hadoop, jeśli otrzymasz „Może rozwiązać błąd nazwy hosta”, Następnie musisz określić nazwę hosta w„/etc/host" plik:

$ sudo nano /itp

Zapisz "/etc/host„Plik, a teraz wszyscy jesteście gotowi uruchomić klaster Hadoop:

$ start-dfs.cii

W następnym kroku rozpoczniemy „przędza„Służba Hadoop:

$ start-yarn.cii

Wykonanie powyższego komendy wyświetli następujące dane wyjściowe:

Aby sprawdzić status wszystkich usług Hadoop, wykonaj „JPS„Polecenie w terminalu:

$ JPS

Wyjście pokazuje, że wszystkie usługi działają pomyślnie:

Hadoop słucha w porcie 8088 I 9870, Jesteś więc zobowiązany do zezwolenia na te porty przez zaporę:

$ Firewall-CMD --Permanent --add-port = 9870/tcp
$ firewall-cmd --Permanent --add-port = 8088/tcp

Teraz ponownie załaduj ustawienia zapory:

$ Firewall-CMD-RELOOD

Teraz otwórz swoją przeglądarkę i uzyskaj dostęp do swojego Hadoop ”Namenode„Wprowadzając adres IP z portem 9870:

Użyj portu „8080”Z adresem IP, aby uzyskać dostęp do Managera zasobów Hadoop:

Na interfejsie internetowym Hadoop możesz szukać „Przeglądaj katalog„Przewiń w dół w dół otwartej strony internetowej w następujący sposób:

Chodziło o instalowanie i konfigurowanie Apache Hadoop w systemie Ubuntu. Aby zatrzymać klaster Hadoop, musisz zatrzymać usługi „przędza" I "Namenode”:

$ stop-dfs.cii
$ stop-yarn.cii

Wniosek

W przypadku różnych aplikacji Big Data, Apache Hadoop to swobodnie dostępna platforma do zarządzania, przechowywania i przetwarzania danych, które działają na serwerach klastrowych. Jest to odporne na usterki system rozproszony, który umożliwia równoległe przetwarzanie. W Hadoop model MapReduce jest wykorzystywany do przechowywania i wyodrębnienia danych z jego węzłów. W tym artykule pokazaliśmy metodę do instalowania i konfigurowania Apache Hadoop w systemie Ubuntu.