PYSPARK RDD - Odejmij, wyraźny

PYSPARK RDD - Odejmij, wyraźny
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Będzie przechowywać dane w postaci wierszy i kolumn, takich jak DataFrame.

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby tworzyć dane lub ramkę danych, musimy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).

W tym samouczka.

PYSPARK RDD - SUBRRACT ()

odejmować() W RDD jest podobne do ustalonej działalności różnicy, która zwróci nowy RDD, który zawiera elementy obecne w pierwszym RDD, ale nie obecne w drugim RDD.

Potrzebujemy więc dwóch RDD, aby wykonać tę operację.

Składnia:

Rdd_data1.odejmować (rdd_data2)

Gdzie:

  1. RDD_DATA1 to pierwszy RDD
  2. RDD_DATA2 to drugi RDD.

Przykład 1:

W tym przykładzie utworzymy dwa RDD z danymi liczbowymi - podmiotami_1 i podmiotami i wykonamy subtract () na dwóch RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 5 - Znaki tematyczne
tematy_1 = Spark_App.SparkContext.równoległość ([100,34,56,54,45]))
#Display Subjets_1 rdd
drukuj („tematy_1 rdd:”, tematy_1.zbierać())
# Utwórz 5 - Znaki tematyczne
tematy_2 = Spark_App.SparkContext.równoległość ([90,89,34,56,45]))
#Display Subjets_2 rdd
drukuj („tematy_2 rdd:”, tematy_2.zbierać())
#Perform Subtract () Operacja powyżej dwóch RDD
print („subtract () Operacja na temat_1 z podmiotami_2:", tematy_1.odejmować (podmiot_2).zbierać())
#Perform Subtract () Operacja powyżej dwóch RDD
print („subtract () Operacja na temat_2 z tematami_1:”, tematy_2.Odejmij (podmiot_1).zbierać())

Wyjście:

Temats_1 rdd: [100, 34, 56, 54, 45]
tematy_2 rdd: [90, 89, 34, 56, 45]
subtract () Operacja na temat_1 z podmiotami_2: [100, 54]
subtract () Operacja na temat_2 z podmiotami_1: [89, 90]

Ze wyjścia widać, że w RDD jest 5 elementów.

W pierwszej operacji wykonujemy odejmowanie na tematy_1 z podmiotami_2. Tutaj 100 i 54 są obecne w podmiotach_1, ale nie w podmiotach_2. Więc zostali zwróceni.

W drugiej operacji wykonujemy odejmowanie na tematy_2 z podmiotami_1. Tutaj 89 i 90 są obecne w podmiotach_2, ale nie w podmiotach_1. Więc zostali zwróceni.

Przykład 2:

W tym przykładzie utworzymy dwa RDD z danymi stringowymi - podmioty_1 i tematy_2 i wykonamy subtract () na dwóch RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 3 - Nazwy tematów
tematy_1 = Spark_App.SparkContext.równoległość ([„Linux”, „bash”, „javascript”])
#Display Subjets_1 rdd
drukuj („tematy_1 rdd:”, tematy_1.zbierać())
# Utwórz 2 - Nazwy tematów
tematy_2 = Spark_App.SparkContext.równoległość ([„Linux”, „java”])
#Display Subjets_2 rdd
drukuj („tematy_2 rdd:”, tematy_2.zbierać())
#Perform Subtract () Operacja powyżej dwóch RDD
print („subtract () Operacja na temat_1 z podmiotami_2:", tematy_1.odejmować (podmiot_2).zbierać())
#Perform Subtract () Operacja powyżej dwóch RDD
print („subtract () Operacja na temat_2 z tematami_1:”, tematy_2.Odejmij (podmiot_1).zbierać())

Wyjście:

tematy_1 rdd: [„Linux”, „bash”, „javascript”]
tematy_2 rdd: [„Linux”, „java”]
subtract () Operacja na temat_1 z podmiotami_2: [„bash”, „javascript”]
subtract () Operacja na temat_2 z podmiotami_1: ['java']

Ze wyjścia widać, że w RDD jest 5 elementów.

W pierwszej operacji wykonujemy odejmowanie na tematy_1 z podmiotami_2. Tutaj „Bash” i „JavaScript” są obecne w podmiotach_1, ale nie w podmiotach_2. Więc zostali zwróceni.

W drugiej operacji wykonujemy odejmowanie na tematy_2 z podmiotami_1. Tutaj „Java” jest obecna w podmiotach_2, ale nie w podmiotach_1. Więc jest zwracany.

PYSPARK RDD - DOCINĄT ​​()

odrębny() W RDD służy do zwracania tylko unikalnych wartości z RDD. Jest stosowany tylko na jednym RDD

Potrzebujemy więc jednego RDD, aby wykonać tę operację. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.odrębny()

Gdzie rdd_data1 jest pierwszym RDD.

Przykład 1:

W tym przykładzie utworzymy jeden RDD podmiot_1 z 10 wartościami liczbowymi i zwrócimy unikalne wartości, stosując Operację Dorye.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 10 - Znaki tematyczne
tematy_1 = Spark_App.SparkContext.równoległość ([34,56,54,45,45,56,54,4,3,3])
#Display Subjets_1 rdd
drukuj („tematy_1 rdd:”, tematy_1.zbierać())
#Perform Direct () Operacja powyżej RDD.
print („wyraźny () operacja na temat_1:”, tematy_1.odrębny().zbierać())

Wyjście:

Temats_1 Rdd: [34, 56, 54, 45, 45, 56, 54, 4, 3, 3]
wyraźne () Operacja na temat_1: [34, 56, 54, 4, 45, 3]

Stworzyliśmy RDD z 10 wartościami całkowitymi, które obejmują duplikaty. Po zastosowaniu wyraźnych () do zwrócenia tylko unikalnych wartości.

Przykład 2:

W tym przykładzie utworzymy jeden RDD Temats_1 z 5 wartościami i zwrócimy unikalne wartości, stosując Operację DICTER ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 5 - Tematy
tematy_1 = Spark_App.SparkContext.równoległość („„ java ”,„ java ”,„ python ”,„ javascript ”,„ javascript ”]))
#Display Subjets_1 rdd
drukuj („tematy_1 rdd:”, tematy_1.zbierać())
#Perform Direct () Operacja powyżej RDD.
print („wyraźny () operacja na temat_1:”, tematy_1.odrębny().zbierać())

Wyjście:

tematy_1 rdd: [„java”, „java”, „python”, „javascript”, „javascript”]
DICJALNE () Operacja na temat_1: [„java”, „python”, „javascript”]

Utworzyliśmy RDD z 5 wartościami, które zawierają duplikaty. Następnie zastosowaliśmy wyraźne (), aby zwrócić tylko unikalne wartości. Zwrócone unikalne wartości to - Java, Python i JavaScript.

Wniosek

W tym samouczku PYSPARK RDD omówiliśmy metody subtract () i wyraźne ().odejmij () zgodnie z zastosowaniem na dwóch RDD. Służy do zwrotu elementów obecnych w pierwszym RDD, ale nie obecnym w drugim. RDD.wyraźne () stosuje się na pojedynczym RDD, który służy do zwrotu unikalnych elementów z RDD.