PYSPARK RDD - Funkcje agregacyjne

PYSPARK RDD - Funkcje agregacyjne
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark.

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie:

Dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).

W tym samouczku Pyspark RDD zobaczymy, jak wykonywać różne funkcje agregacji na Pyspark RDD.

1. suma()

sum () służy do zwrócenia całkowitej wartości (sum) w RDD. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.suma()

Przykład:

W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy sumę całkowitych elementów z RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane uczniów z 20 elementami
student_marks = Spark_App.SparkContext.równoległe ([89,76,78,89,90 100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform sum () Operacja
Drukuj (Student_marks.suma())

Wyjście:

1112

Z powyższego wyjścia widać, że całkowita suma elementów w RDD wynosi 1112.

2. min ()

Min () służy do zwrócenia minimalnej wartości z RDD. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.min ()

Przykład:

W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy minimalną wartość z RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane uczniów z 20 elementami
student_marks = Spark_App.SparkContext.równoległe ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78 78,
21,34,34,56,34])
#Perform Min () Operacja
Drukuj (Student_marks.min ())

Wyjście:

21

Z powyższego wyjścia widać, że minimalna wartość w RDD wynosi 21.

3. Max ()

Max () służy do zwrócenia maksymalnej wartości z RDD. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.Max ()

Przykład:

W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy maksymalną wartość z RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane uczniów z 20 elementami
student_marks = Spark_App.SparkContext.równoległe ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78 78,
21,34,34,56,34])
#Perform Max () Operacja
Drukuj (Student_marks.max ())

Wyjście

100

Z powyższego wyjścia widać, że maksymalna wartość w RDD wynosi 100.

mieć na myśli()

Mean () służy do zwrócenia średniej (średniej) wartości w RDD. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.mieć na myśli()

Przykład:

W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy średnią elementów z RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane uczniów z 20 elementami
student_marks = Spark_App.SparkContext.równoległe ([89,76,78,89,90 100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Mean () Operacja
Drukuj (Student_marks.mieć na myśli())

Wyjście

55.6

Z powyższego wyjścia widać, że średnia wartość w RDD wynosi 55.6.

liczyć()

Count () służy do zwrócenia całkowitych wartości obecnych w RDD. Nie wymaga żadnych parametrów.

Składnia:

Rdd_data.liczyć()

Przykład:

W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy liczbę elementów w RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane uczniów z 20 elementami
student_marks = Spark_App.SparkContext.równoległe ([89,76,78,89,90 100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Count () Operacja
Drukuj (Student_marks.liczyć())

Wyjście

20

Z powyższego wyjścia widać, że całkowita liczba wartości w RDD wynosi 20.

Wniosek

W tym samouczku Pyspark widzieliśmy pięć różnych operacji agregacyjnych wykonanych na RDD. sum () służy do zwrócenia całkowitej wartości w RDD. Mean () służy do zwrócenia całkowitej średniej z RDD. min () i max () są używane do zwracania wartości minimalnych i maksymalnych. Jeśli chcesz zwrócić całkowitą liczbę elementów obecnych w RDD, możesz użyć funkcji Count ().