RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark.
Musimy zaimportować RDD z Pyspark.Moduł RDD.
W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().
Składnia:
Spark_App.SparkContext.równoległość (dane)Gdzie:
Dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).
W tym samouczku Pyspark RDD zobaczymy, jak wykonywać różne funkcje agregacji na Pyspark RDD.
1. suma()
sum () służy do zwrócenia całkowitej wartości (sum) w RDD. Nie wymaga żadnych parametrów.
Składnia:
Rdd_data.suma()Przykład:
W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy sumę całkowitych elementów z RDD.
#Wportu na moduł PYSPARKWyjście:
1112Z powyższego wyjścia widać, że całkowita suma elementów w RDD wynosi 1112.
2. min ()
Min () służy do zwrócenia minimalnej wartości z RDD. Nie wymaga żadnych parametrów.
Składnia:
Rdd_data.min ()Przykład:
W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy minimalną wartość z RDD.
#Wportu na moduł PYSPARKWyjście:
21Z powyższego wyjścia widać, że minimalna wartość w RDD wynosi 21.
3. Max ()
Max () służy do zwrócenia maksymalnej wartości z RDD. Nie wymaga żadnych parametrów.
Składnia:
Rdd_data.Max ()Przykład:
W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy maksymalną wartość z RDD.
#Wportu na moduł PYSPARKWyjście
100Z powyższego wyjścia widać, że maksymalna wartość w RDD wynosi 100.
mieć na myśli()
Mean () służy do zwrócenia średniej (średniej) wartości w RDD. Nie wymaga żadnych parametrów.
Składnia:
Rdd_data.mieć na myśli()Przykład:
W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy średnią elementów z RDD.
#Wportu na moduł PYSPARKWyjście
55.6Z powyższego wyjścia widać, że średnia wartość w RDD wynosi 55.6.
liczyć()
Count () służy do zwrócenia całkowitych wartości obecnych w RDD. Nie wymaga żadnych parametrów.
Składnia:
Rdd_data.liczyć()Przykład:
W tym przykładzie tworzymy RDD o nazwie Student_marks z 20 elementami i zwracamy liczbę elementów w RDD.
#Wportu na moduł PYSPARKWyjście
20Z powyższego wyjścia widać, że całkowita liczba wartości w RDD wynosi 20.
Wniosek
W tym samouczku Pyspark widzieliśmy pięć różnych operacji agregacyjnych wykonanych na RDD. sum () służy do zwrócenia całkowitej wartości w RDD. Mean () służy do zwrócenia całkowitej średniej z RDD. min () i max () są używane do zwracania wartości minimalnych i maksymalnych. Jeśli chcesz zwrócić całkowitą liczbę elementów obecnych w RDD, możesz użyć funkcji Count ().