RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).
Musimy zaimportować RDD z Pyspark.Moduł RDD.
W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().
Składnia:
Spark_App.SparkContext.równoległość (dane)Gdzie:
Dane mogą być jednym wymiarami (dane liniowe) lub dane dwuwymiarowe (dane z kolumny wierszy).
Działania RDD:
Działanie w RDD to operacja stosowana na RDD w celu zwrócenia jednej wartości. Innymi słowy, możemy powiedzieć, że działanie wynika z dostarczonych danych, wykonując pewną działalność w danym RDD.
Para RDD obsługuje tylko jedną akcję. CountbyKey () to działanie używane w parach RDD.
CountbyKey ()
Jak wiemy, para RDD ma elementy parowatości kluczowej. CountbyKey służy do zwrócenia każdego klucza dostępnego z całkowitym występowaniem jako wartość z RDD.
Można to zrobić za pomocą metody items (), która jest metodą słownika w Pythonie.
Elementy () służy do wyodrębnienia par-wartości kluczowej ze słownika. Słowniki przechowują przedmioty w parie kluczowej wartości. Więc para RDD jest blisko słownika.
Tak więc ta akcja CountByey () wykorzystuje metodę Items ().
Składnia:
Pary_rdd.CountbyKey ().rzeczy()Gdzie para_rdd to para rdd.
Zwraca liczbę wartości na klucz w formacie - dict_items ([(klucz, wartość),…])
Możemy użyć pętli do zapętlania klawiszy i wartości, aby zwrócić osobno.
Przykład:
W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczowymi parami i zastosowani na nim akcja CountByey (). Wreszcie wyświetlamy faktyczną akcję i używamy pętli.
#Wportu na moduł PYSPARKWyjście:
COURTBYKEY () AKCJA NA RDD-SUBECTS_RANDING: DICT_ITEMS ([(„Python”, 2), („JavaScript”, 2), („Linux”, 1), ('c#', 1)])W pary RDD,
crabeykey () akcja z Keys ()
Jeśli chcesz zwrócić tylko klawisze, auni crainByey () używa metody keys ().
Składnia:
Pary_rdd.CountbyKey ().Klucze()Gdzie para_rdd to para rdd.
Zwraca liczbę wartości na klucz w formacie - dict_items ([klucz,…])
Możemy użyć pętli do zapętlania klawiszy, aby zwrócić osobno.
Przykład:
W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczów i zastosowaliśmy na nim akcję CountByey (), aby uzyskać tylko klucze. Wreszcie wyświetlamy faktyczną akcję i używamy pętli.
#Wportu na moduł PYSPARKWyjście:
COURTBYKEY () AKCJA NA RDD-SUBECTS_RANDING: DICT_KEYS ([„Python”, „JavaScript”, „Linux”, „C#'])Widzimy, że tylko klucz jest zwracany.
crabeykey () akcja z wartościami ()
Jeśli chcesz zwrócić tylko całkowitą wartości na klucz, to fraintykey () akcja używa metody wartości ().
Składnia:
Pary_rdd.CountbyKey ().wartości ()Gdzie pary_rdd to para rdd.
Zwraca liczbę wartości na klucz w formacie - dict_items ([wartość,…])
Możemy użyć pętli do zapętlania przez wartości, aby zwrócić osobno.
Przykład:
W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczowymi parami i zastosowaliśmy akcję CountByey () z wartościami (), aby uzyskać tylko wartości. Wreszcie wyświetlamy faktyczną akcję i używamy pętli.
#Wportu na moduł PYSPARKWyjście:
COURTBYKEY () AKCJA NA RDD-SUBECTS_REATION: DICT_VALUES ([2, 2, 1, 1])Widzimy, że zwracane są tylko całkowite wartości.
Wniosek
W tym samouczku Pyspark RDD widzieliśmy, jak wykonywać akcję na parach RDD za pomocą akcji CountByey (). Zastosował metodę Items () do zwracania kluczy dostępnych z całkowitym wystąpieniem (wartość). Jeśli potrzebujesz tylko klucza, możesz użyć metody keys () z CountByey () i jeśli potrzebujesz tylko liczby wartości, z CountByey () możesz użyć wartości ().