PYSPARK RDD - Działania

PYSPARK RDD - Działania
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie:

Dane mogą być jednym wymiarami (dane liniowe) lub dane dwuwymiarowe (dane z kolumny wierszy).

Działania RDD:

Działanie w RDD to operacja stosowana na RDD w celu zwrócenia jednej wartości. Innymi słowy, możemy powiedzieć, że działanie wynika z dostarczonych danych, wykonując pewną działalność w danym RDD.

Para RDD obsługuje tylko jedną akcję. CountbyKey () to działanie używane w parach RDD.

CountbyKey ()

Jak wiemy, para RDD ma elementy parowatości kluczowej. CountbyKey służy do zwrócenia każdego klucza dostępnego z całkowitym występowaniem jako wartość z RDD.

Można to zrobić za pomocą metody items (), która jest metodą słownika w Pythonie.

Elementy () służy do wyodrębnienia par-wartości kluczowej ze słownika. Słowniki przechowują przedmioty w parie kluczowej wartości. Więc para RDD jest blisko słownika.

Tak więc ta akcja CountByey () wykorzystuje metodę Items ().

Składnia:

Pary_rdd.CountbyKey ().rzeczy()

Gdzie para_rdd to para rdd.

Zwraca liczbę wartości na klucz w formacie - dict_items ([(klucz, wartość),…])

Możemy użyć pętli do zapętlania klawiszy i wartości, aby zwrócić osobno.

Przykład:

W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczowymi parami i zastosowani na nim akcja CountByey (). Wreszcie wyświetlamy faktyczną akcję i używamy pętli.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3) ])
#Apply CountbyKey () Działanie na powyższych tematach_rating para rdd
Dictionary_rdd = podmioty_rating.CountbyKey ().rzeczy()
#wyświetlacz
print („crabeyey () akcja na RDD-sujects_rating:”, Dictionary_rdd)
#Zdejmij liczbę klawiszy i wartości z powyższego słownika RDD
W przypadku klawiszy wartości w Dictionary_rdd:
drukuj (klawisze, „->”, wartości)

Wyjście:

COURTBYKEY () AKCJA NA RDD-SUBECTS_RANDING: DICT_ITEMS ([(„Python”, 2), („JavaScript”, 2), („Linux”, 1), ('c#', 1)])
Python -> 2
JavaScript -> 2
Linux -> 1
C# -> 1

W pary RDD,

  1. Key-Python wystąpił 2 razy, więc wartość jest zwracana 2
  2. Key-javascript miało miejsce 2 razy, więc wartość jest zwracana 2
  3. Klawisz-linux i klucz-c# wystąpiły 1 czas, więc wartość jest zwracana 1

crabeykey () akcja z Keys ()

Jeśli chcesz zwrócić tylko klawisze, auni crainByey () używa metody keys ().

Składnia:

Pary_rdd.CountbyKey ().Klucze()

Gdzie para_rdd to para rdd.

Zwraca liczbę wartości na klucz w formacie - dict_items ([klucz,…])

Możemy użyć pętli do zapętlania klawiszy, aby zwrócić osobno.

Przykład:

W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczów i zastosowaliśmy na nim akcję CountByey (), aby uzyskać tylko klucze. Wreszcie wyświetlamy faktyczną akcję i używamy pętli.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3) ])
#Apply CountbyKey () Działanie na powyższych tematach_rating para rdd, aby zdobyć klucze
Dictionary_rdd = podmioty_rating.CountbyKey ().Klucze()
#wyświetlacz
print („crabeyey () akcja na RDD-sujects_rating:”, Dictionary_rdd)
#Zdejdź klucze z powyższego słownika RDD
dla kluczy w Dictionary_rdd:
Drukuj (klucze)

Wyjście:

COURTBYKEY () AKCJA NA RDD-SUBECTS_RANDING: DICT_KEYS ([„Python”, „JavaScript”, „Linux”, „C#'])
pyton
JavaScript
Linux
C#

Widzimy, że tylko klucz jest zwracany.

crabeykey () akcja z wartościami ()

Jeśli chcesz zwrócić tylko całkowitą wartości na klucz, to fraintykey () akcja używa metody wartości ().

Składnia:

Pary_rdd.CountbyKey ().wartości ()

Gdzie pary_rdd to para rdd.

Zwraca liczbę wartości na klucz w formacie - dict_items ([wartość,…])

Możemy użyć pętli do zapętlania przez wartości, aby zwrócić osobno.

Przykład:

W tym przykładzie utworzyliśmy parę RDD o nazwie tematy_rating z 6 parami kluczowymi parami i zastosowaliśmy akcję CountByey () z wartościami (), aby uzyskać tylko wartości. Wreszcie wyświetlamy faktyczną akcję i używamy pętli.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3) ])
#Apply CountbyKey () Działanie na powyższych tematach_rating pair rdd, aby uzyskać wartości
Dictionary_rdd = podmioty_rating.CountbyKey ().wartości ()
#wyświetlacz
print („crabeyey () akcja na RDD-sujects_rating:”, Dictionary_rdd)
#Zadzwoń wartości z powyższego słownika RDD
Dla wartości w Dictionary_rdd:
Drukuj (wartości)

Wyjście:

COURTBYKEY () AKCJA NA RDD-SUBECTS_REATION: DICT_VALUES ([2, 2, 1, 1])
2
2
1
1

Widzimy, że zwracane są tylko całkowite wartości.

Wniosek

W tym samouczku Pyspark RDD widzieliśmy, jak wykonywać akcję na parach RDD za pomocą akcji CountByey (). Zastosował metodę Items () do zwracania kluczy dostępnych z całkowitym wystąpieniem (wartość). Jeśli potrzebujesz tylko klucza, możesz użyć metody keys () z CountByey () i jeśli potrzebujesz tylko liczby wartości, z CountByey () możesz użyć wartości ().