RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD podstawową strukturą danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).
Musimy zaimportować RDD z Pyspark.Moduł RDD.
Tak więc w Pyspark możemy użyć metody równoległości () do utworzenia RDD,.
Składnia:
Spark_App.SparkContext.równoległość (dane)Gdzie,
Dane mogą być jednowymiarowymi (dane liniowe) lub dwuwymiarowe (dane z kolumny Row)).
Transformacje RDD:
RDD transformacji to operacja stosowana do pary RDD w celu tworzenia nowych danych z istniejącej pary RDD. Korzystając z transformacji, jesteśmy w stanie odfiltrować parę RDD, stosując niektóre transformacje.
Zobaczmy transformacje wykonywane na danej parie RDD.
Omówimy je jeden po drugim.
GroupByey
GroupBykey służy do przeprowadzenia transformacji w parach RDD poprzez grupowanie wartości na podstawie klucza. Umieści wszystkie zgrupowane wartości na liście, a następnie klucz.
Składnia:
parardd_data.GroupByey ()Użyjemy pętli do iteracji klawiszy i wartości i umieszczamy wartości wewnątrz listy za pomocą funkcji List ().
Przykład:
W tym przykładzie stworzyliśmy parę RDD - Temats_rating i przeprowadziliśmy transformację GroupByey () na wartości grupowe w odniesieniu do klucza. Więc użyliśmy pętli do iteracji klawiszy i wartości, a na koniec wyświetliśmy każdą grupę klucza i wartości.
#Wportu na moduł PYSPARKWyjście:
Python -> [4, 3]W powyższej parze Para RDD istnieją dwie wartości powiązane z kluczem-Python i Key-JavaScript oraz tylko jedna wartość powiązana z Linux i C#.
Sportbike
SortByKey służy do przeprowadzenia transformacji na pary RDD, zwracając nową parę RDD w kolejności rosnącej na podstawie klucza. Tak więc ta transformacja sortuje elementy w parach RDD według klucza.
Składnia:
parardd_data.sortbyKey ()Przykład:
W tym przykładzie utworzyliśmy parę RDD - Temess_rating i przeprowadziliśmy transformację sortbyKey (), aby zwrócić sortowane wartości na podstawie akcji Key i Applied Collect (), aby uzyskać posortowaną parę RDD.
#Wportu na moduł PYSPARKWyjście:
[(„C#”, 4), („JavaScript”, 2), („JavaScript”, 4), („Linux”, 5), („Python”, 4), („Python”, 3)]Widzimy, że nowa sortowana para RDD jest zwracana przez sortowanie na podstawie klucza w rzeczywistej pary RDD - Temats_rating.
ReducingBykey
RUDELYKEKEY służy do przeprowadzenia transformacji na parze RDD poprzez przetwarzanie danych równoległych w celu połączenia wartości z podobnymi klawiszami. Wykorzystał niektóre funkcje, takie jak Lambda () do połączenia wartości na podstawie klucza poprzez wykonanie pewnej operacji w funkcji.
Składnia:
parardd_data.RUINDBYKEY (funkcja Lambda)Funkcja Lambda:
Lambda Element1, Element2: OperacjaPrzykład:
W tym przykładzie stworzyliśmy parę RDD - Temats_rating i przeprowadziliśmy transformację RuliveBykey (), aby wykonać
Na koniec możemy użyć akcji zbiorowej () do wyświetlania każdej przekształconej pary RDD.
#Wportu na moduł PYSPARKWyjście:
[(„Python”, 7), („JavaScript”, 6), („Linux”, 5), („C#”, 4)]Dla klawisz-linux i c#: Jest tylko jedna wartość dla każdego, więc wszystkie wynikowe operacje są takie same i.mi.
Wniosek
Z tego artykułu RDD widzieliśmy, co to jest transformacja i jak zastosować transformacje pary RDD. Istnieją trzy transformacje, które omówiliśmy: GroupByey () służy do łączenia wszystkich wartości na podstawie klucza, SortByKey () zwraca nową parę RDD, sortowanie pary RDD na podstawie kluczy w kolejności rosnącej i redukowania () będzie łączyć wartości z względem Klucz poprzez wykonanie operacji za pomocą funkcji anonimowych, takich jak funkcja Lambda.