RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).
Musimy zaimportować RDD z Pyspark.Moduł RDD.
W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().
Składnia:
Spark_App.SparkContext.równoległość (dane)Gdzie dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).
PYSPARK RDD - Lookup ()
Lookup () to działanie w parze RDD, które służy do zwrócenia wszystkich wartości powiązanych z kluczem na liście. Jest wykonywany na pojedynczej pary RDD. Wymaga klucza jako parametr.
Składnia:
Rdd_data.wyszukiwanie (klucz)Parametr:
Klucz odnosi się do klucza obecnego w pary RDD.
Przykład:
W tym przykładzie wyszukamy klawisze- Python, JavaScript i Linux.
#Wportu na moduł PYSPARKWyjście:
para rdd: [(„Python”, 4), („javascript”, 2), („Linux”, 5), („c#”, 4), („javascript”, 4), („Python”, 3, 3 )]Z powyższego wyjścia widzimy, że istnieją 2 wartości, które istnieją w przypadku Key-Python, więc zwróciło 4 i 3. Istnieją 2 wartości, które istnieją w przypadku Key-javascript, więc zwróciło 2 i 4. Istnieje tylko 1 wartość, która istnieje z klawiszem, więc zwróciła 1.
PYSPARK RDD - COCTIONAMAP ()
collectasmap () to działanie w parze RDD, które służy do zwrócenia wszystkich wartości w postaci pary mapy (klucz: wartość). Służy do zapewnienia wyszukiwania. Nie wymaga parametru.
Składnia:
Rdd_data.coletasmap ()Przykład:
W tym przykładzie otrzymamy wartości z RDD przy użyciu collectasmap ().
#Wportu na moduł PYSPARKWyjście:
„Linux”: 5, „C#”: 4, „JavaScript”: 4, „Python”: 53Widzimy, że RDD jest zwracany w postaci pary klucza:.
Zauważ, że jeśli istnieje wiele klawiszy o różnych wartościach, wówczas kolekcjonowaniemap () zbierze się, zwracając zaktualizowaną wartość w odniesieniu do klucza.
Przykład:
#Wportu na moduł PYSPARKWyjście:
„Linux”: 45, „C#”: 44, „JavaScript”: 4, „Python”: 53Widzimy, że klucze Linux i C# wystąpiły dwa razy. Po raz drugi wartości to 45 i 44. Stąd kolekcjonowanie () powraca z nowymi wartościami.
Wniosek
W tym samouczku PYSPARK RDD widzieliśmy, jak zastosować działania Lookup () i Collectasmap () na parach RDD. LookUp () służy do zwrócenia wartości powiązanych z kluczem na liście, biorąc klucz jako parametr i clectasmap () Zwraca RDD w formie mapy.