PYSPARK RDD - Wyszukaj, kolekcjoner

PYSPARK RDD - Wyszukaj, kolekcjoner
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).

PYSPARK RDD - Lookup ()

Lookup () to działanie w parze RDD, które służy do zwrócenia wszystkich wartości powiązanych z kluczem na liście. Jest wykonywany na pojedynczej pary RDD. Wymaga klucza jako parametr.

Składnia:

Rdd_data.wyszukiwanie (klucz)

Parametr:

Klucz odnosi się do klucza obecnego w pary RDD.

Przykład:

W tym przykładzie wyszukamy klawisze- Python, JavaScript i Linux.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4),
(„JavaScript”, 4), („Python”, 3)])
#FATUAL PARY RDD
Drukuj („para rdd:”, tematy_ratowania.zbierać())
#Znajdź wyszukanie dla Key-Python
Drukuj („Wyszukaj Python:”, Temats_rating.Lookup („Python”))
#Wyszukaj klawisz-javascript
Drukuj („Wyszukaj dla JavaScript:”, Temats_rating.Lookup („JavaScript”))
#Wyszukaj dla klawisza
Drukuj („Wyszukaj dla Linux:”, tematy_ratowe.Lookup („Linux”))

Wyjście:

para rdd: [(„Python”, 4), („javascript”, 2), („Linux”, 5), („c#”, 4), („javascript”, 4), („Python”, 3, 3 )]
Wyszukaj Pythona: [4, 3]
Wyszukaj JavaScript: [2, 4]
wyszukiwanie dla Linux: [5]

Z powyższego wyjścia widzimy, że istnieją 2 wartości, które istnieją w przypadku Key-Python, więc zwróciło 4 i 3. Istnieją 2 wartości, które istnieją w przypadku Key-javascript, więc zwróciło 2 i 4. Istnieje tylko 1 wartość, która istnieje z klawiszem, więc zwróciła 1.

PYSPARK RDD - COCTIONAMAP ()

collectasmap () to działanie w parze RDD, które służy do zwrócenia wszystkich wartości w postaci pary mapy (klucz: wartość). Służy do zapewnienia wyszukiwania. Nie wymaga parametru.

Składnia:

Rdd_data.coletasmap ()

Przykład:

W tym przykładzie otrzymamy wartości z RDD przy użyciu collectasmap ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ([(„Linux”, 5), („c#”, 4),
(„JavaScript”, 4), („Python”, 53)])
#Apply coletasmap (), aby zwrócić RDD
Drukuj (podmioty_rating.collectasmap ())

Wyjście:

„Linux”: 5, „C#”: 4, „JavaScript”: 4, „Python”: 53

Widzimy, że RDD jest zwracany w postaci pary klucza:.

Zauważ, że jeśli istnieje wiele klawiszy o różnych wartościach, wówczas kolekcjonowaniemap () zbierze się, zwracając zaktualizowaną wartość w odniesieniu do klucza.

Przykład:

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ([(„Linux”, 5), („c#”, 4), („javascript”, 4),
(„Python”, 53), („Linux”, 45), („C#”, 44),])
#Apply coletasmap (), aby zwrócić RDD
Drukuj (podmioty_rating.collectasmap ())

Wyjście:

„Linux”: 45, „C#”: 44, „JavaScript”: 4, „Python”: 53

Widzimy, że klucze Linux i C# wystąpiły dwa razy. Po raz drugi wartości to 45 i 44. Stąd kolekcjonowanie () powraca z nowymi wartościami.

Wniosek

W tym samouczku PYSPARK RDD widzieliśmy, jak zastosować działania Lookup () i Collectasmap () na parach RDD. LookUp () służy do zwrócenia wartości powiązanych z kluczem na liście, biorąc klucz jako parametr i clectasmap () Zwraca RDD w formie mapy.