PYSPARK - MAP_KEYS i MAP_VALUES

PYSPARK - MAP_KEYS i MAP_VALUES
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

Zobaczymy, jak utworzyć map () i jak uzyskać wszystkie klucze i wartości za pomocą map_keys () i map_values ​​().

map () można utworzyć za pomocą funkcji sql () za pomocą Query SELECT.

Składnia:

Spark_App.SQL („Wybierz mapę (klucz, wartość,…) jako nazwa mapy”)

Tutaj,

  1. Spark_App jest na zewnątrz aplikacji łączącej iskrę
  2. map () przyjmuje kolejność pary kluczowej oddzielona przecinkiem.
  3. Map_name to alias dla utworzonej mapy.

Najpierw utworzymy mapę, która ma 6 par kluczowych i wyświetlimy je za pomocą metody collect ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#import map_keys () z Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importuj map_keys
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - pary tematyczne i oceny na mapie
my_data = Spark_App.SQL („Wybierz mapę (1,„ Python ”, 2,„ Java ”, 3,„ JavaScript ”, 4,„ Python ”, 5,„ Linux ”, 6,„ Linux ”) jako podmioty_rating”)
#Display mapa
moje dane.Wybierz („tematy_ring”).zbierać()

Wyjście:

[Row (tematy_rating = 1: „Python”, 2: „Java”, 3: „JavaScript”, 4: „Python”, 5: „Linux”, 6: „Linux”)]

Tutaj klucze to - 1,2,3,4,5,6, a wartości to - „Python”, „java”, „javascript”, „Python”, „Linux”, „Linux”, „Linux”.

Notatka - Klucze nie mogą być zduplikowane, ale wartości można powielić.

PYSPARK - map_keys ()

map_keys () zwróci wszystkie klucze z mapy z rzędu. To wymaga nazwy mapy jako parametru.

Składnia:

map_keys („map_name”)

Parametr:

Map_name to nazwa mapy

Przykład:

W tym przykładzie zwrócimy klucze mapy dla utworzonej powyższej mapy.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#import map_keys () z Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importuj map_keys
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - pary tematyczne i oceny na mapie
my_data = Spark_App.SQL („Wybierz mapę (1,„ Python ”, 2,„ Java ”, 3,„ JavaScript ”, 4,„ Python ”, 5,„ Linux ”, 6,„ Linux ”) jako podmioty_rating”)
#Zadzwoń klawisze mapy podsumowania mapy
moje dane.Wybierz (map_keys („tematy_ring”))).zbierać()

Wyjście:

[Wiersz (map_keys (podmiot_rating) = [1, 2, 3, 4, 5, 6])]

Widzimy, że zwrócono tylko map_keys.

PYSPARK - MAP_VALUES ()

map_values ​​() zwróci wszystkie wartości z mapy z rzędu. To wymaga nazwy mapy jako parametru.

Składnia:

Map_values ​​(„Map_name”)

Parametr:

Map_name to nazwa mapy

Przykład:

W tym przykładzie zwrócimy wartości mapy dla utworzonej powyższej mapy.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#import map_keys () z Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importuj map_keys
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - pary tematyczne i oceny na mapie
my_data = Spark_App.SQL („Wybierz mapę (1,„ Python ”, 2,„ Java ”, 3,„ JavaScript ”, 4,„ Python ”, 5,„ Linux ”, 6,„ Linux ”) jako podmioty_rating”)
#Zadzwoń wartości mapy podsumowania mapy_ratowania
moje dane.Wybierz (map_values ​​(„tematy_ring”))).zbierać()

Wyjście:

[Row (map_values ​​(tematy_rating) = ['Python', „java”, „javascript”, „python”, „Linux”, „Linux”])]]

Widzimy, że zwrócono tylko MAP_Values.

Wniosek

W tym Pyspark omówiliśmy, jak utworzyć MAP () i jak uzyskać dostęp do klawiszy i wartości MAP za pomocą funkcji map_keys () i map_values ​​(). Na mapie mogą istnieć te same wartości dla wszystkich kluczy, ale klucz musi być pojedynczy.