PYSPARK RDD - Nazwa i setName

PYSPARK RDD - Nazwa i setName
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie dane mogą być jednowymiarowymi (danymi liniowymi) lub danymi dwuwymiarowymi (dane z kolumny wierszy).

PYSPARK RDD - setName ()

setName () w PYSPARK RDD służy do ustawienia nazwy RDD. Bierze nazwę jako parametr.

Składnia:

Rdd_data.setName („rdd_name”)

Parametr:

„Rdd_name” to nazwa przypisania RDD.

Przykład:

W tym przykładzie tworzymy RDD o nazwie tematy_ratowe i ustawiamy nazwę tego RDD na sub_rate.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3) ])
#set nazwa RDD do sub_rate
wynik = podmioty_rating.setName („sub_rate”)
#Display the Rdd
Drukuj (wynik.zbierać())

Wyjście:

[(„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3)]

Widzimy, że RDD jest ustawiony na sub_rate i wyświetla metodę RDD za pomocą metody collect ().

PYSPARK RDD - Nazwa ()

nazwa () w Pyspark RDD służy do zwrócenia nazwy RDD. Nie wymaga żadnych parametrów.

Składnia:

Dane RDD.nazwa()

Przykład:

W tym przykładzie tworzymy RDD o nazwie tematy_rating i ustawiamy nazwę tego RDD na sub_rate, a następnie otrzymaj nazwę.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz 6 - Pary tematyczne i oceny
tematy_rating = Spark_App.SparkContext.równoległość ((„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3) ])
#set nazwa RDD do sub_rate
wynik = podmioty_rating.setName („sub_rate”)
#zwróć nazwę RDD
Drukuj (wynik.nazwa())

Wyjście:

Sub_rate

Widzimy, że nazwa RDD jest sub_rate.

Wniosek

W tym artykule widzieliśmy, jak ustawić nazwę RDD za pomocą setName () i jak zwrócić nazwę RDD za pomocą metody nazwy ().