RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark. Parę RDD przechowuje elementy/wartości w postaci par kluczowych. Będzie przechowywać parę wartości kluczowej w formacie (klucz, wartość).
Musimy zaimportować RDD z Pyspark.Moduł RDD.
W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().
Składnia:
Spark_App.SparkContext.równoległość (dane)Gdzie dane mogą być jednowymiarowymi (danymi liniowymi) lub danymi dwuwymiarowymi (dane z kolumny wierszy).
PYSPARK RDD - setName ()
setName () w PYSPARK RDD służy do ustawienia nazwy RDD. Bierze nazwę jako parametr.
Składnia:
Rdd_data.setName („rdd_name”)Parametr:
„Rdd_name” to nazwa przypisania RDD.
Przykład:
W tym przykładzie tworzymy RDD o nazwie tematy_ratowe i ustawiamy nazwę tego RDD na sub_rate.
#Wportu na moduł PYSPARKWyjście:
[(„Python”, 4), („JavaScript”, 2), („Linux”, 5), („C#”, 4), („javascript”, 4), („Python”, 3)]Widzimy, że RDD jest ustawiony na sub_rate i wyświetla metodę RDD za pomocą metody collect ().
PYSPARK RDD - Nazwa ()
nazwa () w Pyspark RDD służy do zwrócenia nazwy RDD. Nie wymaga żadnych parametrów.
Składnia:
Dane RDD.nazwa()Przykład:
W tym przykładzie tworzymy RDD o nazwie tematy_rating i ustawiamy nazwę tego RDD na sub_rate, a następnie otrzymaj nazwę.
#Wportu na moduł PYSPARKWyjście:
Sub_rateWidzimy, że nazwa RDD jest sub_rate.
Wniosek
W tym artykule widzieliśmy, jak ustawić nazwę RDD za pomocą setName () i jak zwrócić nazwę RDD za pomocą metody nazwy ().