PYSPARK RDD - Działania

PYSPARK RDD - Działania
W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.

RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark.

Musimy zaimportować RDD z Pyspark.Moduł RDD.

W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().

Składnia:

Spark_App.SparkContext.równoległość (dane)

Gdzie:

Dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).

Działania RDD:

Działanie w RDD to operacja stosowana na RDD w celu zwrócenia jednej wartości. Innymi słowy, możemy powiedzieć, że działanie wynika z dostarczonych danych, wykonując pewną działalność w danym RDD.

Zobaczmy działania, które są wykonywane na podanym RDD.

Omówimy to jeden po drugim.

W przypadku wszystkich działań rozważaliśmy uczniów RDD, jak pokazano poniżej:

[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]

zbierać()


Zbieranie () Działanie w RDD służy do zwracania danych z podanego RDD.

Składnia:

Rdd_data.zbierać()

Gdzie dane RDD to RDD

Przykład:

W tym przykładzie zobaczymy, jak wykonać akcję kolekcjonowania () na studentach RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform działanie zbiorów
Drukuj (uczniowie.zbierać())

Wyjście:

[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]

Możesz zauważyć, że wszystkie dane są zwracane za pomocą metody Collect ().

2. liczyć()

Count () Działanie w RDD służy do zwrócenia całkowitej liczby elementów/wartości z podanego RDD.

Składnia:

Rdd_data.liczyć()

Gdzie dane RDD to RDD

Przykład:

W tym przykładzie zobaczymy, jak wykonać akcję Count () na uczniach RDD:

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform Count Action
Drukuj (uczniowie.liczyć())

Wyjście:

5

Możesz zauważyć, że całkowita liczba elementów jest zwracana za pomocą metody Count ().

3. Pierwszy()

First () Działanie w RDD służy do zwrócenia pierwszego elementu/wartości z podanego RDD.

Składnia:

Rdd_data.Pierwszy()

Gdzie dane RDD to RDD

Przykład:

W tym przykładzie zobaczymy, jak wykonać pierwsze () akcję na studentach RDD.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Apply First () Działanie
Drukuj (uczniowie.Pierwszy())

Wyjście:

„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”

Możesz zauważyć, że pierwszy element jest zwracany za pomocą metody pierwszej ().

4. Brać()

Take () Działanie w RDD służy do zwrócenia wartości N z góry podanego RDD. Wymaga jednego parametru - n. Gdzie odnosi się do liczby całkowitej, która określa liczbę elementów do powrotu z RDD.

Składnia:

Rdd_data.zajęty)

Parametr:

n- odnosi się do liczby całkowitej, która określa liczbę elementów do powrotu z RDD.

Przykład:

W tym przykładzie zobaczymy, jak wykonać akcję podejmowania () w RDD uczniów, zwracając tylko 2 wartości.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform podejmij działania, aby zwrócić tylko 2 najlepsze wiersze
Drukuj (uczniowie.Weź (2))
Wyjście:
[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „hyd”]

Możesz zauważyć, że pierwsze 2 elementy są zwracane za pomocą metody Take ().

5. saveAStextFile ()

Akcja SaveAStextFile () służy do przechowywania danych RDD w pliku tekstowym. Zakłada nazwę pliku jako parametr tak, że plik jest zapisywany za pomocą określonej nazwy pliku.

Składnia:

Rdd_data.SAVEASTEXTFILE („FILE_NAME.tekst')

Parametr:

FILE_NAME - Plik jest zapisywany z określoną nazwą pliku.

Przykład:

W tym przykładzie zobaczymy, jak wykonać akcję SaveAStextFile () na studentach RDD, przechowując plik.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform saveAStextFile () akcja w celu zapisania RDD w pliku tekstowym.
studenci.SaveAStextFile („Students_file.tekst')

Wyjście:

Możesz zobaczyć, że studenci_file zaczyna pobierać.

Wniosek

W tym samouczku Pyspark widzisz, czym jest RDD i jak wykonywać różne działania dostępne w RDD. Działania, które są wykonywane na RDD, to: Count () w celu zwrócenia całkowitej liczby elementów w RDD, COCTION (), aby zwrócić wartości obecne w RDD, Fert () i Take (), aby zwrócić pierwszą wartość i saveastextFile () akcja () akcja Aby zapisać RDD w pliku tekstowym.