W Pythonie PySpark jest modułem iskry używanym do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark.
RDD oznacza odporne rozproszone zestawy danych. Możemy nazwać RDD jako podstawową strukturę danych w Apache Spark.
Musimy zaimportować RDD z Pyspark.Moduł RDD.
W PYSPARK, aby utworzyć RDD, możemy użyć metody równoległości ().
Składnia:
Spark_App.SparkContext.równoległość (dane)
Gdzie:
Dane mogą być jednym wymiarami (dane liniowe) lub danych dwuwymiarowych (dane z kolumny wierszy).
Działania RDD:
Działanie w RDD to operacja stosowana na RDD w celu zwrócenia jednej wartości. Innymi słowy, możemy powiedzieć, że działanie wynika z dostarczonych danych, wykonując pewną działalność w danym RDD.
Zobaczmy działania, które są wykonywane na podanym RDD.
Omówimy to jeden po drugim.
W przypadku wszystkich działań rozważaliśmy uczniów RDD, jak pokazano poniżej:
[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
zbierać()
Zbieranie () Działanie w RDD służy do zwracania danych z podanego RDD.
Składnia:
Rdd_data.zbierać()
Gdzie dane RDD to RDD
Przykład:
W tym przykładzie zobaczymy, jak wykonać akcję kolekcjonowania () na studentach RDD.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform działanie zbiorów
Drukuj (uczniowie.zbierać())
Wyjście:
[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
Możesz zauważyć, że wszystkie dane są zwracane za pomocą metody Collect ().
2. liczyć()
Count () Działanie w RDD służy do zwrócenia całkowitej liczby elementów/wartości z podanego RDD.
Składnia:
Rdd_data.liczyć()
Gdzie dane RDD to RDD
Przykład:
W tym przykładzie zobaczymy, jak wykonać akcję Count () na uczniach RDD:
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform Count Action
Drukuj (uczniowie.liczyć())
Wyjście:
5
Możesz zauważyć, że całkowita liczba elementów jest zwracana za pomocą metody Count ().
3. Pierwszy()
First () Działanie w RDD służy do zwrócenia pierwszego elementu/wartości z podanego RDD.
Składnia:
Rdd_data.Pierwszy()
Gdzie dane RDD to RDD
Przykład:
W tym przykładzie zobaczymy, jak wykonać pierwsze () akcję na studentach RDD.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Apply First () Działanie
Drukuj (uczniowie.Pierwszy())
Wyjście:
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”
Możesz zauważyć, że pierwszy element jest zwracany za pomocą metody pierwszej ().
4. Brać()
Take () Działanie w RDD służy do zwrócenia wartości N z góry podanego RDD. Wymaga jednego parametru - n. Gdzie odnosi się do liczby całkowitej, która określa liczbę elementów do powrotu z RDD.
Składnia:
Rdd_data.zajęty)
Parametr:
n- odnosi się do liczby całkowitej, która określa liczbę elementów do powrotu z RDD.
Przykład:
W tym przykładzie zobaczymy, jak wykonać akcję podejmowania () w RDD uczniów, zwracając tylko 2 wartości.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform podejmij działania, aby zwrócić tylko 2 najlepsze wiersze
Drukuj (uczniowie.Weź (2))
Wyjście:[„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „hyd”]
Możesz zauważyć, że pierwsze 2 elementy są zwracane za pomocą metody Take ().
5. saveAStextFile ()
Akcja SaveAStextFile () służy do przechowywania danych RDD w pliku tekstowym. Zakłada nazwę pliku jako parametr tak, że plik jest zapisywany za pomocą określonej nazwy pliku.
Składnia:
Rdd_data.SAVEASTEXTFILE („FILE_NAME.tekst')
Parametr:
FILE_NAME - Plik jest zapisywany z określoną nazwą pliku.
Przykład:
W tym przykładzie zobaczymy, jak wykonać akcję SaveAStextFile () na studentach RDD, przechowując plik.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Importuj RDD z Pyspark.RDD
od Pyspark.RDD Import RDD
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = Spark_App.SparkContext.równoległość ([„Rollno”: „001”, „nazwa”: „sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „hyd”])
#Perform saveAStextFile () akcja w celu zapisania RDD w pliku tekstowym.
studenci.SaveAStextFile („Students_file.tekst')
Wyjście:
Możesz zobaczyć, że studenci_file zaczyna pobierać.
Wniosek
W tym samouczku Pyspark widzisz, czym jest RDD i jak wykonywać różne działania dostępne w RDD. Działania, które są wykonywane na RDD, to: Count () w celu zwrócenia całkowitej liczby elementów w RDD, COCTION (), aby zwrócić wartości obecne w RDD, Fert () i Take (), aby zwrócić pierwszą wartość i saveastextFile () akcja () akcja Aby zapisać RDD w pliku tekstowym.