W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Zapewnia kilka metod zwrotu górnych wierszy z PYSPARK DATAFRAME.
Pandy to moduł używany do analizy danych. Obsługuje trzy struktury danych - serie, danych danych i panel. Możemy przekonwertować PYSpark DataFrame na Pandas DataFrame, gdy otrzymamy PYSPARK DATEFRAME.
Najpierw stwórzmy Pyspark DataFrame.
Przykład:
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()
Wyjście:
Topandas () to metoda, która przekonwertuje PYSPARK DATAFRAME na Pandas DataFrame.
Składnia:
ramka danych.topandas ()
gdzie DataFrame jest wejściem PYSPARK DataFrame.
Przykład:
W tym przykładzie przekształcamy powyżej PYSPARK DATAFRAME na Pandas DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Przekonaj się do pandas DataFrame
Wydrukuj (DF.topandas ())
Wyjście:
Możemy iterować ramkę danych za pośrednictwem iTerrows (), przekształcając Pyspark na pandy.
iTerrows ()
Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame poprzez konwersję na Pandas DataFrame, może być używana z pętlą i przyjmuje nazwy kolumn przez iterator wierszy i indeksować do kolumn iterate. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami.
Składnia:
W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)
Gdzie:
- DataFrame to wejście PYSPARK DATAFRAME.
- index_value to pozycja indeksu kolumny w Pyspark DataFrame.
- Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.
Przykład 1:
W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#terate adres i wysokość kolumny
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [1])
Wyjście:
Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37
Przykład 2:
W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Kolumny adresu i nazwy
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [3])
Wyjście:
Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi
Wniosek
W tym samouczku omówiliśmy konwersję PYSPARK DataFrame na Pandy DataFrame za pomocą metody topandas () i iterowaliśmy pandaS DataFrame przy użyciu metody iterrows ().