Konwertuj PYSPARK DATAFRAME na Pandy DataFrame

Konwertuj PYSPARK DATAFRAME na Pandy DataFrame

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Zapewnia kilka metod zwrotu górnych wierszy z PYSPARK DATAFRAME.

Pandy to moduł używany do analizy danych. Obsługuje trzy struktury danych - serie, danych danych i panel. Możemy przekonwertować PYSpark DataFrame na Pandas DataFrame, gdy otrzymamy PYSPARK DATEFRAME.

Najpierw stwórzmy Pyspark DataFrame.

Przykład:

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()

Wyjście:

Topandas () to metoda, która przekonwertuje PYSPARK DATAFRAME na Pandas DataFrame.

Składnia:

ramka danych.topandas ()

gdzie DataFrame jest wejściem PYSPARK DataFrame.

Przykład:

W tym przykładzie przekształcamy powyżej PYSPARK DATAFRAME na Pandas DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Przekonaj się do pandas DataFrame
Wydrukuj (DF.topandas ())

Wyjście:

Możemy iterować ramkę danych za pośrednictwem iTerrows (), przekształcając Pyspark na pandy.

iTerrows ()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame poprzez konwersję na Pandas DataFrame, może być używana z pętlą i przyjmuje nazwy kolumn przez iterator wierszy i indeksować do kolumn iterate. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami.

Składnia:

W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)

Gdzie:

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. index_value to pozycja indeksu kolumny w Pyspark DataFrame.
  3. Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#terate adres i wysokość kolumny
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [1])

Wyjście:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Przykład 2:

W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Kolumny adresu i nazwy
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [3])

Wyjście:

Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi

Wniosek

W tym samouczku omówiliśmy konwersję PYSPARK DataFrame na Pandy DataFrame za pomocą metody topandas () i iterowaliśmy pandaS DataFrame przy użyciu metody iterrows ().