Konwertuj PYSPARK DATAFRAME na Pandy DataFrame

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Zapewnia kilka metod zwrotu górnych wierszy z PYSPARK DATAFRAME.

Pandy to moduł używany do analizy danych. Obsługuje trzy struktury danych - serie, danych danych i panel. Możemy przekonwertować PYSpark DataFrame na Pandas DataFrame, gdy otrzymamy PYSPARK DATEFRAME.

Najpierw stwórzmy Pyspark DataFrame.

Przykład:

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()

Wyjście:

Topandas () to metoda, która przekonwertuje PYSPARK DATAFRAME na Pandas DataFrame.

Składnia:

ramka danych.topandas ()

gdzie DataFrame jest wejściem PYSPARK DataFrame.

Przykład:

W tym przykładzie przekształcamy powyżej PYSPARK DATAFRAME na Pandas DataFrame.

Wyjście:

Możemy iterować ramkę danych za pośrednictwem iTerrows (), przekształcając Pyspark na pandy.

iTerrows ()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame poprzez konwersję na Pandas DataFrame, może być używana z pętlą i przyjmuje nazwy kolumn przez iterator wierszy i indeksować do kolumn iterate. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami.

Składnia:

W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)

Gdzie:

DataFrame to wejście PYSPARK DATAFRAME.
index_value to pozycja indeksu kolumny w Pyspark DataFrame.
Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#terate adres i wysokość kolumny
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [1])

Wyjście:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Przykład 2:

W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Kolumny adresu i nazwy
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [3])

Wyjście:

Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi

Wniosek

W tym samouczku omówiliśmy konwersję PYSPARK DataFrame na Pandy DataFrame za pomocą metody topandas () i iterowaliśmy pandaS DataFrame przy użyciu metody iterrows ().

Pyton

Konwertuj ciąg na ustawienie Pythona

Aby przekonwertować dany ciąg na zestaw, różne metody, takie jak „set ()”, metoda „add ()” lub „zest...

Pani Żaneta Pakuła

Pyton

Jak sprawdzić, czy sznurek jest pusty w Pythonie

Funkcja „nie”, funkcja „len ()”, funkcja „strip ()”, operator „==”, metoda „__eq __ ()” lub „nie + s...

Pani Alicja Szafrański

PostgreSQL

Jak skopiować tabelę z jednej bazy danych do drugiej w PostgreSQL

Samouczek na temat procesu krok po kroku na temat kopiowania tabel z jednej bazy danych do drugiej w...

Maja Kucharski