Iteruj rzędy i kolumny w Pyspark DataFrame

Iteruj rzędy i kolumny w Pyspark DataFrame

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Możemy przemierzać PYSPARK DataFrame przez rzędy i kolumny za pomocą:

  1. zbierać()
  2. wybierać()
  3. iTerrows ()

Przed przejściem do nich stworzymy PYSPARK DATAFRAME.

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

zbierać()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator, aby iterować kolumny. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.

Składnia:

dla Row_iterator w DataFrame.zbierać():
print (row_iterator ['kolumna'],… .)

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna to nazwa kolumny w Pyspark DataFrame.
  3. Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja rzędów z kolumn Rollno, Wysokość i adres.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# iteruj kolumny Rollno, wysokość i adres
dla Row_iterator w DF.zbierać():
print (row_iterator ['rollno'], row_iterator ['high'], row_iterator ['adres'])

Wyjście:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Przykład 2:

W tym przykładzie iteracja wierszy z kolumny nazwy z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# iteruj kolumnę o nazwie
dla Row_iterator w DF.zbierać():
print (Row_iterator ['Nazwa'])

Wyjście:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi

wybierać()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Można go używać z metodą collect () i przyjmuje kolumnę. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.

Składnia:

ramka danych.Wybierz („kolumna”,…).zbierać()

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna to nazwa kolumny w Pyspark DataFrame.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumny Rollno i Nazwa z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#iterate Rollno i Name Columns
df.Wybierz („Rollno”, „Nazwa”).zbierać()

Wyjście:

[Wiersz (Rollno = '001', name = 'sravan'),
Row (Rollno = „002”, name = „Ojaswi”),
Wiersz (Rollno = „003”, name = „Gnanesh Chowdary”),
Wiersz (Rollno = „004”, name = „rohith”),
Row (Rollno = '005', name = 'sridevi')]]

Przykład 2:

W tym przykładzie iteracja rzędów z kolumny Rollno i wagi z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Titerate Rollno i Columns
df.Wybierz („Rollno”, „waga”).zbierać()

Wyjście:

[Wiersz (Rollno = '001', waga = 67),
Row (Rollno = '002', waga = 34),
Row (Rollno = '003', waga = 17),
Row (Rollno = „004”, waga = 28),
Row (Rollno = '005', waga = 54)]

iTerrows ()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator wiersza i indeksować do kolumn iterowanych. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami. Wcześniej musimy przekształcić się na pandy za pomocą metody topandas ().

Składnia:

W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. index_value to pozycja indeksu kolumny w Pyspark DataFrame.
  3. Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#terate adres i wysokość kolumny
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [1])

Wyjście:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Przykład 2:

W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Kolumny adresu i nazwy
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [3])

Wyjście:

Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi

Wniosek

W tym samouczku omówiliśmy, jak iterować nad rzędami i kolumnami w Pyspark DataFrame. Omówiliśmy trzy metody - select (), collect () i iTerrows () z pętlą. Tak więc, używając tych metod, możemy określić kolumny, które mają być iterowane przez iterator wierszy.