W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Możemy przemierzać PYSPARK DataFrame przez rzędy i kolumny za pomocą:
- zbierać()
- wybierać()
- iTerrows ()
Przed przejściem do nich stworzymy PYSPARK DATAFRAME.
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
zbierać()
Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator, aby iterować kolumny. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.
Składnia:
dla Row_iterator w DataFrame.zbierać():
print (row_iterator ['kolumna'],… .)
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME.
- Kolumna to nazwa kolumny w Pyspark DataFrame.
- Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.
Przykład 1:
W tym przykładzie iteracja rzędów z kolumn Rollno, Wysokość i adres.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# iteruj kolumny Rollno, wysokość i adres
dla Row_iterator w DF.zbierać():
print (row_iterator ['rollno'], row_iterator ['high'], row_iterator ['adres'])
Wyjście:
001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd
Przykład 2:
W tym przykładzie iteracja wierszy z kolumny nazwy z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# iteruj kolumnę o nazwie
dla Row_iterator w DF.zbierać():
print (Row_iterator ['Nazwa'])
Wyjście:
Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi
wybierać()
Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Można go używać z metodą collect () i przyjmuje kolumnę. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.
Składnia:
ramka danych.Wybierz („kolumna”,…).zbierać()
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME.
- Kolumna to nazwa kolumny w Pyspark DataFrame.
Przykład 1:
W tym przykładzie iteracja wierszy z kolumny Rollno i Nazwa z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#iterate Rollno i Name Columns
df.Wybierz („Rollno”, „Nazwa”).zbierać()
Wyjście:
[Wiersz (Rollno = '001', name = 'sravan'),
Row (Rollno = „002”, name = „Ojaswi”),
Wiersz (Rollno = „003”, name = „Gnanesh Chowdary”),
Wiersz (Rollno = „004”, name = „rohith”),
Row (Rollno = '005', name = 'sridevi')]]
Przykład 2:
W tym przykładzie iteracja rzędów z kolumny Rollno i wagi z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Titerate Rollno i Columns
df.Wybierz („Rollno”, „waga”).zbierać()
Wyjście:
[Wiersz (Rollno = '001', waga = 67),
Row (Rollno = '002', waga = 34),
Row (Rollno = '003', waga = 17),
Row (Rollno = „004”, waga = 28),
Row (Rollno = '005', waga = 54)]
iTerrows ()
Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator wiersza i indeksować do kolumn iterowanych. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami. Wcześniej musimy przekształcić się na pandy za pomocą metody topandas ().
Składnia:
W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME.
- index_value to pozycja indeksu kolumny w Pyspark DataFrame.
- Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.
Przykład 1:
W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#terate adres i wysokość kolumny
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [1])
Wyjście:
Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37
Przykład 2:
W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Kolumny adresu i nazwy
Dla indeksu, Row_iterator w DF.topandas ().iTerrows ():
print (Row_iterator [0], Row_iterator [3])
Wyjście:
Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi
Wniosek
W tym samouczku omówiliśmy, jak iterować nad rzędami i kolumnami w Pyspark DataFrame. Omówiliśmy trzy metody - select (), collect () i iTerrows () z pętlą. Tak więc, używając tych metod, możemy określić kolumny, które mają być iterowane przez iterator wierszy.