Iteruj rzędy i kolumny w Pyspark DataFrame

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Możemy przemierzać PYSPARK DataFrame przez rzędy i kolumny za pomocą:

zbierać()
wybierać()
iTerrows ()

Przed przejściem do nich stworzymy PYSPARK DATAFRAME.

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

zbierać()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator, aby iterować kolumny. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.

Składnia:

dla Row_iterator w DataFrame.zbierać():
print (row_iterator ['kolumna'],… .)

Gdzie,

DataFrame to wejście PYSPARK DATAFRAME.
Kolumna to nazwa kolumny w Pyspark DataFrame.
Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja rzędów z kolumn Rollno, Wysokość i adres.

Wyjście:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Przykład 2:

W tym przykładzie iteracja wierszy z kolumny nazwy z powyższego Pyspark DataFrame.

Wyjście:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi

wybierać()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Można go używać z metodą collect () i przyjmuje kolumnę. Wreszcie wyświetli wiersze zgodnie z określonymi kolumnami.

Składnia:

ramka danych.Wybierz („kolumna”,…).zbierać()

Gdzie,

DataFrame to wejście PYSPARK DATAFRAME.
Kolumna to nazwa kolumny w Pyspark DataFrame.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumny Rollno i Nazwa z powyższego Pyspark DataFrame.

Wyjście:

[Wiersz (Rollno = '001', name = 'sravan'),
Row (Rollno = „002”, name = „Ojaswi”),
Wiersz (Rollno = „003”, name = „Gnanesh Chowdary”),
Wiersz (Rollno = „004”, name = „rohith”),
Row (Rollno = '005', name = 'sridevi')]]

Przykład 2:

W tym przykładzie iteracja rzędów z kolumny Rollno i wagi z powyższego Pyspark DataFrame.

Wyjście:

[Wiersz (Rollno = '001', waga = 67),
Row (Rollno = '002', waga = 34),
Row (Rollno = '003', waga = 17),
Row (Rollno = „004”, waga = 28),
Row (Rollno = '005', waga = 54)]

iTerrows ()

Ta metoda jest używana do iteracji kolumn w danej Pyspark DataFrame. Może być używany z pętlą i przenosi nazwy kolumn przez iterator wiersza i indeksować do kolumn iterowanych. Wreszcie wyświetli wiersze zgodnie z określonymi indeksami. Wcześniej musimy przekształcić się na pandy za pomocą metody topandas ().

Składnia:

W przypadku indeksu, Row_iterator w DataFrame.topandas ().iTerrows ():
print (Row_iterator [indeks_value],…)

Gdzie,

DataFrame to wejście PYSPARK DATAFRAME.
index_value to pozycja indeksu kolumny w Pyspark DataFrame.
Row_iterator jest zmienną iteratorem używaną do iteracji wartości wierszy w określonej kolumnie.

Przykład 1:

W tym przykładzie iteracja wierszy z kolumn adresowych i wysokości z powyższego Pyspark DataFrame.

Wyjście:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Przykład 2:

W tym przykładzie iterowano wiersze z kolumn adresowych i nazw z powyższego Pyspark DataFrame.

Wyjście:

Guntur Sravan
HYD OJASWI
Patna Gnanesh Chowdary
HYD ROHITH
Hyd Sridevi

Wniosek

W tym samouczku omówiliśmy, jak iterować nad rzędami i kolumnami w Pyspark DataFrame. Omówiliśmy trzy metody - select (), collect () i iTerrows () z pętlą. Tak więc, używając tych metod, możemy określić kolumny, które mają być iterowane przez iterator wierszy.

Windows

Jak pobrać ISO Windows 8.1 (oryginalny obraz)

Oficjalne sposoby Pobierz ISO Windows 8.1 64-bitowy i 32-bitowy z witryny Microsoft. Bezpłatne ładow...

Pan Sara Łapiński

Internet

Jak wyczyścić ścianę VK

Jak szybko usunąć wszystkie notatki ze ściany w kontakcie. KROP -BY -STEP Instrukcje czyszczenia w p...

Pani Jerzy Kruk

Windows

Windows 10 News

Nowe informacje o aktualizacji systemu Windows 10, różnice w wydaniach systemu operacyjnym, procedur...

Klara Kopeć