PYSPARK - Zbierz

PYSPARK - Zbierz
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Metoda zbiorów () w PYSPARK wyświetla dane obecne w wierszu danych według wiersza.

Składnia:

Ramka danych.zbierać()

Przykład:

W tym przykładzie utworzymy Pyspark DataFrame z 6 kolumnami i 5 wierszy i wyświetlimy ramkę danych w formacie tabelarycznym za pomocą metody show ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()

Wyjście:

Przykład 2:

Wyświetlmy ramkę danych za pomocą metody Collect ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetlacz
df.zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)]

Możemy również użyć do pętli z metodą kolekcji (), aby iterować wiersz według wiersza

Składnia:

dla iteratora w DataFrame.zbierać():
Drukuj (iterator)

Aby wyświetlić określone kolumny, musimy określić nazwę kolumny za pomocą operatora []

Składnia:

dla iteratora w DataFrame.zbierać():
print (iterator ['kolumna1'], iterator ['kolumna2'],… .)

Przykład:

Ten przykład iteruje wiele kolumn w ramce danych za pomocą metody Collect ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl kolumnę nazw z pętlą
bo w DF.zbierać():
Drukuj (i [„Nazwa”])
wydrukować("------------------------------------")
# Kolumna wyświetlania wysokości i wagi z pętlą
bo w DF.zbierać():
drukuj (i [nazwa '], i [„waga”])
wydrukować("------------------------------------")
# Wyświetl całą kolumnę z pętlą
bo w DF.zbierać():
Drukuj (i)

Wyjście:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi
------------------------------------
Sravan 67
Ojaswi 34
Gnanesh Chowdary 17
Rohith 28
Sridevi 54
------------------------------------
Row (Adres = „Guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67)
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34)
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28)
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)

Możemy również uzyskać konkretny wiersz za pomocą metody Collect () przy użyciu indeksu.

W Pyspark DataFrame indeksowanie rozpoczyna się od 0.

Składnia:

Ramka danych.clection () [row_index]

Przykład:

W tym przykładzie zbieramy pierwsze, drugie i piąte rzędy.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Pierwszy rząd
Wydrukuj (DF.clection () [0])
#Display Second Row
Wydrukuj (DF.clection () [1])
#Display Fifth Row
Wydrukuj (DF.zbiornik () [4])

Wyjście:

Row (Adres = „Guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67)
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34)
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)

Możemy również uzyskać konkretną kolumnę w wierszu za pomocą metody kolekcji () przy użyciu indeksu.

W Pyspark DataFrame indeksowanie rozpoczyna się od 0.

Składnia:

Ramka danych.clection () [row_index] [kolumn_index]

Przykład:

W tym przykładzie otrzymamy wartości z pierwszego rzędu - pierwszego kolumny, trzeci rząd - pierwsza kolumna

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display First Row Pierwsza kolumna
Wydrukuj (DF.zbior () [0] [0])
#Display Drugi wiersz Pierwsza kolumna
Wydrukuj (DF.clection () [2] [0])

Wyjście:

Guntur
Patna

Wniosek

W tym artykule omówiliśmy użycie metody kolekcji () z różnymi scenariuszami. Wreszcie rozumiemy, że metoda kolekcjonowania () służy do uzyskania wiersza danych według wiersza w Pyspark DataFrame.