Wyświetl górne rzędy z Pyspark DataFrame

Wyświetl górne rzędy z Pyspark DataFrame
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Zapewnia kilka metod zwrotu górnych wierszy z PYSPARK DATAFRAME. Podamy przykłady 5 sposobów wyświetlania najlepszych wierszy w Pyspark:
  1. PYSPARK - show ()
  2. PYSPARK - COLLET ()
  3. PYSPARK - Take ()
  4. PYSPARK - First ()
  5. Pyspark - Head ()

PYSPARK - show ()

Służy do wyświetlania górnych wierszy lub całej ramki danych w formacie tabelarycznym.

Składnia:

ramka danych.Pokaż (n, pionowy, obcięty)

Gdzie DataFrame to wejście PYSPARK DataFrame.

Parametry:

  1. n jest pierwszym parametrem opcjonalnym, który reprezentuje wartość całkowitą, aby uzyskać górne wiersze w ramce danych, a n reprezentuje liczbę górnych wierszy do wyświetlania. Domyślnie wyświetli wszystkie rzędy z DataFrame
  2. Parametr pionowy pobiera wartości logiczne, które są używane do wyświetlania ramki danych w parametrze pionowym, gdy jest on ustawiony na true. i wyświetl ramkę danych w formacie poziomym, gdy jest ustawiony na false. Domyślnie będzie wyświetlany w formacie poziomym
  3. Obcinanie służy do uzyskania liczby znaków z każdej wartości w danych danych. Zajmie to liczbę całkowitą, ponieważ niektóre znaki będą wyświetlane. Domyślnie wyświetli wszystkie znaki.

Przykład 1:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy ramkę danych za pomocą metody show () bez żadnych parametrów. To skutkuje to tabliczkową ramką danych, wyświetlając wszystkie wartości w DataFrame

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()

Wyjście:

Przykład 2:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy ramkę danych za pomocą metody show () z parametrem n. Ustawiliśmy wartość N na 4, aby wyświetlić 4 górne rzędy z DataFrame. Spowoduje to więc w tabeli danych, wyświetlając 4 wartości w ramce danych.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Uzyskaj 4 najlepsze wiersze w ramce danych
df.pokaz (4)

Wyjście:

PYSPARK - COLLET ()

Metoda collect () w PYSPARK służy do wyświetlania danych obecnych w wierszu danych według wiersza od góry.

Składnia:

ramka danych.zbierać()

Przykład:

Wyświetlmy całą metodę DataFrame za pomocą metody kolekcji ()

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetlacz
df.zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)]

PYSPARK - Take ()

Służy do wyświetlania górnych wierszy lub całej ramki danych.

Składnia:

ramka danych.zajęty)

Gdzie DataFrame to wejście PYSPARK DataFrame.

Parametry:

n jest wymaganym parametrem, który reprezentuje wartość liczb całkowitych, aby uzyskać górne wiersze w ramce danych.

Przykład 1:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Take (). Tak więc wynika z 3 najlepszych wierszy z DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl 3 najlepsze rzędy z DataFrame
df.Weź (3)

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Przykład 2:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Take (). Tak więc wynika z pierwszego 1 wiersza z ramki danych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.Weź (1)

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]

PYSPARK - First ()

Służy do wyświetlania górnych wierszy lub całej ramki danych.

Składnia:

ramka danych.Pierwszy()

Gdzie DataFrame to wejście PYSPARK DataFrame.

Parametry:

  • Nie będzie wymagać żadnych parametrów.

Przykład:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 1 wiersz z DataFrame za pomocą metody pierwszej (). Tak więc wyniki tylko pierwszy rząd.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.pierwszy (1)

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]

Pyspark - Head ()

Służy do wyświetlania górnych wierszy lub całej ramki danych.

Składnia:

ramka danych.głowa (n)

Gdzie DataFrame to wejście PYSPARK DataFrame.

Parametry:

n jest parametrem opcjonalnym, który reprezentuje wartość liczb całkowitych, aby uzyskać górne wiersze w ramce danych, a n reprezentuje liczbę górnych wierszy do wyświetlania. Domyślnie wyświetli pierwszy wiersz z ramki danych, jeśli n nie zostanie określony.

Przykład 1:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Head (). Tak więc wyniki 3 najlepszych wierszy z DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl 3 najlepsze rzędy z DataFrame
df.głowa (3)

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Przykład 2:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 1 wiersz z DataFrame za pomocą metody Head (). Tak więc wyniki do pierwszego rzędu z DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.głowa (1)

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]

Wniosek

W tym samouczku omówiliśmy, jak uzyskać najlepsze rzędy z Pyspark DataFrame za pomocą show (), collect (). weź metody (), head () i fertury (). Zauważyliśmy, że metoda show () zwróci górne wiersze w formacie tabelarycznym, a pozostałe metody powrócą wiersz po wierszu.