W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Zapewnia kilka metod zwrotu górnych wierszy z PYSPARK DATAFRAME. Podamy przykłady 5 sposobów wyświetlania najlepszych wierszy w Pyspark:
- PYSPARK - show ()
- PYSPARK - COLLET ()
- PYSPARK - Take ()
- PYSPARK - First ()
- Pyspark - Head ()
PYSPARK - show ()
Służy do wyświetlania górnych wierszy lub całej ramki danych w formacie tabelarycznym.
Składnia:
ramka danych.Pokaż (n, pionowy, obcięty)
Gdzie DataFrame to wejście PYSPARK DataFrame.
Parametry:
- n jest pierwszym parametrem opcjonalnym, który reprezentuje wartość całkowitą, aby uzyskać górne wiersze w ramce danych, a n reprezentuje liczbę górnych wierszy do wyświetlania. Domyślnie wyświetli wszystkie rzędy z DataFrame
- Parametr pionowy pobiera wartości logiczne, które są używane do wyświetlania ramki danych w parametrze pionowym, gdy jest on ustawiony na true. i wyświetl ramkę danych w formacie poziomym, gdy jest ustawiony na false. Domyślnie będzie wyświetlany w formacie poziomym
- Obcinanie służy do uzyskania liczby znaków z każdej wartości w danych danych. Zajmie to liczbę całkowitą, ponieważ niektóre znaki będą wyświetlane. Domyślnie wyświetli wszystkie znaki.
Przykład 1:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy ramkę danych za pomocą metody show () bez żadnych parametrów. To skutkuje to tabliczkową ramką danych, wyświetlając wszystkie wartości w DataFrame
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()
Wyjście:
Przykład 2:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy ramkę danych za pomocą metody show () z parametrem n. Ustawiliśmy wartość N na 4, aby wyświetlić 4 górne rzędy z DataFrame. Spowoduje to więc w tabeli danych, wyświetlając 4 wartości w ramce danych.
#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Uzyskaj 4 najlepsze wiersze w ramce danych
df.pokaz (4)
Wyjście:
PYSPARK - COLLET ()
Metoda collect () w PYSPARK służy do wyświetlania danych obecnych w wierszu danych według wiersza od góry.
Składnia:
ramka danych.zbierać()
Przykład:
Wyświetlmy całą metodę DataFrame za pomocą metody kolekcji ()
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetlacz
df.zbierać()
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)]
PYSPARK - Take ()
Służy do wyświetlania górnych wierszy lub całej ramki danych.
Składnia:
ramka danych.zajęty)
Gdzie DataFrame to wejście PYSPARK DataFrame.
Parametry:
n jest wymaganym parametrem, który reprezentuje wartość liczb całkowitych, aby uzyskać górne wiersze w ramce danych.
Przykład 1:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Take (). Tak więc wynika z 3 najlepszych wierszy z DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl 3 najlepsze rzędy z DataFrame
df.Weź (3)
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]
Przykład 2:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Take (). Tak więc wynika z pierwszego 1 wiersza z ramki danych.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.Weź (1)
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]
PYSPARK - First ()
Służy do wyświetlania górnych wierszy lub całej ramki danych.
Składnia:
ramka danych.Pierwszy()
Gdzie DataFrame to wejście PYSPARK DataFrame.
Parametry:
- Nie będzie wymagać żadnych parametrów.
Przykład:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 1 wiersz z DataFrame za pomocą metody pierwszej (). Tak więc wyniki tylko pierwszy rząd.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.pierwszy (1)
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]
Pyspark - Head ()
Służy do wyświetlania górnych wierszy lub całej ramki danych.
Składnia:
ramka danych.głowa (n)
Gdzie DataFrame to wejście PYSPARK DataFrame.
Parametry:
n jest parametrem opcjonalnym, który reprezentuje wartość liczb całkowitych, aby uzyskać górne wiersze w ramce danych, a n reprezentuje liczbę górnych wierszy do wyświetlania. Domyślnie wyświetli pierwszy wiersz z ramki danych, jeśli n nie zostanie określony.
Przykład 1:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 3 wiersze z DataFrame za pomocą metody Head (). Tak więc wyniki 3 najlepszych wierszy z DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl 3 najlepsze rzędy z DataFrame
df.głowa (3)
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]
Przykład 2:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlamy 1 wiersz z DataFrame za pomocą metody Head (). Tak więc wyniki do pierwszego rzędu z DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl górny 1 wiersz z DataFrame
df.głowa (1)
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = 'sravan', rolno = '001', waga = 67)]
Wniosek
W tym samouczku omówiliśmy, jak uzyskać najlepsze rzędy z Pyspark DataFrame za pomocą show (), collect (). weź metody (), head () i fertury (). Zauważyliśmy, że metoda show () zwróci górne wiersze w formacie tabelarycznym, a pozostałe metody powrócą wiersz po wierszu.