PYSPARK - Orderby

PYSPARK - Orderby

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. W PYSPARK, Orderby () służy do układania wierszy w kolejności sortowania/rosnącego w ramce danych.

Zwróci nową ramkę danych, układając wiersze w istniejącej ramce danych.

Utwórzmy Pyspark DataFrame.

Przykład:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlacz za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda - 1: Za pomocą Orderby ()

Tutaj używamy funkcji OrderBy () do sortowania PYSPARK DATATHrame na podstawie kolumn. Zajmie to jedną lub więcej kolumn.

Składnia:

ramka danych.OrderBy („kolumna_nazwa”,…, „nazwa_polutury”)

Tutaj,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna_nazwa to kolumna, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji orderby () i wyświetlić sortowaną ramkę danych przy użyciu metody kolekcji ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Sortuj ramkę danych na podstawie kolumn adresowych i wiekowych
# i wyświetl posortowaną ramkę danych
df.Orderby („adres”, „wiek”).zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Metoda - 2: Za pomocą OrderBy () z funkcją Col

Tutaj używamy funkcji OrderBy () do sortowania PYSPARK DATATHrame na podstawie kolumn. Musimy określić nazwy kolumn/s wewnątrz funkcji orderby () za pośrednictwem funkcji col. Musimy zaimportować tę funkcję z Pyspark.SQL.Moduł funkcji. Służy to do odczytu kolumny z Pyspark DataFrame.

Składnia:

ramka danych.Orderby (col („kolumn_name”),…, col („kolumna_nazwa”)))

Tutaj,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna_nazwa to kolumna, w której sortowanie jest stosowane za pośrednictwem funkcji col.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji orderby () i wyświetlić sortowaną ramkę danych przy użyciu metody kolekcji ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Sortuj ramkę danych na podstawie kolumn adresowych i wiekowych
# i wyświetl posortowaną ramkę danych
df.Orderby (col („adres”), col („wiek”)).zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Metoda - 3: Za pomocą OrderBy () z etykietą DataFrame

Tutaj używamy funkcji OrderBy () do sortowania PYSPARK DATATHrame na podstawie kolumn. Musimy określić nazwy kolumn/etykiety w funkcji OrderBy () za pośrednictwem nazwy/etykiety kolumny DataFrame.

Składnia:

ramka danych.Orderby (DataFrame.Kolumna_nazwa,…, DataFrame.Nazwa kolumny)

Tutaj,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna_nazwa to kolumna, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji orderby () i wyświetlić sortowaną ramkę danych przy użyciu metody kolekcji ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Sortuj ramkę danych na podstawie kolumn adresowych i wiekowych
# i wyświetl posortowaną ramkę danych
df.Orderby (DF.Adres, DF.wiek).zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Metoda - 4: Korzystanie z OrderBy () z indeksem DataFrame

Tutaj używamy funkcji OrderBy () do sortowania PYSPARK DATATHrame na podstawie kolumn. Musimy określić indeks kolumny/wskaźniki wewnątrz funkcji orderby () za pośrednictwem indeksu/pozycji kolumny DataFrame. W DataFrame indeksowanie zaczyna się od „0”.

Składnia:

ramka danych.Orderby (dataFrame [kolumn_index],…, DataFrame [kolumn_index])

Tutaj,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. kolumn_index to pozycja kolumny, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji orderby () i wyświetlić sortowaną ramkę danych przy użyciu metody kolekcji ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Sortuj ramkę danych na podstawie kolumn adresowych i wiekowych
# i wyświetl posortowaną ramkę danych
df.Orderby (df [0], df [1]).zbierać()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Wniosek

W tym artykule omawiamy, jak korzystać z funkcji Orderby () przy użyciu czterech scenariuszy na Pyspark DataFrame w Python. Wreszcie doszliśmy do punktu, w którym możemy sortować dane w Pyspark DataFrame na podstawie kolumn obecnych w DataFrame.