PYSPARK - SORT

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. W PYSPARK sort () służy do układania wierszy w sortowaniu lub kolejności rosnącej w ramce danych. Zwróci nową ramkę danych, układając wiersze w istniejącej ramce danych. Utwórzmy Pyspark DataFrame.

Przykład:

W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlacz za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda - 1: Za pomocą sort ()

Tutaj używamy funkcji sort (), aby sortować PYSPARK DATAFAME na podstawie kolumn. Zajmie to jedną lub więcej kolumn.

Składnia:

ramka danych.sort („kolumna_nazwa”,…, „kolumna_nazwa”)

Tutaj,

DataFrame to wejście PYSPARK DATAFRAME.
Kolumna_nazwa to kolumna, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji sort () i wyświetlić posortowaną ramkę danych za pomocą metody coler ().

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17)]

Metoda - 2: Za pomocą sort () z funkcją col

Tutaj używamy funkcji sort (), aby sortować PYSPARK DATAFAME na podstawie kolumn. Musimy określić nazwy kolumn/s wewnątrz funkcji sort () za pośrednictwem funkcji col. Musimy zaimportować tę funkcję z Pyspark.SQL.Moduł funkcji. Służy to do odczytu kolumny z Pyspark DataFrame.

Składnia:

ramka danych.sort (col („kolumn_nazwa”),…, col („kolumna_nazwa”)))

Tutaj,

DataFrame to wejście PYSPARK DATAFRAME.
Kolumna_nazwa to kolumna, w której sortowanie jest stosowane za pośrednictwem funkcji col.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji sort () i wyświetlić posortowaną ramkę danych za pomocą metody coler ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Sortuj ramkę danych na podstawie kolumn adresowych i wiekowych
# i wyświetl posortowaną ramkę danych
df.sort (col („adres”), col („wiek”)).zbierać()

Wyjście:

Metoda - 3: Za pomocą sort () z etykietą DataFrame

Tutaj używamy funkcji sort () do sortowania Pyspark DataFrame na podstawie kolumn. Musimy określić nazwy kolumn/etykiety wewnątrz funkcji sort () za pośrednictwem nazwy/etykiety kolumny DataFrame.

Składnia:

ramka danych.SORT (DataFrame.Kolumna_nazwa,…, DataFrame.Nazwa kolumny)

Tutaj,

DataFrame to wejście PYSPARK DATAFRAME.
Kolumna_nazwa to kolumna, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji sort () i wyświetlić posortowaną ramkę danych za pomocą metody coler ().

Wyjście:

Metoda - 4: Za pomocą sort () z indeksem DataFrame

Tutaj używamy funkcji sort (), aby sortować PYSPARK DATAFAME na podstawie kolumn. Musimy określić indeks/indeksy kolumny wewnątrz funkcji sort () za pośrednictwem indeksu/pozycji kolumny DataFrame. W DataFrame indeksowanie zaczyna się od „0”.

Składnia:

ramka danych.sort (dataFrame [kolumn_index],…, DataFrame [kolumn_index])

Tutaj,

DataFrame to wejście PYSPARK DATAFRAME.
kolumn_index to pozycja kolumny, w której zastosowano sortowanie.

Przykład:

W tym przykładzie sortujemy ramkę danych na podstawie kolumn adresowych i wiekowych za pomocą funkcji sort () i wyświetlić posortowaną ramkę danych za pomocą metody coler ().

Wyjście:

Wniosek

W tym artykule omawiamy, jak użyć funkcji sort () przy użyciu czterech scenariuszy na Pyspark DataFrame w Python. Wreszcie doszliśmy do punktu, w którym możemy sortować dane w Pyspark DataFrame na podstawie kolumn obecnych w DataFrame.

Internet

Jak usunąć reklamę w Utorrent

Dwa sposoby całkowitego odłączenia reklamy w programie Utorrent. Ręcznie, używając klienta torrentow...

Roman Pawlik

Windows

Jak usunąć konto Microsoft w systemie Windows 8.1

Sposoby usuwania konta Microsoft z komputera Windows 8.1 Przełączając się na lokalne lub tworząc now...

Pan Ludwik Żak

Windows

Microsoft wydał narzędzie do blokowania aktualizacji Windows 10

Microsoft wydał narzędzie do odłączenia wybranych aktualizacji Windows 10, aby zapobiec ich instalac...

Janusz Baranowski