PYSPARK DESC_NULLS_FIRST i DESC_NULLS_LAST Funkcje

PYSPARK DESC_NULLS_FIRST i DESC_NULLS_LAST Funkcje
Jeśli chcesz sortować wartości w kolumnie w Pyspark DataFrame z NULLS w kolejności malejącej, możesz przejść z funkcjami DESC_NULLS_FIRST () i DESC_NULLS_LAST ().

Przed omówieniem tych funkcji utworzymy przykładowy Pyspark DataFrame.

Dane

Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()


Wyjście:


Teraz jest 5 kolumn i 4 wiersze.

funkcja desc_nulls_first ()

Funkcja DESC_NULLS_FIRST () Sortuje wartości w kolumnie w kolejności malejącej, ale umieści istniejące wartości zerowe w kolumnie.

Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie funkcji OrderBy (), ponieważ najważniejsze jest tutaj.orderby () bierze funkcję DESC_NULLS_FIRST () jako parametr.

Składnia

DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.desc_nulls_
Pierwszy())


Gdzie DataFrame_Obj jest DataFrame, a kolumna to nazwa kolumny, w której wartości są sortowane, wszystkie wartości zerowe zostaną umieszczone.

Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję DESC_NULLS_FIRST ().

Przykład 1

Teraz sortujemy wartości w kolumnie Technology1, która ma wartości Brak/NULL w kolejności malejącej za pomocą funkcji DESC_NULLS_FIRST ().

#Sort kolumnę technologii1 w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_first ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Najpierw są umieszczone, a później HTML i CSS są sortowane w kolejności malejącej.

Przykład 2

Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności malejącej za pomocą funkcji DESC_NULLS_FIRST ().

#Sort the Technology2 kolumna w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_first ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, są umieszczone, a później Pyspark i .Net są sortowane w kolejności malejącej.

funkcja desc_nulls_last ()

Funkcja DESC_NULLS_LAST () sortuje wartości w kolumnie w kolejności malejącej, ale umieści istniejące wartości zerowe w kolumnie.

Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie orderby (), ponieważ najważniejsze jest tutaj sort.orderby () bierze desc_nulls_first () jako parametr.

Składnia

DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.desc_nulls_
ostatni())


Gdzie DataFrame_Obj jest ramką danych, a kolumna to nazwa kolumny, w której wartości są sortowane w taki sposób, aby wszystkie wartości zerowe zostały umieszczone jako ostatnie.

Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję DESC_NULLS_LAST ().

Przykład 1

Teraz sortujemy wartości w kolumnie Technology2 z wartościami None/Null w kolejności malejącej za pomocą funkcji DESC_NULLS_LAST ().

#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, HTML i CSS są sortowane w kolejności malejącej, a dwa wartości zerowe są umieszczane ostatnie.

Przykład 2

Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności malejącej za pomocą funkcji DESC_NULLS_LAST ().

#Sort the Technology2 kolumna w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_last ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Pierwszy, .Net i Pyspark są sortowane w kolejności maleją.

Ogólny kod

Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_first ()).pokazywać()
#Sort the Technology2 kolumna w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_first ()).pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()

Wniosek

Pod koniec tego samouczka PYSPARK dowiedzieliśmy się, że możliwe jest radzenie sobie z NULL, sortując wartości w ramce danych za pomocą funkcji DESC_NULLS_FIRST () i DESC_NULLS_LAST (). Funkcja DESC_NULLS_FIRST () Sortuje wartości w kolumnie w kolejności malejącej, ale najpierw uformuje istniejące wartości zerowe w kolumnie. Funkcja DESC_NULLS_LAST () sortuje wartości w kolumnie w kolejności malejącej, ale uaranuje istniejące wartości zerowe w kolumnie ostatnie. Możesz uruchomić cały kod określony w ostatniej części samouczka.