PYSPARK ASC_NULLS_FIRST i ASC_NULLS_LAST Funkcje

PYSPARK ASC_NULLS_FIRST i ASC_NULLS_LAST Funkcje
Jeśli chcesz sortować wartości w kolumnie w Pyspark DataFrame z nulls w kolejności rosnącej, możesz przejść z funkcjami ASC_NULLS_FIRST () i ASC_NULLS_LAST ().

Przed omówieniem tych funkcji utworzymy przykładowy Pyspark DataFrame.

Dane

Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()


Wyjście:


Teraz jest 5 kolumn i 4 wiersze.

ASC_NULLS_FIRST ()

Funkcja ASC_NULLS_FIRST () sortuje wartości w kolumnie w kolejności rosnącej, ale najpierw umieści istniejące wartości zerowe w kolumnie.

Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie orderby (), ponieważ najważniejsze jest tutaj sortowanie.orderby () i przyjmuje ASC_NULLS_FIRST () jako parametr.

Składnia

DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.ASC_NULLS_
Pierwszy())


Gdzie DataFrame_Obj jest DataFrame, a kolumna to nazwa kolumny, w której wartości są sortowane, wszystkie wartości zerowe zostaną umieszczone.

Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję ASC_NULLS_FIRST ().

Przykład 1

Teraz sortujemy wartości w kolumnie technologii.

#Sort kolumnę technologii1 w kolejności rosnącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.ASC_
nulls_first ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Najpierw są umieszczone, a później CSS i HTML są sortowane w kolejności rosnącej.

Przykład 2

Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności rosnącej za pomocą funkcji ASC_NULLS_FIRST ().

#Sort the Technology2 w kolejności rosnącej i uzyskaj pierwsze wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.ASC_
nulls_first ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, są umieszczone, a później, .Net i Pyspark są sortowane w kolejności rosnącej.

ASC_NULLS_LAST ()

Funkcja ASC_NULLS_LAST () sortuje wartości w kolumnie w kolejności rosnącej, ale będzie umieszcza istniejące wartości zerowe w kolumnie ostatnie.

Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie orderby (), ponieważ najważniejsze jest tutaj sortowanie.orderby (), ponieważ wymaga ASC_NULLS_FIRST () jako parametr.

Składnia

DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.ASC_NULLS_LAST ())


Gdzie DataFrame_Obj jest ramką danych, a kolumna jest nazwą kolumny, w której wartości są sortowane, wszystkie wartości zerowe zostaną w końcu umieszczone.

Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję ASC_NULLS_LAST ().

Przykład 1

Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności rosnącej za pomocą funkcji ASC_NULLS_LAST ().

#Sort the Technology1 w kolejności rosnącej i uzyskaj ostatnie wartości.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.ASC_
nulls_last ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, CSS i HTML są sortowane w kolejności rosnącej.

Przykład 2

Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności rosnącej za pomocą funkcji ASC_NULLS_LAST ().

#Sort the Technology2 w kolejności rosnącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.ASC_
nulls_last ()).pokazywać()


Wyjście:


W rzeczywistości istnieją dwie wartości zerowe. Pierwszy, .Net i Pyspark są sortowane w kolejności rosnącej, a dwie wartości zerowe są umieszczane na ostatnim.

Ogólny kod

Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()
#Sort kolumnę technologii1 w kolejności rosnącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.ASC_
nulls_first ()).pokazywać()
#Sort the Technology2 w kolejności rosnącej i uzyskaj pierwsze wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.ASC_
nulls_first ()).pokazywać()
#Sort the Technology1 w kolejności rosnącej i uzyskaj ostatnie wartości.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.ASC_
nulls_last ()).pokazywać()
#Sort the Technology2 w kolejności rosnącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.ASC_
nulls_last ()).pokazywać()

Wniosek

Pod koniec tego samouczka PYSPARK dowiedzieliśmy się, że możliwe jest radzenie sobie z NULL, sortując wartości w ramce danych za pomocą funkcji ASC_NULLS_FIRST () i ASC_NULLS_LAST (). Funkcja ASC_NULLS_FIRST () sortuje wartości w kolumnie w kolejności rosnącej, ale najpierw umieści istniejące wartości zerowe w kolumnie. Funkcja ASC_NULLS_LAST () sortuje wartości w kolumnie w kolejności rosnącej, ale będzie umieszcza istniejące wartości zerowe w kolumnie ostatnie. Możesz uruchomić cały kod określony w ostatniej części samouczka.