Przed omówieniem tych funkcji utworzymy przykładowy Pyspark DataFrame.
Dane
Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()
Wyjście:
Teraz jest 5 kolumn i 4 wiersze.
funkcja desc_nulls_first ()
Funkcja DESC_NULLS_FIRST () Sortuje wartości w kolumnie w kolejności malejącej, ale umieści istniejące wartości zerowe w kolumnie.
Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie funkcji OrderBy (), ponieważ najważniejsze jest tutaj.orderby () bierze funkcję DESC_NULLS_FIRST () jako parametr.
Składnia
DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.desc_nulls_
Pierwszy())
Gdzie DataFrame_Obj jest DataFrame, a kolumna to nazwa kolumny, w której wartości są sortowane, wszystkie wartości zerowe zostaną umieszczone.
Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję DESC_NULLS_FIRST ().
Przykład 1
Teraz sortujemy wartości w kolumnie Technology1, która ma wartości Brak/NULL w kolejności malejącej za pomocą funkcji DESC_NULLS_FIRST ().
#Sort kolumnę technologii1 w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_first ()).pokazywać()
Wyjście:
W rzeczywistości istnieją dwie wartości zerowe. Najpierw są umieszczone, a później HTML i CSS są sortowane w kolejności malejącej.
Przykład 2
Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności malejącej za pomocą funkcji DESC_NULLS_FIRST ().
#Sort the Technology2 kolumna w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_first ()).pokazywać()
Wyjście:
W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, są umieszczone, a później Pyspark i .Net są sortowane w kolejności malejącej.
funkcja desc_nulls_last ()
Funkcja DESC_NULLS_LAST () sortuje wartości w kolumnie w kolejności malejącej, ale umieści istniejące wartości zerowe w kolumnie.
Można go używać z metodą Select (), aby wybrać uporządkowane kolumny. Bardzo ważne jest użycie orderby (), ponieważ najważniejsze jest tutaj sort.orderby () bierze desc_nulls_first () jako parametr.
Składnia
DataFrame_Obj.Wybierz (DataFrame_Obj.kolumna).Orderby (DataFrame_Obj.kolumna.desc_nulls_
ostatni())
Gdzie DataFrame_Obj jest ramką danych, a kolumna to nazwa kolumny, w której wartości są sortowane w taki sposób, aby wszystkie wartości zerowe zostały umieszczone jako ostatnie.
Tak więc nasza oprawa danych jest gotowa. Pokazajmy funkcję DESC_NULLS_LAST ().
Przykład 1
Teraz sortujemy wartości w kolumnie Technology2 z wartościami None/Null w kolejności malejącej za pomocą funkcji DESC_NULLS_LAST ().
#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()
Wyjście:
W rzeczywistości istnieją dwie wartości zerowe. Po pierwsze, HTML i CSS są sortowane w kolejności malejącej, a dwa wartości zerowe są umieszczane ostatnie.
Przykład 2
Teraz sortujemy wartości w kolumnie Technology2, która ma wartości Brak/zerowe w kolejności malejącej za pomocą funkcji DESC_NULLS_LAST ().
#Sort the Technology2 kolumna w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_last ()).pokazywać()
Wyjście:
W rzeczywistości istnieją dwie wartości zerowe. Pierwszy, .Net i Pyspark są sortowane w kolejności maleją.
Ogólny kod
Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, brak, żaden),
(4, „Chandana”, 23, „CSS”, „Pyspark”),
(46, „Mounika”, 22, żaden, '.INTERNET'),
(4, „Deepika”, 21, „html”, brak),
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_first ()).pokazywać()
#Sort the Technology2 kolumna w kolejności malejącej i najpierw uzyskaj wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.technologia2).Orderby (DataFrame_Obj.Technologia2.desc_
nulls_first ()).pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()
#Sort kolumnę technologii1 w kolejności malejącej i uzyskaj ostatnie wartości zerowe.
DataFrame_Obj.Wybierz (DataFrame_Obj.Technologia 1).Orderby (DataFrame_Obj.Technologia 1.desc_
nulls_last ()).pokazywać()
Wniosek
Pod koniec tego samouczka PYSPARK dowiedzieliśmy się, że możliwe jest radzenie sobie z NULL, sortując wartości w ramce danych za pomocą funkcji DESC_NULLS_FIRST () i DESC_NULLS_LAST (). Funkcja DESC_NULLS_FIRST () Sortuje wartości w kolumnie w kolejności malejącej, ale najpierw uformuje istniejące wartości zerowe w kolumnie. Funkcja DESC_NULLS_LAST () sortuje wartości w kolumnie w kolejności malejącej, ale uaranuje istniejące wartości zerowe w kolumnie ostatnie. Możesz uruchomić cały kod określony w ostatniej części samouczka.