Pyspark - Dropna

Pyspark - Dropna

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Dropna () w PYSPARK służy do usuwania wartości zerowych z ramki danych. Przed omówieniem tej metody musimy utworzyć PYSPARK DATAFRAME do demonstracji. Możemy utworzyć wartości zerowe przy użyciu żadnej wartości.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami z wartościami zerowymi i wyświetli się za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Składnia:

ramka danych.Dropna (jak, Thresh, podzbiór)

Gdzie,

  1. ramka danych to wejście PYSPARK DATAFRAME
  2. Jak jest pierwszym parametrem opcjonalnym, który przyjmie dwie możliwe wartości
  1. każdy - Ta wartość upuszcza wiersze, jeśli dowolna wartość jest zerowa w wierszach/kolumnach.
  2. Wszystko - Ta wartość upuszcza wiersze, jeśli wszystkie wartości są zerowe w wierszach/kolumnach.
  1. młócić w coś jest drugi opcjonalny parametr służy do upuszczania wierszy / kolumn na podstawie przypisanej wartości całkowitej. Jeśli wartości inne niż zerowe obecne w wierszu/kolumnie Pyspark DataFrame są mniejsze niż wspomniana wartość tchna, wówczas wartości zerowe można zrzucić z tych wierszy.
  2. podzbiór jest trzecim opcjonalnym parametrem używanym do zrzucania wartości z wymienionej kolumny/s. Będzie wymagać pojedynczych/wielu kolumn jako wejściowych przez krotkę nazw kolumn.

Przykład 1:

W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych bez parametrów i wyświetlamy ramkę danych za pomocą metody show (). Tak więc wynikiem będzie ostatni wiersz, ponieważ nie zawiera żadnych wartości zerowych w tym rzędzie.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame bez parametrów
df.Dropna ().pokazywać()

Wyjście:

Przykład 2:

W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając, w jaki sposób parametr i ustaw na „Wszystkie” i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będą wszystkie wiersze oprócz ostatniego wiersza, ponieważ zawiera wszystkie wartości zerowe.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem
df.Dropna (jak = „all”).pokazywać()

Wyjście:

Przykład 3:

W tym przykładzie upuszczamy wiersze z wyżej wymogowanej ramki danych, określając, w jaki sposób parametr i ustaw na „dowolny” i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będzie pojedynczy rząd, który nie zawiera wartości zerowych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem
df.Dropna (jak = „alny”).pokazywać()

Wyjście:

Przykład 4:

W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr thresh i ustawić na 5 i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będą dwa wiersze, ponieważ te rzędy mają większe niż 5 wartości nie-zerowych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem Thresh
df.Dropna (Thresh = 5).pokazywać()

Wyjście:

Przykład 5:

W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr podzbioru i przypisując kolumnę „wagę” i wyświetlając ramkę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem podzbioru
df.Dropna (podzbiór = „waga”).pokazywać()

Wyjście:

Przykład 6:

W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr podzbioru i przypisując kolumny „waga” i „nazwa” oraz wyświetlając ramkę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem podzbioru
df.Dropna (podzbiór = („waga”, „nazwa”)).pokazywać()

Wyjście:

Wniosek

W tym artykule opracowaliśmy, jak użyć metody Dropna () z PYSPARK DATAFRAME, biorąc pod uwagę wszystkie parametry. Możemy również zrzucić wszystkie wartości zerowe z ramki danych bez określenia tych parametrów.