W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Dropna () w PYSPARK służy do usuwania wartości zerowych z ramki danych. Przed omówieniem tej metody musimy utworzyć PYSPARK DATAFRAME do demonstracji. Możemy utworzyć wartości zerowe przy użyciu żadnej wartości.
Przykład:
Utworzymy ramkę danych z 5 wierszami i 6 kolumnami z wartościami zerowymi i wyświetli się za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
Składnia:
ramka danych.Dropna (jak, Thresh, podzbiór)
Gdzie,
- ramka danych to wejście PYSPARK DATAFRAME
- Jak jest pierwszym parametrem opcjonalnym, który przyjmie dwie możliwe wartości
- każdy - Ta wartość upuszcza wiersze, jeśli dowolna wartość jest zerowa w wierszach/kolumnach.
- Wszystko - Ta wartość upuszcza wiersze, jeśli wszystkie wartości są zerowe w wierszach/kolumnach.
- młócić w coś jest drugi opcjonalny parametr służy do upuszczania wierszy / kolumn na podstawie przypisanej wartości całkowitej. Jeśli wartości inne niż zerowe obecne w wierszu/kolumnie Pyspark DataFrame są mniejsze niż wspomniana wartość tchna, wówczas wartości zerowe można zrzucić z tych wierszy.
- podzbiór jest trzecim opcjonalnym parametrem używanym do zrzucania wartości z wymienionej kolumny/s. Będzie wymagać pojedynczych/wielu kolumn jako wejściowych przez krotkę nazw kolumn.
Przykład 1:
W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych bez parametrów i wyświetlamy ramkę danych za pomocą metody show (). Tak więc wynikiem będzie ostatni wiersz, ponieważ nie zawiera żadnych wartości zerowych w tym rzędzie.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame bez parametrów
df.Dropna ().pokazywać()
Wyjście:
Przykład 2:
W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając, w jaki sposób parametr i ustaw na „Wszystkie” i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będą wszystkie wiersze oprócz ostatniego wiersza, ponieważ zawiera wszystkie wartości zerowe.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem
df.Dropna (jak = „all”).pokazywać()
Wyjście:
Przykład 3:
W tym przykładzie upuszczamy wiersze z wyżej wymogowanej ramki danych, określając, w jaki sposób parametr i ustaw na „dowolny” i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będzie pojedynczy rząd, który nie zawiera wartości zerowych.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem
df.Dropna (jak = „alny”).pokazywać()
Wyjście:
Przykład 4:
W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr thresh i ustawić na 5 i wyświetlając ramkę danych za pomocą metody show (). Tak więc wynikiem będą dwa wiersze, ponieważ te rzędy mają większe niż 5 wartości nie-zerowych.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem Thresh
df.Dropna (Thresh = 5).pokazywać()
Wyjście:
Przykład 5:
W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr podzbioru i przypisując kolumnę „wagę” i wyświetlając ramkę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem podzbioru
df.Dropna (podzbiór = „waga”).pokazywać()
Wyjście:
Przykład 6:
W tym przykładzie upuszczamy wiersze z wyżej wymyślonej ramki danych, określając parametr podzbioru i przypisując kolumny „waga” i „nazwa” oraz wyświetlając ramkę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: brak, „wysokość”: 5.79, „waga”: brak, „adres”: „guntur”,
„Rollno”: „002”, „nazwa”: none, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 56, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: none, „nazwa”: „rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: Brak,
„Rollno”: None, „Name”: None, „Age”: Brak, „Height”: Brak, „waga”: none, „Adres”: none]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop DataFrame z parametrem podzbioru
df.Dropna (podzbiór = („waga”, „nazwa”)).pokazywać()
Wyjście:
Wniosek
W tym artykule opracowaliśmy, jak użyć metody Dropna () z PYSPARK DATAFRAME, biorąc pod uwagę wszystkie parametry. Możemy również zrzucić wszystkie wartości zerowe z ramki danych bez określenia tych parametrów.