PYSPARK - PANDAS DATEFRAME ISNA, NOTNA, NOTNULL

PYSPARK - PANDAS DATEFRAME ISNA, NOTNA, NOTNULL
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do utworzenia PandaS DataFrame:

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Funkcje isna (), notna () i notNull () są używane do sprawdzenia, czy jakiekolwiek wartości brakowało w Pyspark Pandas DataFrame. Są reprezentowane przez NAN (nie liczbę); W Python możemy je stworzyć, używając żadnego.

Zobaczmy je jeden po drugim.

Pyspark.Pandy.Ramka danych.isna

ISNA służy do sprawdzenia, czy wartość jest zerowa. Jeśli jest zerowa, zwróci to prawdziwie w tej wartości. W przeciwnym razie zwraca fałsz. Nie wymaga żadnych parametrów.

Składnia

PYSPARK_PANDAS.isna

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Możemy również sprawdzić w określonych kolumnach.

Składnia

PYSPARK_PANDAS.kolumna.isna

Gdzie kolumna to nazwa kolumny.

Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą ISNA.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.isna ())

Wyjście

0 Fałsz
1 Prawda
2 True
3 fałsz
4 fałsz
Nazwa: Mark1, Dtype: Bool

Widzimy, że w drugim i trzecim rzędu - NAN jest dostępny, więc na tych pozycjach ISNA zwróciła prawdziwie. W innych przypadkach zwrócił fałsz.

Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą ISNA.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w całej ramce danych
Drukuj (Pyspark_pandas.isna ())

Wyjście

Student_lastname Mark1 Mark2 Mark3
0 false false false
1 Prawda Prawda Fałsz fałsz
2 Fałsz prawdy Fałsz fałsz
3 Fałsz fałsz fałsz
4 Fałsz Fałszwe Prawda Fałsz

Widzimy, że isna powraca prawdziwie tam, gdzie istnieje nan.

Pyspark.Pandy.Ramka danych.Notna

Notna służy do sprawdzenia, czy wartość nie jest zerowa. Jeśli jest zerowa, zwróci fałsz w tej wartości. W przeciwnym razie powraca prawdziwie. Nie wymaga żadnych parametrów.

Składnia

PYSPARK_PANDAS.Notna

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Możemy również sprawdzić w określonych kolumnach.

Składnia

PYSPARK_PANDAS.kolumna.Notna

Gdzie kolumna to nazwa kolumny.

Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą notna.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.notna ())

Wyjście

0 True
1 Fałsz
2 fałsz
3 True
4 True
Nazwa: Mark1, Dtype: Bool

Widzimy, że w drugim i trzecim rzędzie - Nan nie jest dostępny, więc na tych pozycjach nie zwróciło fałszu. W innych przypadkach zwróciło to prawda.

Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą ISNA.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w całej ramce danych
Drukuj (Pyspark_pandas.notna ())

Wyjście

Student_lastname Mark1 Mark2 Mark3
0 Prawdziwe Prawda Prawda
1 Fałsz fałsz prawdziwy
2 Prawda Fałsz Prawda Prawda
3 Prawdziwe prawdziwe prawdziwe
4 Prawda Prawda Fałsz Prawda

Widzimy, że Notna zwraca fałsz, gdziekolwiek istnieje Nan.

Pyspark.Pandy.Ramka danych.Nie jest zerem

notnull jest podobny do notna używanego do sprawdzenia, czy wartość nie jest zerowa. Jeśli jest zerowa, zwróci fałsz w tej wartości. W przeciwnym razie powraca prawdziwie. Nie wymaga żadnych parametrów.

Składnia

PYSPARK_PANDAS.Nie jest zerem

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Możemy również sprawdzić w określonych kolumnach.

Składnia

PYSPARK_PANDAS.kolumna.Nie jest zerem

Gdzie kolumna to nazwa kolumny.

Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą NotNull.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.Nie jest zerem())

Wyjście

0 True
1 Fałsz
2 fałsz
3 True
4 True
Nazwa: Mark1, Dtype: Bool

Widzimy, że w drugim i trzecim rzędzie - Nan nie jest dostępny, więc na tych pozycjach nie zwrócił fałszu. W innych przypadkach zwróciło to prawda.

Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą NotNull.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('student_lastname': ['manasa', none, „lehara ',„ kapila ”,„ hyna ”],„ mark1 ”: [90, none, none, 54,67],„ mark2 ”: [100, [100, [100, 67,96,89, brak], „Mark3”: [91,92,98,97,87]))
#Sprawdź wartości Brak w całej ramce danych
Drukuj (Pyspark_pandas.Nie jest zerem())

Wyjście

Student_lastname Mark1 Mark2 Mark3
0 Prawdziwe Prawda Prawda
1 Fałsz fałsz prawdziwy
2 Prawda Fałsz Prawda Prawda
3 Prawdziwe prawdziwe prawdziwe
4 Prawda Prawda Fałsz Prawda

Widzimy, że Notnull zwraca fałsz, gdziekolwiek istnieje Nan.

Wniosek

W tym samouczku Pyspark Pandas DataFrame widzieliśmy, jak sprawdzić wartości NAN w DataFrame. ISNA służy do zwracania prawdziwie, jeśli jest to NAN, a Notna i Notnull będą działać tak samo, zwracając prawdziwie, jeśli wartość nie jest nan.