PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARKSkładnia do importu
od Pyspark Import PandasNastępnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do utworzenia PandaS DataFrame:
Pyspark.Pandy.Ramka danych()Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.
#Import pandy z modułu PYSPARKWyjście
Teraz wejdziemy do naszego samouczka.
Funkcje isna (), notna () i notNull () są używane do sprawdzenia, czy jakiekolwiek wartości brakowało w Pyspark Pandas DataFrame. Są reprezentowane przez NAN (nie liczbę); W Python możemy je stworzyć, używając żadnego.
Zobaczmy je jeden po drugim.
Pyspark.Pandy.Ramka danych.isna
ISNA służy do sprawdzenia, czy wartość jest zerowa. Jeśli jest zerowa, zwróci to prawdziwie w tej wartości. W przeciwnym razie zwraca fałsz. Nie wymaga żadnych parametrów.
Składnia
PYSPARK_PANDAS.isnaGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Możemy również sprawdzić w określonych kolumnach.
Składnia
PYSPARK_PANDAS.kolumna.isnaGdzie kolumna to nazwa kolumny.
Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą ISNA.
Wyjście
0 FałszWidzimy, że w drugim i trzecim rzędu - NAN jest dostępny, więc na tych pozycjach ISNA zwróciła prawdziwie. W innych przypadkach zwrócił fałsz.
Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą ISNA.
Wyjście
Student_lastname Mark1 Mark2 Mark3Widzimy, że isna powraca prawdziwie tam, gdzie istnieje nan.
Pyspark.Pandy.Ramka danych.Notna
Notna służy do sprawdzenia, czy wartość nie jest zerowa. Jeśli jest zerowa, zwróci fałsz w tej wartości. W przeciwnym razie powraca prawdziwie. Nie wymaga żadnych parametrów.
Składnia
PYSPARK_PANDAS.NotnaGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Możemy również sprawdzić w określonych kolumnach.
Składnia
PYSPARK_PANDAS.kolumna.NotnaGdzie kolumna to nazwa kolumny.
Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą notna.
Wyjście
0 TrueWidzimy, że w drugim i trzecim rzędzie - Nan nie jest dostępny, więc na tych pozycjach nie zwróciło fałszu. W innych przypadkach zwróciło to prawda.
Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą ISNA.
Wyjście
Student_lastname Mark1 Mark2 Mark3Widzimy, że Notna zwraca fałsz, gdziekolwiek istnieje Nan.
Pyspark.Pandy.Ramka danych.Nie jest zerem
notnull jest podobny do notna używanego do sprawdzenia, czy wartość nie jest zerowa. Jeśli jest zerowa, zwróci fałsz w tej wartości. W przeciwnym razie powraca prawdziwie. Nie wymaga żadnych parametrów.
Składnia
PYSPARK_PANDAS.Nie jest zeremGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Możemy również sprawdzić w określonych kolumnach.
Składnia
PYSPARK_PANDAS.kolumna.Nie jest zeremGdzie kolumna to nazwa kolumny.
Przykład 1
W tym przykładzie sprawdzimy wartości NAN w kolumnie Mark1 za pomocą NotNull.
Wyjście
0 TrueWidzimy, że w drugim i trzecim rzędzie - Nan nie jest dostępny, więc na tych pozycjach nie zwrócił fałszu. W innych przypadkach zwróciło to prawda.
Przykład 2
W tym przykładzie sprawdzimy wartości NAN w całym Pyspark Pandas DataFrame za pomocą NotNull.
Wyjście
Student_lastname Mark1 Mark2 Mark3Widzimy, że Notnull zwraca fałsz, gdziekolwiek istnieje Nan.
Wniosek
W tym samouczku Pyspark Pandas DataFrame widzieliśmy, jak sprawdzić wartości NAN w DataFrame. ISNA służy do zwracania prawdziwie, jeśli jest to NAN, a Notna i Notnull będą działać tak samo, zwracając prawdziwie, jeśli wartość nie jest nan.