Pandy wypełniają NAN 0

Pandy wypełniają NAN 0

Nauka danych zazwyczaj obejmuje brakujące dane. Albo cały wiersz można odrzucić, albo do kombinacji kolumny Row-Column można dodać wartość. Upuszczenie wiersza/kolumny byłoby absurdalne, ponieważ eliminuje określoną metrykę dla każdego wiersza. Nan, który oznacza „nie liczbę”, jest jednym z typowych sposobów pokazania wartości, której brakuje w zestawie danych. Aby uzyskać zamierzone wyniki, obsługa NAN jest dość ważna. Dowiedzmy się, jak zmienić wartości NAN w wierszu lub kolumnie pandas DataFrame na 0.

Metoda 1: Za pomocą Fillna ()

Wartości NA/NAN są wypełnione dostarczonym podejściem za pomocą funkcji „Fillna ()”. Można go wykorzystać, biorąc pod uwagę następującą składnię:

Jeśli chcesz wypełnić wartości NAN dla pojedynczej kolumny, składnia jest następująca:

Pandy.DataFrame_Obj ['kolumna'].Fillna (0)


Jeśli chcesz wypełnić wartości NAN w całej ramce danych, składnia jest następująca:

Pandy.DataFrame_Obj.Fillna (0)


Przykład 1: Pojedyncza kolumna

Utwórzmy ramkę danych o nazwie „Dokumenty” z dwiema kolumnami zawierającymi niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz wypełnijmy wartości NAN 0 w obu kolumnach, osobno.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
druk (dokumenty, „\ n”)
# Wypełnij NAN 0 w kolumnie rozmiaru.
Drukuj (dokumenty [„rozmiar”].Fillna (0), „\ n”)
# Wypełnij nan 0 w kolumnie kolorów.
Drukuj (dokumenty [„kolor”].Fillna (0))


Wyjście:

Rozmiar koloru
0 Czerwony Nan
1 niebieski 45.0
2 Nan ​​60.0
3 Nan 78.0
4 Nan Nan
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: rozmiar, Dtype: float64
0 czerwony
1 niebieski
2 0
3 0
4 0
Nazwa: kolor, Dtype: Obiekt


Wyjaśnienie:

Najpierw wypełniamy wartości NAN 0 w kolumnie „Rozmiar”. Następnie wypełniamy wartości NAN 0 w kolumnie „kolor”.

Przykład 2: Wiele kolumn

Wypełnijmy wartości NAN 0 w całej ramce danych.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wypełnij NAN 0 w całym danych danych
Drukuj (dokumenty.Fillna (0))


Wyjście:

Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0


Wyjaśnienie:

Najpierw wypełniamy wartości NAN 0 w całej ramce danych. Teraz w „dokumentach” nie ma żadnych wartości NAN.

Metoda 2: Za pomocą zastępowania ()

Aby zastąpić pojedynczą kolumnę wartości NAN, podana składnia jest następująca:

Musimy przekazać wartości NAN, które należy zastąpić 0 jako pierwszy parametr i 0 jako drugi parametr, który zastępuje wartości NAN:

Pandy.DataFrame_Obj ['kolumna'].Wymień (Numpy.Nan, 0)


Podczas gdy, aby zastąpić wartości NAN całej DataFrame, używamy następującej składni:

Pandy.DataFrame_Obj.Wymień (Numpy.Nan, 0)


Przykład 1: Pojedyncza kolumna

Utwórzmy ramkę danych o nazwie „Zamówienia” z trzema kolumnami, które zawierają niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz zastąpmy wartości NAN 0 w kolumnach „Cena” i „Produkt”, osobno.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
Zamówienia = pandy.DataFrame ('Product': [„One”, „Two”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Cena”: [Numpy.Nan, 45 60,78, Numpy.nan],
„Id”: [1,2,3,4,5])
Drukuj (zamówienia, „\ n”)
# Wymień NAN na 0 w kolumnie cenowej.
Drukuj (zamówienia [„cena”].Wymień (Numpy.nan, 0), „\ n”)
# Wymień NAN na 0 w kolumnie produktu.
Drukuj (zamówienia [„produkt”].Wymień (Numpy.nan, 0))


Wyjście:

Identyfikator ceny produktu
0 One Nan 1
1 dwa 45.0 2
2 Nan ​​60.0 3
3 Nan 78.0 4
4 nan nan 5
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: cena, Dtype: float64
0 jeden
1 dwa
2 0
3 0
4 0
Nazwa: Produkt, Dtype: Obiekt


Wyjaśnienie:

Istnieją trzy wartości w kolumnie „Cena” i dwie wartości w kolumnie „Produkt”. Najpierw zastępujemy wartości NAN 0 w kolumnie „Cena”. Następnie zastępujemy wartości NAN 0 w kolumnie „produkt”.

Przykład 2: Wiele kolumn

Utwórzmy ramkę danych o nazwie „Zamówienia” z trzema kolumnami, które zawierają niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz zastąpmy wartości NAN 0 w kolumnach „Cena” i „Produkt”, osobno.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wymień NAN na 0 w całej ramce danych
Drukuj (dokumenty.Wymień (Numpy.nan, 0), „\ n”)


Wyjście:

Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0


Istnieje pięć wartości NAN w „Zamówienia” DataFrame. Następnie zastępujemy wartości NAN 0.

Wniosek

Radzenie sobie z brakującymi wpisami w ramce danych jest fundamentalnym i niezbędnym wymogiem w celu zmniejszenia złożoności i wyzywającego obsługi danych w procesie analizy danych. Pandy zapewnia nam kilka opcji radzenia sobie z tym problemem. W tym przewodniku wprowadziliśmy dwie poręczne strategie.