Nauka danych zazwyczaj obejmuje brakujące dane. Albo cały wiersz można odrzucić, albo do kombinacji kolumny Row-Column można dodać wartość. Upuszczenie wiersza/kolumny byłoby absurdalne, ponieważ eliminuje określoną metrykę dla każdego wiersza. Nan, który oznacza „nie liczbę”, jest jednym z typowych sposobów pokazania wartości, której brakuje w zestawie danych. Aby uzyskać zamierzone wyniki, obsługa NAN jest dość ważna. Dowiedzmy się, jak zmienić wartości NAN w wierszu lub kolumnie pandas DataFrame na 0.
Metoda 1: Za pomocą Fillna ()
Wartości NA/NAN są wypełnione dostarczonym podejściem za pomocą funkcji „Fillna ()”. Można go wykorzystać, biorąc pod uwagę następującą składnię:
Jeśli chcesz wypełnić wartości NAN dla pojedynczej kolumny, składnia jest następująca:
Pandy.DataFrame_Obj ['kolumna'].Fillna (0)
Jeśli chcesz wypełnić wartości NAN w całej ramce danych, składnia jest następująca:
Pandy.DataFrame_Obj.Fillna (0)
Przykład 1: Pojedyncza kolumna
Utwórzmy ramkę danych o nazwie „Dokumenty” z dwiema kolumnami zawierającymi niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz wypełnijmy wartości NAN 0 w obu kolumnach, osobno.
importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
druk (dokumenty, „\ n”)
# Wypełnij NAN 0 w kolumnie rozmiaru.
Drukuj (dokumenty [„rozmiar”].Fillna (0), „\ n”)
# Wypełnij nan 0 w kolumnie kolorów.
Drukuj (dokumenty [„kolor”].Fillna (0))
Wyjście:
Rozmiar koloru
0 Czerwony Nan
1 niebieski 45.0
2 Nan 60.0
3 Nan 78.0
4 Nan Nan
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: rozmiar, Dtype: float64
0 czerwony
1 niebieski
2 0
3 0
4 0
Nazwa: kolor, Dtype: Obiekt
Wyjaśnienie:
Najpierw wypełniamy wartości NAN 0 w kolumnie „Rozmiar”. Następnie wypełniamy wartości NAN 0 w kolumnie „kolor”.
Przykład 2: Wiele kolumn
Wypełnijmy wartości NAN 0 w całej ramce danych.
importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wypełnij NAN 0 w całym danych danych
Drukuj (dokumenty.Fillna (0))
Wyjście:
Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0
Wyjaśnienie:
Najpierw wypełniamy wartości NAN 0 w całej ramce danych. Teraz w „dokumentach” nie ma żadnych wartości NAN.
Metoda 2: Za pomocą zastępowania ()
Aby zastąpić pojedynczą kolumnę wartości NAN, podana składnia jest następująca:
Musimy przekazać wartości NAN, które należy zastąpić 0 jako pierwszy parametr i 0 jako drugi parametr, który zastępuje wartości NAN:
Pandy.DataFrame_Obj ['kolumna'].Wymień (Numpy.Nan, 0)
Podczas gdy, aby zastąpić wartości NAN całej DataFrame, używamy następującej składni:
Pandy.DataFrame_Obj.Wymień (Numpy.Nan, 0)
Przykład 1: Pojedyncza kolumna
Utwórzmy ramkę danych o nazwie „Zamówienia” z trzema kolumnami, które zawierają niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz zastąpmy wartości NAN 0 w kolumnach „Cena” i „Produkt”, osobno.
importować pandy
Importuj Numpy
# Rozważ ramkę danych
Zamówienia = pandy.DataFrame ('Product': [„One”, „Two”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Cena”: [Numpy.Nan, 45 60,78, Numpy.nan],
„Id”: [1,2,3,4,5])
Drukuj (zamówienia, „\ n”)
# Wymień NAN na 0 w kolumnie cenowej.
Drukuj (zamówienia [„cena”].Wymień (Numpy.nan, 0), „\ n”)
# Wymień NAN na 0 w kolumnie produktu.
Drukuj (zamówienia [„produkt”].Wymień (Numpy.nan, 0))
Wyjście:
Identyfikator ceny produktu
0 One Nan 1
1 dwa 45.0 2
2 Nan 60.0 3
3 Nan 78.0 4
4 nan nan 5
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: cena, Dtype: float64
0 jeden
1 dwa
2 0
3 0
4 0
Nazwa: Produkt, Dtype: Obiekt
Wyjaśnienie:
Istnieją trzy wartości w kolumnie „Cena” i dwie wartości w kolumnie „Produkt”. Najpierw zastępujemy wartości NAN 0 w kolumnie „Cena”. Następnie zastępujemy wartości NAN 0 w kolumnie „produkt”.
Przykład 2: Wiele kolumn
Utwórzmy ramkę danych o nazwie „Zamówienia” z trzema kolumnami, które zawierają niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz zastąpmy wartości NAN 0 w kolumnach „Cena” i „Produkt”, osobno.
importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wymień NAN na 0 w całej ramce danych
Drukuj (dokumenty.Wymień (Numpy.nan, 0), „\ n”)
Wyjście:
Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0
Istnieje pięć wartości NAN w „Zamówienia” DataFrame. Następnie zastępujemy wartości NAN 0.
Wniosek
Radzenie sobie z brakującymi wpisami w ramce danych jest fundamentalnym i niezbędnym wymogiem w celu zmniejszenia złożoności i wyzywającego obsługi danych w procesie analizy danych. Pandy zapewnia nam kilka opcji radzenia sobie z tym problemem. W tym przewodniku wprowadziliśmy dwie poręczne strategie.