Pandy wypełniają NAN 0

Larysa Witczak

Nauka danych zazwyczaj obejmuje brakujące dane. Albo cały wiersz można odrzucić, albo do kombinacji kolumny Row-Column można dodać wartość. Upuszczenie wiersza/kolumny byłoby absurdalne, ponieważ eliminuje określoną metrykę dla każdego wiersza. Nan, który oznacza „nie liczbę”, jest jednym z typowych sposobów pokazania wartości, której brakuje w zestawie danych. Aby uzyskać zamierzone wyniki, obsługa NAN jest dość ważna. Dowiedzmy się, jak zmienić wartości NAN w wierszu lub kolumnie pandas DataFrame na 0.

Metoda 1: Za pomocą Fillna ()

Wartości NA/NAN są wypełnione dostarczonym podejściem za pomocą funkcji „Fillna ()”. Można go wykorzystać, biorąc pod uwagę następującą składnię:

Jeśli chcesz wypełnić wartości NAN dla pojedynczej kolumny, składnia jest następująca:

Pandy.DataFrame_Obj ['kolumna'].Fillna (0)

Jeśli chcesz wypełnić wartości NAN w całej ramce danych, składnia jest następująca:

Pandy.DataFrame_Obj.Fillna (0)

Przykład 1: Pojedyncza kolumna

Utwórzmy ramkę danych o nazwie „Dokumenty” z dwiema kolumnami zawierającymi niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz wypełnijmy wartości NAN 0 w obu kolumnach, osobno.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
druk (dokumenty, „\ n”)
# Wypełnij NAN 0 w kolumnie rozmiaru.
Drukuj (dokumenty [„rozmiar”].Fillna (0), „\ n”)
# Wypełnij nan 0 w kolumnie kolorów.
Drukuj (dokumenty [„kolor”].Fillna (0))

Wyjście:

Rozmiar koloru
0 Czerwony Nan
1 niebieski 45.0
2 Nan 60.0
3 Nan 78.0
4 Nan Nan
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: rozmiar, Dtype: float64
0 czerwony
1 niebieski
2 0
3 0
4 0
Nazwa: kolor, Dtype: Obiekt

Wyjaśnienie:

Najpierw wypełniamy wartości NAN 0 w kolumnie „Rozmiar”. Następnie wypełniamy wartości NAN 0 w kolumnie „kolor”.

Przykład 2: Wiele kolumn

Wypełnijmy wartości NAN 0 w całej ramce danych.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wypełnij NAN 0 w całym danych danych
Drukuj (dokumenty.Fillna (0))

Wyjście:

Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0

Wyjaśnienie:

Najpierw wypełniamy wartości NAN 0 w całej ramce danych. Teraz w „dokumentach” nie ma żadnych wartości NAN.

Metoda 2: Za pomocą zastępowania ()

Aby zastąpić pojedynczą kolumnę wartości NAN, podana składnia jest następująca:

Musimy przekazać wartości NAN, które należy zastąpić 0 jako pierwszy parametr i 0 jako drugi parametr, który zastępuje wartości NAN:

Pandy.DataFrame_Obj ['kolumna'].Wymień (Numpy.Nan, 0)

Podczas gdy, aby zastąpić wartości NAN całej DataFrame, używamy następującej składni:

Pandy.DataFrame_Obj.Wymień (Numpy.Nan, 0)

Przykład 1: Pojedyncza kolumna

Utwórzmy ramkę danych o nazwie „Zamówienia” z trzema kolumnami, które zawierają niektóre wartości NAN. Tworzymy je za pomocą Numpy. Teraz zastąpmy wartości NAN 0 w kolumnach „Cena” i „Produkt”, osobno.

importować pandy
Importuj Numpy
# Rozważ ramkę danych
Zamówienia = pandy.DataFrame ('Product': [„One”, „Two”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Cena”: [Numpy.Nan, 45 60,78, Numpy.nan],
„Id”: [1,2,3,4,5])
Drukuj (zamówienia, „\ n”)
# Wymień NAN na 0 w kolumnie cenowej.
Drukuj (zamówienia [„cena”].Wymień (Numpy.nan, 0), „\ n”)
# Wymień NAN na 0 w kolumnie produktu.
Drukuj (zamówienia [„produkt”].Wymień (Numpy.nan, 0))

Wyjście:

Identyfikator ceny produktu
0 One Nan 1
1 dwa 45.0 2
2 Nan 60.0 3
3 Nan 78.0 4
4 nan nan 5
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nazwa: cena, Dtype: float64
0 jeden
1 dwa
2 0
3 0
4 0
Nazwa: Produkt, Dtype: Obiekt

Wyjaśnienie:

Istnieją trzy wartości w kolumnie „Cena” i dwie wartości w kolumnie „Produkt”. Najpierw zastępujemy wartości NAN 0 w kolumnie „Cena”. Następnie zastępujemy wartości NAN 0 w kolumnie „produkt”.

Przykład 2: Wiele kolumn

importować pandy
Importuj Numpy
# Rozważ ramkę danych
dokumenty = pandy.DataFrame („Color”: [„czerwony”, „niebieski”, Numpy.Nan, Numpy.Nan, Numpy.nan],
„Rozmiar”: [Numpy.Nan, 45 60,78, Numpy.nan])
# Wymień NAN na 0 w całej ramce danych
Drukuj (dokumenty.Wymień (Numpy.nan, 0), „\ n”)

Wyjście:

Rozmiar koloru
0 czerwony 0.0
1 niebieski 45.0
2 0 60.0
3 0 78.0
4 0 0.0

Istnieje pięć wartości NAN w „Zamówienia” DataFrame. Następnie zastępujemy wartości NAN 0.

Wniosek

Radzenie sobie z brakującymi wpisami w ramce danych jest fundamentalnym i niezbędnym wymogiem w celu zmniejszenia złożoności i wyzywającego obsługi danych w procesie analizy danych. Pandy zapewnia nam kilka opcji radzenia sobie z tym problemem. W tym przewodniku wprowadziliśmy dwie poręczne strategie.

Pyton

Python Count Występy na liście

Aby policzyć zdarzenia na liście w Python, zastosuj metodę „count ()”, klasę „licznika”, moduł „oper...

Pani Alicja Szafrański

Pyton

Python znajduje indeks wszystkich zdarzeń na liście

Funkcję „dla” pętli, „enumerate ()”, metoda „indeks ()” lub funkcja „defaultdict ()” może być użyta ...

Pani Żaneta Pakuła

Pyton

Etykiety osi morskiej

„Osie.Funkcje funkcji biblioteki MATPlotlib lub funkcje „set_xlabel ()” i „set_ylabel ()” można użyć...

Pani Julia Szwed