Pandy Drop na

Pandy Drop na
Pandy, biblioteka open source dla Pythona, jest bez wątpienia najpopularniejszym zestawem narzędzi do badań i oceny danych. Jest to również dobry wybór dla zadań transformacji danych ad hoc. Ze względu na wyjątkowo elastyczną reprezentację danych z wykorzystaniem ram danych i mnóstwo metod dostępnych do modyfikowania danych przechowywanych w tych ramach danych. Wszelkie rzeczywiste problemy z danymi mogą spowodować brakujące dane i te zestawy danych muszą być poprawnie obsługiwane. Dane mogą brakować z wielu powodów. To nie jest niczym niezwykłym w przypadku poważnie pomieszanych danych. Zrozumienie, jak radzić sobie z brakującymi wartościami, jest istotną kompetencją dla każdego specjalisty danych. W tym samouczku dowiesz się, jak radzić sobie z wartościami zerowymi za pomocą pandy „DataFrame.metoda dropna () ”.

Metoda pandas dropna ()

W Pandas DataFrame może być konieczne usunięcie wierszy o wartości NAN. Na szczęście byłoby to łatwe do osiągnięcia za pomocą metody „Dropna ()” Pandy. Składnia do zastosowania metody „dropna ()” jest następująca:

Pierwszym parametrem jest „oś”. W przypadku kolumn i wierszy „oś” akceptuje wartości IN lub String. Wejścia liczb całkowitych mogą wynosić 1 lub 0, a wejścia ciągów mogą być „kolumnami” lub „indeksami”. Parametr "Jak" Akceptuje tylko wartości ciągu dwóch typów (albo „dowolne” lub „all”). „Any” usuwa wiersz/kolumnę, jeśli jakaś wartość jest zerowa i „Wszystko” usuwa wiersz/kolumnę, gdy wszystkie wpisy są zerowe. "młócić w coś" akceptuje wartość liczb całkowitą, która określa minimalną liczbę wpisów NA do upuszczenia. „Podgód” to tablica, która ogranicza operację upuszczania do wierszy/kolumn podanych przez listę. Ostatni parametr "w miejscu" jest booleanem, który, jeśli jest prawdziwy, modyfikuje samą ramkę danych.

Przykład nr 1: Wykorzystanie metody pand drewna () do upuszczania wierszy z dowolnymi wartościami zerowymi

W tej ilustracji zobaczymy, jak upuścić wszelkie wartości zerowe w rzędach ramki danych, wykorzystując metodę pand „Dropna ()”.

Uruchomiliśmy narzędzie „Spyder” i rozpoczęliśmy program. W pliku Python importujemy dwie wymagane biblioteki. Pierwszym zestawem narzędzi, który ładujemy do pliku, jest pandy jako „PD”, a drugi pakiet to biblioteka Numpy jako „NP”. Teraz alitujemy obie te biblioteki i możemy uzyskać do nich dostęp, używając tych skrótów. Biblioteka Panda jest importowana, aby móc korzystać z metod Panandas, podczas gdy biblioteka Numpy pomoże poradzić sobie z wartościami NAN w DataFrame.

Musimy utworzyć ramkę danych z niektórymi wartościami zerowymi. W tym celu Pandy zapewnia nam metodę „PD.Ramka danych()". Wzywamy tę metodę, aby utworzyć ramkę danych z czterema kolumnami „First”, „Second”, „trzeci” i „czwarty”. Kolumna „Pierwsza” ma te wartości „NP.Nan ”,„ 98 ”,„ 66 ”,„ NP.Nan ”,„ 14 ”,„ 30 ”,„ 26 ”,„ 79 ”i„ 11 ”. Kolumna „druga” przechowuje wartości „NP.Nan ”,„ 29 ”,„ 14 ”,„ 16 ”,„ 27 ”,„ 10 ”,„ 32 ”,„ 19 ”i„ 21 ”. Kolumna „trzecia” utrzymuje wartości, które to „10”, „45”, „7”, „13”, „5”, „7”, „8”, „9” i „18”. Ostatnia kolumna „czwarta” ma wpisy „16”, „7”, „10”, „NP.Nan ”,„ 6 ”,„ 7 ”,„ 9 ”,„ 20 ”i„ 30 ”. Wszystkie kolumny zawierają dziewięć wpisów.

Konstruujemy obiekt DataFrame „Counter” i przypisujemy mu wynik wywoływania „PD.Funkcja dataFrame () ”. Tak więc, ramka danych jest przechowywana w zmiennej „licznika”. Wyświetlamy ramkę danych na konsoli Python, stosując metodę Pythona „print ()”.

Aby wykonać program, narzędzia do narzędzia Spyder narzędzi. Powstała ramka danych wyświetlana na terminalu pokazuje nam, że kolumna „Pierwsza” ma dwie wartości NAN, kolumna „druga” i „czwarta” ma jedną wartość nan, podczas gdy kolumna „trzecia” nie ma żadnych wartości nan.

Teraz uczymy się techniki upuszczenia wierszy z wartościami NAN w ramce danych za pomocą pand „DataFrame.metoda dropna () ”.

Nazywamy metodę pandas „Dropna ()” z nazwą „licznika” DataFrame „Counter”. Tutaj przekazujemy dwa parametry do tej funkcji „Oś” i „How”. Wartości parametru „Oś” są ustawione na „0”, co wskazuje wiersze, podczas gdy „jak” jest określone w wartościach „dowolne”, ponieważ chcemy upuścić wiersze, które mają w sobie jakąkolwiek wartość nan. Zmienna „brakuje” do przechowywania wyjścia metody „Dropna ()”. Na koniec wywołujemy metodę „print ()” do wykazania zawartości zmiennej „brakującej”.

Tutaj mamy wynikowy ramkę danych. W tym ramie danych możemy zauważyć, że rzędy zawierające wartości zerowe są odrzucane z ramki danych. Rzędy z indeksami 0 i 3 są upuszczane, ponieważ mają one wartości nan.

Możemy również sprawdzić rozmiar ramki danych za pomocą metody „len ()”. Wzywamy metodę „print ()” i podajemy funkcję „len ()” jako jej parametr. W pierwszej funkcji „len ()” znaleźliśmy rozmiar „licznika” danych i w następnej funkcji „len ()” długość „brakująca” jest obliczana. Następnie na koniec odjęliśmy oba długości, aby znaleźć liczbę wierszy o wartości zerowej.

Tutaj widzimy, że stary „licznik” danych miał 9 wierszy, podczas gdy nowy „brak” danych ma 7 wierszy. A liczba wierszy o wartości zerowej wynosi 2.

Przykład nr 2: Wykorzystanie metody pand drewna () do upuszczania wierszy z wartościami zerowymi poniżej określonego progu

W tym przypadku wykorzystaliśmy ramkę danych utworzoną w poprzednim przykładzie. Korzystamy z innej właściwości dostarczonej przez funkcję „Dropna ()”.

Wzywamy „DataFrame.metoda dropna () ”. Jak stwierdza składnia, nazwa DataFrame jest dostarczana do funkcji „Dropna ()” jako „licznik.Dropna () ”. Parametry, których tu używamy, to „oś” i „thresh”. Ustawiamy „oś” na „0” dla upuszczenia rzędu, a „Thresh” jest ustawiony na „4”, co oznacza, że ​​funkcja „Dropna ()” sprawdzi wiersze, w których jest liczba wartości nie-zerowych Mniej niż 4. W dowolnym wierszu ma liczbę wartości nie-null poniżej czterech, upuści je. Przechowujemy dane wyjściowe w zmiennej „brakującej” i po prostu wyświetlamy ją za pomocą metody „print ()”.

Na obrazie wyjściowym pokazano ramkę danych. Tutaj wiersz 0 i wiersz 3 są odrzucane, ponieważ miały one liczbę wartości nie-zerowych poniżej 4.

Przykład nr 3: Wykorzystanie metody pandas dropna () do upuszczania wierszy z wartościami zerowymi dla określonej kolumny

Korzystając z ramki danych z pierwszej ilustracji, wywołujemy metodę „Dropna ()”. Tym razem wykorzystujemy go do upuszczania wierszy w określonej kolumnie. Aby wyeliminować wiersze z wartościami zerowymi w określonej kolumnie, mamy parametr „podzbiór” funkcji „Dropna ()”. Właściwość „podzbioru” przekazuje dostarczoną kolumnę lub wiersz jako listę do metody „Dropna ()”. Tutaj wybraliśmy kolumnę „drugą” dla tego parametru. Następnie po prostu pokazujemy nową ramkę danych na konsoli.

Kolumna „druga” ma pierwszy wiersz zawierający wartość NAN, więc jest odrzucany w nowej ramce danych.

Wniosek

Praca w ramach danych i napotkanie problemu znalezienia brakujących wartości sprawia, że ​​wszystko jest nieuporządkowane. Radzenie sobie z tymi brakującymi wartościami to podstawowa umiejętność uczenia się. Ilekroć utknęliśmy w takim wyzwaniu, jaką wchodzą pandy. Pandy dostarczają nam funkcji „DataFrame.Dropna () ”, aby poradzić sobie z tymi zerowymi wpisami. Ten samouczek wykazał składnię tej funkcji ze wszystkimi jej parametrami. Przeprowadziliśmy praktyczną implementację przykładowych kodów Pythona do upuszczenia wartości zerowych za pomocą metody „Dropna ()” z różnymi argumentami.