Brakujące wartości mogą być problematyczne w niektórych okolicznościach. Zatem czasami musimy określić obiekty o wartościach nieudanych. Jedną metodą lokalizowania kolumn z dużą ilością brakujących danych jest użycie metody Pandas Count.
Funkcja pandas () jest metodą obliczania liczby komórek nie-NA w każdym segmencie lub kolumnie. Ponadto istotna jest również praca z danymi nie zawierającymi. W przypadku zestawów danych ogromna umiejętność jest zdolność do przedstawiania wyników, co zrozumiałe. Korzystanie z wykresu opartego na osi jest powszechnym sposobem wyświetlania danych. Python Function Count () zwraca liczbę razy, gdy podłoże pojawia się w ciągu i liczba wartości w kolumnach lub rzędach ramki danych. W ten sposób omówimy, jak wykorzystać funkcję liczby w ramach danych w tej części.
Składnia dla funkcji pand ()
Metoda liczby ma stosunkowo prostą składnię; Istnieje jednak kilka różnych podejść do wykorzystania i niektóre opcje, które mogą zmienić sposób, w jaki działa. Musisz tylko określić nazwę DataFrame, a następnie „.count () ”, aby wywołać funkcję zliczania dla danych danych. Zatem zakładając, że Twoja strumienia danych nazywa się „DataFrame”, możesz użyć skryptu „DataFrame.count () ”, aby określić ilość wpisów nie przemykających dla wszystkich kolumn. W nawiasach możesz również wykorzystać kilka opcjonalnych argumentów, które wyjaśnimy trochę.
Tutaj „poziom” oznacza różne indeksowanie osi, a jeśli oś jest hierarchiczna, metoda liczby () danych danych ostatecznie zawiesza się i przestaje odpowiadać na wywołania programu, pozostawiając wiszące program. Termin „numeryczny” odnosi się do kompatybilności programu z danymi liczbowymi, w tym wartości liczb całkowitych, pływakowych i logicznych. Ponieważ musi zawsze powrócić do ramki danych, gdy poziom jest dostarczany, przyjmuje wartość fałszywą jako domyślną. Ocena programu i kolumn znajduje się w „osi”. Metoda Count () wykorzystuje argument osi do określania określonych kolumn i wierszy, aby wziąć pod uwagę, ilekroć wynik ma być wytworzony przez aplikację za pomocą pandy.
Po zbadaniu składni, spójrzmy na niektóre demonstracje podejścia do liczby pandy w praktyce. Zbadamy kilka przypadków sposobów zliczenia wartości w ramce danych, zliczanie wpisów w określonej kolumnie i niektórych dalszych aplikacjach.
Przykład 1: Policz liczbę rekordów we wszystkich kolumnach ramki danych przy użyciu metody pandas crowin ()
Będziesz zobowiązany do wykonania jakiegoś kodu przygotowawczego, zanim będziesz mógł skompilować wszystkie instancje. Musimy zaimportować odpowiednie biblioteki, a następnie załadować/utworzyć ramkę danych.
Najpierw importujemy bibliotekę Numpy jako NP i Pandas Library i podajemy jej nazwę PD w poprzednim programie. Możemy teraz zacząć budować naszą podstawową ramkę danych, ponieważ uzyskujemy dostęp do biblioteki PandaS.
Począwszy od głównego kodu, możesz zobaczyć, że użyliśmy NP.Nan nieruchomość i uczyniła ją równą NAN. Akronim NAN, który odnosi się do „nie liczby”, oznacza liczby, które nie są podane. Dodatkowo brakujące wpisy w zestawie danych są reprezentowane za pomocą go.
Teraz skonstruujemy ramkę danych z niektórymi wartościami zerowymi za pomocą funkcji Pandas DataFrame. Kod tutaj utworzył zmienną o nazwie „DF” i wynik wywoływania PD.Funkcja dataFrame () jest następnie przypisywana do tej utworzonej zmiennej. Wewnątrz nawiasów PD.Funkcja dataFrame (), wykorzystaliśmy klastrowe aparaty ortodontyczne i piszliśmy nazwy kolumn, które chcemy mieć w danych danych. Stworzyliśmy cztery kolumny: nazwa, chemia, angielski i nauka. Następnie przypisaliśmy wszystkie kolumny o różnych wartościach. Musimy zachować wszystkie kolumny tego samego rozmiaru. Funkcja drukowania jest wywoływana w celu wydrukowania ramki danych.
Wyjście pokazuje następującą ramkę danych:
Teraz, dla każdej kolumny w naszej ramce danych, obliczymy ilość rekordów nieerystycznych. Funkcja Count () dlaFrame jest stosowana w ten sposób w najprostszym podejściu.
W takim przypadku stosujemy hrabia () tutaj na ogólnej formie danych „DF”. Aby to osiągnąć, wprowadziliśmy nazwę DataFrame „DF”, a następnie .Funkcja count ().
Kiedy wykonamy poprzedni kod, da nam to wynik pokazany na następujący obraz:
W wyniku można uzyskać całkowitą ilość wpisów nie przetaczających się.
Nasza strumienia danych obejmuje w sumie sześć rzędów. Możesz zauważyć, że zmienna „nazwa” ma w tym przypadku sześć wartości. W tej zmiennej nie ma pustych przestrzeni. Jednak określone wartości zawierają mniej niż sześć. Na przykład nauka ma cztery nieudane wpisy, podczas gdy chemia ma pięć. W tym przypadku stosuje ustawienia domyślne do parametru.
Posiadanie tej wiedzy może być pomocne podczas czyszczenia danych. Opracowanie algorytmu uczenia maszynowego może być również korzystne, ponieważ określone kategorie modeli nie zaakceptuje brakujących danych.
Przykład 2: Policz liczbę rekordów we wszystkich rzędach ramki danych przy użyciu metody pandas hrabia ()
Teraz ustalmy, ile wpisów nieudanych jest w rzędach określonej ramki danych.
Metoda Count () jest ogólnie stosowana do wyliczenia wpisów kolumnowych nieudanych. Mogą jednak być sytuacje, w których zamiast tego powinieneś spojrzeć na wiersze. Aby to osiągnąć, wykorzystamy właściwość Axis.
Po konstrukcji Frame, DF.hrabia () Metoda oblicza liczbę wartości w każdym rzędzie podczas ignorowania wszelkich wpisów zerowych lub nan. Rzędy są reprezentowane przez oś = 1. Stąd instruujemy kod, aby podsumował tylko wpisy w wierszach danych danych.
W rezultacie program ten uwzględnia metodę Count (), wyświetla wiersz DataFrame, jak wyświetlono na zrzucie ekranu poniżej, a następnie zapętla się z powrotem do funkcji panda.
Przeanalizowaliśmy dane, więc wiemy, że cztery kolumny są w naszym DataFrame. Zatem w pełni zaludniony rząd powinien mieć cztery wartości nie przemykające. Możesz jednak zauważyć, że niektóre rzędy mają trzy lub dwa dane niezgodne. Istnieją cztery wpisy w pierwszym, drugim i ostatnim rzędzie. Wskazuje to, że w niektórych wierszach brakuje danych. To może być w porządku, ale może nie, w zależności od twoich działań.
Ustawienie osi = „kolumny” zamiast tego osiągnie ten sam wynik. Ponieważ oś = 1 i osi = „kolumny” są równoważne, ilość danych nie przemykających dla wierszy jest dostarczana podczas wyboru axis = „kolumny."
Przyniesie to taki sam wynik, jak ten wcześniej pokazany.
Jednak bardzo zalecamy użycie tej alternatywnej składni i zamiast tego używamy osi = 1, ponieważ chwytanie i ledwo ma sens, jeśli znasz osie.
Wniosek
W tym artykule nauczyliśmy się, jak liczyć wartości w Pandy DataFrame. Pandas DataFrame.Metoda Count () pomaga w naszej analizie liczb w Python DataFrame. Najpierw utworzyliśmy ramkę danych przy użyciu funkcji Pandas DataFrame, a następnie zastosowaliśmy do niej metodę liczby osób. Następnie wyjaśniliśmy, licząc dane w kolumnach i wierszach. Mamy nadzieję, że ten artykuł zwiększy twoją wiedzę.