Pandas zlicz rzędy ze stanem

Pandas zlicz rzędy ze stanem
Pandy należą do najczęściej przyjętych narzędzi do nauki danych i uczenia maszynowego do czyszczenia i przetwarzania danych. Konieczne może być uzyskanie kilku wierszy obecnych w ramce danych przy jednoczesnym wykorzystaniu Pandas DataFrame do przechowywania i analizy danych. W przypadku procesu obsługi danych możesz wymagać szybkiego zliczenia wystąpienia tych samych lub różnych wpisów w całym zestawie danych lub w określonych wierszach, które spełniają dowolny warunek.

Pandy pozwala nam określić kształt ramki danych, zliczając liczbę wierszy, a także kolumny w ramce danych. Możesz zastosować różnorodne metody zrozumienia koncepcji, aby policzyć liczbę wierszy i kolumn w pandach. Należą do nich „len ()”, „df.kształt [0] ”,„ DF [DF.kolumny [0]].hrabia () ”,„ DF.count () ”i„ DF.Metody size () ”. Najszybszym z tych metod jest Len (), na które spojrzymy w tym samouczku.

Zacznijmy się uczyć, praktycznie wdrażając przykładowe kody.

Wykorzystując metodę panda len ()

Technika, którą wdrożymy w tej ilustracji, jest metoda „len ()”. Zbadajmy, jak to działa.

Wszystkie przykładowe kody, których będziemy używać w tym samouczku, są wdrażane i wykonywane w Python za pomocą narzędzia „Spyder”. Pierwszym zadaniem jest zainstalowanie i uruchomienie narzędzia „Spyder” na komputerze komputerowym lub laptopa. Po zakończeniu procesu instalacji otwieramy narzędzie i otwieramy nowy plik, który ma „.rozszerzenie py ”. Tutaj „Py” reprezentuje „Python”. Zanim zaczniemy pisać kod, musimy dodać pewne warunki wstępne. Jak tytuł naszego artykułu krótko mówi nam, że jakiekolwiek techniki, których będziemy używać, musi być obsługiwana przez bibliotekę „Pandy”.

Dlatego musimy dodać bibliotekę pandy, pisząc skrypt „Importuj pandy jako PD”. Teraz zaimportowaliśmy bibliotekę pandy i oświadczyliśmy, że do pand można teraz uzyskać, pisząc „PD” zamiast pełnej formy „Pandy” w całym programie. Idąc naprzód, tworzymy pandas DataFrame, w której ćwiczymy wybraną technikę pandas. Do budowy ramki, pandy zapewniają nam bardzo prostą i przydatną metodę „PD.DataFrame () ”, gdzie„ PD ”odnosi się do„ pandy ”i„ dataframe ”to słowo kluczowe używane do tworzenia dataframe.

Zastosowaliśmy tę metodę w naszym skrypcie. Pomiędzy jego nawiasami zainicjowaliśmy trzy kolumny. Nasz tytuł pierwszej kolumny to „grupa”, która przechowuje osiem wartości ciągów, które to „x”, „x”, „x”, „x”, „y”, „y”, „y” i „y”. Druga kolumna w ramce danych to „POS”, która również przechowuje 8 wartości. Wartości te to „au”, „bo”, „bo”, „bo”, „au”, „au” i „bu”. Ostatnia kolumna tutaj to „wyniki” i zawiera osiem wartości całkowitej, i.mi. „19”, „23”, „18”, „15”, „15”, „12”, „21” i „28”. Kiedy generujemy ramkę danych, musimy również utworzyć zmienną lub obiekt DataFrame, aby przechowywać tę ramkę danych.

Tutaj zmienną, którą stworzyliśmy dla wspomnianego celu, to „RES”. Następnie przypisujemy tę funkcję do wyjścia wygenerowanego z wywoływania „PD.Metoda dataFrame () ”. Teraz, aby zobaczyć tę ramkę danych, utworzyliśmy na terminalu, którego użyliśmy funkcji „print ()”, która wyświetla wyjście. Wykonajmy ten skrypt Python:

Aby uzyskać wyświetlenie wyjścia na terminalu, kliknij przycisk „Uruchom plik” na narzędziu „Spyder”. Oto nasza początkowa ramka danych:

Wykorzystanie metody len () z jednym warunkami

Teraz musimy policzyć wiersze określonej kolumny w ramce danych, które spełniają dostarczone warunki. Najpierw zastosujemy warunek na jednej kolumnie, aby pobrać liczbę wierszy pasujących do stanu. Następnie stosujemy go do wielu kolumn DataFrame. Do obu technik wykorzystaliśmy metodę pandy „len ()”. Składnia tej metody zastosowania warunków na jednej kolumnie jest podana następująco:

Zgodnie z składnią wywołaliśmy metodę „len ()”, która liczy liczbę wierszy. W jego klamrach określiliśmy warunek o nazwie DataFrame i nazwie kolumny DataFrame. Wybraliśmy kolumnę „grupy” z naszego DataFrame i określiliśmy dla niej warunek. Warunek mówi, aby sprawdzić, czy jakakolwiek wartość kolumny „grupy” jest równa „x”. Ilekroć warunek jest dopasowany, metoda „len ()” liczy zawiernik, który go zawiera.

Teraz, aby przechowywać tę zliczoną wartość wierszy, które spełniły warunek, stworzyliśmy zmienną „liczbę”. Wykorzystaliśmy metodę „print ()” do wyświetlania tekstu na terminalu przed zliczonymi wierszami. Aby zobaczyć dane wyjściowe wyświetlanych zliczonych wierszy, ponownie zastosowaliśmy funkcję „print ()” i dostarczyliśmy zmienną „liczba” jako parametru.

Mamy zarówno naszą ramkę danych, jak i zliczone wiersze, które pasowały do ​​warunków wyświetlanych na terminalu. Możemy zauważyć, że DataFrame ma rzędy „4”, które pasują do warunku. Możesz go również zweryfikować, porównując go z poprzednią ramką danych. Kolumna „grupy” ma 4 wartości „x”, więc jest obliczana metodą panda „len ()”.

Wykorzystując metodę LEN () z wieloma warunkami

Policiliśmy liczbę wierszy z warunkami dla pojedynczej kolumny w poprzednim przykładzie. Teraz nauczymy się, jak liczyć wiersze dla dwóch kolumn. Poniższa składnia to:

Wyjaśniając tę ​​składnię, funkcja „len ()” jest wywoływana, aby policzyć liczbę wierszy spełniających warunki. Następnie wspomnieliśmy o nazwie DataFrame, której wiersze chcemy policzyć. Teraz nazwa pierwszej kolumny z konkretnym warunkiem, a następnie nazwa drugiej kolumny DataFrame z określonym warunkiem. Między tymi obiema warunkami jest operator „i”. Ten operator nazywa się operatorem „i”. Jeśli chodzi o dwa stwierdzenia warunkowe, oznacza to, że wiersze zostaną policzone tylko wtedy, gdy oba warunki zostaną spełnione.

Na naszej ilustracji wybraliśmy kolumnę „grupy” i kolumnę „POS”. Zastosowaliśmy warunki do obu tych kolumn. Warunek w kolumnie „grupy” sprawdza wartości w tej konkretnej kolumnie, które są równe „Y”. Natomiast warunek „POS” sprawdza wartości równe „BO”. Operator „&” sprawdza wartości z wyjścia obu wartości i weryfikuje warunek. Potrzebujemy więc liczby wierszy, które mają wartość „grupową” „x” i „POS” równe „BO”.

Stworzyliśmy kolejną zmienną „Cal”. Gdy warunki są sprawdzane, funkcja „len ()” zlicza liczbę wierszy i przechowuje ją w zmiennej „wynik”. Na koniec zastosowaliśmy dwie metody „print ()”, jedną do wyświetlenia tekstu, podczas gdy druga do wydrukowania zliczonych wierszy przez funkcję „len ()” przechowywana w zmiennej „cal”.

Poniższy dołączony obraz wyjściowy pokazuje nam, że w ramce danych są tylko 3 wiersze, które spełniają określony warunek. Z kolumny „grupa” i „POS” pobierane są tylko trzy rzędy, które mają „X” „grupę”, a „POS” to „BO”. Daj mu kilka sekund, aby sprawdzić, czy wygenerowane dane wyjściowe jest prawidłowe, badając ramkę danych wyświetlaną w następującym migawce:

Nauczyłeś się zastosować warunki na dwóch kolumnach. Teraz zastosowanie ich w wielu kolumnach nie wprawię cię w kłopoty. Obecnie stosujemy warunki we wszystkich trzech kolumnach w ramce danych i otrzymujemy tylko liczbę tych wierszy, które spełniają wszystkie trzy warunki.

Pierwszy warunek jest stosowany w kolumnie „grupy”, aby sprawdzić wartości równe „Y”. Następnie wartości „grupy”, które są „y” i „POS” to „bo”. A ostatni warunek obejmujący pełne warunki stwierdza „grupa” równa „Y”, a „POS” jest „Bo”, a „wyniki” są większe niż „15”. Odzyskać te rekordy z DataFrame. „Len ()” zlicza wiersze i przechowuje je w zmiennej „wyniku”. Użyj metody „print ()”, aby wyświetlić wyjście.

Wyjście mówi nam, że w ramce danych są 2 wiersze, które spełniają wszystkie trzy warunki.

Wniosek

Pandy zapewnia nam wiele bardzo przydatnych i ważnych funkcji. Ten samouczek oparty jest na metodzie dostarczanej przez pandy. Jest to funkcja „len ()” do zliczenia liczby wierszy w danej ramce danych. W tej nauce naszym celem i celem jest zrozumienie, w jaki sposób możesz policzyć liczbę wierszy, które spełniają określony warunek. Wyjaśniliśmy każdy etap tej techniki wyraźnie ustnie, a także za pomocą przykładowych kodów, które zostały zaimplementowane na narzędziu „Spyder”. Próbujemy szczerze, aby ten kawałek pisania był tak łatwy i przydatny, jak to możliwe, aby zrozumieć koncepcję.