W tym artykule nauczy Cię, jak liczyć odrębne wartości dla każdej grupy po zgrupowaniu danych za pomocą metody GroupBy (). Z pomocą pandy.Metoda grupy (), możemy łatwo podzielić dane na kilka grup, aby funkcje agregacji można zastosować do każdej grupy. W Panand technika ta jest istotną częścią analizy danych. Istnieje kilka sposobów określenia, ile unikalnych wartości jest obecnych w kolumnie DataFrame dla grupy danych. Za pomocą DataFrame.GroupBy (), nunique (), dataframe.AGG () i seria.Metody wartości_counts () itp., Możemy uzyskać liczbę odrębnych wartości dla grup.
Jak policzyć unikalne wartości po zgrupowaniu danych w pandy
Najpierw podzielimy dane w kolumnie lub serii na grupy kategorii. Następnie użyjemy funkcji do obliczenia liczby unikalnych danych/wartości dla grupy kategorii. W poniższych przykładach użyjemy różnych funkcji, aby policzyć odrębne dane dla grup kategorii.
Przykład nr 01: Policz różne wartości z kolumny z ramką danych za pomocą metody wartości_count ()
Funkcja wartości_count () zwraca obiekt z liczbą odrębnych wartości. Wynikowy obiekt zostanie ułożony w kolejności malejącej, przy czym pierwszy element pojawi się najczęściej. Domyślnie wyklucza wartości NA. Najpierw utwórzmy ramkę danych. Rrame danych zostanie utworzone po zaimportowaniu modułu panda.
Stworzyliśmy naszą ramkę danych, używając słownika wewnątrz PD.Funkcja dataFrame (). Nasza DataFrame składa się z dwóch kolumn, „Student” i „Age”. Student kolumny zawierający wartości danych („Dave”, „Sybil”, „Dave”, „Jenny”, „Dave”, „Dave”, „Sybil”, „Jenny”, „Jenny”, „Sybil”) i Kolumna „Wiek” zawiera wartości (14, 15, 16, 16, 15, 14, 15, 14, 14, brak). Zmieńmy teraz dane i określmy całkowite unikalne wartości dla grup.
Funkcja zwróciła całkowite odrębne wartości dla grup utworzonych w kolumnie „Student”. Na przykład dla grupy „Dave” wartość wieku „14” w kolumnie „wiek” występuje dwa razy, a wartości „15” i „16” zachodzą tylko jeden czas i tak dalej. Jak wspomniano, funkcja zignorowała również brakującą wartość.
Przykład nr 02: Policz różne wartości wielu kolumn za pomocą metody wartości_count ()
W poprzednim przykładzie policzyliśmy odrębne wartości pojedynczej kolumny dla każdej zgrupowanej danych/wartości. Teraz określimy liczbę różnych wartości wielu kolumn po zgrupowaniu kolumny ramki danych. Potrzebujemy kolejnej ramki danych z co najmniej trzema kolumnami.
Utworzyliśmy naszą ramkę danych z trzema kolumnami, i.mi., „Nazwa”, „Marks” i „Grade”. Znaki kolumnowe przechowują dane („Tyson”, „Nancy”, „Nancy”, „Tyson”, „Jimmy”, „Jimmy”, „Jimmy”, „Nancy”, „Tyson”). Podczas gdy kolumny, „znaki” i „oceny” zawierają wartości (15, 15, 17, 17, 18, 18, 14, 14, 14) i („b”, „b”, „a”, ',', ' A ', „a”, „a”, „b”, „b”, „b”) odpowiednio. Policzmy teraz unikalne wartości kolumny „Marks” i „Grades” po zgrupowaniu danych z kolumny „Nazwa”.
Funkcja wartości_counts () jest stosowana do listy zawierającej etykiety kolumn. Funkcja zwróciła charakterystyczne zliczenia wartości dla każdego danych grupy w kolumnie „Nazwa”.
Przykład nr 3: Policz odrębne wartości za pomocą grupy.funkcja Nunique ()
Liczba różnych wartości dla każdej kolumny jest zwracana metodą Nunique (). Funkcja Nunique () wyszukuje kolumnę po kolumnie i pobiera liczbę różnych wartości danych dla każdego wiersza DataFrame, gdy określona jest oś kolumna (axis = „kolumny”). Przy użyciu metody Nunique () do określenia liczby odrębnych wartości najpierw utworzymy ramkę danych z co najmniej jedną kolumną zawierającą powtarzające się dane.
Stworzyliśmy dwie kolumny, i.mi., „Pracownik” i „wynagrodzenie”, w naszym ramie danych. Pracownik kolumny przechowuje dane jako ciąg („menedżer”, „księgowy”, „menedżer”, „menedżer”, „urzędnik”, „księgowość”, „urzędnik”, „urzędnik”, „księgowość”, „urzędnik”) i Kolumna „wynagrodzenie” zawiera wartości (15000, 14000, 15000, 14000, 12000, 13000, 12000, 14000, 15000, 13000). Znajdźmy odrębne wartości w pensji kolumny dla grup w kolumnie „pracownik”.
Istnieją trzy unikalne wartości w kolumnie „wynagrodzenie” dla grup, „księgowy” i „urzędnik”, w kolumnie „pracownik”. Liczba odrębnych wartości dla grupy „menedżer” wynosi 2.
Przykład nr 4: Licz odrębne wartości wielu kolumn za pomocą funkcji Nunique ()
Teraz obliczymy liczbę unikalnych wartości dla wielu kolumn DataFrame. Dodajmy kolejną kolumnę w ramce danych, którą utworzyliśmy w przykładzie nr 3.
Dodaliśmy nową kolumnę „Post” w naszej ramce danych z wartościami danych („junior”, „junior”, „senior”, „junior”, „senior”, „senior”, „senior”, „junior”, ” Junior ', „Junior”). Teraz będziemy policzyć unikalne wartości kolumn „post” i „wynagrodzenie” dla każdej danych grupy w kolumnie „pracownika”. Użyjemy funkcji agg (), aby znaleźć liczbę unikalnych wartości dla wielu kolumn.
Grupowaliśmy dane w kolumnie „pracownika” i zastosowaliśmy funkcję agg (). Wewnątrz funkcji AGG () przekazaliśmy słownik z nazwami kolumn jako klawisze i ciągami Nunique jako wartości klawiszy. Funkcja zwróciła liczbę unikalnych wartości w kolumnach „post” i „wynagrodzenie” dla każdego danych grupy, i.e, „księgowy”, „urzędnik” i „menedżer”.
Możemy również określić liczbę odrębnych wartości za pomocą funkcji Nunique () bez metody AGG (). W tym celu najpierw utworzymy listę z etykietami kolumn, z których chcemy policzyć odrębne wartości. Następnie użyjemy funkcji GroupBy () i Nunique w określonych kolumnach ramki danych wewnątrz listy zamiast na całym „DF” danych „DF”.
Bez funkcji AGG () uzyskaliśmy takie same wyniki, jak wcześniej, gdy zastosowaliśmy funkcję Agg ().
Możemy również grupować wiele kolumn i znaleźć liczbę różnych wartości dla grupy i podgrupy. Zmieńmy dane kolumn „Pracownik” i „Post”, a następnie znajdź odrębne wartości w kolumnie „Wynagrodzenie” dla każdej grupy i podgrupy.
Przykład nr 5: Określ odrębne wartości z kolumny DataFrame za pomocą funkcji unikalnej ()
Podczas pracy z konkretną kolumną DataFrame, funkcja unikalna () jest używana i zwraca wszystkie unikalne dane/wartości kolumny. Najpierw utworzymy ramkę danych, z której znajdziemy unikalne wartości w określonej kolumnie dla danych grupy pojedynczej kolumny, zgrupowanej za pomocą funkcji GroupBy ().
Istnieją dwie kolumny w naszej ramce danych, i.mi., „Płeć” i „wiek”. Wartości danych w kolumnie „płeć” to („mężczyzna”, „mężczyzna”, „mężczyzna”, „kobieta”, „mężczyzna”, „kobieta”, „kobieta”, „mężczyzna”, „kobieta”, „kobieta”) a kolumna „Wiek” przechowuje wartości (19, 19, 20, 18, 20, 18, 19, 20, 17, 20). Teraz zgrupujemy dane w kolumnie „płeć” za pomocą funkcji grupy () i znajdziemy odrębne wartości w wieku kolumny dla każdej grupy.
Funkcja zwróciła ramkę danych z odrębnymi wartościami kolumny zamiast zliczeń odrębnych wartości. Można jednak zauważyć, że istnieją cztery unikalne wartości (18, 19, 17, 20) dla grupy żeńskiej i 2 unikalnych wartości dla grupy mężczyzn w kolumnie „Wiek”.
Wniosek
W tym samouczku Panda omówiliśmy, jak określić lub zliczyć odrębne wartości lub unikalne dane w kolumnie lub kolumnach ramki danych w pandy. Teraz możesz policzyć unikalne wartości w pandy. W tym artykule zaimplementowaliśmy wiele przykładów, aby nauczyć cię, jak liczyć odrębne wartości z kolumny z ramką danych za pomocą funkcji wartości_count (), nunique () i unikalnych () po zgrupowaniu danych za pomocą funkcji grupy ().