Liczba częstotliwości pandy

Dowiesz się, jak liczyć występowanie danych lub wartości w kolumnie w tym samouczku Pandy. W naukach danych istnieją przypadki, w których musimy określić, w jaki sposób określona wartość występuje w określonej kolumnie ramki danych. Może się to zdarzyć na przykład, gdy chcesz porównać tylko niewielki zakres potencjalnych wartości. Jeśli chcesz policzyć ilość duplikatów lub powtarzanych wartości w kolumnie, to kolejny przykład. Ponadto może być konieczne policzenie obserwacji, które składają się na czynnik lub muszą na przykład znać odsetek mężczyzn i kobiet w gromadzeniu danych.

Jak używać średniej funkcji panda

Musimy określić liczbę częstotliwości danych/wartości lub elementów w jednej lub więcej kolumnach pandasframe. Istnieje kilka sposobów na osiągnięcie tego. Omówimy kilka metod zliczenia występowania lub częstotliwości elementów lub wartości w kolumnie ramki danych.

Przykład 1: Liczenie częstotliwości kolumny za pomocą funkcji wartości_counts ()

Metoda value_counts () w pandy zwraca serię o częstotliwości unikalnych wartości. Powstała seria jest domyślnie zmniejszająca się kolejność i pozbawiona jakichkolwiek wartości NA. „Pandy.Obiekt serii jest odpowiedni do użycia z tą funkcją (wartość_counts ()). Liczba częstotliwości wartości w jednej kolumnie można uzyskać za pomocą tej metody, ponieważ obiekty Pandas DataFrame są grupą obiektów szeregowych. Musimy najpierw utworzyć ramkę danych, aby zademonstrować ten przykład. „Pandy.Funkcja dataFrame () ”służy do generowania ramki danych. Dlatego musimy najpierw zaimportować pakiet Pandy.

W PD.Funkcja DataFrame (), użyliśmy słownika Pythona do wygenerowania naszego DataFrame. Przypisowaliśmy kolumny w naszej ramce danych z etykietami „x” i „y”. Wyświetlamy naszą „DF” za pomocą metody print ().

W nowo utworzonej ramce danych „DF” istnieją dwie kolumny - kolumna „x” przechowuje wartości liczb całkowitych (1, 1, 4, 3, 5, 1, 4, 3, 5, 4), a kolumna „y” przechowuje kolumnę Wartości ciągu („Q”, „R”, „T”, „Q”, „Q”, „T”, „R”, „Q”, „T”, „R”). Możesz zauważyć, że w danych obu kolumn jest powtórzenie. Możemy użyć funkcji value_counts () do obliczenia częstotliwości danych w określonej kolumnie. Policzmy częstotliwość danych w kolumnie „Y”.

Funkcja zwróciła serię o liczbie różnych wartości. Wartość „Q” występuje 4 razy, a wartości „R” i „T” występują 3 razy w kolumnie „Y”. Policzmy także unikalne wartości w kolumnie x.

Można zauważyć, że wartości „1” i „4” występują 3 razy w kolumnie „x”, podczas gdy wartości „3” i „5” występują 2 razy.

Przykład 2: Zliczenie częstotliwości kolumny za pomocą grupy.Funkcja Counts ()

W tym przykładzie grupujemy wiersze według kolumny za pomocą pandas DataFrame.GroupBy () funkcja i użyj metody Count (), aby określić liczbę różnych wartości dla każdej grupy, ignorując wartości Brak i Nan. Utwórzmy najpierw ramkę danych, w której stosujemy grupę.Funkcja Counts ().

Użyliśmy słownika pandas, aby utworzyć naszą strumień danych po zaimportowaniu modułu pandy. Nazwy naszych kolumn są określone jako „col1” i „col2”.

W kolumnie „col1” mamy dane liczb całkowitych (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). W kolumnie „col2” mamy dane smyczkowe („chłopiec”, „chłopiec”, „dziewczyna”, „chłopiec”, „chłopiec”, „dziewczyna”, „dziewczyna”, „dziewczyna”, „boy”, „”, ” chłopak"). Teraz stosujemy grupę.Funkcja Counts () w celu obliczenia częstotliwości wartości w każdej kolumnie.

Aby dokonać obliczeń, podzieliliśmy dane na różne grupy za pomocą funkcji grupy (). Następnie stosuje się funkcję Count () do zliczenia częstotliwości odrębnych wartości w określonej kolumnie DataFrame. Wartość „5” zachodzi 2 razy. Wartości „6” i „9” występują raz. Podczas gdy wartości „7” i „8” występują 2 razy w kolumnie „col1”. Teraz zastosujmy grupę.Count () Funkcja w kolumnie „col2”.

Funkcja określiła częstotliwość wartości „chłopca” i „dziewczynki” odpowiednio jako 6 i 4 razy.

Przykład 3: Zliczenie częstotliwości kolumny za pomocą grupy.Rozmiar () funkcja

Częstotliwość elementów w pojedynczych kolumnach można policzyć za pomocą tej metody. Aby uzyskać obiekt DataFrame z liczbą częstotliwości, możemy zastosować metodę Count () do obiektu DataFrame, który jest zgrupowany przez jedną kolumnę. Po pierwsze, tworzona jest ramka danych zawierająca co najmniej jedną powtarzającą się kolumnę, abyśmy mogli użyć funkcji Count () do określania częstotliwości wartości. Najpierw importujemy moduł pandas przed utworzeniem ramki danych. Następnie za pomocą PD.Funkcja dataFrame (), tworzymy naszą dataframe.

W poprzednim DataFrame mamy dwie kolumny - kolumnę „Nazwa” z wartościami („Alex”, „Jack”, „Alex”, „Ali”, „Jack”, „Jack”, „Alex”, „Alex”, „Ali”, „Alex”, „Ali”, „Ali”, „Jack”, „Alex”) i kolumna „klasy”, która zawiera stopnie osób („A”, „A”, „B”, „ B ”,„ B ”,„ B ”,„ A ”,„ C ”,„ A ”,„ C ”,„ C ”,„ C ”,„ A ”,„ B ”). Teraz, aby znaleźć liczbę częstotliwości tych kolumn, używamy grupy.Rozmiar () funkcja. Int, który reprezentuje liczbę elementów w tym obiekcie, można uzyskać za pomocą atrybutu rozmiaru. Jeśli seria podaje liczbę wierszy i jeśli ramka danych zwraca całkowitą liczbę wierszy pomnożonych przez liczbę kolumn.

Pokazuje, że istnieją dwa zdarzenia, w których „Alex” ma wartość oceniania „A”. Istnieją również dwa zdarzenia, w których „Alex” ma wartość ocen „B” i „C”. „Ali” miało miejsce 1 raz z klasami „A” i „B”, a 2 razy z wartością oceny „C”. „Jack” miał miejsce dwa razy z klasami „A” i „B”.

Przykład 4: Zliczenie częstotliwości kolumny poprzez utworzenie tabeli częstotliwości dla określonego wiersza

Możemy zastosować metodę crosstab () do określenia częstotliwości w ramce danych pandas.

Załóżmy teraz, że musimy utworzyć ramkę danych ze szczegółami na temat płci, wieku i klasy dziesięciu odrębnych uczniów.

Utworzyliśmy wymaganą ramkę danych z trzema kolumnami - kolumną klasy („A”, „B”, „A”, „B”, „C”, „B”, „B”, „C”, „A”, „ A ”), kolumna wiekowa (17, 19, 18, 17, 19, 17, 18, 18, 17, 19) i kolumna płciowa („ f ”,„ m ”,„ f ”,„ m ”, „F”, „F”, „M”, „M”, „F”, „F”). Teraz używamy funkcji crosstab () do utworzenia tabeli częstotliwości. Do wyświetlania częstotliwości, z jaką pojawiają się różne grupy danych, można zastosować tabelę między-tebulacji utworzoną przez metodę crosstab ().

Wewnątrz PD.Funkcja crosstab (), określiliśmy kolumnę „klas” w parametrze indeksu, aby obliczyć częstotliwość danych w kolumnie i określono parametr kolumn jako „częstotliwość” do przechowywania wartości zwracanych/częstotliwości danych grupy.

Wniosek

W tym samouczku Panda omówiliśmy, jak policzyć występowanie danych lub wartości w kolumnie Pandas DataFrame. Próbowaliśmy nauczyć, jak używać funkcji „value_counts ()” i „grupy ()” wraz z atrybutami „size ()” i „count ()”, aby policzyć częstotliwość danych w określonej kolumnie. Widzieliśmy również, jak zliczyć częstotliwość kolumny, tworząc tabelę częstotliwości za pomocą funkcji Crosstab ().

Doker

Jaka jest różnica między Dockerem a Podmanem?

Docker używa architektury klient-serwer, podczas gdy Podman jest silnikiem Daemon mniej kontenerowym...

Renata Borowiec

c ostre

Co to jest system.Io przestrzeń nazw C#

System.IO to przestrzeń nazw C#, która zapewnia zestaw klas, struktur, wyliczeń i delegatów do obsłu...

Oliwia Makowski

Baza danych Oracle

Czy Oracle Fusion uważane za lepsze niż sap?

Oracle Fusion (ERP oparty na chmurze) ma przyjazny interfejs, podczas gdy SAP (Cloud and On-Premises...

Larysa Witczak