Średnia grupy pandas

Średnia grupy pandas

Kiedy dodamy dwa lub więcej wartości razem, a ich suma jest podzielona przez całkowitą liczbę dodanych wartości, wynik jest średnia. Pandy oznacza, że ​​zwraca średnią danych lub wartości wzdłuż danej osi. Seria o średniej na osi zostanie zwrócona przez pandy, jeśli metoda średniej () zostanie zastosowana do ramki danych. Pandy zwracają wartość numeryczną (liczba pojedyncza), jeśli „Mean ()” jest używany w serii. Funkcje można zastosować do kategorii po utworzeniu grup kategorii. Jest to prosty pomysł, ale wysoce skuteczna technika, która jest często stosowana w nauce danych. Pozwala nam utworzyć podsumowanie danych dla każdej grupy, zastosować modyfikacje specyficzne dla grupy i wykonać filtrację danych. W przypadku funkcji grupy () obiekt można podzielić, można zastosować funkcję, a następnie produkty można połączyć. Duże zestawy danych można grupować z tym, a operacje można wykonać w grupach.

Jak korzystać z grupy.Metoda średniej () w pandy?

Aby obliczyć średnią strumienia danych lub średnią określonych kolumn danych danych, możemy użyć grupy.Mean () funkcja. Wykazamy, jak go używać w następujących przykładach.

Przykład nr 01: Określ średnią pojedynczej kolumny całkowitej, grupując dane z jednej kolumny

Za pomocą PD.Funkcja dataFrame (), najpierw utworzymy ramkę danych, abyśmy mogli podzielić dane kolumny lub kolumn z ramki danych na grupy, a następnie znaleźć ich średnią wartość. Przed utworzeniem ramki danych musimy zaimportować moduł pandas wraz z biblioteką Numpy.

Jak widać, stworzyliśmy naszą strumień danych, używając Słownika PandaS. Mamy 3 kolumny w naszym DF DataFrame, i.mi., „Pozycje”, „producent” i „ilość”. In the column 'items', we have stored the values ​​('shirt', 'tie', 'pants', 'shirt', 'tie', 'pants', 'shirt', 'pants', 'pants', ' remis '), podczas gdy kolumny „producent” i „ilość” zawierające wartości („Włochy”, „Francja”, „Chiny”, „Francja”, „Chiny”, „Włochy”, „Chiny”, „Włochy”, „Francja”, „Chiny”) i (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Zmieńmy wartości w kolumnie producenta i określ średnią wartość ilości dla każdego odrębnego producenta.

Wartość producenta „Chiny” ma średnią wartość ilościową 21.5, średnia wartość ilości dla „Francji” wynosi 20.0, a średnia wartość ilości dla „Włoch” wynosi 32.0. Możemy również określić indeks wyjściowy za pomocą funkcji RESET_INDEX z grupą.Mean () funkcja.

Przykład nr 02: Znajdź średnią pojedynczej kolumny zmiennoprzecinkowej, grupując dane pojedynczej kolumny

Widzieliśmy, jak możemy znaleźć średnią kolumny liczb całkowitych po zgrupowaniu danych. Teraz wypróbujmy inną kolumnę z danych, taką jak float. Rama danych z co najmniej jedną kolumną z wartościami pływakowymi zostanie utworzona za pomocą PD.Funkcja dataFrame ().

Umieszczając słownik do PD.DataFrame (), utworzyliśmy ramkę danych z trzema kolumnami. Kolumna „Nazwa” przechowuje nazwy niektórych przypadkowych graczy („Sam”, „Jay”, „Leo”, „Mike”, „Will”, „Billy”, „Jhonny”, „lara”, „Hanna”, „Tony”), kolumna „zespół” reprezentujący zespół, z którego każdy gracz należy do („A”, „A”, „B”, „A”, „B”, „A”, „C”, „B „,„ C ”,„ c ”), a kolumna„ wysokość ”przechowuje wysokość każdego gracza jako wartość pływaka (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Zmieńmy dane w kolumnie „Zespół” i określić średnią wartość wysokości dla każdej odrębnej wartości „zespołu”.

Widać, że średnia wartość wysokości drużyny graczy wynosi 5.65, podczas gdy średnie wysokości graczy w drużynach B i C wynoszą 5.866 i 5.6 odpowiednio.

Przykład nr 03: Określ średnią wielu kolumn za pomocą grupy.Mean () funkcja

W poprzednich przykładach ustaliliśmy średnią pojedynczej kolumny. Można jednak również określić średnią z wielu kolumn dla każdej grupy. Utwórzmy ramkę danych o więcej niż jednej kolumnie numerycznej, po zaimportowaniu modułów pandy i numpy.

W nowo utworzonej ramce danych istnieją trzy kolumny z etykietami „nazwa”, „partytura” i „meczów”. Nazwy kolumn mające wartości danych jako ciąg („Ron”, „Jim”, „Dany”, „Jim”, „Jim”, „Dany”, „Ron”, „Ron”, „Dany”, „Jim” ), podczas gdy „wynik” i „dopasowania” składają się z danych numerycznych jako (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) i (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Teraz znajdźmy średnią kolumny „wynik” i „dopasowuje się” po zgrupowaniu danych z kolumny „Nazwa”. Grupa.Do tego zostanie użyta funkcja średniej ().

Można zauważyć, że grupa „Dany” ma średni wynik 2.66 w 2.00 mecze. Grupa Jim ma średni wynik 2.75 i średnia wartość rozegranych meczów to 1.75. Podczas gdy grupa „Ron” ma średnią wartość wyników 2.66 i średnia wartość rozegranych meczów to 2.33.

Średnia grupy kategorii według obiektu można również obliczyć za pomocą metody AGG (). Dostarczymy średnią jako argument funkcji agg (). Aby agregować przy użyciu pojedynczych lub wielu operacji w danej osi, możemy użyć funkcji agg ().

Wyjście jest takie same jak poprzednio.

Przykład nr 04: Określ średnią określonych kolumn, grupując wiele kolumn

W przykładach 1, 2 i 3 zgrupowaliśmy wartości lub dane jednej kolumny. Teraz będziemy grupować wiele kolumn za pomocą listy etykiet kolumn wewnątrz funkcji GroupBy (), a następnie znajdziemy średnią wartość dla każdej grupy. Słownik „D” zostanie przekazany do PD.DataFrame () funkcja jako dane wejściowe w celu utworzenia DataFrame.

Utworzyliśmy wymaganą ramkę danych. The column 'sports' is storing the name of some sports ('Badminton', 'football', 'tennis', 'basketball', 'football', 'tennis', 'basketball', 'football', 'Badminton', ' Koszykówka „,„ koszykówka ”,„ tenis ”), imiona krajów („ Chiny ”,„ Rosja ”,„ Włochy ”,„ Hiszpania ”,„ Rosja ”,„ Włochy ”,„ Chiny ”,„ Włochy ”,„ ”,„ Hiszpania „,„ Chiny ”,„ Rosja ”,„ Włochy ”) są przechowywane w kolumnie„ kraj ”. Podczas gdy w kolumnie „wygrana” przechowyliśmy liczbę meczów wygranych przez każdy kraj w każdym sporcie (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Użyjmy grupy.Mean () funkcja znalezienia średniej wartości kolumny „wygranej” poprzez grupowanie kolumn „sport” i „kraj”.

Funkcja z powodzeniem określiła średnie wartości kolumn „wygraj” dla każdego sportu w kraju. Zgrupowany jest z rodem danych za pomocą funkcji RESET_INDEX (.

Index jest dodawany dla rzędu każdej formy danych. Aby zorganizować wyniki w atrakcyjnej tabeli, możemy również użyć funkcji Pivot ().

Wniosek

W tym samouczku omówiliśmy, co to jest średnia lub średnia liczby i jak znaleźć średnią określonej kolumny (jedna lub więcej) po zgrupowaniu kolumny lub kolumn z ramki danych. W tym artykule zaimplementowaliśmy kilka przykładów, aby nauczyć cię, jak określić średnią pojedynczej całą liczbę całkowitą lub float, grupując dane jednej kolumny; Jak określić średnią wielu kolumn za pomocą grupy.Mean () funkcja; a także jak określić średnią określonych kolumn poprzez grupowanie wielu kolumn.