Jak używać średniej funkcji panda?
Musimy najpierw zrozumieć składnię, zanim przyjrzyj się, jak użyć metody średniej () do obliczenia średniej. W zależności od rodzaju używanego obiektu metoda średniej pandy określi jej składnię. Mean () można zastosować do ramki danych, serii i poszczególnych kolumn DataFrame.
Składnia do użycia funkcji Mean () dlaFrame
Poniżej znajduje się składnia do korzystania z funkcji Mean () w ramce danych.
Składnia: df.mieć na myśli( )
Musisz wpisać swoją nazwę DataFrame, a następnie.Mean (), aby wywołać metodę przy użyciu Mean () na całej ramce danych. Średnia (), domyślnie, próbuje działać na każdej kolumnie, gdy zastosowano do całej ramki danych. Jednak w rzeczywistości wyjście zwykle składa się tylko ze środków zmiennych numerycznych. Możesz także użyć kilku dodatkowych opcjonalnych parametrów, aby nieznacznie zmienić wynik, który otrzymujemy za pomocą funkcji Mean ().
Składnia do użycia funkcji średniej () dla serii pandy
Podczas stosowania techniki średniej () do serii składnia jest dość podobna do składni z ramki danych.
Składnia: seria.mieć na myśli( )
Istnieje kilka argumentów, których można użyć do zmiany wyników podczas korzystania z Mean () w serii, tak jak w przypadku DataFrame.
Składnia do użycia funkcji Mean () dla poszczególnych kolumn w DataFrame
Ponieważ kolumny DataFrame to obiekty serii pandy, zastosowanie pandy w kolumnie wymaga dwóch kroków: użycie składni kropkowej do pobrania określonej kolumny, a następnie wywołania funkcji średniej ().
Składnia: df.kolumna.mieć na myśli( )
Na przykład użyjesz kodu „DF.kolumna.Mean () ”Jeśli twoja strumienia danych nazywa się DF, a kolumna, na której chcesz obsługiwać, nazywa się„ kolumna ”. Następnie obliczy średnią dla tej jednej kolumny.
Parametry
oś: Jest to odniesienie do osi dla funkcji, która zostanie użyta.
Skipna: Nie zawiera żadnych wartości zerowych w obliczeniach wyniku.
poziom: Jeśli oś jest wielowarstwem, liczy się wraz z tym poziomem i zapada się w serię.
Numeric_only:
Obecne są tylko kolumny INT, Float i Boolean. Jeśli nie, spróbuje użyć wszystkiego przed użyciem po prostu informacji numerycznych. Nie używane w serii.
Zwroty: Jeśli poziom jest określony, daje średnią z ramki danych lub serii.
Teraz zrozumieliśmy składnię, więc przejdźmy dalej, aby wdrożyć ją w poniższych przykładach.
Przykład nr 1: Znajdź średnią wartość kolumny DataFrame
Najpierw moduły pandy i numpy zostaną zaimportowane, a następnie utworzymy naszą strumień danych. Utwórzmy przykładową ramkę danych posiadających dane pracowników firmy.
Opracowaliśmy ramkę danych, wykorzystując PD.Funkcja dataFrame () i zapisała rekord 10 pracowników w DF DataFrame, przekazując parametry wewnątrz PD.DataFrame () i.mi. EMP, kolumny i indeks. Funkcja print () służy do wizualizacji naszego DataFrame.
Obliczmy średnią pojedynczej kolumny w ramce danych. Tutaj znajdziemy średnią/średnią zmiennej wiekowej.
W tym przypadku zmienna wiekowa jest pobierana za pomocą „Składnia kropka.„Używamy kodu DF.wiek, aby to osiągnąć. Ale zaraz potem obliczamy średnią, używając .mieć na myśli(). Zasadniczo wyodrębnia kolumnę wiekową z DF DataFrame i oblicza średnią tej kolumny.
Przykład nr 2: Znajdź średnią całej ramki danych
Następnie zastosujmy metodę Mean () do całej DF DataFrame, którą stworzyliśmy w przykładzie nr 1 w następujący sposób:
Powyższy skrypt obliczy średnią wszystkich kolumn numerycznych w naszym DF DataFrame.
Metoda średniej () obliczyła średnią każdej zmiennej numerycznej, gdy na całej ramce danych wywołano średnią (). Dlatego obliczył średni wiek, wynagrodzenie i bonus DF DataFrame. Zatem przy użyciu metody średniej () na całej ramce danych średni wiek wynosi 27.000000, średnia pensja wynosi 17650.000000, a średnia bonus wynosi 2055.555556.
Przykład nr 3: Znajdź średnią w ramce danych, w tym brakujące wartości
Czy zauważyłeś, że w naszym DF DFFrame istnieją takie same brakujące wartości? Opcja Skipna z Mean () jest zawsze konfigurowana jako Skipna = True domyślnie. Pandas średnia () ignoruje brakujące wartości, jeśli opcja skipna jest ustawiona na true. Określając skipna = false, możemy to wyłączyć.
Średnia kolumn mających brak wartości będzie nan.
Środki kolumny wiekowej i premii są nan. Wynika to z brakujących wartości w wieku i zmiennych bonusowych, które zostały teraz uwzględnione w wyjściu. Możesz zdecydować się pominąć te wartości, gdy zmienna ma je, ustawiając skipna = true. Alternatywnie chcesz użyć metody pandas Fillna, aby wypełnić brakujące wartości.
Przykład nr 4: Znajdź średnią pogrupowane według zmiennej kategorycznej
Tutaj średnia pensja jest obliczana na podstawie premii. Obejmowało to kilka kroków:
Jak widać, używając .GroupBy ([bonus]) przekonwertował wartości premii jako grupy, w której wartość danych miała miejsce więcej niż jeden raz (2000 r. 3 razy). Kod df.Groupby ([„bonus”]).Wynagrodzenie.średnia () obliczyła średnią wartości wynagrodzeń w stosunku do zgrupowanych wartości zmiennej premii.
Przykład nr 5: Oblicz średnią warunkową dla zmiennej kategorycznej
W tym przykładzie zostanie również użyty ten sam DF DataFrame. Poniższy kod pokazuje, jak określić średnią dla kolumny „wynagrodzenia” tylko dla wierszy strumienia danych, gdy kolumna „bonus” ma wartość większą niż 1800.
Dostęp do zestawu wierszy i kolumn za pomocą DF. Loc [] właściwość według etykiet. W powyższym kodzie widać, że średnia pensja dla wierszy z bonusami większą niż 1800 jest pokazana w kolumnie wynagrodzeń. Oznacza to średnia pensja tych osób/pracowników, których premia jest większa niż 1800, wynosi 16500.0.
Wniosek
Aby określić średnią wartość serii pandy lub ramkę danych, wykorzystujemy metodę średniej (). Powinieneś teraz lepiej zrozumieć działanie średniej metody pand po przejściu tego artykułu. Aby określić średnią wartość pandasframe lub serii, stosuje się metodę średniej (). W przypadku przykładów staraliśmy się nauczyć, jak znaleźć średnią kolumny w ramce danych, znaleźć średnią zgrupowaną według zmiennej kategorycznej i w jaki sposób znajdź środę warunkową przy użyciu funkcji średniej ().