Statystyki podsumowujące pandy

Statystyki podsumowujące pandy
„Pandy” to świetny język do wykonywania analizy danych ze względu na jego wielki ekosystem pakietów Python zorientowanych na dane. To ułatwia analiza i import obu czynników. Pandas DataFrame zapewnia także sposoby podsumowania wartości numerycznych obecnych w ramce danych. Należy zauważyć, że ważne jest, aby uzyskać podsumowanie statystyki w dowolnym dziedzinie do dalszej analizy wydajności danych zgodnie ze statystykami. Obliczenia statystyczne obejmują średnią arytmetyczną, taką jak lokalizacje lub tendencje, odchylenie standardowe, średnie odchylenie zgodnie z kształtem danych oraz miary oceniające zgodnie z pracą nad ramką danych. Omówimy wszystkie metody obliczania statystyki podsumowującej w pandy. Użyjemy narzędzia „Spyder” do implementacji kodu, które jest środowiskiem przyjaznym językiem „Python”.

Składnia:

„Statystyka = DF.Opisz (wartość) ”

Poprzednia składnia służy do obliczania statystyk podsumowujących w pandy. „DF” w składni reprezentuje „DataFrame”. Podczas gdy „opis” jest używany w określonym rzędzie lub w kolumnie definiującej „DF”. „Wartość” jest wartością wiersza lub kolumny, w której należy wykonać funkcję, która została przypisana do statystyki. Funkcja ".Opisz () ”daje wyniki wyjściowe jako świetny format wyświetlany w ramce danych. Metoda uruchamia statystyki podsumowujące w ramce danych dołączonych kolumn numerycznych. Metody obejmują „średnią”, „unikalne wartości”, „min”, „max” i „liczba”.

Tutaj pokazano następujące sposoby, w których można wykonać statystyki podsumowujące pandy. Będziemy wdrożyć każdy z nich w przykładzie, aby lepiej zrozumieć metodę:

  • Obliczenia statystyk podsumowujących w pandy dla wszystkich zmiennych numerycznych
  • Obliczanie statystyk podsumowujących w pandy zgrupowanych według zmiennej
  • Obliczenia statystyk podsumowujących w pandy dla wszystkich zmiennych ciągów

Tworzenie ramki danych dla przykładu wykonywania obliczeń w statystykach podsumowujących pandy

Najpierw otwórz narzędzie „Spyder”, aby zaimplementować kod. Następnie zaimportuj bibliotekę Panadas jako „PD” i bibliotekę Numpy jako „NP”. Numpy jest używany do obliczeń numerycznych. Zacznij tworzyć ramkę danych, która składa się z zespołu jako „N” i „W” z ich wynikami jako „44”, „41”, „42”, „43”, „45”, „47”, „48”, i „50”. Asysty są jak „2”, „NP. Nan ”,„ 4 ”,„ 5 ”,„ 6 ”,„ 7 ”,„ 8 ”i„ 9 ”. Wartość zbiórek będzie jak „18”, „20”, „17”, „16”, „11”, „12”, „29”, „np np.nan ”i„ 25 ”. „NP.Nan ”jest NP dla„ Numpy ”, a Nan oznacza„ nie wartość ”, co oznacza, że ​​nie ma tam żadnej wartości. Następnie podaj warunek „Wydrukuj” DataFrame. Funkcja „print ()” działa w celu drukowania wyników kodu i zapisywania wyników zgodnie z komunikatem.

Wyjście wyświetla odpowiednio utworzoną ramkę danych do wartości przypisanych w kodzie. Istnieją „cztery” kolumny: zespół, wyniki, asysty i zbiórki.

Przykład nr 01: Obliczenia statystyk podsumowujących w pandy dla wszystkich zmiennych numerycznych

W tym przykładzie dowiemy się, jak obliczyć statystyki podsumowujące w pandach dla wszystkich zmiennych numerycznych. DataFrame składa się z zespołu jako „O” i „V”; Zdobyli „45”, „88”, „25”, „55”, „24”, „78”, „87”, „40” i „20”. Asany to „2”, „11”, „1”, „3”, „6”, „4”, „2”, „10” i „NP.nan ”. Zbiórki to „31”, „32”, „33”, „34”, „35”, „37”, „38”, „null” i „39”. Funkcja „Opisuj” danych oblicza zmienną numeryczną w ramce danych statystyki podsumowującej pandy.

Wyjście wyświetla kolumny kolumn numerycznych, które są „wynikami”, „asystami” i „zbiórki”. Liczba wykonuje pracę o liczeniu wartości „nie zerowych”. Średnia jest dla wartości „średniej”, STD dla obliczeń wartości odchylenia standardowego, min oznacza wartość min, która oznacza obliczenie wartości minimalnych, a maks. Dla obliczenia wartości maksymalnej, 25 procent, 50 procent, a 75 procent dotyczy rozważań dotyczących wartości.

Przykład nr 02: Obliczanie statystyki podsumowującej w pandy dla zgrupowanych przez zmienną:

Będziemy wykonywać obliczenia grupy przez zmienną w ramce danych statystyki podsumowującej w pandach w tym przykładzie. DataFrame składa się z dwóch zespołów jako „M” i „Q” z ich wynikami jako „59”, „58”, „56”, „50”, „51”, „53”, „54” ​​i „55 ". Asystuje wartości jako „null”, „7”, „17”, „18”, „5”, „3”, „6”, „21” i „15”. Wartości zbiórki jako „81”, „82”, „60”, „30”, „24”, „97”, „56”, „null” i „71”. Funkcja grupy z przychodami zespołu to warunek przekazany z obliczenia „krop” „Mean ()”, co doprowadza nas do wyników statystyki podsumowującej pandy. Tutaj średnia zostanie obliczona za pomocą „Numpy”, aby obliczyć bieżącą tablicę Numpy.

Wyjście wyświetla obliczanie statystyki podsumowującej w pandy. Zespoły „M” i „Q” pokazujące obliczenia jako górne mają wartości, które występują najczęściej w „DF”, „częstotliwość” jest liczbą częstotliwości najbardziej występującej wartości w „DF” i w „DF” i „Unikalny” jest używany dla najbardziej unikalnych wartości w ramce danych. To znaczy operacje w tle wykonywane do obliczenia grupy dla wszystkich zmiennych w podsumowującym statystyce pandy.

Przykład nr 03: Obliczenia statystyk podsumowujących w pandy dla wszystkich zmiennych ciągów

W tym przykładzie będziemy wdrożyć obliczenie wszystkich zmiennych ciągów w pandach dla statystyki podsumowującej. DataFrame ma zespoły jako „S” i „D”. Wyniki zespołów to „59”, „53”, „96”, „80”, „85”, „62”, „27”, „22” i „21”. Asystuje wartości jako „null”, „8”, „27”, „50”, „15”, „31”, „61”, „11” i „17”, a zbiórki składają się z wartości „70 ”,„ 84 ”,„ 30 ”,„ 20 ”,„ 94 ”,„ 95 ”,„ 90 ”,„ null ”i„ 91 ”. Warunek zostanie zemdlony dla obliczeń przeprowadzonych w ramce danych określającej funkcję „Opisz” oraz w nawiasie „obejmują” równe „obiektowi”. Zapewni nam to obliczoną ramkę danych wszystkich zmiennych ciągów w podsumowującym statystyce pandy.

Produkty wychodziły jako mediana wartości dla kolumn „punktów”, „zbiórek” i zmiennych ciągów „asystuje”, które zostały zgrupowane przez zmienną „zespół”. Wyjście jest jak „liczba, unikalna, top, freq” ich wartości są „9”, „2”, „d” i „5”.

Wniosek

Pandy są szybkie i łatwe w użyciu w bibliotece. Statystyki podsumowujące pandy są tak pomocną i przydatną funkcją, której używaliśmy w pandach. Opracował różne metody w różnych sytuacjach. Wykonaliśmy wszystkie sposoby obliczania statystyk podsumowujących pandy. Poprzedni przykład przedstawił ogromne wyjaśnienie, jak wykonać każdy z nich. Zakończyliśmy obliczenie podsumowujące statystyki w pandy dla zmiennej ciągu obecnej w ramce danych, obliczenia statystyki w pandach dla grupy zmiennej dostępnej w ramce danych, a na koniec wykonaliśmy również przykład obliczenia statystyki podsumowującego wszystkie Wartości numeryczne w ramce danych. Obliczenia statystyk podsumowujących odgrywają wielką rolę w branżach i firmach.