Wariancja panda

Wariancja panda
„„ Pandy ”to biblioteka oprogramowania, która jest napisana w języku Python do przeprowadzania analizy i manipulacji danymi. Co jeśli chcemy znać stopień rozprzestrzeniania się w ramie danych? Wariancja służy do wykonywania tego zadania. Służy do reprezentowania pomiaru między liczbami w danych spreadu. Pandy opracowały funkcję wariancji, która pokaże stopień zestawu danych. Funkcją wariancji panda jest „var ()”. Im więcej danych jest rozpowszechniane, tym bardziej wariancja jest w odniesieniu do średniej. Później będziemy wykonywać całą wariancję pandów. Do implementacji kodu w przykładzie użyjemy oprogramowania „Spyder”, oprogramowania przyjaznego językowi Python."

Składnia

# „Df.var () ”

Powyższa składnia jest stosowana do obliczenia wariancji w ramce danych. „DF” w składni reprezentuje „DataFrame”.

Będziemy wykonywać następującą metodę dla przykładu Wyjaśnienie funkcji wariancji panda:

  • Obliczenie wariancji panda dla pojedynczej kolumny w ramce danych.
  • Obliczanie wariancji panda pojedynczej kolumny w ramce danych poprzez zmianę argumentu.
  • Obliczenie wariancji panda dla wielu kolumn w ramce danych.
  • Wariancja panda dla obliczania całej kolumny DataFrame.

Tworzenie ramki danych dla przykładowej implementacji wariancji pandaS

Otwórz narzędzie „Spyder” na pulpicie/laptopie. Teraz, po pierwsze, zaimportuj bibliotekę panda jako „PD”, gdy działa w środowisku Pandy. Utwórzmy ramkę danych; „DF” składa się z nazw „Tom”, „Eddie”, „Sam”, „Leo” i „Nick” z ich wiekiem jako „25”, „44”, „66”, „55” i „78 ". Mamy brakujące dane w wieku jako „20”, „30”, „40”, „50” i „brakująca wartość” również mamy ich dochody w ramce danych jako „78000”, „70000”, „66000” , „33000” i „68000”. A następnie wydrukujemy warunek „DF”, który zostanie użyty do budowy danych DataFarame.

Malka danych jest tworzona, gdy widzimy wyświetlacz pokazujący kolumny i wartość przypisaną w kodzie. Widzimy, że w kolumnie brakujących danych jest napisane „NAN”.

Przykład nr 01: Obliczenie wariancji panda dla pojedynczej kolumny w ramce danych

W tym przypadku będziemy określić wariancję pojedynczej kolumny z DataFrame. „DF” składa się z czterech kolumn „Nazwa”, „wieku”, „brakujących danych” i „dochodu”. Nazwiska to „Will”, „Tina”, „Lily”, „Sea” i „Swany” ich wieki to „33”, „45”, „35”, „85” i „78”. Brakujące dane w wieku mają wartości jako „30”, „40”, „60”, „80”, a brakujący termin jako „brak” ich dochodów są „99000”, „88000”, „77000”, „55000”, „55000” oraz „68000”. Ponieważ obliczymy wariancję pojedynczej kolumny, musimy określić nazwę kolumny z wariancją, na przykład „Incarm_varience”; W tym miejscu wybrana jest kolumna „dochodowa” do obliczenia wariancji. Funkcja var () z określoną „df” i kolumną dochodu.

Wyjście wyświetla obliczoną wariancję kolumny „dochód” za pomocą funkcji pandas var ().

Przykład nr 02: Obliczanie wariancji panda pojedynczej kolumny w ramce danych za pomocą DDOF

Tutaj będziemy używać argumentu DDOF do obliczania wariancji w jednej kolumnie. W ramce danych DataFram składa się z nazwisk „Shein”, „Rose”, „Allen”, „Wilson” i „Dom” w wieku jako „44”, „23”, „55”, „36” i „41”. Dochód jako „39000”, „8400”, „57000”, „54000” i „55000” oraz posiadanie kolumny danych brakujących w wieku jako „20”, „22”, „23”, „25” i „Brak ". Pytanie zaczyna się od użycia argumentu zmieniającego się na „0”. Odpowiedź jest taka, że ​​domyślne pandy są ustawione jako N-1 jako „mianownik”, a jeśli chcemy użyć „N” jako mianownika, więc musimy użyć argumentu „DDOF” i zmienić jego wartość na ” 0 ”zamiast„ 1 ”.

„Of” jest skrótem „stopnia wolności delta”, działa jako dzielnik używany w obliczeniach jako „n”, gdzie reprezentuje liczbę elementów. Również tutaj kolumnę można wybrać z wyboru, ponieważ według potrzebnej pracy możemy obliczyć wariancję dowolnej kolumny składającej się z wartości numerycznych. Kolumna „dochód” jest tutaj również wybrany do obliczania wariancji.

Wyświetlacz pokazuje obliczoną wariancję dochodu z kolumny jako „212560000” za pomocą zestawu argumentu DDOF do „0”:

Przykład nr 03: wariancja panda dla obliczenia wielu kolumn w ramce danych

W pierwszym przykładzie zrobiliśmy przykład, jak obliczyć wariancję w pand pojedynczej kolumny w ramce danych. Teraz obliczymy wariancję w wielu kolumnach za pomocą funkcji pandas var (). DataFrame składa się z nazwisk jako „Nina”, „Ruby”, „Ali”, „Peter” i „Lisa”, z wiekiem „55”, „85”, „45”, „31” i „51”. Dane o braku wartości w wieku mają wartości jako „21”, „32”, „20”, „36” i brakujące termin. Mamy dochód tych osób jako „70000”, „47000”, „62000”, „45000” i „56000”.

Wybraliśmy kolumny „wiekowe” i „dochód” kolumny dla obliczeń wariancji w pandy. Możemy zdecydować o kolumnach i wprowadzić je w celu obliczenia wariancji zgodnie z dalszymi wynikami analizy.

Wyjście składa się z obliczonej wariancji kolumny „AGE” i „dochodu” odpowiednio, jak wybrano. Widzimy, że wariancja różnych kolumn jest wyświetlana osobno z ich nazwami kolumn.

Przykład nr 04: wariancja panda dla obliczenia całej kolumny DataFrame

W tym przykładzie będziemy zaimplementować funkcję pandas var () do obliczenia wariancji w całej ramce danych. Dane zawierają nazwy „Fiona”, „Zayn”, „Steeve”, „Henry” i „Olive” ich wiek to „18”, „25”, „35”, „36” i „56”. Brakująca kolumna wiekowa ma wartości „14”, „12”, „30”, „16” i „Brak”. Ich dochody to „80000”, „38000”, „33000”, „95000” i „78000”.

Podstawowa składnia jest używana dla każdej kolumny obliczeń wariancji DataFrame; Rama danych wybrała całą kolumnę z funkcją „var ()”. Instrukcja wariancji drukowania wydrukuje wszystkie obliczone wariancje.

Dane wyjściowe wyświetla obliczenia wariancji kolumn ramy danych, które były w wartościach numerycznych. Takie jak „wiek”, „brakujący wiek” i kolumna „dochodowa”. Kolumna nazwy ma znaki, więc nie można obliczyć ich wariancji.

Wniosek

Wariancja panda jest bardzo pomocną, ale bardzo techniczną funkcją. Pomaga bardzo łatwo obliczyć wariancję za pomocą funkcji var () pandy. W tym artykule nauczyliśmy się wszystkich metod z przykładem każdego z nich w celu lepszego zrozumienia. Zrobiliśmy obliczenie jednej kolumny wariancji w pandach, obliczenia wariancji wielu kolumnowych w pandy, ta ze zmianą argumentu z ustawienia domyślnego, a także aplikacja obliczania wariancji w pełnej ramce danych DataFrame. Każdy z nich jest bardzo przydatny, w zależności od użycia i stanu w potrzebie czasu.