Moduł statystyki w Pythonie

Moduł statystyki w Pythonie
Jeśli jesteś w świecie badań, statystyki mają ogromne znaczenie! A Python oferuje wiele modułu statystyki, ale ten, o którym będziemy dziś mówić, nazywa się modułem statystyki. To prosty moduł, nie do zaawansowanych statystyk, ale dla tych, którzy potrzebują tylko prostego i szybkiego obliczenia. W tym samouczku będziemy przeglądać moduł statystyki w Python.

Moduł statystyki

Moduł statystyki zapewnia proste funkcje obliczania statystyki zestawu danych. Twierdzą, że nie konkurują z Numpy, Scipy lub innym oprogramowaniem, takim jak SPSS, SAS i Matlab. I rzeczywiście, jest to bardzo prosty moduł. Nie zapewnia testów parametrycznych ani nie parametrycznych. Zamiast tego można go użyć do wykonania prostych obliczeń (choć myślę, że nawet Excel może zrobić to samo). Dalej twierdzą, że popierają INT, Float, dziesiętne i ułamki.

Moduł statystyki może mierzyć (1) średnie i miary centralnej lokalizacji, (2) miary rozprzestrzeniania się oraz (3) statystyki relacji między dwoma wejściami.

Statystyka.mieć na myśli()

Moduł statystyki zawiera dużą liczbę funkcji. Nie będziemy obejmować każdego z nich, ale raczej kilka z nich. W takim przypadku zestaw danych znajduje się na liście. Lista jest następnie przekazywana do funkcji.

Dla liczb całkowitych:

główny.Statystyka importu PY
x = [1, 2, 3, 4, 5, 6]
średnia = statystyka.średnia (x)
Drukuj (średnia)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 3.5

W przypadku frakcji terminologia jest nieco inna. Będziesz musiał zaimportować moduł o nazwie frakcje. Musisz także umieścić ułamek w nawiasach i napisać przed nią stolicę F. Zatem 0.5 byłoby równe F (1,2). Nie jest to możliwe w przypadku dużych zestawów danych!

główny.Statystyka importu PY
Z frakcji, frakcja importowa jako f
X = [F (1,2), F (2,3), F (3,4), F (4,5), F (5,6), F (6,7)]
średnia = statystyka.średnia (x)
Drukuj (średnia)

Kiedy uruchamiasz to drugie, dostajesz:

główny.PY 617/840

W większości prac badawczych najczęstszym rodzajem napotkanej liczby jest wartość dziesiętna i jest to o wiele trudniejsze do osiągnięcia z modułem statystycznym. Najpierw musisz zaimportować moduł dziesiętny, a następnie umieścić każdą wartość dziesiętną w cytacie (co jest absurdalne i niepraktyczne, jeśli masz duże zestawy danych).

główny.Statystyka importu PY
Od dziesiętnego importu dziesiętnego jako d
x = [D ("0.5 "), D (" 0.75 "), D (" 1.75 "), D („ 2.67 "), D („ 7.77 "), D („ 3.44 ")]
średnia = statystyka.średnia (x)
Drukuj (średnia)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 2.8133333333333333333333333333

Moduł statystyki oferuje również średnią FMEAN, geometryczną i harmoniczną. Statystyka.mediana () i statystyki.Mode () są podobne do statystyki.mieć na myśli().

Statystyka.wariancja () i statystyki.stdev ()

W badaniach bardzo, bardzo rzadko, jest taka duża wielkość próby, że równa się lub w przybliżeniu równa się wielkości populacji. Przyjrzymy się więc wariancji przykładowej i odchyleniu standardowego próbki. Oferują jednak również wariancję populacji i odchylenie standardowe populacji.

Jeszcze raz, jeśli chcesz użyć dziesiętnych, musisz zaimportować moduł dziesiętny, a jeśli chcesz użyć frakcji, musisz zaimportować moduł frakcji. To pod względem analizy statystycznej jest raczej absurdalne i bardzo niepraktyczne.

główny.Statystyka importu PY
Od dziesiętnego importu dziesiętnego jako d
x = [D ("0.5 "), D (" 0.75 "), D (" 1.75 "), D („ 2.67 "), D („ 7.77 "), D („ 3.44 ")]
var = statystyki.wariancja (x)
Drukuj (var)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 7.1442666666666666666666666667

Alternatywnie, odchylenie standardowe można obliczyć, wykonując:

główny.Statystyka importu PY
Od dziesiętnego importu dziesiętnego jako d
x = [D ("0.5 "), D (" 0.75 "), D (" 1.75 "), D („ 2.67 "), D („ 7.77 "), D („ 3.44 ")]
STD = Statystyka.stdev (x)
Drukuj (STD)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 2.672876103875124748889421932

Korelacja Pearsona

Z jakiegoś powodu, chociaż autorzy modułu statystycznego zignorowali testy ANOVA, testy t itp. Pamiętaj, że korelacja Pearsona jest określonym rodzajem korelacji używanej tylko wtedy, gdy dane są normalne; Jest to zatem test parametryczny. Istnieje kolejny test zwany korelacją Spearmana, który można również użyć, jeśli dane nie są normalne (co zwykle jest).

główny.Statystyka importu PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
corr = statystyki.korelacja (x, y)
Drukuj (Corr)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 0.9960181677345038

Regresja liniowa

Kiedy przeprowadzana jest prosta regresja liniowa, zjeżdża na formułę:

y = nachylenie * x + przechwytywanie

Excel to też robi. Ale najbardziej ten moduł może zrobić, aby wydrukować wartość nachylenia i przechwycenie, z którego można odtworzyć linię. Excel i SPSS oferują wykresy do równania, ale żaden z nich z modułem statystycznym.

główny.Statystyka importu PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
nachylenie, przechwytywanie = statystyki.Linear_regression (x, y)
Drukuj („nachylenie to % s” % nachylenie)
Drukuj („przechwytywanie to % s” % przecięcia)
Drukuj („ %s x + %s = y” %(nachylenie, przechwyty))

Kiedy uruchamiasz to drugie, dostajesz:

główny.py stok to 0.9111784209749394
Przechwycenie wynosi 0.46169013364824574
0.9111784209749394 x + 0.46169013364824574 = y

Kowariancja

Dodatkowo moduł statystyki może mierzyć kowariancję.

główny.Statystyka importu PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
Cov = statystyki.kowariancja (x, y)
Drukuj (COV)

Kiedy uruchamiasz to drugie, dostajesz:

główny.Py 4.279719999999999

Chociaż Python oferuje moduł o nazwie moduł statystyki, nie jest to dla zaawansowanych statystyk! Pamiętaj, jeśli chcesz faktycznie przeanalizować swój zestaw danych, idź z dowolnym modułem innym niż moduł statystyki! Jest to nie tylko zbyt proste, ale także wszystkie funkcje, które oferuje, można łatwo znaleźć w programie Excel. Ponadto istnieją tylko dwa testy - korelacja Pearsona i prosta regresja liniowa - które oferuje ten moduł pod względem testów. Nie ma anva, testu t, nie ma chi-kwadrat ani żadnego z podobnych! Co więcej, jeśli chcesz użyć dziesiętnych, musisz wywołać moduł dziesiętny, który może być frustrujący dla dużych i bardzo dużych zestawów danych. Nie złapiesz nikogo, kto potrzebuje prawdziwej pracy statystycznej wykonanej za pomocą tego modułu (idź z SPSS, jeśli potrzebujesz zaawansowanych rzeczy), ale jeśli to prosta zabawa, której szukasz, ten moduł jest dla Ciebie.

Szczęśliwe kodowanie!