Scipy Stats pasuje

Scipy Stats pasuje
Python to zorientowany na obiekty i wysoki poziom programowania oprogramowania, który zapewnia obszerną listę pakietów, który pomaga jego użytkownikowi w wydajniejszym uruchamianiu programów. Ten język ma swoją aplikację w prawie każdej dziedzinie życia, gdzie jest wymagana automatyzacja za pośrednictwem oprogramowania. Wynika to z jego mocy matematycznych i obliczeniowych, które ułatwiają wdrożenie różnych pojęć dla programistów. Scipy przyczynia się do pakietu bibliotecznego, który oferuje Python. Ten pakiet biblioteczny oferuje swoje usługi, zapewniając różne wbudowane funkcje w dziedzinie uczenia maszynowego, optymalizacji i analizy danych. SCIPY STAT Fit to funkcja Scipy, która wykorzystuje atrybut statystyki lub moduł z biblioteki Scipy i pomaga znaleźć najlepsze dopasowanie do zestawów danych. Najlepiej dopasować tutaj dystrybucję danych na konkretnej granicy decyzji.

Procedura

Za pomocą SCIPY STAT FIT dowiemy się, jak zaimplementować funkcję statystyki fit (), aby znaleźć najlepszą linię dopasowania lub dystrybucję wymaganych zestawów danych. Składnia tej funkcji zostanie wyświetlona, ​​a następnie zostanie wyjaśniona za pomocą parametrów wymaganych przez tę funkcję.

Składnia

$ Stats. norma.dopasowanie (dane)

Wyżej wymieniona linia to składnia dla Stat Fit (). Ta funkcja wykorzystuje moduł „norma” z modułu statystyk SCIPY. Norma jest długością dowolnego wektora lub odległości wektora, który mówi o stopniu, w jakim wektor jest rozłożony na przestrzeń. „Dane” to parametr wejściowy funkcji, która odnosi się do danych, których dystrybucja lub dopasowanie chcemy obliczyć.

Przykład nr 01

Funkcja Stats Fit () oblicza rozkład lub mówi, że rodzaj dystrybucji zestawu danych oparty na charakterze jego elementów. Innymi słowy, statystyki FIT () uważa, że ​​najlepsze dopasowanie do danych dla różnych typów zmiennych losowych. W przypadku tych zmiennych, które są niezależne i losowe, otrzymujemy „rozkład Gaussa”, o którym wiadomo, że jest naturalny lub normalny rozkład zmiennych w zestawie danych. Ten przykład obliczy rozkład Gaussa dla zmiennych w zestawie danych.

W przypadku dowolnego rodzaju rozkładu musimy zobaczyć cztery niezbędne parametry, takie jak: parametr lokalizacji, kształt rozkładu, skala i ostatni jest próg. Wszystkie te parametry przyczyniają się do jednego rodzaju rozkładu. Rozkład Gaussa ma większość swoich obserwacji na szczycie, który jest wokół średniej. Aby to wdrożyć, będziemy używać „Google COLLAB”, które jest środowiskiem open source i publicznym, które oferuje uruchomienie programów Python z wcześniejszą instalacją wszystkich jego pakietów. Wymagana biblioteka lub pakiet w tym przykładzie będą statystyki z scipy. Najpierw napiszmy polecenie „ze statystyk importu Scipy”.

Następnym krokiem będzie wygenerowanie nowych danych w celu utworzenia zmiennych losowych za pomocą normy z modułu STAT jako „data = statystyki. norma. RVS (A, B, rozmiar = 400, losowo_state = 140) ”, ta funkcja przyjmuje dwa parametry„ A ”, a„ B ”dla normalnych zmiennych niezależnych i„ rozmiar ”do rozmieszczenia tych zmiennych w liczbach jest wybrany jako „400”. Teraz użyjemy wyników tej funkcji i przekazamy to do parametru „statystyk. fit () ”, aby znaleźć najlepszy rozkład dopasowania dla tych losowo wygenerowanych danych.

W wyjściu funkcji chcielibyśmy wyświetlić „parametr lokalizacji”, który informuje, gdzie dane leżą na osi X i „parametrze skali”, który informuje, ile dyspersji istnieje w danych. Kod tego przykładu jest załączony poniżej.

z statystyk importu Scipy
a = 1
B = 1
dane = statystyki.norma.RVS (A, B, rozmiar = 400, losowo_state = 140)
Lokalizacja, skala = statystyki.norma.dopasowanie (dane)
Drukuj (lokalizacja)
Drukuj (skala)

Wyjście wyświetliło lokalizację i parametr skali dla rozkładu jako 1.08 i 0.Odpowiednio 949.

Przykład nr 02

Teraz użyjemy funkcji Stats Fit (), aby zaimplementować inny rodzaj dystrybucji dla zestawu danych o ciągłych zmiennych losowych. W przypadku tego rodzaju danych ze zmiennymi pozytywnie wypaczone używamy „rozkładu gamma”. Skośność reprezentuje, ile rozkładu ma asymetrię. Rozkład gamma ma trzy parametry tak powszechne jak rozkład normalny E.G., skala, próg i kształt. Zaimplementujmy tę dystrybucję. Najpierw zaimportujemy „statystyki” modułu z biblioteki Scipy. Ta biblioteka jest importowana, abyśmy mogli użyć funkcji „Norm” z modułu statystyk do generowania losowych danych dla rozkładu gamma. Tak więc zaimportuj tę bibliotekę, pisząc następujące polecenie „od Scipy Import Stats”.

Moduł STAT pomoże również wywołać funkcję fit () w celu znalezienia rozkładu danych, które wygenerujemy. Teraz, po imporcie statystyk, wygeneruj ciągłe zmienne losowe do rozmiaru 400 z parametrem „a” i przekazuj go do funkcji normalnej jako „statystyki. gamma. RVS (rozmiar = 400, losowo_state = 140) ”. Do tego kroku stworzyliśmy dane, które chcemy zmieścić w rozkładowi gamma, ponieważ wszystkie zmienne w tych danych są ciągłymi zmiennymi losowymi i mogą dopasować się tylko do rozkładu gamma. Następnie dopasuj te dane do rozkładu gamma, przekazując te dane do parametru wejściowego funkcji ”. norma. dopasowanie (dane) ”. Z tego rozkładu dowiemy się i wyświetlimy parametry skali, progu i kształtu jako wyjściowe.

z statystyk importu Scipy
a = 1.
Random_data = statystyki.gamma.RVS (A, rozmiar = 400, losowo_state = 140)
kształt, skala, próg = statystyki.gamma.fit (losy_data)
wydruku (kształt)
Drukuj (skala)
Drukuj (próg)

Wniosek

W artykule omówiono koncepcję znalezienia najlepszego dopasowania lub najlepszych rozkładów dopasowania dla danych lub losowo wygenerowanych zmiennych albo ciągłych lub niezależnych. Ponadto w artykule omówiono parametry wymagane dla dystrybucji i pokazuje wdrożenie dwóch rodzajów rozkładów na dwóch różnych danych za pomocą przykładów.