Procedura
Za pomocą SCIPY STAT FIT dowiemy się, jak zaimplementować funkcję statystyki fit (), aby znaleźć najlepszą linię dopasowania lub dystrybucję wymaganych zestawów danych. Składnia tej funkcji zostanie wyświetlona, a następnie zostanie wyjaśniona za pomocą parametrów wymaganych przez tę funkcję.
Składnia
$ Stats. norma.dopasowanie (dane)Wyżej wymieniona linia to składnia dla Stat Fit (). Ta funkcja wykorzystuje moduł „norma” z modułu statystyk SCIPY. Norma jest długością dowolnego wektora lub odległości wektora, który mówi o stopniu, w jakim wektor jest rozłożony na przestrzeń. „Dane” to parametr wejściowy funkcji, która odnosi się do danych, których dystrybucja lub dopasowanie chcemy obliczyć.
Przykład nr 01
Funkcja Stats Fit () oblicza rozkład lub mówi, że rodzaj dystrybucji zestawu danych oparty na charakterze jego elementów. Innymi słowy, statystyki FIT () uważa, że najlepsze dopasowanie do danych dla różnych typów zmiennych losowych. W przypadku tych zmiennych, które są niezależne i losowe, otrzymujemy „rozkład Gaussa”, o którym wiadomo, że jest naturalny lub normalny rozkład zmiennych w zestawie danych. Ten przykład obliczy rozkład Gaussa dla zmiennych w zestawie danych.
W przypadku dowolnego rodzaju rozkładu musimy zobaczyć cztery niezbędne parametry, takie jak: parametr lokalizacji, kształt rozkładu, skala i ostatni jest próg. Wszystkie te parametry przyczyniają się do jednego rodzaju rozkładu. Rozkład Gaussa ma większość swoich obserwacji na szczycie, który jest wokół średniej. Aby to wdrożyć, będziemy używać „Google COLLAB”, które jest środowiskiem open source i publicznym, które oferuje uruchomienie programów Python z wcześniejszą instalacją wszystkich jego pakietów. Wymagana biblioteka lub pakiet w tym przykładzie będą statystyki z scipy. Najpierw napiszmy polecenie „ze statystyk importu Scipy”.
Następnym krokiem będzie wygenerowanie nowych danych w celu utworzenia zmiennych losowych za pomocą normy z modułu STAT jako „data = statystyki. norma. RVS (A, B, rozmiar = 400, losowo_state = 140) ”, ta funkcja przyjmuje dwa parametry„ A ”, a„ B ”dla normalnych zmiennych niezależnych i„ rozmiar ”do rozmieszczenia tych zmiennych w liczbach jest wybrany jako „400”. Teraz użyjemy wyników tej funkcji i przekazamy to do parametru „statystyk. fit () ”, aby znaleźć najlepszy rozkład dopasowania dla tych losowo wygenerowanych danych.
W wyjściu funkcji chcielibyśmy wyświetlić „parametr lokalizacji”, który informuje, gdzie dane leżą na osi X i „parametrze skali”, który informuje, ile dyspersji istnieje w danych. Kod tego przykładu jest załączony poniżej.
z statystyk importu ScipyWyjście wyświetliło lokalizację i parametr skali dla rozkładu jako 1.08 i 0.Odpowiednio 949.
Przykład nr 02
Teraz użyjemy funkcji Stats Fit (), aby zaimplementować inny rodzaj dystrybucji dla zestawu danych o ciągłych zmiennych losowych. W przypadku tego rodzaju danych ze zmiennymi pozytywnie wypaczone używamy „rozkładu gamma”. Skośność reprezentuje, ile rozkładu ma asymetrię. Rozkład gamma ma trzy parametry tak powszechne jak rozkład normalny E.G., skala, próg i kształt. Zaimplementujmy tę dystrybucję. Najpierw zaimportujemy „statystyki” modułu z biblioteki Scipy. Ta biblioteka jest importowana, abyśmy mogli użyć funkcji „Norm” z modułu statystyk do generowania losowych danych dla rozkładu gamma. Tak więc zaimportuj tę bibliotekę, pisząc następujące polecenie „od Scipy Import Stats”.
Moduł STAT pomoże również wywołać funkcję fit () w celu znalezienia rozkładu danych, które wygenerujemy. Teraz, po imporcie statystyk, wygeneruj ciągłe zmienne losowe do rozmiaru 400 z parametrem „a” i przekazuj go do funkcji normalnej jako „statystyki. gamma. RVS (rozmiar = 400, losowo_state = 140) ”. Do tego kroku stworzyliśmy dane, które chcemy zmieścić w rozkładowi gamma, ponieważ wszystkie zmienne w tych danych są ciągłymi zmiennymi losowymi i mogą dopasować się tylko do rozkładu gamma. Następnie dopasuj te dane do rozkładu gamma, przekazując te dane do parametru wejściowego funkcji ”. norma. dopasowanie (dane) ”. Z tego rozkładu dowiemy się i wyświetlimy parametry skali, progu i kształtu jako wyjściowe.
z statystyk importu ScipyWniosek
W artykule omówiono koncepcję znalezienia najlepszego dopasowania lub najlepszych rozkładów dopasowania dla danych lub losowo wygenerowanych zmiennych albo ciągłych lub niezależnych. Ponadto w artykule omówiono parametry wymagane dla dystrybucji i pokazuje wdrożenie dwóch rodzajów rozkładów na dwóch różnych danych za pomocą przykładów.