Co to są wariancja i kowariancja?
Rozproszenie danych jest mierzone przez wariancję. Mówi nam, jak rozpowszechniono dane wokół pewnej liczby „prawdziwych” lub „poprawnych” (tendencja centralna - jedna miara jest średnią danych. W analizie jednoczynnikowej termin wariancja jest używana do opisania zachowania pojedynczej zmiennej. Kowariancja jest wykorzystywana w analizie wielowymiarowej do zbadania wspólnego zachowania dwóch zmiennych. Kiedy dwie zmienne poruszają się w tym samym kierunku, ich kowariancja jest pozytywna; jest to negatywne, gdy poruszają się w przeciwnych kierunkach.
Co to jest przesuwanie zestawu danych?
Gdy różni się dystrybucja danych pociągu i testów, jest to znane jako przesuwanie zestawu danych. Ponieważ model został przeszkolony w zakresie jednego rozkładu i jest obecnie wykorzystywany do przewidywania różnych rozkładów danych, co powoduje niższą dokładność danych testowych, w wyniku czego należy zawsze testować rozkłady danych i testować i sprawić, by je było podobne jak wykonalne.
Rodzaje zmiany danych
Dlaczego nastąpi zmiana zestawu danych?
Odchylenie wyboru próbki: Zmienność rozmieszczenia wynika z faktu, że dane szkoleniowe uzyskano metodą stronniczej i nie reprezentują dokładnie środowiska operacyjnego, z którego uzyskano dane testowe.
Środowiska niepochodzące: Środowisko szkoleniowe różni się od środowiska testowego, czasu lub przestrzeni.
Co to jest zmienna zmienna w uczeniu maszynowym?
Różnica między rozkładem zestawu danych szkoleniowych i testowych jest znana jako przesunięcie zmienne. Oznacza to, że szkolenie zestawu danych jest wykonywane na jednym rodzaju dystrybucji, a model jest wykorzystywany do przewidywania danych innych dystrybucji. Przesunięcie zmienne może wskazywać, że model nie może wystarczająco uogólniać. Zdolność modelu do zastosowania się do nowych danych przy użyciu funkcji uzyskanych z danych szkoleniowych jest znana jako uogólnienie. Można by pomyśleć, że pochodzą z tej samej dystrybucji, ale prawie nigdy nie jest. W rezultacie musisz aktualizować swoje modele przy najnowszym zestawie pociągów. Jest to zwykle spowodowane zmianami w stanie zmiennych utajonych, które mogą być czasowe (w tym zmiany stacjonarności procesu czasowego), przestrzenne lub mniej widoczne. Można również pomyśleć o tym jako o tym, jak w niezbadanym „regionie” wszechświata danych. Jest to fascynująca dziedzina badań, ponieważ można go obserwować na różne sposoby. Możemy sobie z tym poradzić w przestrzeni danych według kreatywnej ekstrapolacji, ale to rzadko działa, a alternatywy, takie jak ponowne orzeczenie zmiennych lub próba uczynienia funkcji prognozy dostosowującej do domeny. Specjalne okoliczności, takie jak stacjonarne zmienne czasowe i, czasami, czyste dane liczbowe, są zobowiązane, aby sprawdzić, czy naprawdę wyszliśmy poza naszą pierwotną przestrzeń towarzyszącą. W tym scenariuszu możemy obliczyć przestrzeń danych wypukłego kadłuba i sprawdzić, czy nasz nowy punkt danych nie jest na zewnątrz. Oczywiście jest to kosztowne obliczeniowo, więc rzadko jest to wykonywane, dopóki nasze prognozy nie będą nieprawidłowe. Jest to oczywiście zależne od aplikacji.
Przykłady zmiany kowarianty
Wykrywanie dryfu zmiennego i innych rodzajów dryfu modelu jest kluczowym krokiem w zwiększeniu dokładności testu modelu. Poniżej przedstawiono kilka przykładów zmiany zmiennej zmiennej w wspólnym uczeniu maszynowym przypadki użycia:
Klasyfikacja obrazu i rozpoznawanie twarzy: Model mógł zostać przeszkolony na zdjęciach tylko kilku ras psów, ale będzie działać słabo, gdy zostanie użyty do prognozowania ras, które nie były obecne w danych treningowych.
Wykrywanie i tłumaczenie mowy: Model może być wyszkolony w przypadku głośników z konkretnym akcentem. W przypadku mowy z nowymi dialektami lub akcentami, model może osiągnąć wysoki poziom dokładności z danymi szkoleniowymi, ale stanie się niedokładny, gdy będzie używany z nowymi dialektycznymi lub akcentami.
Opieka zdrowotna: Model przeszkolony w zakresie dostępnych danych treningowych od pacjentów w wieku 20 lat będzie mniej dokładny, gdy przegląda dane od pacjentów w wieku 60 lat i więcej.
Obsługa zmiany kowariancji
Upuszczamy funkcje sklasyfikowane jako dryfowanie w naszej strategii radzenia sobie z przesunięciem zestawu danych. Jednak samo usunięcie funkcji może spowodować utratę danych. Później możemy po prostu upuścić mniej ważne funkcje. W rezultacie funkcje o wartości dryfu większe niż określony próg są usuwane. Poniżej znajduje się kod, który oblicza i wyświetla znaczenie funkcji dla modelu regresji liniowej.
ze Sklearn.Zestawy danych importuj Make_reGression
od SKL
zarabiać.Linear_model import liniowy
z Matplotlib Import Pyplot
X, y = Make_reGression (n_samples = 2000, N_Features = 15, N_informative = 5, losowo_state = 1)
Model = liniowy Regresja ()
Model.Fit (x, y)
COEF_Array = model.COEF_
Dla I, V in Enumate (COEF_Array):
Drukuj (funkcja: %0D, wynik: %.5f ' % (i, v))
Pyplot.Bar ([x dla x w zakresie (len (coef_array))], coef_array)
Pyplot.pokazywać()
Wyjście
Funkcja: 0, wynik: 0.00000
Funkcja: 1, wynik: 0.00000
Funkcja: 2, wynik: 51.76768
Funkcja: 3, wynik: 0.00000
Funkcja: 4, wynik: 0.00000
Funkcja: 5, wynik: 0.00000
Funkcja: 6, wynik: 77.69109
Funkcja: 7, wynik: 0.00000
Funkcja: 8, wynik: 41.53725
Funkcja: 9, wynik: 0.00000
Funkcja: 10, wynik: 14.19662
Funkcja: 11, wynik: 80.91086
Funkcja: 12, wynik: -0.00000
Funkcja: 13, wynik: -0.00000
Funkcja: 14, wynik: -0.00000
Wniosek
W tym artykule dotyczyło wielu koncepcji, powodów i środków zaradczych związanych z przesuwaniem zestawu danych. Przesuwanie rozkładów danych z szkolenia na dane testowe nazywa się przesuwaniem zestawu danych. Różne warunki szkolenia i testowania mogą zmienić kowariancję między zmiennymi niezależnymi. Po oszacowaniu znaczenia funkcji możemy wykorzystać upuszczenie funkcji, aby wyeliminować przesuwanie zestawu danych.