Co to jest macierz zamieszania?
Dokładność i poprawność modelu są mierzone za pomocą macierzy zamieszania. Można go zastosować do problemów binarnych lub wielu klasyfikacji klas. Wiele wskaźników mierzy się za pomocą pomiarów macierzy zamieszania, nawet jeśli nie jest to bezpośrednia miara wydajności. Macierz zamieszania jest macierzą wielowymiarową, w której przewidywane wartości są reprezentowane w wierszach i wartości prawdziwej w kolumnach. Zmienna docelowa w binarnym problemie klasyfikacji będzie miała dwie wartości, 1 lub 0, określane jako rzeczywiste wartości jako PRAWDA Lub FAŁSZ, odpowiednio. Prognozy modelu są określane jako wartości oczekiwane.
Źródło: Explorium.Ai
Prawdziwe pozytywy (TP)
Prawdziwe pozytywy to liczba przypadków, w których faktyczna wartość próbki danych odpowiada przewidywanej wartości.
Prawdziwe negatywy (TN)
Prawdziwe negatywy to statystyka, która liczy liczbę przypadków, w których faktyczna wartość próbki danych wynosi zero, a przewidywana wartość wynosi również zero.
Fałszywe pozytywy (FP)
Fałszywe pozytywy odnoszą się do liczby wystąpień, w których faktyczna wartość próbki danych wynosi 0, ale przewidywana wartość wynosi 1.
Fałszywe negatywy (FN)
Fałszywe negatywy to statystyka, która liczy liczbę wystąpień, w których faktyczna wartość próbki danych wynosi 1, ale prognozowana wartość wynosi 0.
Wydajność modelu będzie korzystna, z większymi wartościami TP i TN oraz niższymi wartościami FP i FN, w oparciu o znaczenie poprzedniej terminologii. Model powinien zostać przeszkolony w celu maksymalizacji TP i TN, jednocześnie minimalizując wartości FP i FN. Jeśli któryś z FP i FN powinien zostać zminimalizowany, zależy od wymagań problemu kategoryzacji. Utrzymanie fałszywych negatywów do minimum będzie kluczowe w dziedzinie medycyny.
Załóżmy na przykład, że wyzwanie klasyfikacji polega na określeniu, czy pacjent ma znaczącą chorobę, taką jak rak lub HIV. Weźmy na przykład, jeśli pacjent ma raka, który jest reprezentowany przez 1 i czy pacjent nie ma raka, który jest reprezentowany przez 0. W tym scenariuszu zwykle preferowane jest zmniejszenie fałszywych pozytywów nad fałszywymi negatywami.
To znaczy, jeśli pacjent ma raka (1), a model przewiduje negatywne (0) - fałszywe negatywy - pacjent i diagnoza mogą być zagrożone. W rezultacie FN musi zmniejszyć się tak samo, jak to możliwe. Z drugiej strony, jeśli pacjent nie ma raka (0), ale model przewiduje, że miał raka (1) - fałszywie pozytywne - będzie to miało mniej konsekwencji, ponieważ w większości przypadków przeprowadzone zostaną kolejne testy na kluczowe choroby Przed potwierdzeniem choroby jako pozytywnej. W rezultacie fałszywe pozytywy są lepsze niż fałszywe negatywy w tym problemie.
Korzyści z macierzy zamieszania
Jak obliczyć macierze zamieszania?
Poniżej zaciągnięte kroki do obliczenia macierzy zamieszania:
Wdrożenie macierzy zamieszania w Sklearn
# Importowanie wymaganych etykietWyjście
tablica ([[0, 2, 0],Wniosek
Dowiedzieliśmy się o matrycy zamieszania i jej wdrożeniu w Sklearn. Sklearn to popularna biblioteka ML oparta na Python, która implementuje różne wskaźniki i algorytmy. Matryca zamieszania określa wskaźniki dokładności problemów klasyfikacyjnych na podstawie prawdziwych pozytywów lub prawdziwych negatywów lub fałszywych pozytywów lub fałszywych negatywów.