Macierz zamieszania w sklearn Linuxhint

Macierz zamieszania w sklearn Linuxhint
„Bezpłatna biblioteka uczenia maszynowego zbudowana na Pythonie nazywa się scikit-learn. Obejmuje kilka technik klasyfikacji, regresji i klastrowania, które możemy wykorzystać, aby dokonywać przydatnych prognoz przy użyciu naszych danych. Matryca zamieszania to statystyka, która określa poprawność i dokładność modelu. Można go użyć do rozwiązania problemów kategoryzacji, które są binarne lub wieloklasowe. W tym artykule omówiono matrycę zamieszania i jej wdrożenie w Sklearn."

Co to jest macierz zamieszania?

Dokładność i poprawność modelu są mierzone za pomocą macierzy zamieszania. Można go zastosować do problemów binarnych lub wielu klasyfikacji klas. Wiele wskaźników mierzy się za pomocą pomiarów macierzy zamieszania, nawet jeśli nie jest to bezpośrednia miara wydajności. Macierz zamieszania jest macierzą wielowymiarową, w której przewidywane wartości są reprezentowane w wierszach i wartości prawdziwej w kolumnach. Zmienna docelowa w binarnym problemie klasyfikacji będzie miała dwie wartości, 1 lub 0, określane jako rzeczywiste wartości jako PRAWDA Lub FAŁSZ, odpowiednio. Prognozy modelu są określane jako wartości oczekiwane.

Źródło: Explorium.Ai

Prawdziwe pozytywy (TP)

Prawdziwe pozytywy to liczba przypadków, w których faktyczna wartość próbki danych odpowiada przewidywanej wartości.

Prawdziwe negatywy (TN)

Prawdziwe negatywy to statystyka, która liczy liczbę przypadków, w których faktyczna wartość próbki danych wynosi zero, a przewidywana wartość wynosi również zero.

Fałszywe pozytywy (FP)

Fałszywe pozytywy odnoszą się do liczby wystąpień, w których faktyczna wartość próbki danych wynosi 0, ale przewidywana wartość wynosi 1.

Fałszywe negatywy (FN)

Fałszywe negatywy to statystyka, która liczy liczbę wystąpień, w których faktyczna wartość próbki danych wynosi 1, ale prognozowana wartość wynosi 0.

Wydajność modelu będzie korzystna, z większymi wartościami TP i TN oraz niższymi wartościami FP i FN, w oparciu o znaczenie poprzedniej terminologii. Model powinien zostać przeszkolony w celu maksymalizacji TP i TN, jednocześnie minimalizując wartości FP i FN. Jeśli któryś z FP i FN powinien zostać zminimalizowany, zależy od wymagań problemu kategoryzacji. Utrzymanie fałszywych negatywów do minimum będzie kluczowe w dziedzinie medycyny.

Załóżmy na przykład, że wyzwanie klasyfikacji polega na określeniu, czy pacjent ma znaczącą chorobę, taką jak rak lub HIV. Weźmy na przykład, jeśli pacjent ma raka, który jest reprezentowany przez 1 i czy pacjent nie ma raka, który jest reprezentowany przez 0. W tym scenariuszu zwykle preferowane jest zmniejszenie fałszywych pozytywów nad fałszywymi negatywami.

To znaczy, jeśli pacjent ma raka (1), a model przewiduje negatywne (0) - fałszywe negatywy - pacjent i diagnoza mogą być zagrożone. W rezultacie FN musi zmniejszyć się tak samo, jak to możliwe. Z drugiej strony, jeśli pacjent nie ma raka (0), ale model przewiduje, że miał raka (1) - fałszywie pozytywne - będzie to miało mniej konsekwencji, ponieważ w większości przypadków przeprowadzone zostaną kolejne testy na kluczowe choroby Przed potwierdzeniem choroby jako pozytywnej. W rezultacie fałszywe pozytywy są lepsze niż fałszywe negatywy w tym problemie.

Korzyści z macierzy zamieszania

  • Pokazuje, w jaki sposób każdy model klasyfikacji może być zakłopotany podczas prognozowania.
  • Matryca zamieszania wskazuje rodzaje błędów popełnianych przez klasyfikator oprócz wywoływanych błędów.
  • Korzystając z tego podziału, możesz obejść problemy, polegając całkowicie na dokładności klasyfikacji.
  • Każda kolumna macierzy zamieszania wyświetla instancje tej rzutowanej klasy.
  • Każdy rząd macierzy zamieszania mapuje się na faktyczną instancję klasową.
  • Ujawnia nie tylko błędy popełnione przez klasyfikator, ale także błędy, które ludzie popełniają

Jak obliczyć macierze zamieszania?

Poniżej zaciągnięte kroki do obliczenia macierzy zamieszania:

  • Powinieneś mieć zestaw danych testowych lub sprawdzania poprawności z oczekiwanymi wartościami wyników.
  • Następnie przewiduj każdy wiersz w zestawie danych testowych.
  • Oto oczekiwane wyniki i prognozy:
  1. Liczba poprawnych domysłów dla każdej klasy.
  2. Całkowita liczba niedokładnych prognoz dla każdej klasy jest sortowana według prognozowanej klasy.

Wdrożenie macierzy zamieszania w Sklearn

# Importowanie wymaganych etykiet
ze Sklearn.Metryki importu conmusion_matrix
# prawdziwe etykiety danego zestawu danych
y_true = [1, 2, 0, 2, 1, 0]
# Przewidywane etykiety danego zestawu danych
y_pred = [1, 0, 1, 2, 0, 1]
# Uzyskaj macierz zamieszania zestawu danych
confusion_matrix (y_true, y_pred)

Wyjście

tablica ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Wniosek

Dowiedzieliśmy się o matrycy zamieszania i jej wdrożeniu w Sklearn. Sklearn to popularna biblioteka ML oparta na Python, która implementuje różne wskaźniki i algorytmy. Matryca zamieszania określa wskaźniki dokładności problemów klasyfikacyjnych na podstawie prawdziwych pozytywów lub prawdziwych negatywów lub fałszywych pozytywów lub fałszywych negatywów.