Regresja logistyczna Sklearn

Regresja logistyczna Sklearn

Python to nowoczesny język programowania na wysokim poziomie, zaprojektowany, aby pomóc programistom tworzyć i pisać łatwe do zrozumienia i proste kody. Jest to prosty i łatwy język programowania na wysokim poziomie, najlepszy i łatwy do zrozumienia dla początkujących. Wbudowane struktury danych wysokiego poziomu, wraz z dynamicznym pisaniem i wiązaniem, sprawiają, że jest to doskonały wybór do szybkiego rozwoju aplikacji. Jego prosta składnia sprawia, że ​​jest bardziej czytelna, co ostatecznie obniża koszty utrzymania programu. Obsługuje różne pakiety i moduły, które podkreślają ponowne wykorzystanie kodu i ulepszanie modułowości programu. Jego obszerna standardowa biblioteka i kilku tłumaczy są dostępne bezpłatnie, a także online. Zdolność Pythona zwiększonej wydajności sprawia, że ​​programiści zakochują się w języku.

Ponadto cykl edycji, testów i debugowania jest niesamowicie szybki, ponieważ nie ma żadnego etapu komplikacji. Python sprawia, że ​​zasady uczenia maszynowego są proste do nauczenia się i zrozumienia. Daje widok ptaka, jak przejść przez mały lub duży projekt uczenia maszynowego. Ten artykuł dotyczy regresji logistycznej i jej klasyfikatorów. Zacznijmy od podstaw regresji logistycznej.

Definicja regresji logistycznej

Regresja logistyczna jest algorytmem klasyfikacji. Odpowiedni algorytm analizy regresji z braterstwa uczenia maszynowego opisuje dane. Wyjaśnia związek między wieloma zmiennymi, i.mi., Poziom poziomu lub zmienna niezależna od interwału, zmienna binarna zależna od porządkową lub nominalną. Regresja logistyczna jest ogólnie stosowana w modelach statystycznych do zrozumienia danych i związku między zmiennymi zależnymi i niezależnymi poprzez przewidywanie prawdopodobieństwa kategorialnych zmiennych zależnych. Wraz ze wzrostem liczby danych rośnie siła siły obliczeniowej i poprawy algorytmu, zwiększając znaczenie uczenia maszynowego i nauki o danych. Przez uczenie maszynowe klasyfikacja stała się zasadniczym obszarem, a jedną z jej podstawowych metod jest regresja logistyczna. Do końca tego artykułu będziesz mógł zaimplementować regresję logistyczną na różnych rodzajach danych. Zacznijmy stosować odpowiednie klasy, funkcje i odpowiednie pakiety, aby wykonywać regresję logistyczną w Python. Jednym z powszechnych pakietów Pythona do regresji logistycznej jest Sklearn. Tutaj pokażemy praktyczny przykład praktycznego przykładu regresji logistycznej w Pythonie, aby pomóc Ci zrozumieć, jak wdrożyć regresję logistyczną Sklearn w Python.

Kroki w celu wdrożenia regresji logistycznej Sklearn w Python

Krok 1: Zbierz dane

Na początek od małego lub dużego projektu, pierwszą rzeczą, której potrzebujesz, są dane, na których zbudujesz model regresji logistycznej. Oto polecenie przygotowania modelu do zestawu danych.

Krok 2: Zaimportuj niezbędne pakiety Pythona

Po zainstalowaniu DataPrep następnym krokiem jest zaimportowanie pakietów potrzebnych do wdrożenia regresji logistycznej. Tutaj uczymy się pakietu Sklearn, który jest zasadniczo używany do budowy modelu regresji logistycznej w Python. Należy zainstalować następujące pakiety:

importować pandy jako PD
importować Numpy jako NP
importować matplotlib
importować matplotlib.Pyplot as Plt
Importuj Seaorn jako SNS
ze Sklearn.Przedstawienie importowe etykietoder
ze Sklearn.Metryki importu conmusion_matrix
ze Sklearn.Metryki importuj Make_Scorer, Accuracy_Score, Precision_Score, Resali_Score, F1_Score, Confusion_Matrix, Classification_Report
ze Sklearn.logistyka logistyczna Linear_Model
ze Sklearn.Model_Selection Import Train_Test_Split
Z wskaźników importu Sklearn
ze Sklearn.Metryki importowe dokładność_score
z IMBLEARN.Over_sampling Import Smote

Krok 3: Załaduj dane, aby zbudować ramkę danych

Następnym krokiem jest przechwycenie zestawu danych, dla którego potrzebujesz następującego polecenia:

df = pd.odczyt_csv ("/content/drive/mydrive/covid zestaw danych.CSV ”)

W ten sposób możesz zaimportować dane z pliku zewnętrznego; Jednak alternatywnie możesz zdefiniować zestaw danych w postaci tablicy.

Krok 4: Tworzenie regresji logistycznej po załadowaniu danych

Następnym krokiem jest opracowanie regresji logistycznej w Pythonie po wprowadzeniu danych do aplikacji Python. Na tym etapie musisz ustawić zmienne zależne i niezależne. Oto jak możesz ustawić zmienną:

X = df.Drop („Covid-19”, oś = 1)
y = df ['covid-19']

Zmienna „x” reprezentuje zmienną niezależną, a zmienna „y” reprezentuje zmienną zależną. Teraz zastosuj funkcję Train_Text_Split, aby ustawić testowanie i rozmiar szkolenia zestawu danych.

X_train, x_test, y_train, y_test = train_test_split (x, y, test_size = 0.20)

Krok 5: Zastosuj regresję logistyczną

Teraz zastosuj regresję logistyczną, śledząc poniższe polecenie:

model = logisticreGression ()
# Dopasowanie modelu
Model.fit (x_train, y_train)
Y_PRED = model.przewidy (x_test)
ACC_LOGREG = Model.wynik (x_test, y_test)*100

Krok 6: Wykreśl matrycę zamieszania

Ostatnią częścią jest wykreślenie macierzy zamieszania, która pokazuje dokładność w prawdziwej formie pozytywnej i fałszywie pozytywnej.

confusion_mtx = confusion_matrix (y_test, y_pred)
# Wykonaj macierz zamieszania
# Wykonaj macierz zamieszania
f, ax = plt.wątki (figSize = (8, 8))
Sns.heatmap (confusion_mtx, annot = true, lineWidths = 0.01, cmap = „Greens”, lineColor = „Gray”, fmt = '.1f ', ax = ax)
plt.xlabel („przewidywana etykieta”)
plt.YLABEL („True Label”)
plt.Tytuł („Matryca zamieszania”)
plt.pokazywać()

Aby wydrukować dokładność lub, innymi słowy, raport klasyfikacyjny, użyj następującego polecenia:

print (Classification_Report (y_test, y_pred))

Po uruchomieniu wszystkich poleceń otrzymasz macierz zamieszania, a także raport klasyfikacyjny. Spójrz na dane wyjściowe poniżej.

Matryca zamieszania:

Prawdziwe dodatnie (tp), fałszywie ujemne (fn), prawdziwe ujemne (tn) i fałszywie dodatnie (fp) to cztery wartości podstawowe w macierzy zamieszania.

Raport klasyfikacyjny:

Raport klasyfikacyjny zawiera dokładność wyszkolonego modelu, który można osiągnąć za pomocą formuły:

Dokładność = (tp + tn) / ogółem

Wniosek:

Ten artykuł nauczył nas regresji logistycznej i biblioteki Sklearn w Python. Dane są wyjaśnione, a związek między zmiennymi zależnymi i niezależnymi opisano za pomocą regresji logistycznej. Biblioteka Sklearn w Pythonie jest najczęściej wykorzystywana w danych statystycznych, w których przewidywanie lub prawdopodobieństwo jest znane.