Metoda korelacji pandy

Justyna Flak

„Pandy” to biblioteka Python, której używamy do analizy danych. Jest to szybkie, potężne, dostosowalne i przyjazne dla użytkownika narzędzie analizy i przetwarzania open source. Wartości są przechowywane w formacie z rzędu i kolumny przy użyciu dwuwymiarowego modelu danych znanego jako „Pandy DataFrame”.

Teraz pandy mogą pomóc w produkcji różnych map analizy danych. Korelacja to jedna technika. Korelacja jest bardzo przydatną statystyką, która wskazuje, w jaki sposób dwa zestawy danych są ze sobą powiązane. Pandy „DataFrame.Metodę corr () ”można wykorzystać do znalezienia korelacji między dwiema lub jeszcze więcej kolumn w ramce danych. Dodatnia korelacja oznacza, że wartości w jednej grupie nadal rosną ze wzrostem drugiej, podczas gdy korelacja ujemna oznacza, że wartości w jednej grupie nadal spadają wraz ze wzrostem drugiej.

Pandas DataFrame.corr () funkcja

Możemy użyć pand „DataFrame.corr () ”funkcja poprzez podane poniżej składnię:

Kiedy używasz metody „corr ()” do obliczenia korelacji Pearsona między dwiema kolumnami pandas, wytwarza jedną figurę reprezentującą korelację Pearsona wśród dwóch kolumn. Możesz także użyć tej metody jawnie w ramce danych, aby wygenerować macierz korelacji parowych między różnymi kolumnami.

Przykład 1

W tym przykładzie znajdziemy korelację między trzema kolumnami strumienia danych. Do praktycznego wdrożenia tej metody w Pythonie użyliśmy narzędzia „Spyder”. Otwórz nowy plik Pythona w narzędziu „Spyder”. Najważniejszym wymogiem przy rozpoczęciu pisania skryptu jest import odpowiednich bibliotek. Ponieważ musimy wdrożyć metodę „pandy”, dlatego mamy „importować pandy jako PD”, aby uzyskać dostęp do funkcji „pandy”.

Następnie zaczynamy nasz główny kod Pythona. Utworzyliśmy ramkę danych, wykorzystując „PD.Metoda dataFrame () ”. Rzeka danych jest inicjowana przez trzy kolumny „komputer”, „chemia” i „matematyka”. Wszystkie kolumny DataFrame przechowują tę samą długość wartości. Pierwsza kolumna „komputer” ma osiem wartości liczb całkowitych, które to „80”, „75”, „62”, „89”, „63”, „41”, „73” i „54”. Druga kolumna, „Chemia”, przechowuje także osiem wartości INT, które to „87”, „67”, „53”, „54”, „66”, „82”, „58” i „66”. Ostatnia kolumna „Math” ma wartości „93”, „75”, „65”, „47”, „83”, „78”, „83” i „98”.

Aby wyświetlić naszą początkową ramkę danych, użyliśmy metody „print ()” z nazwą DataFrame „Data” jako parametru w końcowym wierszu skryptu.

Aby wyświetlić wyjście na terminalu, użyj przycisku „Uruchom plik” na narzędziu „Spyder” lub naciśnij klawisze „Shift+Enter”. Dane wyjściowe wyświetlane na terminalu pokazuje ramkę danych z trzema kolumnami, które zostały pomyślnie utworzone.

Stworzyliśmy naszą podstawową ramkę danych. Teraz musimy znaleźć korelację między dowolnymi dwiema kolumnami naszych „danych”. W tym celu wykorzystaliśmy pandy „DataFrame.corr () ”funkcja, która obliczy korelację między dwiema określonymi kolumnami z ramki danych. Najpierw musimy podać tytuł DataFrame z pierwszą nazwą kolumny, a następnie „.corr () ”Funkcja o nazwie drugiej kolumny między jej nawiasami.

Tutaj użyliśmy kolumny „komputer” i kolumny „matematyki”, aby znaleźć korelację między nimi jako „dane [„ komputer ”].corr (dane [„matematyka])”. Utworzyliśmy zmienną „wynik” i przypisaliśmy ją wyjście wywołania „.metoda corr () ”. Następnie wywoływana jest funkcja „print ()”, aby wyświetlić korektę obu kolumn.

Na obrazie wyjściowym widać, że obliczona korelacja między kolumnami „komputer” i „matematyka” jest na rysunku ujemnym, który pokazuje korelację między tymi dwiema kolumnami, jest ujemna lub słaba.

Podobnie możemy sprawdzić korelację między dowolną z dwóch kolumn. Dla Twojej wygody znaleźliśmy tutaj korelację między dwiema innymi kolumnami. Tym razem wybraliśmy pierwszą kolumnę „Matematykę” i drugą kolumnę „Chemistry” i wywołyliśmy „.corr () ”. Zapisaliśmy dane wyjściowe, które zostanie wygenerowane z wywoływania tej funkcji, i.mi., korelacja „matematyki” i „chemii”. Teraz możemy uzyskać dostęp do tego wyjścia, wykorzystując zmienną „wynik”. Funkcja „print ()” po prostu drukuje wyjście.

Wynik wygenerowany z tego skryptu można wyświetlić na poniższym obrazku. W tym przypadku obliczona korelacja między kolumnami „matematyki” i „chemii” ma wartość dodatnią, co oznacza, że ich korelacja jest pozytywna lub silna.

Przykład nr 2

Możemy również znaleźć korelacje między wszystkimi kolumnami z ramki danych za pomocą pand „DataFrame.metoda corr () ”. W tym przykładzie nauczysz się poprzez praktyczne wdrożenie.

Do demonstracji użyliśmy narzędzia „Spyder”, które już zainstalowaliśmy w naszym systemie. Najpierw musimy zaimportować podstawową bibliotekę tej metody, jaką jest pandy. Użyliśmy skryptu „Importuj pandy jako PD” do importowania pand do naszego pliku Pythona w narzędziu „Spyder”, co pozwoli nam uzyskać dostęp do modułów pandas za pomocą „PD”. Następnie użyliśmy „PD.Funkcja danych dataFrame (). TaFrame ma cztery kolumny „nazwa”, „punkty”, „asyst” i „podatek”.

Każda kolumna przechowuje sześć wartości. Kolumna „nazwa” ma wartości ciągów, które są „A”, „B”, „C”, „X”, „Y” i „Z”. Kolumna „punktów” ma sześć wartości liczb całkowitych, które wynoszą „17”, „22”, „15”, „14”, „24” i „21”. Kolumna „Assists” ma sześć wartości liczb całkowitych „2”, „13”, „9”, „4”, „12” i „10”. Ostatnia kolumna „Podatek” ma wartości „12”, „4”, „6”, „11”, „13” i „20”. Utworzyliśmy obiekt DataFrame „Informacje” i przypisaliśmy mu wyjście wywołujące „PD.Metoda dataFrame () ”. Tak więc wynikająca z ramki danych wygenerowanej z „PD.DataFrame () ”będzie przechowywany w„ Info ”.

Teraz możemy uzyskać dostęp do DataFrame za pomocą tego obiektu. Aby wyświetlić tę ramkę danych, zastosowaliśmy metodę „print ()” z obiektem DataFrame „Informacje” jako jej parametrem.

W poprzednim programie Python na terminalu zostanie wyświetlona ramka danych z czterema kolumnami. Jak widać na poniższym obrazku:

Teraz musimy znaleźć korelację między wszystkimi kolumnami DataFrame za pomocą pand „DataFrame.metoda corr () ”. Naszym celem jest obliczenie korelacji między wszystkimi kolumnami, więc musimy tylko napisać nazwę DataFrame, która jest „informacją”, z „.metoda corr () ”. Stworzyliśmy zmienną „R” do przechowywania wyniku, który otrzymamy, wywołując „Informacje.metoda corr () ”. W końcu wydrukowaliśmy treść przechowywaną w zmiennej „R”, wywołując funkcję „print ()”.

Tutaj otrzymaliśmy korelację wyjściową spośród wszystkich trzech kolumn numerycznych „Info” DataFrame. W migawce wyjściowej widzimy, że istnieje ujemna korelacja między „punktami” a „podatkiem”. „Asysty” i „podatek” również mają ujemną korelację, podczas gdy wszystkie pozostałe pary mają między nimi dodatnią korelację. Być może zauważyłeś, że przekątna mają wartość „1”. Oznacza to, że każda kolumna jest dokładnie połączona z sobą.

Wniosek

Wprowadziliśmy do pand „DataFrame.metoda corr () ”. Ta metoda jest bardzo ważna w procesie obliczania związku między różnymi kolumnami. Wykonaliśmy dwa praktyczne przykłady narzędzia „Spyder”. W pierwszym przykładzie opracowaliśmy i wyjaśniliśmy koncepcję znalezienia korelacji między dowolnymi dwiema kolumnami ramki danych, podczas gdy drugi przykład opiera się na obliczeniu korelacji między wszystkimi kolumnami ramki danych. Postępuj zgodnie ze wszystkimi krokami przeprowadzonymi w praktycznym procesie wdrażania, aby zrozumieć metodę korelacji pandy.

Windows

Darmowe dyski do nagrywania dysków

Najlepsze bezpłatne programy do nagrywania płyt CD, DVD i Blu-ray w systemie Windows. Proste i zrozu...

Gracja Piekarski

Windows

Microsoft wydał narzędzie do blokowania aktualizacji Windows 10

Microsoft wydał narzędzie do odłączenia wybranych aktualizacji Windows 10, aby zapobiec ich instalac...

Janusz Baranowski

Bezpieczeństwo

O bezpieczeństwie haseł

Co to jest bezpieczne hasło i jak je tworzyć, użycie uwierzytelniania dwóch czynników, przechowywani...

Hilarion Jarosz