Kowariacja panda

Kowariacja panda
Metoda Pandas Cov () oblicza sparowaną kowariancję wśród serii DataFrame. Zwrócona ramka danych to macierz kowariancji kolumn DataFrame. Obliczenia automatycznie wyklucza wpisy NA i NULL. Ta technika jest powszechnie stosowana do oceny danych szeregów czasowych w celu ustalenia związku między różnymi pomiarami w czasie.

Składnia tej metody jest następująca:

Tutaj „okresy minuty” określa najmniejszą liczbę wystąpień potrzebnych dla każdej pary kolumn, aby zapewnić prawidłowy wynik.

Nauczysz się i zrozumiesz tę metodę poprzez praktyczną demonstrację kodów w tym artykule.

Przykład 1

Ta ilustracja polega na znalezieniu kowariancji wśród kolumn z ramki danych. Zacznijmy uczyć się jej praktycznego wdrożenia.

Pierwszym i najbardziej niezbędnym zadaniem jest znalezienie narzędzia kompatybilnego z maszyną i obsługuje język Python. W przypadku naszych wymagań narzędzie „Spyder” jest najbardziej odpowiednie. Musimy więc pobrać, zainstalować i wreszcie uruchomić narzędzie. Po wyświetleniu interfejsu otwieramy nowy plik, klikając przycisk „Plik” i wybierając opcję „Nowy plik”. Nowy plik z „.rozszerzenie py ”jest otwarte. „„.Py ”odnosi się do pliku„ Python ”.

Teraz zacznij pisać kod Pythona. Zanim zaczniemy nasz główny kod, musimy uzyskać niezbędne biblioteki w tym pliku Python. W obecnym temacie nie potrzebujemy wielu bibliotek, ale tylko jednego pakietu, którym jest „pandy”. Tak więc piszemy kod „Importuj pandy jako PD”, który importuje wszystkie funkcje pandy w naszym pliku Python. Możemy uzyskać do nich dostęp za pomocą „PD” zamiast „pandy” w całym skrypcie.

Ponieważ musimy obliczyć kowariancję wśród kolumn z ramki danych, musimy mieć pandasframe, w której ćwiczymy tę metodę. Aby skonstruować ramkę danych, pandy zapewnia nam „PD.Funkcja dataFrame () ”. Jak już wiemy, że „PD” to „pandy”, uzyskujemy dostęp do metody pandas. „DataFrame ()” jest słowem kluczowym tej funkcji, które po wywołaniu tworzy ramkę danych. Generujemy ramkę danych za pomocą tego „PD.Metoda dataFrame () ”i zainicjowała ją z trzema kolumnami -„ alfa ”,„ beta ”i„ gamma ”.

Nasza pierwsza kolumna „Alpha” przechowuje sześć wartości, które to „3”, „4”, „1”, „10”, „5” i „7”. Druga kolumna „Beta” zawiera sześć wartości, które to „12”, „2”, „8”, „13”, „4” i „5”. Trzecia i ostatnia kolumna „Gamma” mają wartości „4”, „6”, „12”, „9”, „3” i „10”. Wszystkie te kolumny przechowują typ wartości całkowitej i mają tę samą długość, która wynosi 6.

Teraz, aby przechowywać tenframe, tworzymy obiekt Frame lub zmienną „klasę”. Ta zmienna „ocena” przypisuje wyjście wygenerowane z wywoływania pand „PD.Metoda dataFrame () ”. Więc kiedy nazywamy „PD.Metoda dataFrame () ”, Pandas DataFrame jest tworzona i przechowywana w„ Grade ”. Możemy uzyskać dostęp doFrame z tym obiektem. Wygenerowaliśmy ramkę danych i zapisaliśmy ją. A co z jego wyświetleniem? Aby wyświetlić ramkę danych na terminalu, mamy bardzo prostą i poręczną metodę „print ()”. Ta metoda przyjmuje zmienną, funkcję lub instrukcję jako jej parametr i po prostu wyświetla ją na terminalu. Piszemy to jako „druk (klasa)” i wyświetli się na danych danych.

Po kliknięciu przycisku „Uruchom plik” na narzędziu „Spyder” lub naciśnij klawisze „SHIFT+ENTER”, na terminalu wyświetlany jestFrame z trzema kolumnami i sześcioma wierszami.

Teraz musimy wykonać nasze główne zadanie, w którym utworzyliśmy tenframe, który oblicza kowariancję. Aby obliczyć kowariancję między wszystkimi kolumnami tego kompletu danych, mamy metodę dostarczaną przez pandas „Cov ()”. Aby wykorzystać tę metodę, nazwaliśmy „.COV () ”Metoda z nazwą DataFrame„ Grade.cov () ”. Oblicza to kowariancję na dostarczonej ramce danych. Następnie umieszczamy tę metodę między nawiasami metody „print ()”, aby wyświetlić ramkę danych z obliczoną kowariancją na wszystkich jego kolumnach. W przeciwnym razie możesz utworzyć zmienną i przechowywać w nim obliczoną kowariancję i wyświetlić ją za pomocą metody „print ()”.

Wykonanie skryptu wyjaśnionego wcześniej daje nam matrycę z obliczoną kowariancją między wszystkimi kolumnami „Grade” DataFrame. Możesz zobaczyć, że wszystkie wartości kowariancji są dodatnie.

Przykład 2

Teraz zobaczymy, co się stanie, gdy będziemy mieć pewne wartości „NAN” (nie liczbowe) w naszej ramce danych i musimy obliczyć kowariancję w tej formie danych. Gdyframa danych ma jakiekolwiek wartości „nan”, funkcja „cov ()” ignoruje te wartości „nan” i oblicza kowariancję między resztą wartości.

W tym celu wykorzystaliśmy wcześniej utworzoną ramkę danych i zmodyfikowaliśmy go zgodnie z naszymi wymaganiami. Zmieniliśmy jedną wartość z każdej kolumny ramki danych na wartość „brak”. Druga wartość kolumny „alfa” jest zmieniana na „Brak”, druga wartość kolumny „beta” jest zmieniana na „Brak”, a piąta wartość kolumny „gamma” jest również zmieniana na „Brak”. Następnie po prostu wyświetliśmy zmodyfikowaną ramkę danych z funkcją „print ()”.

Tak wygląda nasz zaktualizowany zestaw danych z wartościami NAN.

Obliczamy teraz jego kowariancję. Po prostu wywołaliśmy funkcję „cov ()” o nazwie DataFrame i przekazaliśmy tę funkcję jako parametr do metody „print ()”, aby wyświetlić obliczoną kowariancję za pomocą wartości „NAN”.

Kiedy uruchamiamy wcześniej wspomniany skrypt, wyświetla się on do nas kowariancja obliczona dla wszystkich kolumn w ramce danych, gdzie po zignorowaniu wartości „nan” kowariancja między tymi kolumnami o wartościach „nan” jest ujemna.

Przykład 3

Nauczyłeś się, jak obliczyć kowariancję między wszystkimi kolumnami ramki danych z lub bez żadnych wartości „nan”. Tutaj zapoznamy się z inną techniką korzystania z funkcji „cov ()”. Ta technika oblicza kowariancję między dwiema serii pand. Używamy ramki danych, którą stworzyliśmy w pierwszej ilustracji tego przewodnika. Z tej formy danych tworzymy dwie serie pandy.

Aby stworzyć serię, zatrudniamy „PD.Funkcja serii () ”. Pomiędzy jego aparatami ortodontyczny. Podajemy więc nazwę kolumny z nazwą DataFrame między „PD.Seria () ”funkcjonuje jako„ PD.Seria (klasa [„alfa”]) ”. Następnie przechowujemy tę serię w zmiennej „V1”. Tworzymy kolejną serię z tymi samymi krokami przy użyciu kolumny „gamma” „gamma”, tym razem jako „PD.Seria (klasa [„gamma”]) ”i przechowuj ją w zmiennej„ v2 ”.

Używamy metody „print ()” do wydrukowania zarówno serii „V1”, jak i „V2”. W ostatnim kroku obliczamy kowariancję, wywołując metodę „cov ()”. Napisz tytuł pierwszej serii z „.Funkcja cov () ”, a następnie druga seria w swoich aparatach ortodontycznych jako„ v1.COV (v2) ”. Przekaż to jako parametr do metody „print ()”, aby.

To daje nam następujące dane wyjściowe z obliczoną kowariancją między dwiema serią pandy.

Wniosek

Obliczanie kowariancji między wszystkimi kolumnami ramki danych lub między dwiema seriami utworzonymi z ramki danych można przeprowadzić za pomocą prostej i skutecznej funkcji pandy - „cov ()”. W tym artykule zawierał praktyczną implementację kodów Python wykonanych na narzędziu „Spyder”. Pierwsza ilustracja została ci wyjaśniona w celu oszacowania kowariancji wśród kolumn Pandas DataFrame. Drugi przykład opierał się na nauce obliczeń kowariancji z wartościami „nan”. A ostatni przykład koncentrował się na znalezieniu kowariancji wśród dwóch serii pandy. Opracowaliśmy każdą małoletnie, aby uzyskać główne szczegóły w tym artykule, aby uczyć się dla Ciebie zabawą.