Pandy usuwają wartości odstające

Pandy usuwają wartości odstające
Możemy użyć biblioteki „pandy”, aby wykonywać niektóre zadania matematyczne na danych w sposób możliwy do zarządzania. Ten zestaw narzędzi open source jest wykorzystywany do manipulowania i analizy danych do wyodrębnienia wymaganych informacji z określonych danych. Kiedy omawiamy „wartości odstające” w „Pandy”, możemy powiedzieć, że element danych lub obiekt, który znacznie różni się od innych elementów, jest określany jako „wartości odstające”. Powodem może być błędy w pomiarze lub wdrożeniu. Wydobycie odstające to technika stosowana do wykrywania odstających. Istnieje wiele metod znajdowania wartości odstających, a procedura czyszczenia jest taka sama w przypadku ramki Pandy, jak na samą ramkę danych pandy. Musimy usunąć „wartości odstające” w zestawie danych „Pandy”, ponieważ po usunięciu tych wartości odstających często pomaga naszemu modelowi w skuteczniejszym uogólniu. W tym artykule usuniemy wartości odstające w „Pandy” i serie, wykorzystując metodę „Pandy”.

Metody usuwania wartości odstających w „Pandy”

Możemy wykorzystać dwie metody w „Panandach” do usuwania wartości odstających w „Pandy”. To są:

  • Metoda zasięgu międzykwartylowego
  • Metoda S-Score

Metody te zostaną wykorzystane do usunięcia „wartości odstających” z serii „Pandy” i „Pandas” DataFrame. W tym artykule zilustrujemy również przykłady, w jaki sposób używamy tych technik w kodach „pandy”.

Przykład nr 01:

Używamy narzędzia „Spyder” do wykonywania kodów „pandy”, które są przedstawione w tym artykule. Gdy zamierzamy wygenerować kod „pandy”, musimy „zaimportować” jego moduły. W celu importowania modułów „pandy” dodajemy „import”, który jest słowem kluczowym, a następnie umieszczamy „Pandy jako PD”. Pomoże w uzyskaniu metod „pandy”, jeśli wpisujemy „PD” z nazwą funkcji, którą chcemy wykorzystać. Następnie zaimportowaliśmy „Numpy”, który jest również biblioteką. Importujemy go jako „NP”, abyśmy mogli również uzyskać jego metody o nazwie funkcji „Numpy”, której chcemy użyć.

Następnie zadeklarowaliśmy „rozmiar”, który jest nazwą zmiennej, a ta zmienna jest inicjowana z wartością „15”. Teraz, po zainicjowaniu „rozmiaru”, deklarujemy również inną zmienną o nazwie „dane” poniżej. Te „dane” są następnie inicjowane za pomocą „PD.Metoda serii () ”. Jak wpisaliśmy „PD, otrzymujemy metodę„ pand ”. W tym „PD.Metoda serii () ”umieszczamy„ NP.losowy.Normal () ”metoda i jest to metoda biblioteki„ Numpy ”, ponieważ dodaliśmy z nią„ NP ”. Ta metoda pomaga nam w tworzeniu normalnie rozproszonych danych. Dane te są tworzone w postaci serii „Pandy”.

Podajemy w nim parametr „rozmiar” i przypisujemy zmienną „rozmiar”, który utworzyliśmy do tego parametru „rozmiaru”. Zatem wygeneruje losową serię „pandy” o wielkości „15” i jest jednowymiarowa. Zmienna „danych”, w której przechowywana jest seria losowa, jest następnie przekazywana do funkcji „print ()”, więc pomaga w drukowaniu tej losowej serii na terminalu.

Teraz możemy łatwo uzyskać wyjście kodów w aplikacji „Spyder” na dwa sposoby. Jednym z nich jest uderzenie klawiszy „Shift+Enter”, a drugim jest wykorzystanie ikony „Uruchom” tego narzędzia. Teraz, po tym, mamy wynik kodu na terminalu tego narzędzia. Pokazano również wynik, w którym wyświetlana jest seria, która jest serią losową, którą wygenerowaliśmy w kodzie „Pandy”. Teraz usuniemy wartości odstające z tej serii poniżej.

Tutaj dostosowujemy wartości „kwantyle ()”. Dostosowaliśmy „.15 ”jako wartość pierwszego kwantylu, a także jest najniższym kwantem. Następnie dostosowaliśmy „.Wartość 85 ”jako wartość drugiego kwantylu i jest to najwyższa wartość kwantowa. Dodaliśmy nazwę serii, która jest „danymi”. W nawiasach kwadratowych ponownie umieszczamy metodę „Dane”, a następnie piszemy metodę „pomiędzy ()”. Wewnątrz tej metody dodaliśmy dwa parametry, w których pierwsza metoda to najniższy kwantyl, a drugi parametr jest najwyższym kwantem.

Dodaliśmy również tę metodę w zmiennej „Data1”, więc kiedy wykonamy ten kod, wartości po usunięciu wartości wartościowych będą przechowywane w zmiennej „Data1”. Teraz usunie wszystkie wartości odstające, które leżą w najniższym i najwyższym kwantylu. Następnie mamy „druk”, w którym dodaliśmy „Data1”.

Wartości odstające są usuwane z serii, którą wygenerowaliśmy powyżej i wyświetli się tylko dziewięć wartości. Seria, którą utworzyliśmy powyżej, zawiera 15 wartości, ale po usunięciu wartości odstających jest dziewięć wartości.

Przykład nr 02:

Importujemy również „statystyki” z biblioteki „Scipy”, ponieważ musimy wykorzystać tę metodę w tym kodzie. Tworzymy ramkę danych, w której dodaliśmy tylko jedną kolumnę, która nazywa się „dane”. Dodaliśmy do tej kolumny „-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 i 1456”. Ponadto zapisaliśmy tę ramkę danych w „my_df”. Następnie po prostu drukujemy „my_df”.

Rama danych jest renderowana w tym wyniku. Teraz zastosujemy metodę „Z-Score” do tej oprawy danych do usunięcia wartości odstających.

Odnajdujemy „ZScore”, wykorzystując z nim „statystyki”, które zaimportowaliśmy powyżej. Korzystamy z tej metody tylko wtedy, gdy importujemy „statystyki”. Dodaliśmy kolumnę „Z_Score”, w której przechowujemy wartości „ZSCORE”. W celu znalezienia wartości „ZSCORE” kolumny „Dane” dodaliśmy w tej metodzie dodanie danych danych i nazwy kolumny. Następnie renderujemy „my_data”, w której dodaje się również kolumna „Z_Score”.

W tym wyniku pokazano dwie kolumny. Kolumna „danych”, którą dodaliśmy w ramce danych, a drugą to kolumna „Z_Score”, zawiera wartości „ZSCORE”, które otrzymujemy, stosując „Statystyki.metoda zscore () ”. Tutaj możesz zauważyć, że wszystkie wartości, które są obecne w kolumnie „Z_Score”, są ujemne, ale ostatnia to wartość dodatnia. Oznacza to, że jest to wartości odstające i musimy go usunąć.

Zgodnie z kryteriami empirycznymi, wartości odstające są wartości. Dodaliśmy więc metodę „LOC” do filtrowania tych wierszy, w której wartość „Z_Score” jest mniejsza niż 3 lub równa 3, a także wyświetla te wiersze w wyniku, ponieważ metoda ta jest zapisana w „Wydrukuj ( ) ”. Wszystkie pozostałe wartości są odstające i zostaną usunięte z tego ramki danych.

Tutaj pojawiają się wszystkie wartości mniejsze niż 3. Ostatnia wartość jest usuwana, ponieważ była większa niż 3 i była wartością odstającą w tym ramie danych.

Wniosek

Ten artykuł został przedstawiony do szczegółowego opisu koncepcji „Pandy usuwają wartości odstające”. W tym artykule omówiliśmy, że wartości obecne w zestawie danych, które są uważane za ekstremalne, błędne lub niereprezentatywne tematyki zestawu danych, nazywane są wartościami odstającymi. Wyjaśniliśmy również, że wartości odstające mogą być wynikiem niedokładnych metod gromadzenia danych lub faktycznych ustaleń odstających. Omówiliśmy dwie metody usuwania tych wartości odstających w „Pandy”. W tym artykule usunęliśmy wartości odstające w serii „Pandy” i ramce danych, a także szczegółowo omówiliśmy obie metody.