Kolumna upuszczania pandy według nazwy

Kolumna upuszczania pandy według nazwy
„Pandy” to zestaw narzędzi Open-Source Python, który upraszcza i przyspiesza analizę danych. DataFrame, dwuwymiarowa struktura danych, która przechowuje dane w rzędach i kolumnach, podobnie jak tabela w bazie danych, jest jedną z głównych cech pandy.

Podczas pracy z ramami danych często konieczne jest zmiana pandasframe w celu usunięcia nieistotnych kolumn lub optymalizacji danych do budowy modelu. Czasami niektóre kolumny nie będą przydatne do Twojej analizy. Musisz zrozumieć, jak usunąć te kolumny z dostarczonego pandasframe. Kolumny są odrzucane z modeli uczenia maszynowego, gdy są nieistotne lub nie ulepszają modelu.

Metoda pandas ()

W pandy manipulacja kolumnami może wystąpić na różne sposoby. Na przykład za pomocą „DataFrame.Metoda upuszczania ”, określone kolumny można wyeliminować. Jest to najczęściej stosowana metoda usuwania kilku kolumn w pandy. Jak sama nazwa wskazuje, ta metoda została zaprojektowana, aby ułatwić upuszczenie pojedynczych lub wielu kolumn lub wierszy. W tym szczegółowym samouczku zbadasz, jak upuścić pojedyncze lub wiele kolumn z Pandas DataFrame, wykorzystując ich nazwy.

Składnia tej funkcji znajduje się poniżej:

Tutaj, "Nazwa kolumny" to nazwa kolumny, którą chcemy upuścić. "oś" Określa, która osi należy usunąć. Oś 1 reprezentuje kolumny, a oś 0 reprezentuje wiersze. "w miejscu" wskazuje, że operacja upuszcza powinna wystąpić w tej samej ramce danych, a nie generowanie kopii ramki danych po upuszczeniu.

Nauczysz się korzystać z tej metody do upuszczania kolumn według nazwy w tym samouczku.

Przykład nr 1: Wykorzystanie pandy „DataFrame.metoda upuszczania () ”do upuszczenia pojedynczej kolumny według nazwy

W tym przykładzie przeprowadzimy praktyczną implementację tej metody eliminowania pojedynczej kolumny według nazwy z DataFrame.

Aby rozpocząć pisanie skryptu Pythona do wykonania tego przykładu, musimy mieć odpowiedni asembler, na którym możemy złożyć kod. Mamy wiele wyborów, ale ten, który wybraliśmy, jest narzędzie „Spyder”. Musisz otworzyć „Spyder-Ide.Org ”i pobierz narzędzie„ Spyder ”zgodnie z wymaganiami systemu operacyjnego. Korzystamy z systemu operacyjnego Windows, więc pobiliśmy odpowiednią konfigurację „Spyder”. Następnie po prostu go zainstalowaliśmy, a po zakończeniu procesu instalacji znajdziemy interfejs użytkownika narzędzia. Otworzyliśmy nowy plik, klikając opcję „Nowy plik”, a nawet możesz nacisnąć „Ctrl+N”, aby otworzyć nowy katalog.

Teraz musimy załadować wstępne biblioteki wymagane do skryptu. Biblioteka potrzebna do wykonania tej metody to „pandy”.

Wykorzystaliśmy „PD.Metoda dataFrame () ”, która jest dostarczana przez bibliotekę pandy. Jak wspomnieliśmy, „PD” jest aliasem dla pandy, podczas gdy „DataFrame” jest słowem kluczowym do generowania ramki danych. Tak więc zastosowaliśmy tę metodę, aby skonstruować naszą podstawową ramkę danych. Ta oprawa danych ma trzy kolumny „zakład”, „cena” i „dostępność”. Kolumna „rośliny” zawiera nazwy różnych roślin, które są „Morina”, „Oleander”, „Acacia”, „Olive”, „Hopbush” i „Mango”. Kolumna „Cena” przechowuje ceny roślin, które są „500”, „700”, „1300”, „600”, „800” i „1150”. Ostatnia kolumna „Dostępność” mówi, czy zakład jest obecnie dostępny, czy nie jako „y”, „n”, „y”, „y”, „n” i „y”. Tutaj „y” reprezentuje „tak”, a „n” reprezentuje „nie”. Długość wartości w każdej kolumnie ramki danych musi być utrzymywana tak samo, czyli sześć lat w tym przypadku. Potrzebujemy teraz obiektu DataFrame, aby utrzymać w nim treść na tym ramie danych. Tak więc stworzyliśmy obiekt DataFrame „Forest” i daliśmy mu wynik wygenerowany z wywołania „PD.Metoda dataFrame () ”. Możemy uzyskać ramkę danych za pomocą obiektu „las”. Teraz, aby wyświetlić ten nowo utworzony ramkę danych, mamy metodę Python do wyświetlania danych wyjściowych, która jest „print ()”. Przywołaliśmy metodę „print ()” i dodaliśmy nazwę strumienia danych między jej nawiasami.

Aby wykonać ten skrypt Python Pandy, musimy nacisnąć opcję „Uruchom plik”. Alternatywnie możesz nacisnąć klawisze „Shift+Enter”, aby uruchomić program. Tutaj możemy zobaczyć, jak właśnie stworzyliśmy z trzema kolumnami i sześcioma wierszami wyświetlonymi na konsoli SPYDER Tool.

Nasza DataFrame została zbudowana, a teraz możemy wykonać na nim wymagane operacje. Zostanie wykonane główne zadanie, które polega na upuszczeniu pojedynczej kolumny według nazwy, wykorzystując pand „DataFrame.metoda upuści () ”. Najpierw musimy napisać nazwę naszej ramki danych, która jest „lasem”, a następnie „.Funkcja Drop () ”jest z nią wywoływana. Używamy metody „upuść ()” z trzema parametrami tutaj „nazwa_polutwa”, „oś” i „ince”. Nazwa kolumny, którą podaliśmy, że chcemy upuścić to kolumna „cena”. „Oś” jest ustawiona na „1”, co wskazuje, że kropla jest wykonana pod względem kolumny.

A ostatni parametr, „ince”, implikuje, że wszelkie wykonane przez nas manipulacje pojawią się w rzeczywistej ramce danych i nie zostanie wygenerowana kopia danych danych. Kolumna, którą upuścimy, zostanie wyeliminowana bezpośrednio z oryginalnej ramki danych. Na koniec użyliśmy metody „print ()” do wyświetlenia oryginalnej zaktualizowanej ramki danych po odrzuceniu z niej kolumny.

Poprzedni fragment kodu, po uruchomieniu w Python, zapewnia oryginalną ramkę danych z pewną modyfikacją. Możemy zauważyć, że ta komplet danych ma tylko dwie kolumny, podczas gdy początkowa ma trzy kolumny. Z tego powodu kolumna „cena” została pominięta w ramce danych.

Przykład nr 2: Wykorzystanie pandy „DataFrame.metoda upuszczania () ”do upuszczenia wielu kolumn według nazwy

Opracowaliśmy technikę upuszczenia pojedynczej kolumny według nazwy za pomocą pand „DataFrame.metoda upuści () ”. Teraz zbadamy upuszczenie wielu kolumn za pomocą tej samej techniki.

W tym przykładzie wykorzystaliśmy ramkę danych skonstruowaną w poprzednim przypadku. Jak pokazaliśmy, „Las” danych ma trzy kolumny „roślina”, „cena” i „dostępność”. Po wydrukowaniu DataFrame zastosowaliśmy „DataFrame.Funkcja Drop () ”. Wspomnialiśmy o nazwie „Las” z „Lasem” z „.metoda upuści () ”.

Tytuł tej ilustracji mówi, że upuszczamy tutaj więcej niż jedną kolumnę. Kolumny, które wybraliśmy z DataFrame, to „cena” i „dostępność”. Między nawiasami „lasu.Funkcja Drop () ”, dostarczyliśmy listę kolumn, ustawiliśmy„ Oś ”na„ 1 ”dla kolumn, a„ ince ”jest ustawiony„ true ”, aby przedstawić zmiany w oryginalnej ramce danych. Wreszcie, nazwaliśmy metodę „print ()”, aby wyświetlić wynik.

Na obrazie wyjściowym widać, żeFrame Data -Rrame jest teraz wyświetlany tylko z jedną kolumną, ponieważ reszta dwóch kolumn została upuszczona.

Wniosek

Upuszczenie kolumny za pomocą jej nazwy jest bardzo przydatną i skuteczną strategią w Python Pandas. To sprawia, że ​​analiza danych jest znacznie łatwiejsza i wolna od komplikacji. Ten artykuł pomoże ci zrozumieć tę koncepcję i zapewni najlepsze podejścia do osiągnięcia pożądanego wyniku. W tym czasie wyjaśniliśmy i zaimplementowaliśmy technikę wyeliminowania pojedynczej kolumny według nazwy i upuszczania wielu kolumn według nazwy. Wykonaliśmy przykładowy kod Pythona w narzędziu „Spyder”. Nauka korzystania z pandy „DataFrame.Metoda Drop () ”byłaby korzystna i przydatna dla twoich projektów analizy danych.