Pandas Wybierz kolumnę według nazwy

Pandas Wybierz kolumnę według nazwy
Jedną z najczęstszych operacji podczas przetwarzania danych jest wyodrębnienie kolumny lub kolumn z pandas DataFrame. Aby pobrać kolumny i wiersze, DataFrame podaje identyfikator indeksowania „LOC []”. Ta metoda wybiera tylko kolumny lub wiersze według etykiet/nazwisk.

Składnia tej metody jest następująca:

W tym artykule zobaczysz jego praktyczną implementację za pomocą różnych technik, aby wybrać kolumny według nazwy.

Przykład 1: Wykorzystanie właściwości Pandas loc [] do wyboru pojedynczej kolumny według nazwy

Aby wyodrębnić konkretną pojedynczą kolumnę, używamy właściwości pand „loc []” w tej ilustracji. Zdobądźmy przewodnik krok po kroku, aby to zrobić.

Spośród szerokiej gamy alternatywnych narzędzi zdecydowaliśmy się na narzędzie „Spyder” do wykonywania naszych kodów Pythona. Po uruchomieniu narzędzia zaczynamy pracować ze skryptem. Przybywając do programu Python, najpierw sprawdzamy warunki wstępne do niekracającego wykonywania skryptu. Tutaj, jak deklaruje tytuł, „Pandy” to niezbędna biblioteka do pracy z jej funkcjami. Ładujemy zestaw narzędzi do pandas do naszego środowiska Python, scenariusz „Importuj pandy jako PD”. „PD” staje się aliasem do użycia pandy w całym tym konkretnym programie zamiast „pandy”.

Aby pracować nad kolumnami, potrzebujemy ramki danych, która przechowuje kolumny. Pandy pozwala nam skonstruować ramkę danych, stosując swoją bardzo łatwą metodę, jaką jest „PD.Ramka danych()". Ta metoda ma dwie sekcje: „PD” i „DataFrame”. „PD”, jak opisano wcześniej, jest aliasem dla „pandy”, co oznacza, że ​​wywołujemy coś z modułu pandas. Druga część „DataFrame” to słowo kluczowe używane do tworzenia ramki danych. Wzywamy „PD.Funkcja dataFrame () ”w celu wygenerowania ramki danych. Nazwy kolumn i ich wartości można zdefiniować między nawiasami tej funkcji.

Zainicjujemy naszą ramkę danych z 6 kolumnami z nazwiskami „Merkury”, „Wenus”, „Ziemia”, „Mars”, „Jowisz” i „Saturn”. Każdej kolumny przydzielono określony zestaw wartości. W przypadku „rtęci” mamy wartości „13”, „2”, „24”, „19”, „9”, „52” i „65”. Kolumna „Wenus” przechowuje wartości „32”, „15”, „3”, „18”, „39”, „31” i „7”. W trzeciej kolumnie mamy wartości „Ziemi” „5”, „7”, „21”, „15”, „1”, „3” i „13”. Wartości „Marsa” to „8”, „21”, „22”, „34”, „14”, „21” i „2”. „Jowisz” zawiera wartości „11”, „1”, „35”, „62”, „5”, „15” i „12”. Ostatnia kolumna w ramce danych „Saturn” ma wartości „21”, „23”, „45”, „2”, „11”, „12” i „9”. Każda kolumna w ramce danych zachowuje równą długość wartości. Teraz skończymy z definiowaniem kolumny naszego DataFrame i ich odpowiednich wartości.

Pandy „PD.Funkcja dataFrame () ”tworzy ramkę danych z dostarczanymi danymi. Ale nie ma miejsca, aby to zachować. Aby zapisać gdzieś, abyśmy mogli go wykorzystać później, tworzymy obiekt DataFrame. Ten obiekt DataFrame jest oznaczony jako „planety”. „PD.Metoda dataFrame () ”, gdy wywołana, tworzy ramkę danych i przechowuje ją w tym obiekcie DataFrame. Aby wizualizować ramkę danych na ekranie, mamy funkcję Pythona „print ()”. Ta metoda wyświetla zawartość „planet” na konsoli Python po wywołaniu.

Możemy zobaczyć wyjściową ramkę danych po naciśnięciu opcji „Uruchom plik” w narzędziu „Spyder”. Nasza ramka danych z 6 kolumnami i 7 wierszy jest pokazana na konsoli, którą można zobaczyć na obrazie wyjściowym podanym następująco:

Nasz przykładowy strumień danych dla tej demonstracji jest gotowy do pracy i wprowadzania zmian, stosując funkcje. Mamy wyodrębnić kolumnę za pomocą nazwy kolumny. Poinstruujemy Cię o podejściu, aby to wykonać.

Aby wybrać pojedynczą kolumnę według nazwy, Pandy DataFrame zapewnia nam atrybut „loc []”. Pozwala nam wybrać kolumny lub wiersze, wymieniając ich nazwy. Korzystamy z „DF. loc [] ”. Nazwa DataFrame jest dostarczana jako „planety”. Pomiędzy kwadratowymi nawiasami naciskamy w nazwie kolumny „Ziemia” po opuszczeniu miejsca rządu z „:”. Oznacza to, że wybór jest wykonany pod względem kolumny. Aby przechowywać wynik, zainicjujemy zmienną „singiel”, która przechowuje zawartość pojedynczej kolumny wymienionej w właściwości „loc []”. Wykazanie danych wyjściowych na ekranie wymaga wywołania funkcji „print ()”. Przekazujemy zmienną „pojedynczą” do funkcji „print ()”, aby pokazać wynik.

Oto nasza wynikowa strumienia danych z tylko jedną wybraną kolumną. Kolumna „Ziemia” jest prezentowana na ekranie z treścią. Nazwa kolumny, a także typ danych wartości jest wymieniony poniżej wyodrębnionej kolumny.

Przykład 2: Wykorzystanie metody pandas loc [] do wyboru wielu kolumn według nazwy

Wybór pojedynczej kolumny w ramce danych Pandy jest wyuczona w poprzednim przypadku. Ponadto możemy również wyodrębnić więcej niż jedną kolumnę, która wykorzystuje właściwość DataFrame „LOC []”. Udostępniliśmy tę koncepcję poprzez tę ilustrację.

Używamy ramki danych utworzonej we wcześniejszej instancji. TaFrame ma 6 kolumn. Musimy wybrać wiele kolumn naszego wyboru. „DF.loc [] ”jest wywoływany. Tutaj nasza nazwa DataFrame to „planety”, które dostarczamy w „.Loc [] ”. Określa, że ​​chcemy wybrać poszczególne wiersze lub kolumny z dostarczonej ramki danych. Pomiędzy kwadratowymi nawiasami właściwości „LOC []” mamy dwie selekcje. Pierwszym miejscem jest wybór wierszy, a drugi jest przeznaczony do wyboru kolumn. Dla tego przewodnika pominiemy pierwsze miejsce i po prostu dodamy okrężnicę „:”, ponieważ nie musimy dokonywać wyboru na rzędach.

W miejscu kolumny wprowadzamy operatora indeksowego „[]”, który nazywamy również nawiasami kwadratowymi. W tym operatorze dolnym napisz nazwę kolumn. Wybieramy 3 kolumny, które są „Merkury”, „Mars” i „Saturn”. Wyjście tej właściwości jest zapisywane w zmiennej „multi”. Na koniec stosujemy metodę „print ()”, aby wyświetlić wynik na ekranie.

Powstała ramka danych pokazuje 3 kolumny, które są wybierane za pomocą właściwości „loc []”. Wybrane kolumny pojawiają się na terminalu, podczas gdy reszta jest ignorowana.

Przykład 3: Wykorzystanie metody Pandas loc [] do wyboru zakresu kolumn według nazwy

Wybieranie kolumn, naciskając ich nazwy jeden po drugim czasem staje się gorączkowym zadaniem, gdy trzeba wyodrębnić szeroką liczbę kolumn. Jeśli chcesz wyodrębnić kolumny z określonej listy kolumn do określonego punktu, możesz to zrobić, podając zakres kolumn w atrybucie „loc []”. Zobaczmy jego praktyczne ćwiczenie.

Zastosujemy „DF.Loc [] ”. W miejscu kolumny dostarczamy zakres kolumn, które musimy odzyskać. Pierwsza nazwa kolumny od miejsca, w którym zaczyna się zakres, a druga nazwa kolumny, przy której kończy się zakres, są oddzielone przez operatora okrężnicy „:”. Tutaj wybieramy kolumnę „Venus”, aby uruchomić zakres od i kolumnę „Jowisz”, w której kończy się zakres. Pomiędzy tym zakresem, niezależnie od kolumn, metoda „loc []” wyodrębnia je wszystkie. Przechowujemy wynik zmiennej „Nazwa” i wyświetlamy go za pomocą metody „print ()”.

W migawce wyjściowej widzimy, że wszystkie kolumny od „Wenus” do „Jupiter” są wystawiane na ekranie.

Wniosek

Niniejszy przewodnik opiera się na wyborze kolumn w PandaS DataFrame. Pandas DataFrame zapewnia nam atrybut „DF.loc [] ”, aby dokonać wyboru na rzędach lub kolumnach, a nawet obu. W tym artykule pracowaliśmy nad 3 przykładami. Pierwszy przykład zawiera szczegółowe wyjaśnienie wybrania pojedynczej kolumny w ramce danych. Drugi przykład działał na wyborze wielu kolumn. Podczas gdy trzecia ilustracja opiera się na pomyśle wyboru zakresu kolumn w ramce danych.