Będziemy omawiać pandy w Python, bibliotece open source, która dostarcza wysokowydajne struktury danych i narzędzia do analizy danych, które są gotowe do użycia. Dowiemy się również o ramach danych, zaletach pandy i o tym, jak możesz użyć pandy, aby wybrać wiele kolumn DataFrame . Zacznijmy!
Co to jest pandy w Pythonie?
Pandy to biblioteka Open-Source Python. Dostarcza wydajne struktury i narzędzia do analizy danych, które są gotowe do użycia. Pandy to moduł Python, który działa na szczycie Numpy i jest szeroko stosowany do nauki i analizy danych. Numpy to kolejny zestaw struktur danych niskiego poziomu, które mogą obsługiwać wielowymiarowe tablice i różnorodne operacje matematyczne. Pandy mają bardziej zaawansowany interfejs użytkownika. Ma również solidne możliwości serii czasowej i wydajne wyrównanie danych tabelarycznych. Podstawowa struktura danych pandy to DataFrame. Struktura danych 2D pozwala nam przechowywać i modyfikować dane tabelaryczne. Pandy dostarczają dowolnej funkcjonalności w ramce danych, takiej jak manipulacja danymi, połączenie, połączenie, grupowanie itp.
Co to jest ramka danych?
Najbardziej istotną i szeroko stosowaną strukturą danych jest DataFrame. Jest to powszechna metoda przechowywania danych. DataFrame przechowuje dane w rzędach i kolumnach, podobnie jak tabela SQL lub baza danych arkusza kalkulacyjnego.
Zalety pand
Wielu użytkowników życzy, aby SQL zawierał możliwości takie jak Gaussian Losowe generowanie liczb lub kwantyle, ponieważ starają się włączyć pojęcie proceduralne do zapytania SQL. Użytkownicy mogą powiedzieć: „Gdybym tylko mógł to napisać w Pythonie i szybko wrócić do SQL”, a Pandy zapewnia tabelaryczny typ danych z dobrze zaprojektowanymi interfejsami, które pozwalają im dokładnie to zrobić. Istnieje bardziej szczegółowe opcje, takie jak wykorzystanie określonego języka proceduralnego, takiego jak PLSQL Oracle lub Postgres 'PLPGSQL lub interfejs bazy danych niskiego poziomu. Pandy mają jedno-liniowy interfejs odczytu SQL (PD.odczyt SQL) i interfejs zapisu SQL jedno-liniowy (PD.do SQL), porównywalne z ramkami danych R.
Kolejną istotną zaletą jest to, że biblioteki wykresów, takie jak Searborn, mogą traktować kolumny ramy danych jako atrybuty wykresu wysokiego poziomu. Tak więc pandy zapewniają rozsądny sposób zarządzania danymi tabelarnymi w Python i niektórych bardzo wspaniałych interfejsów API przechowywania i wykresów.
Opcja 1: Korzystanie z podstawowego indeksu klucza
1 2 3 4 5 6 7 8 9 10 | importować pandy jako PD data = „name”: [„a”, „b”, „c”, „d”], „Wiek”: [27, 24, 22, 32] df = pd.DataFrame (dane) df [[„Nazwa”, „wiek”]] |
Wyjście:
1 2 3 4 5 6 7 8 9 | Imię Wiek 0 A 27 1 B 24 2 c 22 3 d 32 |
Opcja 2: Używanie .loc []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | importować pandy jako PD data = „owoc”: [„jabłko”, „banan”, „winogrona”, „pomarańczowy”], „Cena”: [160, 100, 60, 80] df = pd.DataFrame (dane) df.loc [0: 2, [„owoc”, „cena”]] |
Wyjście:
1 2 3 4 5 6 7 8 9 | Cena owoców 0 Apple 160 1 banan 100 2 winogrona 60 3 Orange 80 |
Opcja 3: Używanie .I loc[]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | importować pandy jako PD data = „pies”: [„a”, „b”, „c”, „d”], „Wiek”: [2, 4, 3, 1] df = pd.DataFrame (dane) df.ILOC [:, 0: 2] |
Wyjście:
1 2 3 4 5 6 7 8 9 | Wiek psów 0 A 2 1 B 4 2 c 3 3 d 1 |
Opcje 4: Korzystanie z .ix []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | importować pandy jako PD data = „name”: [„a”, „b”, „c”, „d”], „Numer rolki”: [21, 25, 19, 49] df = pd.DataFrame (dane) Wydrukuj (DF.IX [:, 0: 2]) |
Wyjście:
1 2 3 4 5 6 7 8 9 | Numer Roll 0 A 21 1 B 25 2 c 19 3 d 49 |
Wniosek
Omówiliśmy o pandach w Python, The DataFrame, zaletach pandy i jak korzystać. Istnieją cztery opcje, które omówiliśmy przy wyborze wielu kolumn: za pomocą podstawowego indeksowania klucza, „.ix ”,„.loc ”i„.ILOC ”odpowiednio.