Pandas DataFrame z CSV

Pandas DataFrame z CSV
Rzeka danych to dwuwymiarowa struktura danych w Pythonie, do której dostępny jest moduł pandas, który przechowuje zawartość w formacie tabelarycznym. Innymi słowy, używając kolumn i wierszy. Każda kolumna w ramce danych może pomieścić różnorodny rodzaj elementu.

Pliki CSV lub „wartości rozdzielone przez przecinki” to wartości oddzielone przecinkami i można je przeglądać podobnie jak plik Excel. „Pandy” to najważniejszy pakiet nauk o danych w Python. Analizując dane, musimy poradzić sobie z dużymi zestawami danych, które są zazwyczaj w formacie CSV. Istnieje kilka podejść do korzystania z plików CSV w celu utworzenia pandasframe. Technika, którą postanowiliśmy wyjaśnić i wdrożyć w tym artykule, jest metoda pandów „read_csv ()”. Aby odczytać i przetwarzać pliki CSV, Metoda „Read CSV ()” Pandy jest niezbędna.

Zobaczymy jego praktyczną demonstrację poprzez wyjaśniony i wykonany następująco:

Przykład: Wykorzystanie metody pand „read_csv ()” do utworzenia strumienia danych z CSV

W tej ilustracji zobaczymy, w jaki sposób możemy utworzyć ramkę danych z pliku CSV, wykorzystując pandy „PD.Metoda read_csv () ”. Zajmijmy się praktycznie wdrażaniem tej koncepcji.

Dla każdego języka programowania, z którym wybierasz, aby pracować zgodnie z wymaganiami, musisz znaleźć oprogramowanie lub narzędzie do złożenia tego języka. Kiedy zaczniesz go szukać, znajdziesz mnóstwo wyborów. W naszym artykule używanym językiem programowania jest „Python”. Musimy uzyskać narzędzie lub oprogramowanie, które składałoby się na język i jest uznane za kompatybilne z naszym systemem. Z różnych wyborów wybraliśmy narzędzie „Spyder”. Musimy pobrać go z oficjalnej strony „Spyder”.

Po zakończeniu pobierania uruchamiamy kreatora instalacji. Po zakończeniu instalacji możesz uzyskać dostęp do narzędzia, po prostu pisząc jego nazwę na pasku wyszukiwania laptopa. Kliknięcie go otwiera interfejs narzędzia „Spyder”. Tutaj wszyscy jesteśmy gotowi zacząć od naszej praktycznej demonstracji.

Na interfejsie narzędzia „Spyder” kliknij przycisk „Nowy plik” lub naciśnij „Ctrl+N”, aby otworzyć nowy plik. Ten plik jest otwarty i widać, że nazwa pliku ma „.rozszerzenie py ”. To rozszerzenie odnosi się do pliku „Python”. Wszyscy jesteśmy gotowi zacząć pisać kod. Teraz, zaczynając od kodu, pierwszym i najważniejszym wymogiem przy pisaniu kodu jest import jego odpowiednich bibliotek, których funkcje chcesz uzyskać dostęp. W naszym przypadku ilustracja opiera się na wdrażaniu funkcji „pandy”. Tak więc najpierw importujemy bibliotekę za pomocą wiersza kodu „Importuj pandy jako PD”. Ten „PD” jest krótką formą dla pandy, co oznacza, że ​​możemy teraz załadować metody pandy przy użyciu „PD”.

Teraz zakończyliśmy import wymaganej biblioteki pandy. Następnym zadaniem jest dowiedzieć się, w jaki sposób możemy utworzyć ramkę danych za pomocą pliku CSV. Tutaj masz dwie możliwości: musisz utworzyć swój plik CSV na arkuszach kalkulacyjnych Microsoft Excel lub Google lub dowolne odpowiednie narzędzie z „.Rozszerzenie CSV ”Jeśli chcesz wykonać na nim niektóre operacje w Python lub możesz pobrać przykładowy plik CSV z Internetu do celów uczenia się. Z drugiej strony pobraliśmy przykładowy plik CSV z Internetu do procesu uczenia się. Przywołaliśmy „PD.Metoda read_csv () ”, która odczytuje dostarczony plik CSV. Między jego nawiasami podaj nazwę pliku CSV.

Jak wspomnieliśmy, „dzień powszedni.Nazwa pliku CSV ”. Jedną ważną rzeczą do rozważenia jest to, że plik CSV, który utworzyłeś lub pobrałeś, musi znajdować się w tym samym folderze, w którym twój „.Pliki PY ”znajdują się w„.Folder Spyder-py3 ”. W przeciwnym razie, gdy spróbujesz wykonać program, rzuci on błąd. Kiedy nazywamy „PD.read_csv („dzień powszedni.Metoda CSV ”)”, odczytuje zawartość tego pliku i tworzy ramkę danych. Teraz, aby przechowywać tenframe, utworzyliśmy obiekt DataFrame „Próbka”, który utrzymuje dane wyjściowe z „PD.Metoda read_csv () ”. Na koniec wywołaliśmy metodę „print ()”, aby wyświetlić tę ramkę danych na terminalu.

Będąc powieścią „Python” i „Spyder”, możesz myśleć o tym, jak wykonać kod, który był wcześniej scenariusz. Wystarczy nacisnąć przycisk „Uruchom plik” na interfejsie „Spyder” lub po prostu naciśnij klawisze „Shift+Enter”, aby uruchomić program. Oto nasza oprawa danych utworzona z dostarczonego pliku CSV.

W danej ramce danych mamy cztery kolumny i siedem wierszy. Pierwsza kolumna to „Nazwa”, która przechowuje nazwiska dni powszednie, takie jak „poniedziałek”, „wtorek”, „środa”, „czwartek”, „piątek”, „sobota” i „niedziela”. Druga kolumna „Skrót” przechowuje krótkie warunki dla danych takich jak „Mon.”,„ Tue.”,„ Wed.”,„ Czw.”,„ Pt.”,„ SAT ”i„ Słońce ”. Trzecia i czwarta kolumna to „numeryczne” i „numeryczne-2”. Przechowują liczby od „0” do „7”. Oboje mają wartości liczbowe w dni powszednie.

Może być sytuacja, w której chcesz po prostu utworzyć ramkę danych z wybranych kolumn pliku CSV. Można to zrobić za pomocą tego samego „PD.funkcja read_csv () ”, dodając po prostu parametr„ usecol ”. Ten parametr przyjmuje nazwę kolumn, które chcesz odzyskać z pliku CSV dla DataFrame. Jak już widzieliśmy, kolumny naszego ramki danych, które są importowane z pliku CSV, używają kolumny „Nazwa” i kolumny „numeryczne”, które mają być wykorzystywane z pliku CSV w celu utworzenia ramki danych. Następnie wywołaliśmy metodę „print ()”, aby wyświetlić wybrane kolumny w ramce danych.

Uruchamianie tego kodu daje nam wyjściową ramkę danych z tylko dwiema kolumnami z pliku CSV. Rzeka danych jest pokazana na poniższym obrazku:

Oprócz tworzenia ramki danych za pomocą wybranych kolumn z dostarczonego pliku CSV, możesz również wykonać inne operacje. Może istnieć plik CSV zawierający duże dane, a nie wszystko koniecznie potrzebne do wyświetlania dla twojego DataFrame, ponieważ duże niepotrzebne dane czasami tworzą bałagan. Często staramy się tego unikać. Możemy to zrobić, pomijając nieistotne rzędy z DataFrame. Musimy dodać parametr „Skiprows” i określić numery wierszy, które chcesz wykluczyć. Tutaj określiliśmy numery wierszy „[1, 3, 5]”. Metoda „print ()” jest wywoływana, aby pokazać nową ramkę danych.

Tutaj, na obrazie wyjściowym, możesz zauważyć, że ramka danych utworzona z pliku CSV nie zawiera wierszy „1”, „3” i „5”.

Możemy również zmienić nazwę kolumny pliku CSV zgodnie z naszymi wymaganiami dla danych danych, gdy wywołujemy „PD.funkcja read_csv () ”. Aby zakończyć tę operację, musimy przekazać listę ciągów znaków „PD.read_csv () ”parametr funkcji„ Nazwy ”. Te struny znaków służą jako nazwy nowych kolumn. Ponadto wykluczenie pierwszego wiersza zestawu danych wejściowych wydaje się logiczne, ponieważ zawiera oryginalny tytuł pliku CSV. Podaliśmy nazwy kolumn jako „nazwy = [„ C1 ”,„ C2 ”,„ C3 ”,„ C4 ”]”. Wreszcie wyświetliliśmy ramkę danych z nowymi nazwami kolumn.

To daje nam następującą wyjściową ramkę danych:

Wniosek

Ramy danych to najczęściej wykorzystywane i ważne bloki pand Python. Istnieje kilka sposobów na utworzenie ramki danych w pandy. Z czego omówiliśmy, jak utworzyć ramkę danych z pliku CSV w tym artykule. Użyliśmy metody pandas „read_csv ()” do odczytania dostarczonego pliku CSV, a następnie utworzenia z niego oprawy danych. Poprzez praktyczne wdrożenie przykładowych kodów wykonanych na „Spyder” opracowaliśmy wykorzystanie tej funkcji. Wyjaśniliśmy również i zaimplementowaliśmy różne przydatne parametry dostarczone przez tę metodę, aby osiągnąć pożądany wynik. Spodziewamy się, że nasze wysiłki, aby uczynić naukę w modułach pandy.