Jak eksportować ramkę danych do CSV w Python

Jak eksportować ramkę danych do CSV w Python

Podczas pracy z zestawem danych i wykonywanie niezbędnego wstępnego przetwarzania, wstępnie przetworzone dane muszą być zapisane w formacie danych, takim jak CSV, Excel lub inna. W aplikacjach opartych na danych CSV (wartości oddzielone przecinki) jest często wykorzystywane do komunikacji danych. Zazwyczaj przechowujemy dane aplikacji internetowych w ramce danych, tablicy, liście, krotności, słowniku itp. Klienci mogą wymagać eksportowania danych jako pliku CSV. Dane są przechowywane w plikach CSV jako sekwencja danych. Możemy użyć pand Python do zapisywania danych do pliku CSV, jak w innych językach programowania.

Co to jest Pandas DataFrame?

W Python moduł panda zawiera funkcję „Pandy.DataFrame () ”Aby utworzyć ramkę danych. Podobnie jak arkusz kalkulacyjny, struktura danych jest strukturą danych, która organizuje dane w tabeli 2D kolumn i wierszy. Ze względu na ich zdolność adaptacyjną i prostotę w przechowywaniu i manipulowaniu danymi ,Frame są jednymi z najpopularniejszych i skutecznych struktur danych w nowoczesnej analizie danych.

Składnia:

Pandy.DataFrame (dane, indeks, kolumny, dType, kopia)

Jak wyeksportować ramkę danych do CSV w Python?

Metoda to_csv () w Python Pandas może przekonwertować ramkę danych na plik CSV. Możemy zapisać dane wyjściowe do pliku, jeśli podano parametr/argument pliku. Jeśli nie, zostanie zwrócony ciąg CSV. Chociaż funkcja to_csv () ma wiele atrybutów, wspominaliśmy tylko te, które są najczęściej używane tutaj.

Składnia:

ramka danych.to_csv (ścieżka, sep, na_rep, float_format, kolumny, nagłówek, indeks, tryb, kompresja)

Gdzie,

ścieżka: Odnosi się do pliku lub uchwytu STR. Zasadniczo określa ścieżkę/lokalizację pliku lub obiektu. Nie domyślnie. Gdy żaden nie jest dostarczany, wartość ciągu jest zwracana.

SEP: Jest to wartość ciągu, która ma długość 1. Przecinek jest jego domyślną wartością ().

NA_REP: Wartość danych string, która symbolizuje lub reprezentuje brakujące lub zerowe wartości. Wartość domyślną to pusty ciąg.

float_format: Zawiera wartość ciągu do formatowania lub strukturyzacji ciągów liczb zmiennoprzecinkowych.

Kolumny: Jest to parametr opcjonalny i odnosi się do serii, która określa kolumny, które muszą być obecne w wyjściu CSV.

nagłówek: Zbiór strun lub wartość logiczna. Jeśli jest ustawiony na fałsz. Nazwy kolumn nie zostaną zapisane na wyjściu. Prawda jest jego domyślną wartością.

Indeks: Jeśli są ustawione na true, dane CSV obejmują indeks. W przeciwnym razie wyjście CSV nie ma wartości indeksu.

Tryb: W trybie pisania odnosi się do wartości ciągu. W jest jego domyślną wartością.

Kompresja: Wartość ciągu, która kompresuje tryb za pomocą jednej z następujących opcji: WIDUNE, GZIP, XZ, BZ2, ZIP lub Brak. Jeśli „wnioskowanie” i „ścieżka” są podobne do ścieżki, identyfikuje kompresję z rozszerzeń pliku ”.GZ ”,„.BZ2 ”,„ Zip ”lub„ XZ ”. W przeciwnym razie nie ma się kompresji.

Teraz utworzymy pandas DataFrame, którego możemy użyć do wyeksportowania danych do CSV w przykładach tego samouczka.

Tworzenie przykładowej ramki danych

Aby utworzyć naszą ramkę danych, najpierw zaimportujemy wymagany moduł, i.mi., Pandy. Po zaimportowaniu modułu funkcja DataFrame () utworzy naszą DataFrame.

Stworzyliśmy naszą strumień danych, przekazując dykt Python w PD.Funkcja dataFrame (). Nasza DataFrame składa się z trzech kolumn (nazwa, wiek i znaki).

Teraz dowiedzmy się, jak wyeksportować ramkę danych do pliku CSV.

Eksportowanie danych danych do CSV bez indeksu

Kiedy używasz DF.TO_CSV () Metoda eksportowania ramki danych z pand do pliku CSV, indeks dlaFrame jest automatycznie uwzględniony. Ustaw indeks = false na true, jeśli go nie chcesz lub wymagasz włączenia indeksu.

Plik wyjściowy:

Gdy indeks jest bez znaczenia, może być pomocne. Ale jeśli indeks przechowuje ważne lub znaczące dane, podobnie jak dane szeregów czasowych, nie należy ich usuwać. Prawda jest domyślną wartością dla parametru indeksu. W rezultacie możesz po prostu zostawić parametr w spokoju, jeśli chcesz uwzględnić indeks

Eksportowanie ramki danych do CSV z określonymi kolumnami

Przed eksportem możesz być świadomy rozmiaru danych podczas eksportowania. Ograniczenie kolumn, które wyeksportuj to jedna metoda zmniejszania wygenerowanego rozmiaru pliku CSV. Korzystając z parametru kolumn, możemy określić listę zawierającą nazwy kolumn, które chcemy dołączyć w naszym pliku eksportowym. Eksport wyklucza wszelkie kolumny, które nie są obecne na liście.

Plik wyjściowy:

Określiliśmy parametr kolumny z listą zawierającą nazwy kolumn „Nazwa” i „Marks”, więc tylko te dwie kolumny zostały wyeksportowane do naszego pliku CSV.

Eksportowanie ramki danych do CSV i zmiana separatora

Możemy ograniczyć plik CSV znakami innych niż przecinek, chociaż przecinki są postacią, która nadaje im swoją nazwę (pliki wartości rozdzielone przecinkiem). Na przykład wartość zakładki jest typowym separatorem i jest reprezentowana \ t. W Panand możemy zmienić nasz separator za pomocą argumentu SEP.

Plik wyjściowy:

Eksportowanie strumienia danych do CSV i radzenie sobie z brakującymi/brakiem wartości

Informacje dotyczące brakujących danych nie są domyślnie uwzględnione w plikach CSV. Pusta komórka zostanie wygenerowana, gdy brakujące dane będą eksportowane do CSV. Argument NA_REP pozwala wyświetlić alternatywną wartość, taką jak NULL lub N/A, zamiast wszystkich brakujących wartości. To wymaga dowolnego ciągu jako wejścia, ale domyślnie jest pusty ciąg. W tym celu użyjemy kolejnej ramki danych zawierającej niektóre brakujące wartości danych.

Ustawmy ciąg „NULL” jako wartość parametru Na_rep.

Plik wyjściowy:

Eksportowanie ramki danych do CSV bez nagłówka

W danych danych zestaw danych może wymagać eksportowania danych z ramki danych bez nagłówka. Często dzieje się tak w przypadku eksportowania ogromnych zestawów danych, które należy później połączyć. Rzekie danych można łatwo przekonwertować na CSV bez nagłówka. Aby to osiągnąć, można użyć argumentu nagłówka. Domyślnie jest to prawdą, wskazując, że nagłówek zostanie uwzględniony.

Plik wyjściowy:

Kompresowanie danych podczas eksportowania strumienia danych do CSV

Pomocne może być kompresowanie dużych zestawów danych podczas pracy z przeznaczonymi do przechowywania długoterminowego, szczególnie podczas zapisywania ich w formacie CSV. Rozmiar pliku maleje, gdy zestaw danych jest kompresowany. Jednak eksportowanie ram danych do procesu CSV zajmie dłużej. Podobnie, że pandy potrwa przekształcenie CSV w ramkę danych. Ponieważ kompresja wymaga więcej czasu niż prostego eksportowania, trwa to dłużej. Zobaczmy, jak możemy kompresować nasze dane za pomocą argumentu kompresji:

Wyjście:

Wyjściowy plik CSV jest teraz kompresowany.

Eksportowanie DataFrame do pliku CSV z różnym kodowaniem

Często będziesz musiał szyfrować dane podczas pracy z danymi stringowymi. Jeśli masz do czynienia z danymi zakodowanymi lub numerycznymi, jest to rzadziej, ale ciągi często potrzebują dodatkowych instrukcji na temat interpretacji.

Format kodowania UTF-8, jeden z najczęściej używanych formatów kodowania, jest domyślnie typ kodowania. Użyjmy kodowania UTF-16, aby wyeksportować ramkę danych do CSV.

Wyjście:

Wniosek

W tym samouczku po raz pierwszy zobaczyliśmy wprowadzenie plików CSV i Pandy DataFrame. Omówiliśmy, w jaki sposób można wyeksportować ramkę danych do CSV w Python. Próbowaliśmy wyjaśnić, jak używać pandy.Metoda to_csv () skutecznie i w jaki sposób możemy użyć różnych argumentów funkcji to_csv (), aby modyfikować sposób eksportowania danych. Po pokryciu tego postu wszyscy powinniście być w stanie utworzyć plik CSV z pandas DataFrame.