XLSX do CSV w Python

XLSX do CSV w Python
W ostatnich latach Python wzrósł jako jeden z dominujących języków programowania. Społeczność Python znacznie się rozszerzyła w wyniku popularności i użyteczności Pythona. W tym artykule omówimy szczegółowo, jak używać Pythona do konwersji XLSX na CSV. Wiemy, że pliki Excel są często używane do przeprowadzania analizy finansowej, organizowania danych, wprowadzania danych, rachunkowości, zarządzania danymi, tworzenia wykresów i wykresów itp. Wolimy jednak używać plików CSV do importowania danych i eksportu. Jednym z podejść jest przesyłanie danych strukturalnych za pomocą zwykłego pliku tekstowego.

Co to jest plik XSLX?

Podczas tworzenia arkuszy kalkulacyjnych w najnowszych wersjach Excel, Microsoft używa pliku XLSX jako domyślnego typu pliku. Podobnie jak typ pliku DOCX Word, możemy otworzyć pliki XLSX za pomocą różnych aplikacji/programów.

Co to jest plik CSV?

Format pliku CSV jest tym, czego możemy użyć do przechowywania wartości danych tabelarycznych w arkuszach kalkulacyjnych i bazach danych. Dane tabelaryczne, tekst lub tekst są przechowywane jako zwykły tekst w pliku CSV. Zapis w pliku CSV to wartość danych przechowywana w każdym wierszu pliku. Każdy rekord może mieć więcej niż jedno pole, które jest oddzielone przez przecinki.

Kluczowe różnice między plikami XLSX i CSV

Użytkownicy często używają zamiennie CSV i XLSX i ogólnie nie są świadomi rozróżnienia między nimi, jakie są ich podstawowe cechy i jak działają. Służy tylko jako źródło informacji dla użytkownika. Prawie każdy biznes i użycie korporacyjne, aby pomóc użytkownikom w zarządzaniu, aktualizowaniu i przechowywaniu danych dla użytkownika. Poniżej przedstawiono kilka kluczowych różnic między plikami XLSX i CSV, które powinieneś wiedzieć:

  • Format CSV zapisuje dane tabelaryczne w pliku tekstowym ogranicznika za pomocą .Rozszerzenie CSV. Podczas gdy plik Excel lub XLSX to arkusz kalkulacyjny, który przechowuje pliki w swoim zastrzeżonym formacie, a mianowicie. XLS lub XLSX.
  • Pliki Excel to pliki binarne, które zawierają dane w każdym arkuszu w skoroszycie. Podczas gdy CSV jest prostym i prostym formatem tekstowym z sekwencją wartości danych oddzielonych przecinkami.
  • Operacje danych nie mogą być przeprowadzane w plikach CSV. Można je jednak przeprowadzić na plikach Excel.
  • Pliki CSV są szybsze i używają mniej pamięci niż pliki XLSX. Jednak Excel wykorzystuje więcej pamięci podczas importowania danych.
  • Jeśli porównamy CSV z Excel, możemy otworzyć pliki CSV w dowolnym edytorze tekstu Windows, podczas gdy pliki Excel nie mogą.

Jak można przekonwertować plik XLSX na CSV za pomocą Pythona?

Plik XLSX można przekształcić w plik CSV w Python przy użyciu różnych metod. Python zawiera różne moduły i funkcje, które mogą pomóc nam w wykonaniu tego zadania. Tutaj przejdziemy kilka metod, które można użyć do konwersji plików XLSX na pliki CSV w Python.

Warunki wstępne do wykonywania konwersji Excel na CSV

Instalowanie wymagań jest pierwszym krokiem. Używamy modułów, takich jak połącz pandy, CSV i Openpyxl itp. W tym samouczku. Pakiet pandów Pythona pozwala na manipulację i analizę danych. Pandy to znana biblioteka wśród programistów Pythona. Pliki Excel można odczytać i zapisać za pomocą pakietu Python znanego jako OpenPyxl. Nie będziemy mieli do czynienia bezpośrednio z tą biblioteką. Pandy zamiast tego używają openpyxl wewnętrznie.

Za pomocą repozytorium PYPI możemy zainstalować oba pakiety:

Metoda 1: Przekształcenie XLSX na CSV za pomocą modułu Pandas

Przykład 1: Przekształcenie jednego pliku XLSX na CSV

Pandy to moduł open source utworzony dla języka programowania Pythona do manipulowania i analizowania danych. Aby pracować z szeregami czasowymi i tabelami numerycznymi, Pandy zapewnia różnorodne funkcje i funkcje. Korzystając z pandy, zarówno małe, jak i ogromne zestawy danych można odczytać, filtrować i układać. A wyniki można uzyskać w różnych formatach, takich jak Excel, JSON i CSV. Używamy metody pandy Read_Excel () do odczytania pliku programu Excel oraz metody TO_CSV () do przekształcenia ramki danych w plik CSV.

Drukujemy nasze .plik CSV jako ramka danych, jak widać na wyjściu. Poprzedni skrypt przekształca nasz plik XLSX w CSV i tworzy „pensję.plik CSV ”w bieżącym katalogu.

Przykład 2: Konwertowanie pliku XLSX (z wieloma arkuszami) na CSV

W poniższym przykładzie najpierw odczytamy nazwy arkusza pliku Excel. Nazwy poszczególnych arkuszy są następnie zapętlane i zapisywane jako odrębne pliki CSV. Skrypt zapisuje CSV w tej samej lokalizacji.

Używamy przykładowego pliku XLSX o dwóch lub więcej arkuszach lub arkuszach kalkulacyjnych.

Jak widać, nasz plik XLSX składa się z dwóch arkuszy (arkusz 1 i arkusz2). Teraz piszemy kod, aby przekonwertować ten plik XLSX na CSV.

Wyjście:

Skrypt pomyślnie przekonwertował plik XLSX z dwoma arkuszami na pojedynczy plik CSV z jednym arkuszem.

Przykład 3: Konwersja wielu plików XLSX na osobne pliki CSV

Rozważ scenariusz, w którym musisz przekonwertować kilka plików Excel w katalogu roboczym na CSV. Możesz zastosować tę metodę. Zaczynamy od założenia, że ​​każdy plik zawiera tylko jeden arkusz. Następnie rozszerzamy naszą metodę obsługi wielu plików i kilku arkuszy. Poniższy kod Pythona wykorzystuje moduł Glob. Dopasowujemy ścieżki plików za pomocą wzorów do globu. Dopasowuje wszystkie pliki do .Rozszerzenie XLSX w katalogu roboczym. Następnie opracowujemy funkcję, która odczytuje pliki Excel i zapisuje je jako pliki CSV. Nazywamy tę funkcję na każdej znalezionej ścieżce pliku.

Ten poprzedni skrypt konwertuje wszystkie pliki XLSX w bieżącym katalogu w pliki CSV.

Teraz konwertujemy pliki XLSX z wieloma arkuszami kalkulacyjnymi na CSV. To najprawdopodobniej trudna część. Trzy pliki Excel znajdują się w naszym katalogu roboczym. Ponadto niektóre z nich składają się z więcej niż jednego arkusza. Naszym celem:

  1. Utwórz katalog dla każdego pliku arkusza kalkulacyjnego,
  2. Konwertuj arkusze plików Excel na CSV i należy je przechowywać w nowo utworzonym katalogu.

Skrypt konwertuje XLSX z pojedynczą i wieloma arkuszami w osobne pliki CSV i przechowuje je w nowych katalogach o tej samej nazwie.

Aby pobrać każdy plik Excel znajdujący się w bieżącym katalogu, używana jest funkcja globu. Następnie foldery są tworzone dla każdego pliku XLSX za pomocą systemu operacyjnego.Funkcja mkdir. Następnie plik CSV jest tworzony dla każdego arkusza wewnątrz nowego katalogu, zapętlając nazwę arkusza.

Metoda 2: Przekształcenie XLSX na CSV za pomocą modułów OpenPyxl i CSV

W tej metodzie użyjemy modułów OpenPyxl i CSV do konwersji plików XLSX na CSV. Aby odczytać i pisać 2010 XLSX, XLSM, XLTX i XLTM, można użyć modułu Python OpenPyxl. Moduł CSV zawiera klasy, które umożliwiają czytanie i pisanie danych tabelarycznych formatowanych przez CSV.

Aby odczytać lub załadować nasz plik XLSX, używamy funkcji Load_Workbook () modułu OpenPyxl. Możesz użyć tej funkcji, jeśli chcesz napisać lub odczytać istniejący plik XLSX/Excel w Python. Po aktywacji Excel używamy CSV.Funkcja Writer (), aby utworzyć nasz plik CSV. Następnie do przechowywania danych w komórkach danych pliku CSV jest używana do przechowywania danych. Konwertujemy nasz przykład.plik XLSX w myfile.CSV, jak widać na poniższym obrazku:

Wniosek

W tym samouczku daliśmy ci krótkie wprowadzenie do plików XLSX i plików CSV. Wyjaśniliśmy kluczowe różnice między obiema formatami plików. Omówiliśmy dwie metody z wieloma przykładami nauczania, w jaki sposób pliki XLSX z pojedynczą lub wieloma arkuszami można przekonwertować na pliki CSV. Wdrożyliśmy przykład, aby konwertować wiele plików XLSX na pliki CSV jednocześnie. Konwertowanie danych z Excel na CSV może być proste lub trudne. Jeśli masz tylko jeden plik z niewielką liczbą arkuszy, jest to proste. Ale jeśli nie, może to być trudne.