Pandas read_csv multiprocessing

Pandas read_csv multiprocessing

Wieloprocesowa jest techniką stosowania wielu procesorów lub rdzeni do wykonywania zadań równolegle. W Pythonie wieloprocesowy jest zaimplementowany przez moduł wieloprocesowy. Upoważnia użytkownika do jednoczesnego wykonywania wielu zadań, wykorzystując w ten sposób pełną moc procesora komputera.

W tym przewodniku Python przedstawimy dogłębny przewodnik na temat „Pandy.read_csv ()”Funkcja z modułem wieloprocesowym. Poniższe tematy zostaną omówione:

    • funkcja read_csv () w Python
    • Czytanie CSV za pomocą „Pandy.read_csv ()”Funkcja
    • Czytanie CSV za pomocą „Pandy.read_csv ()”Z wielośnikami

„Pandy.czyt_csv () ”w Python

„„Pandy.read_csv ()”Jest funkcją w module Pythona Pandas, który odczytuje/przyjmuje plik CSV i pobiera obiekt DataFrame zawierający dane z CSV.

Składnia

Pd.read_csv (filePath_OR_Buffer, sep = ',', nagłówek = 'ind -', index_col = brak, usecols = brak, silnik = brak, skiprows = brak, nrows = brak)


Przykład 1: Czytanie CSV za pomocą „Pandy.funkcja read_csv () ”

W poniższym przykładzie „Pandy.Funkcja read_csv () ”służy do odczytu danych CSV:


Kod

importować pandy
df = pandy.read_csv („Przykład.CSV ')
Drukuj (DF)


W powyższym fragmencie kodu:

    • Moduł o nazwie „Pandy”Jest importowany.
    • „„Pd.read_csv ()”Funkcja służy do odczytania dostarczonego pliku CSV.
    • „„wydrukować()”Funkcja jest wykorzystywana do wyświetlania/wyświetlania danych CSV.

Wyjście


Jak zaobserwowano, wyświetlono zawartość pliku CSV.

Przykład 2: Czytanie CSV za pomocą „Pandy.read_csv () ”z wieloprocesową

Poniższy kod wykorzystuje „Pd.read_csv ()”Funkcja do odczytu wielu plików CSV równolegle za pomocą biblioteki wieloprocesowej w Python:

importować pandy
importować multiprocessing
Jeśli __name__ == '__main__':
pula = multiprocessing.Basen()
pliki = ['Przykład.csv ', „przykład1.csv ', „przykład2.CSV ']
DataFrames = pula.Mapa (pandy.read_csv, pliki)
Dla DF w danych danych:
Drukuj (DF)


Zgodnie z powyższym kodem:

    • Moduły nazwane „Pandy" I "multiprocessing„Moduły są importowane.
    • „„__nazwa__" I "__główny__„Atrybuty są używane z„Jeśli”Warunek, aby upewnić się, że kod w nim jest wykonywany bezpośrednio ze skryptu, a nie importowany.
    • Wewnątrz stanu „multiprocessing.Basen()”Służy do utworzenia multiprocessing pule obiektu przy użyciu domyślnej liczby procesów dostępnych w systemie.
    • Lista nazw plików do odczytania plików CSV jest inicjowana i przechowywana w zmiennej o nazwie „akta".
    • „„basen.mapa()„Metoda stosuje się do zastosowania„Pd.read_csv”Funkcja każdego pliku równolegle. Oznacza to, że każdy plik jest odczytywany jednocześnie przez osobny proces, który może przyspieszyć całkowity czas przetwarzania.
    • Wreszcie „„Do„Pętla jest używana do iteracji przez każdą ramkę danych.

Wyjście


W tym wyniku „PD.Read_CSV () ”jest używana z wieloprocesową do odczytu plików CSV.

Wniosek

W celu poprawy prędkości ładowania danych, w tym ich korzyści i ograniczeń „Pd.read_csv ()”Funkcja jest używana z modułem wieloprocesowym. Model wieloprocesowy oferuje sposób na przyspieszenie ładowania danych za pomocą wielu rdzeni procesora do ładowania danych równolegle. Ten samouczek Python przedstawił dogłębny przewodnik na temat wieloprocesowego przeczytania Pythona.