PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARKSkładnia do importu
od Pyspark Import PandasNastępnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do tworzenia pandas DataFrame
Pyspark.Pandy.Ramka danych()Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z trzema kolumnami i pięcioma wierszami.
#Import pandy z modułu PYSPARKWyjście
Teraz wejdziemy do naszego samouczka.
Operacje skumulowane są wykorzystywane do zwracania skumulowanych wyników w kolumnach w Pyspark Pandas DataFrame.
Zobaczmy je jeden po drugim.
Pyspark.Pandy.Ramka danych.cumsum ()
cumsum () zwróci sumę skumulowaną w każdej kolumnie. Można go zastosować do całej Pyspark Panand -Frame lub do jednej kolumny.
Składnia
Na całej ramce danych
PYSPARK_PANDAS.cumsum ()Na określonej kolumnie
PYSPARK_PANDAS.kolumna.cumsum ()Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.
Przykład 1
W tym przykładzie wykonamy cumsum () w kolumnie Mark2.
Wyjście
Skumulowana operacja suma działająca w kolumnie Mark2
100 = 100Przykład 2
W tym przykładzie wykonamy cumsum () na całym Pyspark Panandframe.
Wyjście
Widzimy, że suma skumulowana jest zwracana w każdej kolumnie.
Pyspark.Pandy.Ramka danych.cumprod ()
cumprod () zwróci skumulowany produkt w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.
Składnia
Na całej ramce danych
PYSPARK_PANDAS.cumprod ()Na określonej kolumnie
PYSPARK_PANDAS.kolumna.cumprod ()Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.
Przykład 1
W tym przykładzie wykonamy cumprod () w kolumnie Mark2.
Wyjście
Skumulowana działanie produktu działające w kolumnie Mark2
100 = 100Przykład 2
W tym przykładzie przeprowadzimy cumprod () na całym Pyspark Panandframe.
Wyjście
Widzimy, że skumulowany produkt jest zwracany w każdej kolumnie.
Pyspark.Pandy.Ramka danych.Cummin ()
Cummin () zwróci skumulowaną minimalną wartość w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.
Składnia
Na całej ramce danych
PYSPARK_PANDAS.Cummin ()Na określonej kolumnie
PYSPARK_PANDAS.kolumna.Cummin ()Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.
Przykład 1
W tym przykładzie wykonamy Cummin () w kolumnie Mark2.
Wyjście
Skumulowana minimalna operacja Pracująca w kolumnie Mark2
100 = 100Przykład 2
W tym przykładzie wykonamy Cummin () na całym Pyspark Pandas DataFrame.
Wyjście
Widzimy, że skumulowana minimalna wartość jest zwracana w każdej kolumnie.
Pyspark.Pandy.Ramka danych.Cummax ()
cummax () zwróci skumulowaną maksymalną wartość w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.
Składnia
Na całej ramce danych
PYSPARK_PANDAS.Cummax ()Na określonej kolumnie
PYSPARK_PANDAS.kolumna.Cummax ()Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.
Przykład 1
W tym przykładzie wykonamy Cummax () w kolumnie Mark2.
Wyjście
Skumulowana maksymalna operacja Pracująca w kolumnie Mark2
100 = 100Przykład 2
W tym przykładzie wykonamy Cummax () na całym Pyspark Pandas DataFrame.
Wyjście
Widzimy, że skumulowana maksymalna wartość jest zwracana w każdej kolumnie.
Wniosek
W tym samouczku Pyspark Pandas omówiliśmy skumulowane operacje wykonywane na Pyspark Pandas DataFrame. cumsum () służy do zwrócenia kumulatywnej sumy w każdej kolumnie, cumprod () służy do zwrócenia kumulatywnego produktu w każdej kolumnie, Cummin () służy do zwrócenia kumulatywnej wartości minimalnej w każdej kolumnie, a Cummax () jest używany do Cummax () Zwraca skumulowaną maksymalną wartość w każdej kolumnie.