PYSPARK - PANDAS DATEFRAME Sumulative Operations

PYSPARK - PANDAS DATEFRAME Sumulative Operations
„W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania do Spark za pomocą DataFrame, który zapisuje podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z trzema kolumnami i pięcioma wierszami.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Operacje skumulowane są wykorzystywane do zwracania skumulowanych wyników w kolumnach w Pyspark Pandas DataFrame.

Zobaczmy je jeden po drugim.

Pyspark.Pandy.Ramka danych.cumsum ()

cumsum () zwróci sumę skumulowaną w każdej kolumnie. Można go zastosować do całej Pyspark Panand -Frame lub do jednej kolumny.

Składnia

Na całej ramce danych

PYSPARK_PANDAS.cumsum ()

Na określonej kolumnie

PYSPARK_PANDAS.kolumna.cumsum ()

Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.

Przykład 1
W tym przykładzie wykonamy cumsum () w kolumnie Mark2.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cumsum na kolumnie Mark2
Drukuj (Pyspark_pandas.ocena 2.cumsum ())

Wyjście

Skumulowana operacja suma działająca w kolumnie Mark2

100 = 100
100+67 = 167
100+67+96 = 263
100+67+96+89 = 352
100+67+96+89+77 = 429

Przykład 2
W tym przykładzie wykonamy cumsum () na całym Pyspark Panandframe.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cumsum na całym Pyspark Pandy DataFrame
Drukuj (Pyspark_pandas.cumsum ())

Wyjście

Widzimy, że suma skumulowana jest zwracana w każdej kolumnie.

Pyspark.Pandy.Ramka danych.cumprod ()

cumprod () zwróci skumulowany produkt w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.

Składnia

Na całej ramce danych

PYSPARK_PANDAS.cumprod ()

Na określonej kolumnie

PYSPARK_PANDAS.kolumna.cumprod ()

Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.

Przykład 1
W tym przykładzie wykonamy cumprod () w kolumnie Mark2.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform cumprod na całym Pyspark Pandy DataFrame
Drukuj (Pyspark_pandas.cumprod ())

Wyjście

Skumulowana działanie produktu działające w kolumnie Mark2

100 = 100
100*67 = 6700
100*67*96 = 643200
100*67*96*89 = 57244800
100*67*96*89*77 = 4407849600

Przykład 2
W tym przykładzie przeprowadzimy cumprod () na całym Pyspark Panandframe.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cummin na kolumnie Mark2
Drukuj (Pyspark_pandas.ocena 2.cummin ())

Wyjście

Widzimy, że skumulowany produkt jest zwracany w każdej kolumnie.

Pyspark.Pandy.Ramka danych.Cummin ()

Cummin () zwróci skumulowaną minimalną wartość w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.

Składnia

Na całej ramce danych

PYSPARK_PANDAS.Cummin ()

Na określonej kolumnie

PYSPARK_PANDAS.kolumna.Cummin ()

Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.

Przykład 1
W tym przykładzie wykonamy Cummin () w kolumnie Mark2.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cummin na całej Pyspark Pandy DataFrame
Drukuj (Pyspark_pandas.cummin ())

Wyjście

Skumulowana minimalna operacja Pracująca w kolumnie Mark2

100 = 100
min (100,67) = 67
min (100 67,96) = 67
min (100 67,96,89) = 67
min (100 67,96,89,77) = 67

Przykład 2
W tym przykładzie wykonamy Cummin () na całym Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cummax na kolumnie Mark2
Drukuj (Pyspark_pandas.ocena 2.cummax ())

Wyjście

Widzimy, że skumulowana minimalna wartość jest zwracana w każdej kolumnie.

Pyspark.Pandy.Ramka danych.Cummax ()

cummax () zwróci skumulowaną maksymalną wartość w każdej kolumnie. Można go zastosować na całej Pyspark Pandas Frame lub na jednej kolumnie.

Składnia

Na całej ramce danych

PYSPARK_PANDAS.Cummax ()

Na określonej kolumnie

PYSPARK_PANDAS.kolumna.Cummax ()

Gdzie Pyspark_pandas to pand Pyspark, DataFrame i kolumna Patrz nazwę kolumny.

Przykład 1
W tym przykładzie wykonamy Cummax () w kolumnie Mark2.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cummax na kolumnie Mark2
Drukuj (Pyspark_pandas.ocena 2.cummax ())

Wyjście

Skumulowana maksymalna operacja Pracująca w kolumnie Mark2

100 = 100
Max (100,67) = 100
maks. (100 67,96) = 100
Max (100 67,96,89) = 100
Max (100 67,96,89,77) = 100

Przykład 2
W tym przykładzie wykonamy Cummax () na całym Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Perform Cummax na całym Pyspark Pandas DataFrame
Drukuj (Pyspark_pandas.cummax ())

Wyjście

Widzimy, że skumulowana maksymalna wartość jest zwracana w każdej kolumnie.

Wniosek

W tym samouczku Pyspark Pandas omówiliśmy skumulowane operacje wykonywane na Pyspark Pandas DataFrame. cumsum () służy do zwrócenia kumulatywnej sumy w każdej kolumnie, cumprod () służy do zwrócenia kumulatywnego produktu w każdej kolumnie, Cummin () służy do zwrócenia kumulatywnej wartości minimalnej w każdej kolumnie, a Cummax () jest używany do Cummax () Zwraca skumulowaną maksymalną wartość w każdej kolumnie.