PYSPARK - PANDAS SERIINE Funkcje agregatowe

PYSPARK - PANDAS SERIINE Funkcje agregatowe
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu serii, który będzie przechowywał dane dane w tablicy (kolumna w Pyspark wewnętrznie).

Pyspark - Pandas Series reprezentuje serię panda, ale wewnętrznie zawiera kolumnę Pyspark.

Struktura danych serii obsługująca pandy, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub korzystać z serii z modułu PandaS.

Składnia do tworzenia serii pandy

Pyspark.Pandy.Seria()

Możemy przekazać listę lub listę list z wartościami.

Utwórzmy serię pandy za pośrednictwem PYSPARK, który ma pięć wartości liczbowych.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Create Series z 5 elementami
PYSPARK_SERIES = PANDA.Seria ([90,56,78,54,0])
Drukuj (Pyspark_Series)

Wyjście

Teraz wejdziemy do naszego samouczka.

Funkcje agregatowe są używane do wykonywania operacji agregacji, takich jak sum (), min (), mena () i max ().Operacje te działają tylko na danych liczbowych, takich jak liczba całkowita, podwójna itp

Zobaczmy je jeden po drugim.

Pyspark.Pandy.Seria.suma()

sum () w serii Pyspark Pandas służy do zwrócenia całkowitej sumie.

Składnia

PYSPARK_SERIES.suma()

Gdzie Pyspark_Series to seria Pyspark Pandy.

Przykład
Suma zwrotu z powyższej serii Pyspark Pandy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Create Series z 5 elementami
PYSPARK_SERIES = PANDA.Seria ([90,56,78,54,0])
#zwróć sumę
Drukuj (pyspark_series.suma())

Wyjście:

278
Pracujący:
90+56+78+54+0 = 278.

Pyspark.Pandy.Seria.mieć na myśli()

średnia () w serii Pyspark Pandy służy do zwrócenia całkowitej średniej.

Składnia

PYSPARK_SERIES.mieć na myśli()

Gdzie Pyspark_Series to seria Pyspark Pandy.

Przykład
Średnia zwrotna z powyższej serii Pyspark Pandy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Create Series z 5 elementami
PYSPARK_SERIES = PANDA.Seria ([90,56,78,54,0])
#przecięcie średniej
Drukuj (pyspark_series.mieć na myśli())

Wyjście

55.6
Pracujący:
(90+56+78+54+0)/5 = 55.6.

Pyspark.Pandy.Seria.min ()

Min () w serii Pyspark Pandas służy do zwrócenia minimalnej wartości.

Składnia

PYSPARK_SERIES.min ()

Gdzie Pyspark_Series to seria Pyspark Pandy.

Przykład
Zwraca minimalną wartość z powyższej serii Pyspark Pandy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Create Series z 5 elementami
PYSPARK_SERIES = PANDA.Seria ([90,56,78,54,0])
#Minimum zwróć
Drukuj (pyspark_series.min ())

Wyjście

0
Pracujący:
minimum (90+56+78+54+0) = 0

Pyspark.Pandy.Seria.Max ()

Max () w serii Pyspark Pandy służy do zwrócenia maksymalnej wartości.

Składnia

PYSPARK_SERIES.Max ()

Gdzie Pyspark_Series to seria Pyspark Pandy.

Przykład
Zwróć maksymalną wartość z powyższej serii Pyspark Pandas.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Create Series z 5 elementami
PYSPARK_SERIES = PANDA.Seria ([90,56,78,54,0])
#Maksymalnie zwróć
Drukuj (pyspark_series.max ())

Wyjście

90
Pracujący:
maksimum (90+56+78+54+0) = 90

Wniosek

W tym samouczku serii Pyspark Pandy widzieliśmy cztery różne funkcje agregacji wykonane w serii. sum () zwróci całkowitą sumę, avg () jest używany do zwrócenia całkowitej średniej, min () jest używany do zwrócenia wartości minimalnej, a maksymalny () zwróci wartość maksymalną.