PYSPARK - PANDAS DATEFRAME Funkcje agregatowe

PYSPARK - PANDAS DATEFRAME Funkcje agregatowe
„W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania, taki jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z czterema kolumnami i pięcioma wierszami.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Funkcje agregatowe są używane do wykonywania operacji agregacji, takich jak sum (), min (), mena () i max ().Operacje te działają tylko na danych liczbowych, takich jak liczba całkowita, podwójna itp.

Zobaczmy je jeden po drugim.

Pyspark.Pandy.Ramka danych.suma()

sum () w Pyspark Pandas DataFrame służy do zwrócenia całkowitej sumy na wierszach i kolumnach.

Jeśli chcesz zwrócić sumę w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić sumę w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.

Składnia

PYSPARK_PANDAS.suma (oś = 0/oś = 1)

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Wymaga tylko jednego parametru.

Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.

Przykład 1
W tym przykładzie zwrócimy całkowitą sumę w każdym rzędzie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform sum () operacja agregacji wiersz mądry
Drukuj (Pyspark_pandas.suma (oś = 1))

Wyjście

0 281
1 237
2 284
3 240
4 231
DTYPE: INT64

Widzimy, że operacja sumy jest wykonywana w każdym rzędzie.

Jak pierwszy rząd - 90+100+91 = 281.

Przykład 2
W tym przykładzie zwrócimy całkowitą sumę w każdej kolumnie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform sum () Operacja agregacji mądry

Wyjście

Mark1 379
Mark2 429
Mark3 465
DTYPE: INT64

Widzimy, że operacja sumy jest wykonywana dla każdej kolumny.

Jak dla kolumny Mark1 - 90+78+90+54+67 = 379.

Pyspark.Pandy.Ramka danych.mieć na myśli()

średnia () w Pyspark Panandframe jest używana do zwrócenia całkowitej średniej w rzędach i kolumnach.

Jeśli chcesz zwrócić średnią w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić średnią w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.

Składnia

PYSPARK_PANDAS.średnia (oś = 0/oś = 1)

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr

Wymaga tylko jednego parametru.

Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.

Przykład 1
W tym przykładzie zwrócimy całkowitą średnią w każdym rzędzie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform Mean () Operacja agregacji wiersz mądry
Drukuj (Pyspark_pandas.średnia (oś = 1))

Wyjście

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
Dtype: Float64

Widzimy, że średnia operacja jest wykonywana w każdym rzędzie.

Jak pierwszy rząd - (90+100+91)/3 = 93.666667

Przykład 2
W tym przykładzie zwrócimy całkowitą średnią w każdej kolumnie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform Mean () Operacja agregacji WISE
Drukuj (Pyspark_pandas.średnia (oś = 0))

Wyjście

Mark1 75.8
Mark2 85.8
Mark3 93.0
Dtype: Float64

Widzimy, że średnia operacja jest wykonywana w każdej kolumnie.

Jak dla kolumny Mark1 - (90+78+90+54+67)/5 = 75.8.

Pyspark.Pandy.Ramka danych.min ()

Min () w Pyspark Pandas DataFrame jest używany do minimalnej wartości w rzędach i kolumnach.

Jeśli chcesz zwrócić minimalną wartość w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić minimum w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.

Składnia

PYSPARK_PANDAS.min (oś = 0/osi = 1)

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Wymaga tylko jednego parametru.

Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.

Przykład 1
W tym przykładzie zwrócimy minimalną wartość w każdym wierszu.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform min () Agregacja Operacja Row mądry
Drukuj (Pyspark_pandas.min (oś = 1))

Wyjście

0 90
1 67
2 90
3 54
4 67
DTYPE: INT64

Widzimy, że agregacja min () jest wykonywana w każdym rzędzie.

Jak pierwszy rząd - minimum (90 100,91) = 90

Przykład 2
W tym przykładzie zwrócimy minimalną wartość w każdej kolumnie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform Min () Operacja agregacji WISKA
Drukuj (Pyspark_pandas.min (oś = 0))

Wyjście

Mark1 54
Mark2 67
Mark3 87
DTYPE: INT64

Widzimy, że agregacja min () jest wykonywana dla każdej kolumny.

Jak dla kolumny Mark1 - min (90,78,90,54,67) = 54.

Pyspark.Pandy.Ramka danych.Max ()

MAX () w Pyspark Pandy DataFrame jest używany do maksymalnej wartości nad wierszami i kolumnami.

Jeśli chcesz zwrócić maksymalną wartość w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić maksimum na każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.

Składnia

PYSPARK_PANDAS.maks. (Oś = 0/Axis = 1)

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Wymaga tylko jednego parametru.

Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.

Przykład 1
W tym przykładzie zwrócimy maksymalną wartość w każdym wierszu.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform Max () Operacja agregacji wiersz mądry
Drukuj (Pyspark_pandas.maks. (Oś = 1))

Wyjście

0 100
1 92
2 98
3 97
4 87
DTYPE: INT64

Widzimy, że agregacja max () jest wykonywana w każdym rzędzie.

Jak pierwszy rząd - maksimum (90 100 91) = 100

Przykład 2
W tym przykładzie zwrócimy maksymalną wartość w każdej kolumnie.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Perform Max () Operacja agregacji mądry
Drukuj (Pyspark_pandas.Max (oś = 0))

Wyjście

Mark1 90
Mark2 100
Mark3 98
DTYPE: INT64

Widzimy, że agregacja max () jest wykonywana dla każdej kolumny.

Jak dla kolumny Mark1 - maks. (90,78,90,54,67) = 90.

Wniosek

W tym samouczku Pyspark Pandas DataFrame widzieliśmy cztery różne funkcje agregacji wykonywane w DataFrame. Możliwe jest obliczenie w ramach wiersza i kolumny z parametrami osi. sum () zwróci całkowitą sumę, avg () służy do zwrócenia całkowitej średniej, min () jest używany do zwrócenia wartości minimalnej, a maksymalny () zwróci wartość maksymalną.