PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARKSkładnia do importu
od Pyspark Import PandasNastępnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do tworzenia pandas DataFrame
Pyspark.Pandy.Ramka danych()Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z czterema kolumnami i pięcioma wierszami.
#Import pandy z modułu PYSPARKWyjście
Teraz wejdziemy do naszego samouczka.
Funkcje agregatowe są używane do wykonywania operacji agregacji, takich jak sum (), min (), mena () i max ().Operacje te działają tylko na danych liczbowych, takich jak liczba całkowita, podwójna itp.
Zobaczmy je jeden po drugim.
Pyspark.Pandy.Ramka danych.suma()
sum () w Pyspark Pandas DataFrame służy do zwrócenia całkowitej sumy na wierszach i kolumnach.
Jeśli chcesz zwrócić sumę w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić sumę w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.
Składnia
PYSPARK_PANDAS.suma (oś = 0/oś = 1)Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr
Wymaga tylko jednego parametru.
Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.
Przykład 1
W tym przykładzie zwrócimy całkowitą sumę w każdym rzędzie.
Wyjście
0 281Widzimy, że operacja sumy jest wykonywana w każdym rzędzie.
Jak pierwszy rząd - 90+100+91 = 281.
Przykład 2
W tym przykładzie zwrócimy całkowitą sumę w każdej kolumnie.
Wyjście
Mark1 379Widzimy, że operacja sumy jest wykonywana dla każdej kolumny.
Jak dla kolumny Mark1 - 90+78+90+54+67 = 379.
Pyspark.Pandy.Ramka danych.mieć na myśli()
średnia () w Pyspark Panandframe jest używana do zwrócenia całkowitej średniej w rzędach i kolumnach.
Jeśli chcesz zwrócić średnią w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić średnią w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.
Składnia
PYSPARK_PANDAS.średnia (oś = 0/oś = 1)Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr
Wymaga tylko jednego parametru.
Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.
Przykład 1
W tym przykładzie zwrócimy całkowitą średnią w każdym rzędzie.
Wyjście
0 93.666667Widzimy, że średnia operacja jest wykonywana w każdym rzędzie.
Jak pierwszy rząd - (90+100+91)/3 = 93.666667
Przykład 2
W tym przykładzie zwrócimy całkowitą średnią w każdej kolumnie.
Wyjście
Mark1 75.8Widzimy, że średnia operacja jest wykonywana w każdej kolumnie.
Jak dla kolumny Mark1 - (90+78+90+54+67)/5 = 75.8.
Pyspark.Pandy.Ramka danych.min ()
Min () w Pyspark Pandas DataFrame jest używany do minimalnej wartości w rzędach i kolumnach.
Jeśli chcesz zwrócić minimalną wartość w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić minimum w każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.
Składnia
PYSPARK_PANDAS.min (oś = 0/osi = 1)Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr
Wymaga tylko jednego parametru.
Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.
Przykład 1
W tym przykładzie zwrócimy minimalną wartość w każdym wierszu.
Wyjście
0 90Widzimy, że agregacja min () jest wykonywana w każdym rzędzie.
Jak pierwszy rząd - minimum (90 100,91) = 90
Przykład 2
W tym przykładzie zwrócimy minimalną wartość w każdej kolumnie.
Wyjście
Mark1 54Widzimy, że agregacja min () jest wykonywana dla każdej kolumny.
Jak dla kolumny Mark1 - min (90,78,90,54,67) = 54.
Pyspark.Pandy.Ramka danych.Max ()
MAX () w Pyspark Pandy DataFrame jest używany do maksymalnej wartości nad wierszami i kolumnami.
Jeśli chcesz zwrócić maksymalną wartość w każdym wierszu, musisz określić oś = 1, a jeśli chcesz zwrócić maksimum na każdej kolumnie, musisz określić osi = 0. Domyślnie będzie wykonywać kolumny.
Składnia
PYSPARK_PANDAS.maks. (Oś = 0/Axis = 1)Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr
Wymaga tylko jednego parametru.
Axis-0 określa obliczenia kolumnowe, a oś = 1 Określa obliczenia rzędowe.
Przykład 1
W tym przykładzie zwrócimy maksymalną wartość w każdym wierszu.
Wyjście
0 100Widzimy, że agregacja max () jest wykonywana w każdym rzędzie.
Jak pierwszy rząd - maksimum (90 100 91) = 100
Przykład 2
W tym przykładzie zwrócimy maksymalną wartość w każdej kolumnie.
Wyjście
Mark1 90Widzimy, że agregacja max () jest wykonywana dla każdej kolumny.
Jak dla kolumny Mark1 - maks. (90,78,90,54,67) = 90.
Wniosek
W tym samouczku Pyspark Pandas DataFrame widzieliśmy cztery różne funkcje agregacji wykonywane w DataFrame. Możliwe jest obliczenie w ramach wiersza i kolumny z parametrami osi. sum () zwróci całkowitą sumę, avg () służy do zwrócenia całkowitej średniej, min () jest używany do zwrócenia wartości minimalnej, a maksymalny () zwróci wartość maksymalną.