PYSPARK PANDAS DATFRAME GROUPBY

Makary Stasiak

„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame. Po grupowaniu możemy wykonywać operacje statystyczne, takie jak Mean (), sum (), min () i max (). Zobaczymy jeden po drugim z Groupby ().

Pyspark.Pandy.Ramka danych.Groupby () z Mean ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu średnich wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).mieć na myśli()

Gdzie,

PYSPARK_PANDAS to PYSPARK PANDASFrame
Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy całkowitą średnią danych utworzonych z kolumny grupy - s_name.

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

RAM - 2 wartości są pogrupowane
Sumita - 2 wartości są zgrupowane
Sukanya - 1 wartość jest pogrupowana

Następnie zwrócono całkowitą średnią dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.grupa () z sum ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu całkowitej sumy dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).suma()

Gdzie,

PYSPARK_PANDAS to PYSPARK PANDASFrame
Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy całkowitą sumę danych utworzonych z kolumny grupy - s_name.

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

RAM - 2 wartości są pogrupowane
Sumita - 2 wartości są zgrupowane
Sukanya - 1 wartość jest pogrupowana

Następnie zwrócono całkowitą sumę dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.grupa () z min ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia minimalnej wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).min ()

Gdzie,

PYSPARK_PANDAS to PYSPARK PANDASFrame
Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy minimum danych utworzonych z kolumny grupy - s_name.

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

RAM - 2 wartości są pogrupowane
Sumita - 2 wartości są zgrupowane
Sukanya - 1 wartość jest pogrupowana

Następnie minimalna wartość jest zwracana dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.Groupby () z Max ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia maksymalnej wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).Max ()

Gdzie,

PYSPARK_PANDAS to PYSPARK PANDASFrame
Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy maksimum danych utworzonych z kolumny grupy - s_name.

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

RAM - 2 wartości są pogrupowane
Sumita - 2 wartości są zgrupowane
Sukanya - 1 wartość jest pogrupowana

Następnie maksymalna wartość jest zwracana dla wszystkich trzech kolumn.

Wniosek

W tym samouczku Pyspark Pandas DataFrame () widzimy, co to jest Groupby i jak zastosować grupę () z funkcjami statystycznymi, takimi jak Mean (), min (), max () i sum ().

Pyton

Jak sprawdzić, czy sznurek jest pusty w Pythonie

Funkcja „nie”, funkcja „len ()”, funkcja „strip ()”, operator „==”, metoda „__eq __ ()” lub „nie + s...

Pani Alicja Szafrański

Pyton

Etykiety osi morskiej

„Osie.Funkcje funkcji biblioteki MATPlotlib lub funkcje „set_xlabel ()” i „set_ylabel ()” można użyć...

Pani Julia Szwed

Pyton

Python nie wszystkie argumenty przekonwertowane podczas formatowania ciągu

Ten błąd można naprawić, korygując składnię operatora %, przy użyciu funkcji format () zamiast opera...

Renata Borowiec