PYSPARK PANDAS DATFRAME GROUPBY

PYSPARK PANDAS DATFRAME GROUPBY
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame. Po grupowaniu możemy wykonywać operacje statystyczne, takie jak Mean (), sum (), min () i max (). Zobaczymy jeden po drugim z Groupby ().

Pyspark.Pandy.Ramka danych.Groupby () z Mean ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu średnich wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).mieć na myśli()

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy całkowitą średnią danych utworzonych z kolumny grupy - s_name.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Group według nazwy s_name i return średnie znaki zgrupowanych
Drukuj (Pyspark_pandas.Groupby (['s_name']).mieć na myśli())

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

  1. RAM - 2 wartości są pogrupowane
  2. Sumita - 2 wartości są zgrupowane
  3. Sukanya - 1 wartość jest pogrupowana

Następnie zwrócono całkowitą średnią dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.grupa () z sum ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu całkowitej sumy dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).suma()

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy całkowitą sumę danych utworzonych z kolumny grupy - s_name.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Group według nazwy s_name i zwrot
Drukuj (Pyspark_pandas.Groupby (['s_name']).suma())

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

  1. RAM - 2 wartości są pogrupowane
  2. Sumita - 2 wartości są zgrupowane
  3. Sukanya - 1 wartość jest pogrupowana

Następnie zwrócono całkowitą sumę dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.grupa () z min ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia minimalnej wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).min ()

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy minimum danych utworzonych z kolumny grupy - s_name.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Group według nazwy s_name i zwróć minimalne oceny zgrupowanych wierszy
Drukuj (Pyspark_pandas.Groupby (['s_name']).min ())

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

  1. RAM - 2 wartości są pogrupowane
  2. Sumita - 2 wartości są zgrupowane
  3. Sukanya - 1 wartość jest pogrupowana

Następnie minimalna wartość jest zwracana dla wszystkich trzech kolumn.

Pyspark.Pandy.Ramka danych.Groupby () z Max ()

GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia maksymalnej wartości dla każdego zgrupowanego wiersza.

Składnia

PYSPARK_PANDAS.Groupby ([kolumna/s]).Max ()

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. Kolumna to nazwa kolumny, w której podobne wartości są pogrupowane w tej kolumnie

Przykład
W tym przykładzie zwrócimy maksimum danych utworzonych z kolumny grupy - s_name.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('s_name': [„Ram”, „Sukanya”, „Sumita”, „Sumita”, „Ram”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Group według nazwy s_name i zwróć maksymalne oceny zgrupowanych wierszy
Drukuj (Pyspark_pandas.Groupby (['s_name']).max ())

Wyjście

Widzimy, że istnieją dwa podobne wiersze.

  1. RAM - 2 wartości są pogrupowane
  2. Sumita - 2 wartości są zgrupowane
  3. Sukanya - 1 wartość jest pogrupowana

Następnie maksymalna wartość jest zwracana dla wszystkich trzech kolumn.

Wniosek

W tym samouczku Pyspark Pandas DataFrame () widzimy, co to jest Groupby i jak zastosować grupę () z funkcjami statystycznymi, takimi jak Mean (), min (), max () i sum ().