PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARKSkładnia do importu
od Pyspark Import PandasNastępnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do tworzenia pandas DataFrame
Pyspark.Pandy.Ramka danych()Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.
#Import pandy z modułu PYSPARKWyjście
Teraz wejdziemy do naszego samouczka.
GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame. Po grupowaniu możemy wykonywać operacje statystyczne, takie jak Mean (), sum (), min () i max (). Zobaczymy jeden po drugim z Groupby ().
Pyspark.Pandy.Ramka danych.Groupby () z Mean ()
GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu średnich wartości dla każdego zgrupowanego wiersza.
Składnia
PYSPARK_PANDAS.Groupby ([kolumna/s]).mieć na myśli()Gdzie,
Przykład
W tym przykładzie zwrócimy całkowitą średnią danych utworzonych z kolumny grupy - s_name.
Wyjście
Widzimy, że istnieją dwa podobne wiersze.
Następnie zwrócono całkowitą średnią dla wszystkich trzech kolumn.
Pyspark.Pandy.Ramka danych.grupa () z sum ()
GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwróceniu całkowitej sumy dla każdego zgrupowanego wiersza.
Składnia
PYSPARK_PANDAS.Groupby ([kolumna/s]).suma()Gdzie,
Przykład
W tym przykładzie zwrócimy całkowitą sumę danych utworzonych z kolumny grupy - s_name.
Wyjście
Widzimy, że istnieją dwa podobne wiersze.
Następnie zwrócono całkowitą sumę dla wszystkich trzech kolumn.
Pyspark.Pandy.Ramka danych.grupa () z min ()
GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia minimalnej wartości dla każdego zgrupowanego wiersza.
Składnia
PYSPARK_PANDAS.Groupby ([kolumna/s]).min ()Gdzie,
Przykład
W tym przykładzie zwrócimy minimum danych utworzonych z kolumny grupy - s_name.
Wyjście
Widzimy, że istnieją dwa podobne wiersze.
Następnie minimalna wartość jest zwracana dla wszystkich trzech kolumn.
Pyspark.Pandy.Ramka danych.Groupby () z Max ()
GroupBy () służy do grupowania podobnych wierszy w Pyspark Pandas DataFrame i zwrócenia maksymalnej wartości dla każdego zgrupowanego wiersza.
Składnia
PYSPARK_PANDAS.Groupby ([kolumna/s]).Max ()Gdzie,
Przykład
W tym przykładzie zwrócimy maksimum danych utworzonych z kolumny grupy - s_name.
Wyjście
Widzimy, że istnieją dwa podobne wiersze.
Następnie maksymalna wartość jest zwracana dla wszystkich trzech kolumn.
Wniosek
W tym samouczku Pyspark Pandas DataFrame () widzimy, co to jest Groupby i jak zastosować grupę () z funkcjami statystycznymi, takimi jak Mean (), min (), max () i sum ().