PYSPARK - SUM

PYSPARK - SUM
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. sum () w Pyspark zwraca całkowitą wartość (sumę) z określonej kolumny w ramce danych. Możemy uzyskać wartość suma na trzy sposoby.
  1. Metoda 1: metodą Select ()
  2. Metoda 2: Za pomocą metody AGG ()
  3. Metoda 3: Za pomocą metody GroupBy ()

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda 1: metodą Select ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody select (). Za pomocą metody sum () możemy uzyskać całkowitą wartość z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody kolekcji (), aby uzyskać sumę z kolumny

Składnia:

df.Wybierz (sum ('kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać wartość sumy

Jeśli chcemy zwrócić całkowitą wartość z wielu kolumn, musimy użyć metody sum () w metodzie select (), określając nazwę kolumny oddzieloną przecinkiem.

Składnia:

df.Wybierz (sum ('kolumn_name'), sum ('kolumn_name'),… ., sum ('kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać wartość sumy

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma całkowitą wartość z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź funkcję sumy
od Pyspark.SQL.Funkcje importują sumę
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumny wysokości
df.Wybierz (sum („wysokość”)).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65)]

Całkowita wartość (suma) z kolumny wysokości jest zwracana w powyższym przykładzie.

Przykład 2: Wiele kolumn

Ten przykład otrzyma całkowitą wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź funkcję sumy
od Pyspark.SQL.Funkcje importują sumę
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumn wysokości, wieku i wagi
df.Wybierz (sum („wysokość”), sum („wiek”), sum („waga”)).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65, suma (wiek) = 92, suma (waga) = 200)]

Całkowita wartość (suma) z kolumn wysokości, wieku i wagi jest zwracana w powyższym przykładzie.

Metoda 2: Za pomocą metody AGG ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., suma. Za pomocą metody sum () możemy uzyskać całkowitą wartość z kolumny, a na koniec możemy użyć metody coler (), aby uzyskać sumę z kolumny.

Składnia:

df.AGG ('kolumn_name': sum)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
  3. Suma jest funkcją agregacji używaną do zwrócenia suma

Jeśli chcemy zwrócić całkowitą wartość z wielu kolumn, musimy określić nazwę kolumny za pomocą funkcji sumowej oddzielonej przecinkiem.

Składnia:

df.AGG ('kolumn_name': sum, 'kolumn_name': sum,…, 'kolumn_name': sum)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
  3. Suma jest funkcją agregacji używaną do zwrócenia suma

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma całkowitą wartość z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumny wysokości
df.AGG („Height”: „sum”).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65)]

W powyższym przykładzie zwracana jest łączna wartość (suma) z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma całkowitą wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumn wysokości, wieku i wagi
df.AGG („Height”: „sum”, „wiek”: „sum”, „waga”: „sum”).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65, suma (wiek) = 92, suma (waga) = 200)]

W powyższym przykładzie zwracana jest łączna wartość (suma) z kolumn wysokości, wieku i wagi.

Metoda 3: Za pomocą metody GroupBy ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody grupy (). Ta metoda zwróci całkowitą wartość, grupując podobne wartości w kolumnie. Musimy użyć funkcji sum () po wykonaniu funkcji grupy ()

Składnia:

df.Groupby (grupa_kolumn).sum („kolumna_nazwa”)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Group_Column to kolumna, w której wartości są pogrupowane na podstawie tej kolumny
  3. Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
  4. Suma jest funkcją agregacji używaną do zwrócenia suma

Przykład 1:

W tym przykładzie zgrupujemy kolumnę adresu z kolumną wysokości, aby zwrócić całkowitą wartość (sumę) na podstawie tej kolumny adresu.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#return suma z grupy kolumny wysokości z kolumną adresu
df.Groupby („Adres”).suma („wysokość”).zbierać()

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc suma zostanie utworzona przez grupowanie wartości między wartościami adresu.

[Wiersz (adres = „hyd”, suma (wysokość) = 13.07),
Wiersz (adres = „guntur”, suma (wysokość) = 5.79),
Wiersz (adres = „patna”, suma (wysokość) = 2.79)]

Przykład 2:

W tym przykładzie zgrupujemy kolumnę adresową z kolumną wagi, aby zwrócić całkowitą wartość (sumę) na podstawie tej kolumny adresu.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z grupy kolumny wagowej za pomocą kolumny adresowej
df.Groupby („Adres”).suma („waga”).zbierać()

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc suma zostanie utworzona przez grupowanie wartości między wartościami adresu.

[Wiersz (adres = „hyd”, suma (waga) = 116),
Wiersz (adres = „guntur”, suma (waga) = 67),
Wiersz (adres = „patna”, suma (waga) = 17)]

Wniosek:

Omówiliśmy, jak uzyskać wartość sum (całkowita) z PYSPARK DATAFRAME za pomocą metod wybierania () i agg (). Aby uzyskać wartość sumy poprzez grupowanie z innymi kolumnami, użyliśmy grupy wraz z funkcją sum ().