PYSPARK - SUM

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. sum () w Pyspark zwraca całkowitą wartość (sumę) z określonej kolumny w ramce danych. Możemy uzyskać wartość suma na trzy sposoby.

Metoda 1: metodą Select ()
Metoda 2: Za pomocą metody AGG ()
Metoda 3: Za pomocą metody GroupBy ()

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda 1: metodą Select ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody select (). Za pomocą metody sum () możemy uzyskać całkowitą wartość z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody kolekcji (), aby uzyskać sumę z kolumny

Składnia:

df.Wybierz (sum ('kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać wartość sumy

Jeśli chcemy zwrócić całkowitą wartość z wielu kolumn, musimy użyć metody sum () w metodzie select (), określając nazwę kolumny oddzieloną przecinkiem.

Składnia:

df.Wybierz (sum ('kolumn_name'), sum ('kolumn_name'),… ., sum ('kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać wartość sumy

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma całkowitą wartość z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź funkcję sumy
od Pyspark.SQL.Funkcje importują sumę
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumny wysokości
df.Wybierz (sum („wysokość”)).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65)]

Całkowita wartość (suma) z kolumny wysokości jest zwracana w powyższym przykładzie.

Przykład 2: Wiele kolumn

Ten przykład otrzyma całkowitą wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź funkcję sumy
od Pyspark.SQL.Funkcje importują sumę
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć sumę z kolumn wysokości, wieku i wagi
df.Wybierz (sum („wysokość”), sum („wiek”), sum („waga”)).zbierać()

Wyjście:

[Row (suma (wysokość) = 21.65, suma (wiek) = 92, suma (waga) = 200)]

Całkowita wartość (suma) z kolumn wysokości, wieku i wagi jest zwracana w powyższym przykładzie.

Metoda 2: Za pomocą metody AGG ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., suma. Za pomocą metody sum () możemy uzyskać całkowitą wartość z kolumny, a na koniec możemy użyć metody coler (), aby uzyskać sumę z kolumny.

Składnia:

df.AGG ('kolumn_name': sum)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
Suma jest funkcją agregacji używaną do zwrócenia suma

Jeśli chcemy zwrócić całkowitą wartość z wielu kolumn, musimy określić nazwę kolumny za pomocą funkcji sumowej oddzielonej przecinkiem.

Składnia:

df.AGG ('kolumn_name': sum, 'kolumn_name': sum,…, 'kolumn_name': sum)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
Suma jest funkcją agregacji używaną do zwrócenia suma

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma całkowitą wartość z kolumny wysokości w Pyspark DataFrame.

Wyjście:

[Row (suma (wysokość) = 21.65)]

W powyższym przykładzie zwracana jest łączna wartość (suma) z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma całkowitą wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

Wyjście:

[Row (suma (wysokość) = 21.65, suma (wiek) = 92, suma (waga) = 200)]

W powyższym przykładzie zwracana jest łączna wartość (suma) z kolumn wysokości, wieku i wagi.

Metoda 3: Za pomocą metody GroupBy ()

Możemy uzyskać całkowitą wartość z kolumny w ramce danych za pomocą metody grupy (). Ta metoda zwróci całkowitą wartość, grupując podobne wartości w kolumnie. Musimy użyć funkcji sum () po wykonaniu funkcji grupy ()

Składnia:

df.Groupby (grupa_kolumn).sum („kolumna_nazwa”)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Group_Column to kolumna, w której wartości są pogrupowane na podstawie tej kolumny
Kolumna_nazwa to kolumna, aby uzyskać wartość sumy
Suma jest funkcją agregacji używaną do zwrócenia suma

Przykład 1:

W tym przykładzie zgrupujemy kolumnę adresu z kolumną wysokości, aby zwrócić całkowitą wartość (sumę) na podstawie tej kolumny adresu.

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc suma zostanie utworzona przez grupowanie wartości między wartościami adresu.

[Wiersz (adres = „hyd”, suma (wysokość) = 13.07),
Wiersz (adres = „guntur”, suma (wysokość) = 5.79),
Wiersz (adres = „patna”, suma (wysokość) = 2.79)]

Przykład 2:

W tym przykładzie zgrupujemy kolumnę adresową z kolumną wagi, aby zwrócić całkowitą wartość (sumę) na podstawie tej kolumny adresu.

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc suma zostanie utworzona przez grupowanie wartości między wartościami adresu.

[Wiersz (adres = „hyd”, suma (waga) = 116),
Wiersz (adres = „guntur”, suma (waga) = 67),
Wiersz (adres = „patna”, suma (waga) = 17)]

Wniosek:

Omówiliśmy, jak uzyskać wartość sum (całkowita) z PYSPARK DATAFRAME za pomocą metod wybierania () i agg (). Aby uzyskać wartość sumy poprzez grupowanie z innymi kolumnami, użyliśmy grupy wraz z funkcją sum ().

Golang

Jakie są struktury w Golang

W Golang struktura to złożony typ danych, który składa się z zerowych lub bardziej nazwanych pól, z ...

Igor Skrzypek

Golang

Wprowadzenie do języka programowania Golang

Golang to język programowania typu open source opracowany przez Google. Śledź ten artykuł, aby szcze...

Renata Borowiec

Siły sprzedaży

Salesforce Data Loader

Samouczek na temat wstawienia, usuwania i aktualizacji danych Salesforce oraz jak importować/wyekspo...

Larysa Witczak