Odchylenie standardowe w Pyspark

Odchylenie standardowe w Pyspark
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Odchylenie standardowe to obliczenie matematyczne w celu ustalenia, jak podobne lub różne liczby są. Na przykład ludzie powiedzą, że liczba ta to x liczba standardowych odchyleń z dala od średniej. Lub w sumie wszystkie liczby w zestawie są z liczbą odchyleń standardowych itp. Wykazamy trzy funkcje odchylenia standardowego w tym artykule za pomocą PYSPARK. Dla każdej z tych funkcji podamy przykłady wybierać() I AGG () metody.
  1. PYSPARK - STDDEV ()
  2. PYSPARK - stddev_samp ()
  3. PYSPARK - stddev_pop ()

PYSPARK - STDDEV ()

stddev () W PYSPARK służy do zwrócenia odchylenia standardowego od konkretnej kolumny w ramce danych.

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszy i 6 kolumnami i wyświetlimy ją za pomocą pokazywać() metoda.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: metodą Select ()

Możemy uzyskać odchylenie standardowe od kolumny w ramce danych za pomocą metody select (). Za pomocą metody stddev () możemy uzyskać odchylenie standardowe od kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody Collect (), aby uzyskać odchylenie standardowe od kolumny

Składnia:

df.Wybierz (stdDev ('kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać odchylenie standardowe

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn, musimy użyć metody stdDev () w metodzie Select (), określając nazwę kolumny oddzieloną przecinkiem.

Składnia:

df.Wybierz (stdDev ('kolumn_name'), stddev ('kolumn_name'),… ., stdDev ('kolumn_name'))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać odchylenie standardowe

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma odchylenie standardowe od kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję standsrd - stddev
od Pyspark.SQL.Funkcje Importuj StdDev
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.Wybierz (stddev („wysokość”)).zbierać()

Wyjście:

[Wiersz (stddev_samp (wysokość) = 1.3030732903409539)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma odchylenie standardowe od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję standsrd - stddev
od Pyspark.SQL.Funkcje Importuj StdDev
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć standardowe odchylenie od kolumny wysokości, wieku i wagi
df.Wybierz (stddev („wysokość”), stddev („wiek”), stddev („waga”))).zbierać()

Wyjście:

[Wiersz (stddev_samp (wysokość) = 1.3030732903409539, stddev_samp (wiek) = 12.157302332343306, stddev_samp (waga) = 20.211382931407737)]

Odchylenie standardowe od kolumn wysokości, wieku i wagi jest zwracane w powyższym przykładzie.

Metoda - 2: Za pomocą metody AGG ()

Możemy uzyskać odchylenie standardowe od kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., Stddev. Korzystając z metody stdDev (), możemy uzyskać odchylenie standardowe od kolumny, a na koniec możemy użyć metody kolekcji (), aby uzyskać odchylenie standardowe z kolumny.

Składnia:

df.agg ('kolumn_name': stddev)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać odchylenie standardowe
  3. STDDEV to funkcja agregacji używana do zwrócenia odchylenia standardowego

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn, musimy określić nazwę kolumny z funkcją STDDEV oddzieloną przecinkiem.

Składnia:

df.AGG ('kolumn_name': stddev, 'kolumn_name': stddev,…, 'kolumn_name': stddev)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, aby uzyskać odchylenie standardowe
  3. STDDEV to funkcja agregacji używana do zwrócenia odchylenia standardowego

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma odchylenie standardowe od kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.AGG („Height”: 'stddev').zbierać()

Wyjście:

[Row (stddev (wysokość) = 1.3030732903409539)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma odchylenie standardowe od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości i wagi
df.AGG („Height”: „stddev”, „wiek”: „stddev”, „waga”: „stddev”).zbierać()

Wyjście:

[Row (STDDEV (waga) = 20.211382931407737, stddev (wiek) = 12.157302332343306, stddev (wysokość) = 1.3030732903409539)]

Odchylenie standardowe od kolumn wysokości, wieku i wagi jest zwracane w powyższym przykładzie.

PYSPARK - stddev_samp ()

Stddev_samp () w PYSPARK służy do zwrócenia odchylenia standardowego próbki z określonej kolumny w ramce danych. Jest podobny do funkcji stddev ().

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: metodą Select ()

Możemy uzyskać odchylenie standardowe od kolumny w ramce danych za pomocą metody select (). Za pomocą metody stddev_samp () możemy uzyskać odchylenie standardowe od kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody Collect (), aby uzyskać odchylenie standardowe od kolumny

Składnia:

df.Wybierz (stddev_samp ('kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która ma odchylenie standardowe w próbce

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn próbki, musimy użyć metody stddev_samp () w metodzie Select (), określając nazwę kolumny oddzielonej przecinkiem.

Składnia:

df.Wybierz (stddev_samp ('kolumn_name'), stddev_samp ('kolumn_name'),… ., stddev_samp ('kolumn_name'))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która ma odchylenie standardowe dla danej próbki

Przykład 1: Pojedyncza kolumna

W tym przykładzie otrzymamy odchylenie standardowe próbki z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję standsrd - stddev_samp
od Pyspark.SQL.Funkcje Importuj stddev_samp
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.Wybierz (stddev_samp („wysokość”)).zbierać()

Wyjście:

[Wiersz (stddev_samp (wysokość) = 1.3030732903409539)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumny wysokości.

Przykład 2: Wiele kolumn

W tym przykładzie otrzymamy odchylenie standardowe próbki od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję standsrd - stddev_samp
od Pyspark.SQL.Funkcje Importuj stddev_samp
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć standardowe odchylenie od kolumny wysokości, wieku i wagi
df.Wybierz (stddev_samp („wysokość”), stddev_samp („wiek”), stddev_samp („waga”))).zbierać()

Wyjście:

[Wiersz (stddev_samp (wysokość) = 1.3030732903409539, stddev_samp (wiek) = 12.157302332343306, stddev_samp (waga) = 20.211382931407737)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumn wysokości, wieku i wagi.

Metoda - 2: Za pomocą metody AGG ()

Możemy uzyskać odchylenie standardowe próbki z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., stddev_samp. Korzystając z metody stdDev_samp (), możemy uzyskać odchylenie standardowe od kolumny, a na koniec możemy użyć metody kolekcji (), aby uzyskać odchylenie standardowe próbki z kolumny.

Składnia:

df.agg ('kolumn_name': stddev_samp)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która ma odchylenie standardowe próbki
  3. STDDDEV_SAMP to funkcja agregacji używana do zwrócenia standardowego odchylenia próbki

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn, musimy określić nazwę kolumny za pomocą funkcji STDDEV_SAMP oddzielonej przez przecinek.

Składnia:

df.AGG ('kolumn_name': stddev_samp, „kolumn_name”: stddev_samp,…, „kolumna_nazwa”: stddev_samp)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która ma odchylenie standardowe próbki
  3. STDDDEV_SAMP to funkcja agregacji używana do zwrócenia standardowego odchylenia próbki

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma odchylenie standardowe od kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.AGG („Height”: 'stddev_samp').zbierać()

Wyjście:

[Wiersz (stddev_samp (wysokość) = 1.3030732903409539)]

W powyższym przykładzie zwracane jest odchylenie standardowe próbki z kolumny wysokości.

Przykład 2: Wiele kolumn

W tym przykładzie otrzymamy odchylenie standardowe próbki od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości i wagi
df.AGG („Height”: „stddev_samp”, „wiek”: „stddev_samp”, „waga”: „stddev_samp”)).zbierać()

Wyjście:

[Wiersz (stddev_samp (waga) = 20.211382931407737, stddev_samp (wiek) = 12.157302332343306, stddev_samp (wysokość) = 1.3030732903409539)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumn wysokości, wieku i wagi.

PYSPARK - stddev_pop ()

stddev_pop () w PYSPARK służy do zwrotu standardowego odchylenia populacji z określonej kolumny w ramce danych.

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: metodą Select ()

Możemy uzyskać odchylenie standardowe od kolumny w ramce danych za pomocą metody select (). Za pomocą metody stddev_pop () możemy uzyskać odchylenie standardowe populacji z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody Collect (), aby uzyskać odchylenie standardowe od kolumny

Składnia:

df.Wybierz (stddev_pop ('kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która uzyskała odchylenie standardowe populacji

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn dla danej próbki, musimy użyć metody stddev_pop () w metodzie Select (), określając nazwę kolumny oddzieloną przecinkiem.

Składnia:

df.Wybierz (stddev_pop ('kolumn_name'), stddev_pop ('kolumn_name'),… ., stddev_pop ('kolumn_name'))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która uzyskała odchylenie standardowe dla danej populacji

Przykład 1: Pojedyncza kolumna

W tym przykładzie otrzymamy odchylenie standardowe populacji od kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na odchylenie standardowe - funkcja STDDEV_POP
od Pyspark.SQL.Funkcje Importuj stddev_pop
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.Wybierz (stddev_pop („wysokość”)).zbierać()

Wyjście:

[Wiersz (stddev_pop (wysokość) = 1.1655041827466772)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumny wysokości.

Przykład 2: Wiele kolumn

W tym przykładzie otrzymamy odchylenie standardowe populacji od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję standsrd - stddev_pop
od Pyspark.SQL.Funkcje Importuj stddev_pop
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć standardowe odchylenie od kolumny wysokości, wieku i wagi
df.Wybierz (stddev_pop („wysokość”), stddev_pop („wiek”), stddev_pop („waga”))).zbierać()

Wyjście:

[Wiersz (stddev_pop (wysokość) = 1.1655041827466772, stddev_pop (wiek) = 10.87382177525455, stddev_pop (waga) = 18.077610461562667)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumn wysokości, wieku i wagi.

Metoda - 2: Za pomocą metody AGG ()

Możemy uzyskać odchylenie standardowe populacji od kolumny w ramce danych przy użyciu metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi. stddev_pop. Za pomocą metody stddev_pop () możemy uzyskać odchylenie standardowe od kolumny. Wreszcie, możemy użyć metody kolekcji (), aby uzyskać odchylenie standardowe populacji z kolumny.

Składnia:

df.AGG ('kolumn_name': stddev_pop)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która uzyskała odchylenie standardowe populacji
  3. stddev_pop to funkcja agregacji używana do zwrócenia standardowego odchylenia populacji

Jeśli chcemy zwrócić odchylenie standardowe z wielu kolumn, musimy określić nazwę kolumny za pomocą funkcji STDDEV_POP oddzielonej przez przecinek.

Składnia:

df.AGG ('kolumn_name': stddev_pop, 'kolumn_name': stddev_pop,…, 'kolumn_name': stddev_pop)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna_nazwa to kolumna, która uzyskała odchylenie standardowe populacji
  3. stddev_pop to funkcja agregacji używana do zwrócenia standardowego odchylenia populacji

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma odchylenie standardowe od kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości
df.AGG ('Height': 'stddev_pop').zbierać()

Wyjście:

[Wiersz (stddev_pop (wysokość) = 1.1655041827466772)]

W powyższym przykładzie zwracane jest odchylenie standardowe próbki z kolumny wysokości.

Przykład 2: Wiele kolumn

W tym przykładzie otrzymamy odchylenie standardowe próbki od kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć odchylenie standardowe od kolumny wysokości i wagi
df.AGG („Height”: „stddev_pop”, „wiek”: „stddev_pop”, „waga”: „stddev_pop”).zbierać()

Wyjście:

[Wiersz (stddev_pop (waga) = 18.077610461562667, stddev_pop (wiek) = 10.87382177525455, stddev_pop (wysokość) = 1.1655041827466772)]

W powyższym przykładzie zwracane jest odchylenie standardowe od kolumn wysokości, wieku i wagi.

Wniosek

Omówiliśmy, jak uzyskać odchylenie standardowe od Pyspark DataFrame za pomocą stddev (), stddev_samp () I stddev_pop () funkcje przez wybierać() I AGG () metody.