Najpierw zobaczymy, jak podzielić na Pyspark Rrame w Pyspark.
Przegroda
Możliwe jest podział wierszy w ramce danych za pomocą funkcji okna. Jest dostępny w Pyspark.SQL.okno moduł. Istnieją dwa kroki, aby podzielić wiersze w Pyspark DataFrame.
Kroki:
Składnia:
parition = okno.paritionby („kolumna”)Możemy zamówić partycjonowane dane z partycjonowaną kolumną lub dowolną inną kolumną.
Utwórzmy ramkę danych.
Przykład:
Tutaj tworzymy Pyspark DataFrame, który ma 5 kolumn - [„tematy_id”, „name”, „wiek”, „technologia1”, „technologia2”] z 10 wierszy.
Import PysparkWyjście:
Funkcja okna PYSPARK Variance ()
Wariancja () w funkcji okna służy do zwrócenia wariancji w każdej partycji. Może być możliwe zwrócenie wariancji po partycjonowaniu ramki danych.
Składnia:
DataFrame_Obj.withColumn („wariancja”, wariancja (col („kolumna”)).Over (partycja))Parametr:
wariancja (col („kolumna”))Tutaj funkcja Variance () bierze nazwę kolumny jako parametr. Zwraca wariancję w tej kolumnie w każdej partycji.
Dodajemy wynik do kolumny o nazwie wariancji za pomocą funkcji withColumn ().
Przykład 1:
Teraz mamy ramkę danych (utworzoną wcześniej). Podzielmy go na podstawie kolumny Technology1 i uzyskaj wariancję w kolumnie Temat_id w każdej partycji.
# Zaimportuj funkcję oknaWyjście:
Wyjaśnienie:
Całkowita liczba partycji wynosi 4.
Partycja 1:
.Net wystąpiła dwa razy w pierwszej partycji. Wariancja kolumny tematycznej to 0.0.
Partict 2:
Hadoop miał miejsce raz w drugim partycji. Tak więc wariancja jest zerowa.
Partycja 3:
Oracle wystąpiła cztery razy w trzeciej partycji.
Wariancja kolumny tematycznej wynosi 401.0.
Partycja 4:
PHP wystąpił trzy razy w czwartej partycji.
Wariancja kolumny tematycznej to 0.0.
Przykład 2:
Teraz mamy ramkę danych (utworzoną wcześniej). Podzielmy go na podstawie kolumny technologii1 i uzyskaj wariancję w kolumnie wiekowej w każdej partycji.
# Zaimportuj funkcję oknaWyjście:
Wyjaśnienie:
Całkowita liczba partycji wynosi 4.
Partycja 1:
.Net wystąpiła dwa razy w pierwszej partycji. Wariancja kolumny wiekowej wynosi 0.0.
Partict 2:
Hadoop miał miejsce raz w drugim partycji. Tak więc wariancja jest zerowa.
Partycja 3:
Oracle wystąpiła cztery razy w trzeciej partycji.
Wariancja kolumny wiekowej wynosi 0.666.
Partycja 4:
PHP wystąpił trzy razy w czwartej partycji.
Wariancja kolumny wiekowej wynosi 1.333.
Funkcja okna PYSPARK stddev ()
StdDev () w funkcji okna służy do zwrócenia odchylenia standardowego w każdej partycji. Możliwe może być zwrócenie odchylenia standardowego po partycjonowaniu ramki danych.
Składnia:
DataFrame_Obj.withColumn („Odchylenie standardowe”, stddev (col („kolumna”)).Over (partycja))Parametr:
stddev (col („kolumna”))Tutaj stddev () bierze nazwę kolumny jako parametr. Zwraca odchylenie standardowe w tej kolumnie w każdej partycji.
Dodajemy wynik do kolumny o nazwie odchylenie standardowe za pomocą funkcji withColumn ().
Przykład 1:
Teraz mamy ramkę danych (utworzoną wcześniej). Podzielmy go na podstawie kolumny technologii.
# Zaimportuj funkcję oknaWyjście:
Wyjaśnienie:
Całkowita liczba partycji wynosi 4.
Partycja 1:
.Net wystąpiła dwa razy w pierwszej partycji. Odchylenie standardowe kolumny tematycznej wynosi 0.0.
Partict 2:
Hadoop miał miejsce raz w drugim partycji. Tak więc odchylenie standardowe jest zerowe.
Partycja 3:
Oracle wystąpiła cztery razy w trzeciej partycji.
Odchylenie standardowe kolumny TETS_ID wynosi 20.024984.
Partycja 4:
PHP wystąpił trzy razy w czwartej partycji.
Odchylenie standardowe kolumny tematycznej wynosi 0.0.
Przykład 2:
Teraz mamy ramkę danych (utworzoną wcześniej). Podzielmy go na podstawie kolumny Technology1 i uzyskaj odchylenie standardowe w kolumnie wiekowej w każdej partycji.
# Zaimportuj funkcję oknaWyjście:
Wyjaśnienie:
Całkowita liczba partycji wynosi 4.
Partycja 1:
.Net wystąpiła dwa razy w pierwszej partycji. Odchylenie standardowe kolumny wiekowej wynosi 0.0.
Partict 2:
Hadoop miał miejsce raz w drugim partycji. Tak więc odchylenie standardowe jest zerowe.
Partycja 3:
Oracle wystąpiła cztery razy w trzeciej partycji.
Odchylenie standardowe kolumny wiekowej wynosi 0.8164.
Partycja 4:
PHP wystąpił trzy razy w czwartej partycji.
Standardowe odchylenie kolumny wiekowej wynosi 1.1547.
Wniosek
W tym samouczku partycjonowania PYSPARK nauczyliśmy się zwrócić wariancję w każdym partycjonowanym oknie za pomocą funkcji Variance () i odchylenia standardowego w każdym partycjonowanym oknie za pomocą funkcji stddev (). Dodaliśmy wynik do istniejącej ramki danych jako nowej kolumny. Upewnij się, że importujesz wariancję i stddev z Pyspark.SQL.Moduł funkcji.