Przypadek Pyspark SQL, kiedy

Przypadek Pyspark SQL, kiedy

Omówimy o Pyspark - znaczącej technologii przetwarzania danych, która może obsługiwać dane na temat skali Petabajtu, PYSPARK, gdy inaczej, i SQL w Pyspark.

Co to jest Pyspark?

Spark to ogólny, w pamięci, rozproszony silnik przetwarzania, który pozwala skutecznie obsługiwać dane na kilku maszynach. Możesz opracować aplikacje Spark w celu przetwarzania danych i uruchomić je na platformie Spark za pomocą PYSPARK. AWS oferuje zarządzany EMR i platforma Spark. Możesz użyć PYSPARK do przetwarzania danych i ustanowienia klastra EMR na AWS. PYSPARK może odczytać dane z różnych formatów plików, w tym CSV, Parquet, JSON i bazy danych. Ponieważ Spark jest wdrażany przede wszystkim w Scala, tworzenie aplikacji Spark w Scala lub Java pozwala uzyskać dostęp do większej liczby jej funkcji niż pisanie programów Spark w Python lub R. Na przykład Pyspark nie obsługuje obecnie zestawu danych. Jeśli robisz naukę o danych, PYSPARK jest lepszą opcją niż Scala, ponieważ istnieje wiele popularnych bibliotek naukowych napisanych w Python, takich jak Numpy, TensorFlow i Scikit-Leearn.

Pyspark „When” i „inaczej”

„W przeciwnym razie” i „Kiedy” w PYSPARK, a także SQL „When” współpracując z DataFrame Pyspark, podobnie jak SQL i innymi językami programowania, mają mechanizm sprawdzania wielu warunków w kolejności i zwracaniu wartości, gdy pierwszy warunek jest spełniony za pomocą SQL, takiej jak sprawa i Kiedy(). W przeciwnym razie() Wyrażenia są podobne do stwierdzeń „przełącznika” i „if-Then-Else” w ich funkcjonalności.

Pyspark, gdy inaczej - Kiedy () jest funkcją SQL, która zwraca typ kolumny, a inaczej () jest funkcją kolumny, która wytwarza brak/null, jeśli inaczej () nie jest używana.

Przypadek SQL w Pyspark, kiedy - Jest to podobne do wyrażenia SQL i jest używane w następujący sposób: Jeśli warunek 1 jest prawdziwy, wynik jest prawdziwy i odwrotnie.

Przykład 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import org.Apache.iskra.SQL.Funkcje.Kiedy
val df = seq (
(„A B”, „2019-01-19”),
(„A”, „2019-01-10”),
(„B F”, „2019-01-15”),
(„B E”, „2019-01-30”),
(„C B”, „2019-01-22”),
(„D O”, „2019-01-30”),
(„E U”, „2019-01-22”)
df.withColumn („ends_with_b”, kiedy ($ „słowo”.ENDSWITH („B”), prawda).w przeciwnym razie (fałsz))

Przykład 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import org.Apache.iskra.SQL.Funkcje.element_at, podzielony, kiedy
val df = seq (
(„BA”, „Human”),
(„AB”, „Human”),
(„E_bot”, „bot”),
(„D_BOT”, „Bot”),
(„TT”, „Human”),
(„A_BOT”, „Bot”),
(„C_BOT”, „Bot”)
).TODF („użytkownik”, „typ”)
df.withColumn („ISBOT”, kiedy ($ „użytkownik”.ENDSWITH („bot”), element_at (split ($ „użytkownik”, „_”), 1))))))

Wniosek

Omówiliśmy o PYSPARK, PYSPARK, kiedy, Pyspark inaczej, oraz przypadek SQL w Pyspark, kiedy są używane do sprawdzenia wielu warunków i zwrócenia pierwszego elementu, który następuje po stanie, wraz z niektórymi przykładami.