Przypadek Pyspark SQL, kiedy

Omówimy o Pyspark - znaczącej technologii przetwarzania danych, która może obsługiwać dane na temat skali Petabajtu, PYSPARK, gdy inaczej, i SQL w Pyspark.

Co to jest Pyspark?

Spark to ogólny, w pamięci, rozproszony silnik przetwarzania, który pozwala skutecznie obsługiwać dane na kilku maszynach. Możesz opracować aplikacje Spark w celu przetwarzania danych i uruchomić je na platformie Spark za pomocą PYSPARK. AWS oferuje zarządzany EMR i platforma Spark. Możesz użyć PYSPARK do przetwarzania danych i ustanowienia klastra EMR na AWS. PYSPARK może odczytać dane z różnych formatów plików, w tym CSV, Parquet, JSON i bazy danych. Ponieważ Spark jest wdrażany przede wszystkim w Scala, tworzenie aplikacji Spark w Scala lub Java pozwala uzyskać dostęp do większej liczby jej funkcji niż pisanie programów Spark w Python lub R. Na przykład Pyspark nie obsługuje obecnie zestawu danych. Jeśli robisz naukę o danych, PYSPARK jest lepszą opcją niż Scala, ponieważ istnieje wiele popularnych bibliotek naukowych napisanych w Python, takich jak Numpy, TensorFlow i Scikit-Leearn.

Pyspark „When” i „inaczej”

„W przeciwnym razie” i „Kiedy” w PYSPARK, a także SQL „When” współpracując z DataFrame Pyspark, podobnie jak SQL i innymi językami programowania, mają mechanizm sprawdzania wielu warunków w kolejności i zwracaniu wartości, gdy pierwszy warunek jest spełniony za pomocą SQL, takiej jak sprawa i Kiedy(). W przeciwnym razie() Wyrażenia są podobne do stwierdzeń „przełącznika” i „if-Then-Else” w ich funkcjonalności.

Pyspark, gdy inaczej - Kiedy () jest funkcją SQL, która zwraca typ kolumny, a inaczej () jest funkcją kolumny, która wytwarza brak/null, jeśli inaczej () nie jest używana.

Przypadek SQL w Pyspark, kiedy - Jest to podobne do wyrażenia SQL i jest używane w następujący sposób: Jeśli warunek 1 jest prawdziwy, wynik jest prawdziwy i odwrotnie.

Przykład 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

import org.Apache.iskra.SQL.Funkcje.Kiedy
val df = seq (
(„A B”, „2019-01-19”),
(„A”, „2019-01-10”),
(„B F”, „2019-01-15”),
(„B E”, „2019-01-30”),
(„C B”, „2019-01-22”),
(„D O”, „2019-01-30”),
(„E U”, „2019-01-22”)
df.withColumn („ends_with_b”, kiedy ($ „słowo”.ENDSWITH („B”), prawda).w przeciwnym razie (fałsz))

Przykład 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

import org.Apache.iskra.SQL.Funkcje.element_at, podzielony, kiedy
val df = seq (
(„BA”, „Human”),
(„AB”, „Human”),
(„E_bot”, „bot”),
(„D_BOT”, „Bot”),
(„TT”, „Human”),
(„A_BOT”, „Bot”),
(„C_BOT”, „Bot”)
).TODF („użytkownik”, „typ”)
df.withColumn („ISBOT”, kiedy ($ „użytkownik”.ENDSWITH („bot”), element_at (split ($ „użytkownik”, „_”), 1))))))

Wniosek

Omówiliśmy o PYSPARK, PYSPARK, kiedy, Pyspark inaczej, oraz przypadek SQL w Pyspark, kiedy są używane do sprawdzenia wielu warunków i zwrócenia pierwszego elementu, który następuje po stanie, wraz z niektórymi przykładami.

Doker

Jaki jest cel kompozycji dokera.plik YML w Docker?

Główny cel „kompozycji dokera.plik YML ”ma uprościć proces wdrażania i zarządzania aplikacjami Docke...

Bertram Jóźwiak

Pyton

MATPLOTLIB 2D Histogram

W Python „plt.Hist2d () ”funkcja modułu„ Pyplot ”w bibliotece„ Matplotlib ”służy do wykreślania hist...

Maja Kucharski

Pyton

Konwertuj ciąg na Json Python

Funkcje modułu JSON, funkcja modułu „AST” lub funkcja „eval ()” służy do konwersji ciągu na JSON w P...

Pani Żaneta Pakuła