Omówimy o Pyspark - znaczącej technologii przetwarzania danych, która może obsługiwać dane na temat skali Petabajtu, PYSPARK, gdy inaczej, i SQL w Pyspark.
Co to jest Pyspark?
Spark to ogólny, w pamięci, rozproszony silnik przetwarzania, który pozwala skutecznie obsługiwać dane na kilku maszynach. Możesz opracować aplikacje Spark w celu przetwarzania danych i uruchomić je na platformie Spark za pomocą PYSPARK. AWS oferuje zarządzany EMR i platforma Spark. Możesz użyć PYSPARK do przetwarzania danych i ustanowienia klastra EMR na AWS. PYSPARK może odczytać dane z różnych formatów plików, w tym CSV, Parquet, JSON i bazy danych. Ponieważ Spark jest wdrażany przede wszystkim w Scala, tworzenie aplikacji Spark w Scala lub Java pozwala uzyskać dostęp do większej liczby jej funkcji niż pisanie programów Spark w Python lub R. Na przykład Pyspark nie obsługuje obecnie zestawu danych. Jeśli robisz naukę o danych, PYSPARK jest lepszą opcją niż Scala, ponieważ istnieje wiele popularnych bibliotek naukowych napisanych w Python, takich jak Numpy, TensorFlow i Scikit-Leearn.
Pyspark „When” i „inaczej”
„W przeciwnym razie” i „Kiedy” w PYSPARK, a także SQL „When” współpracując z DataFrame Pyspark, podobnie jak SQL i innymi językami programowania, mają mechanizm sprawdzania wielu warunków w kolejności i zwracaniu wartości, gdy pierwszy warunek jest spełniony za pomocą SQL, takiej jak sprawa i Kiedy(). W przeciwnym razie() Wyrażenia są podobne do stwierdzeń „przełącznika” i „if-Then-Else” w ich funkcjonalności.
Pyspark, gdy inaczej - Kiedy () jest funkcją SQL, która zwraca typ kolumny, a inaczej () jest funkcją kolumny, która wytwarza brak/null, jeśli inaczej () nie jest używana.
Przypadek SQL w Pyspark, kiedy - Jest to podobne do wyrażenia SQL i jest używane w następujący sposób: Jeśli warunek 1 jest prawdziwy, wynik jest prawdziwy i odwrotnie.
Przykład 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | import org.Apache.iskra.SQL.Funkcje.Kiedy val df = seq ( („A B”, „2019-01-19”), („A”, „2019-01-10”), („B F”, „2019-01-15”), („B E”, „2019-01-30”), („C B”, „2019-01-22”), („D O”, „2019-01-30”), („E U”, „2019-01-22”) df.withColumn („ends_with_b”, kiedy ($ „słowo”.ENDSWITH („B”), prawda).w przeciwnym razie (fałsz)) |
Przykład 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | import org.Apache.iskra.SQL.Funkcje.element_at, podzielony, kiedy val df = seq ( („BA”, „Human”), („AB”, „Human”), („E_bot”, „bot”), („D_BOT”, „Bot”), („TT”, „Human”), („A_BOT”, „Bot”), („C_BOT”, „Bot”) ).TODF („użytkownik”, „typ”) df.withColumn („ISBOT”, kiedy ($ „użytkownik”.ENDSWITH („bot”), element_at (split ($ „użytkownik”, „_”), 1)))))) |
Wniosek
Omówiliśmy o PYSPARK, PYSPARK, kiedy, Pyspark inaczej, oraz przypadek SQL w Pyspark, kiedy są używane do sprawdzenia wielu warunków i zwrócenia pierwszego elementu, który następuje po stanie, wraz z niektórymi przykładami.