Co to jest Pyspark?
Pyspark jest jednym z obsługiwanych języków Spark. Spark to technologia przetwarzania dużych zbiorów danych, która może obsługiwać dane na skali petabyte. Możesz opracować aplikacje Spark w celu przetwarzania danych i uruchomić je na platformie Spark za pomocą PYSPARK. AWS oferuje zarządzany EMR i platforma Spark. Możesz użyć PYSPARK do przetwarzania danych i ustanowienia klastra EMR na AWS. PYSPARK może odczytać dane z CSV, Parquet, JSON i baz danych.
Ponieważ Spark jest w większości zaimplementowany w Scala, tworzenie aplikacji Spark w Scala lub Java pozwala uzyskać dostęp do większej liczby jej funkcji niż pisanie programów Spark w Python lub R. PYSPARK nie obsługuje obecnie zestawu danych. Dla kogoś, kto prowadzi naukę o danych, PYSPARK jest lepszą opcją niż Scala, ponieważ istnieje wiele popularnych bibliotek naukowych napisanych w Python, takich jak Numpy, Tensorflow i Scikit-Leearn. W przypadku mniejszych zestawów danych wykorzystywane są pandy, podczas gdy w przypadku większych zestawów danych PYSPARK jest stosowany.
W porównaniu z PYSPARK, pandy dają szybsze wyniki. W zależności od ograniczenia pamięci i wielkości danych możesz wybrać pomiędzy Pyspark I Pandy Aby poprawić wydajność. Zawsze używaj pandy nad PYSPARK, gdy przetwarzanie danych jest wystarczające, aby zmieścić się w pamięci.
Odporne rozproszone zestaw danych (RDD) to wyrafinowany mechanizm danych Spark. Dane są odporne, co oznacza, że jeśli system z danymi nie powiedzie się, dane są replikowane gdzie indziej i mogą być przywrócone. Dystrybucja oznacza, że dane są podzielone między maszyny „N”, co pozwala teoretycznie przyspieszyć proces, jednocześnie obsługując ogromne ilości danych. Jednym z konsekwencji obliczeń rozproszonych jest to, że dane muszą być zsynchronizowane z ekstremalną ostrożnością. Spark wymaga programowania funkcjonalnego, co oznacza, że funkcje nie mogą mieć żadnych skutków ubocznych, aby zapobiec wielu z tych obaw. W rezultacie, jeśli chcesz zmienić tabelę, musisz najpierw utworzyć nową tabelę.
Wielu programistów nie zna koncepcji programowania funkcjonalnego. Pyspark nie wykonuje dobrej roboty, aby RDD jest przejrzysty. API podnosi część nieprzyjemności środowiska RDD. Na przykład programowanie funkcjonalne oznacza, że funkcja nie może mieć żadnych skutków ubocznych (co sprawia, że przechowywanie danych jest znacznie trudniejsze). Innym przykładem jest ocena „leniwa”, która pozwala Spark czekać, aż będzie miała kompleksowy obraz tego, co próbujesz osiągnąć przed próbą zoptymalizowania procesów. Spark szybko stał się preferowaną technologią w branży do przetwarzania danych. To jednak nie jest pierwszy. Przed Spark silnik przetwarzania był MAPREDUCE. Spark jest szeroko stosowany w branżach w rozproszonych systemach pamięci masowej, takich jak Hadoop, Mesos i Cloud. Niezwykle ważne jest zrozumienie rozproszonych systemów pamięci i ich działania.
Jaka jest metoda Substring () w Pyspark?
Metoda Substring () w PYSPARK wyodrębnia substring z kolumny DataFrame typu ciągów, określając jego długość i lokalizację.
SQL Funkcja Substring ()
Możemy uzyskać podłoże łańcucha za pomocą podłoże() funkcja Pyspark.SQL.Funkcje moduł, dostarczając indeks i długość łańcucha, którą chcemy pokroić. Oto przykład użycia tej metody:
Substring (STR, POS, Len)Używając Substring () z Select ()
Za pomocą wybierać W Pyspark możemy uzyskać podłoże kolumny.
df.Wybierz („data”, podaj („data”, 1,4).alias („rok”), \Za pomocą Substring () z SelectExpr ()
Przykład używania SelectExpr Metoda uzyskania roku, miesiąca i dnia jako podrzędnej kolumny (daty) jest następująca:
df.SelectExpr („data”, „Substring (data, 1,4) jako rok”, \Używając substr () z typu kolumny
Uzyskaj podłoże za pomocą podłoże() funkcja z Pyspark.SQL.Kolumna Wpisz w Pyspark.
df3 = df.withcoolumn („rok”, col („data”).podaj (1, 4)) \5. Łącząc to
Import PysparkWniosek
Omówiliśmy o Pyspark, systemie przetwarzania dużych zbiorów danych zdolnych do obsługi petabajtów danych oraz metodą pod substring () wraz z kilkoma przykładami.