W tej sesji dowiemy się o bibliotece PYSPARK. Jest to ogólny, w pamięci, rozproszony silnik przetwarzania, który pozwala skutecznie zarządzać danymi na kilku stacjach roboczych. Dowiemy się również o metodzie PYSPARK FILLNA (), która służy do wypełnienia wartości zerowych w ramce danych wartością niestandardową, wraz z jej przykładami.
Co to jest Pyspark?
Pyspark jest jednym z obsługiwanych języków Spark. Spark to duża technologia przetwarzania danych, która może obsługiwać dane w skali petabyte. PYSPARK to Spark Apache i współpraca Python. Python to nowoczesny język programowania wysokiego poziomu, podczas gdy Apache Spark jest otwartym źródłem, który koncentruje się na obliczeniowych zadaniach klastrów i głównie celuje w szybkość, łatwość użytkowania i analizy przesyłania strumieniowego. Ponieważ Spark jest w większości wbudowane w Scala, tworzenie aplikacji Spark w Scala lub Java pozwala uzyskać dostęp do większej liczby jej możliwości niż pisanie programów Spark w Python lub R. Na przykład Pyspark nie obsługuje obecnie zestawu danych. Możesz opracować aplikacje Spark do przetwarzania danych i uruchomić je na platformie Spark za pomocą PYSPARK. AWS oferuje zarządzaną EMR i platformę Spark.
Jeśli robisz naukę o danych, PYSPARK jest lepszą opcją niż Scala, ponieważ istnieje wiele popularnych bibliotek naukowych napisanych w Python, takich jak Numpy, TensorFlow i Scikit-Leearn. Możesz użyć PYSPARK do przetwarzania danych i ustanowienia klastra EMR na AWS. Pyspark może odczytać dane z różnych formatów plików, w tym CSV, Parquet, JSON, a także baz danych. W przypadku mniejszych zestawów danych wykorzystywane są pandy, podczas gdy w przypadku większych zestawów danych PYSPARK jest stosowany. W porównaniu z PYSPARK, pandy daje szybsze wyniki. W zależności od dostępności pamięci i wielkości danych możesz przełączać się między PYSPARK i Pandy, aby poprawić wydajność. Zawsze używaj pandy nad PYSPARK, gdy dane do przetwarzania wystarczą do pamięci. Spark szybko stał się preferowaną technologią w branży do przetwarzania danych. To jednak nie jest pierwszy. Przed Spark silnik przetwarzania był MAPREDUCE.
Co to jest Pyspark Fillna ()?
PYSPARK FILLNA () to metoda PYSPARK stosowana do zastąpienia wartości zerowych w pojedynczej lub wielu kolumnach w modelu ramki danych PYSPARK. W zależności od wymagań biznesowych wartość ta może być wszystkim. Może to być 0 lub pusty sznurek i dowolny stały literał. Ta metoda Fillna () jest przydatna do analizy danych, ponieważ eliminuje wartości zerowe, które mogą powodować trudności z analizą danych.
Przykład używania Fillna ()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | od Pyspark.SQL Import Sparksession Spark_session = Sparksession.Builder \ .Master („lokalny [1]”) \ .AppName („przykład”) \ .getorCreate () df = Spark_Session.CreatedataFrame ( [[[ (1, „Kanada”, „Toronto”, brak), (2, „Japan”, „Tokyo”, 8000000), (3, „Indie”, „Amritsar”, None), (4, „Turcja”, „Ankara”, 550000), ], [„id”, „kraj”, „miasto”, „populacja”] ) df.pokazywać() |
Wyjście:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | +---+---------+--------------+-----------+ |. Id | kraj | miasto | populacja | +---+---------+--------------+-----------+ |. 1 | Kanada | Toronto | NULL | |. 2 | Japonia | Tokio | 8000000 | |. 3 | Indie | Amritsar | NULL | |. 4 | Turcja | Ankara | 550000 | +---+---------+--------------+-----------+ |
Możemy teraz użyć jedynie argumentu wartości, aby zastąpić wszystkie wartości zerowe w ramce danych:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | df.na.Wypełnij (wartość = 0).pokazywać() df.na.wypełnienie (wartość = 0, podzbiór = [„populacja”]).pokazywać() df.Fillna (wartość = 0).pokazywać() +---+---------+--------------+-----------+ |. Id | kraj | miasto | populacja | +---+---------+--------------+-----------+ |. 1 | Kanada | Toronto | 0 | |. 2 | Japonia | Tokio | 8000000 | |. 3 | Indie | Amritsar | 0 | |. 4 | Turcja | Ankara | 550000 | +---+---------+--------------+-----------+ |
Powyższa operacja zastąpi wszystkie wartości zerowe w kolumnach liczb całkowitych 0.
Wniosek
Omówiliśmy metodę PYSPARK, PYSPARK FILLNA () i jej przykłady w tej sesji. Metoda Fillna () zastępuje wszystkie wartości zerowe w ramce danych naszymi wartościami niestandardowymi.