Spark to potężne narzędzie do przetwarzania danych używane do skutecznego i wydajnego przetwarzania danych. Został wprowadzony przez zespół Apache i jest również znany jako Apache Spark.
Możemy powiązać dane w formacie tabelarycznym. Tak więc zastosowana struktura danych to DataFrame. W każdym razie Spark będzie obsługiwał języki programowania Java, Scala i Python. Na razie użyjemy Spark w języku programowania Pythona.
Możemy to nazwać Pyspark. W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania przy użyciu DataFrame.
Instalacja
Ale potrzebujemy tylko zainstalowania PYSPARK w naszym systemie. Aby zainstalować dowolny moduł, musimy użyć polecenia PIP w Python. A składnia jest następująca.
Składnia:
PIP Instaluj PYSPARKPrzed użyciem tego PYSPARK musimy zaimportować ten moduł w naszym orgie, a nasze dane będą wymagały aplikacji Spark. Zaimportujmy ten moduł i utwórz aplikację.
Możemy utworzyć aplikację za pomocą Sparksession, importując tę klasę z Pyspark.Moduł SQL.
To utworzy sesję dla naszej aplikacji.
Teraz utwórz aplikację Spark z tej sesji. Możemy utworzyć aplikację Spark za pomocą metody getorCreate ()
Składnia:
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()Czas stworzyć doskonałą strukturę danych znaną jakoFrame, która przechowuje podane dane w formacie wiersz i kolumny.
W PYSPARK możemy utworzyć ramkę danych z aplikacji Spark z metodą CreatedATAframe ()
Składnia:
Spark_App.CreatedATAframe (input_data, kolumny)Gdzie input_data może być słownikiem lub listą do utworzenia ramki danych z tych danych, a jeśli input_data jest listą słowników, kolumny nie ma potrzeby podanej; Jeśli jest to zagnieżdżona lista, musimy podać nazwy kolumn.
Utwórzmy Pyspark DataFrame
Kod:
#Wportu na moduł PYSPAPRKWyjście
W powyższym kodzie utworzyliśmy słownik z 5 wierszy i 6 kolumn i przekazaliśmy ten słownik do metody CreatedATAfram () w celu wygenerowania DataFrame. Wreszcie wyświetlamy ramkę danych za pomocą metody show (). Ta metoda wyświetli ramkę danych w formacie tabelarycznym.
Wyświetlmy kolumny w Pyspark DataFrame.
Możemy uzyskać nazwy kolumn w formacie listy za pomocą metody kolumn.
Składnia:
ramka danych.kolumnyPrzykład 2:
#Wportu na moduł PYSPAPRKWyjście:
[„Adres”, „wiek”, „wysokość”, „nazwa”, „Rollno”, „waga”]Wniosek
W tym artykule omówiliśmy, jak tworzyć PYSPARK DATAFRAME Wraz z instalacją i jak możemy uzyskać kolumny w DataFrame. I użyliśmy metody show () do wyświetlania ramki danych w formacie tabelarycznym.