Wprowadzenie Pyspark

Wprowadzenie Pyspark
Dane rosną z dnia na dzień. Potrzebujemy ogromnej ilości pamięci do przechowywania i przetwarzania tych danych. Powinno to być wydajne i łatwe w zarządzaniu. Więc technologia Big Data weszła na obraz, zapewniając Spark.

Spark to potężne narzędzie do przetwarzania danych używane do skutecznego i wydajnego przetwarzania danych. Został wprowadzony przez zespół Apache i jest również znany jako Apache Spark.

Możemy powiązać dane w formacie tabelarycznym. Tak więc zastosowana struktura danych to DataFrame. W każdym razie Spark będzie obsługiwał języki programowania Java, Scala i Python. Na razie użyjemy Spark w języku programowania Pythona.

Możemy to nazwać Pyspark. W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania przy użyciu DataFrame.

Instalacja

Ale potrzebujemy tylko zainstalowania PYSPARK w naszym systemie. Aby zainstalować dowolny moduł, musimy użyć polecenia PIP w Python. A składnia jest następująca.

Składnia:

PIP Instaluj PYSPARK

Przed użyciem tego PYSPARK musimy zaimportować ten moduł w naszym orgie, a nasze dane będą wymagały aplikacji Spark. Zaimportujmy ten moduł i utwórz aplikację.

Możemy utworzyć aplikację za pomocą Sparksession, importując tę ​​klasę z Pyspark.Moduł SQL.

To utworzy sesję dla naszej aplikacji.

Teraz utwórz aplikację Spark z tej sesji. Możemy utworzyć aplikację Spark za pomocą metody getorCreate ()

Składnia:

Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()

Czas stworzyć doskonałą strukturę danych znaną jakoFrame, która przechowuje podane dane w formacie wiersz i kolumny.

W PYSPARK możemy utworzyć ramkę danych z aplikacji Spark z metodą CreatedATAframe ()

Składnia:

Spark_App.CreatedATAframe (input_data, kolumny)

Gdzie input_data może być słownikiem lub listą do utworzenia ramki danych z tych danych, a jeśli input_data jest listą słowników, kolumny nie ma potrzeby podanej; Jeśli jest to zagnieżdżona lista, musimy podać nazwy kolumn.

Utwórzmy Pyspark DataFrame

Kod:

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# ramka danych
df.pokazywać()

Wyjście

W powyższym kodzie utworzyliśmy słownik z 5 wierszy i 6 kolumn i przekazaliśmy ten słownik do metody CreatedATAfram () w celu wygenerowania DataFrame. Wreszcie wyświetlamy ramkę danych za pomocą metody show (). Ta metoda wyświetli ramkę danych w formacie tabelarycznym.

Wyświetlmy kolumny w Pyspark DataFrame.

Możemy uzyskać nazwy kolumn w formacie listy za pomocą metody kolumn.

Składnia:

ramka danych.kolumny

Przykład 2:

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Kolumny DataFrame
df.kolumny

Wyjście:

[„Adres”, „wiek”, „wysokość”, „nazwa”, „Rollno”, „waga”]

Wniosek

W tym artykule omówiliśmy, jak tworzyć PYSPARK DATAFRAME Wraz z instalacją i jak możemy uzyskać kolumny w DataFrame. I użyliśmy metody show () do wyświetlania ramki danych w formacie tabelarycznym.