Różne sposoby tworzenia PYSPARK DATAFRAME

Różne sposoby tworzenia PYSPARK DATAFRAME

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. W tym artykule omówimy kilka sposobów tworzenia PYSPARK DATAFRAME.

Metoda 1: Korzystanie z słownika

Dictionary to aspekt danych, która będzie przechowywać dane w kluczowym formacie pary wartości.

Klucz działa jako kolumna i wartość działają jako wartość wiersza/dane w Pyspark DataFrame. To musi zostać przekazane na liście.

Struktura:

['kluczowa wartość]

Możemy również zapewnić wiele słowników.

Struktura:

[„key”: wartość, „key”: wartość,… .,'kluczowa wartość]

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 2: Korzystanie z listy krotek

Tuple to struktura danych, która będzie przechowywać dane w ().

Możemy przekazać rzędy oddzielone przecinkiem w krotce otoczonej listą.

Struktura:

[(wartość 1, wartość2,.,valuen)]

Możemy również podać wiele krotek na liście.

Struktura:

[(wartość 1, wartość2,.,valuen), (wartość 1, wartość2,.,valuen),…, (wartość 1, wartość2,.,valuen)]

Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.

Składnia:

kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatleDATAFrame (List_of_Tuple, kolumn_names)

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [(„001”, „Sravan”, 23,5.79,67, „Guntur”),
(„002”, „Ojaswi”, 16,3.79,34, „Hyd”),
(„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
(„004”, „Rohith”, 9,3.69,28, „Hyd”),
(„005”, „Sridevi”, 37,5.59,54, „hyd”)]
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 3: Korzystanie z krotek z list

Lista to struktura danych, która będzie przechowywać dane w [].

Możemy przekazać rzędy oddzielone przecinkiem na liście otoczonej krotką.

Struktura:

([wartość1, wartość2,.,valuen])

Możemy również podać wiele list w krotce.

Struktura:

([wartość1, wartość2,.,valuen], [wartość1, wartość2,.,valuen],…, [wartość1, wartość2,.,valuen])

Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.

Składnia:

kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (Tuple_of_List, kolumn_names)

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = ([„001”, „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”])
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 4: Korzystanie z listy zagnieżdżonych

Lista to lista danych, która będzie przechowywać dane w [].

Możemy więc przekazać rzędy oddzielone przecinkiem na liście otoczonej listą.

Struktura:

[[Wartość 1, wartość2,.,valuen]]

Możemy również podać wiele list na liście.

Struktura:

[[Wartość 1, wartość2,.,valuen], [wartość1, wartość2,.,valuen],…, [wartość1, wartość2,.,valuen]]

Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.

Składnia:

kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (NESTEST_LIST, COUNTY_NAMES)

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = [['001', „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”]]
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 5: Za pomocą zagnieżdżonego krotki

Struktura:

((wartość 1, wartość2,.,valuen))

Możemy również dostarczyć wiele krotek w krotce.

Struktura:

((wartość 1, wartość2,.,valuen), (wartość 1, wartość2,.,valuen),…, (wartość 1, wartość2,.,valuen))

Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.

Składnia:

kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (NESTEST_TUPLE, COUNTION_NAMES)

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = ((„001”, „sravan”, 23,5.79,67, „Guntur”),
(„002”, „Ojaswi”, 16,3.79,34, „Hyd”),
(„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
(„004”, „Rohith”, 9,3.69,28, „Hyd”),
(„005”, „Sridevi”, 37,5.59,54, „hyd”))
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy pięć metod utworzenia PYSPARK DataFrame: Lista krotek, krotki list, zagnieżdżone, użyte. Nie ma potrzeby podawania listy nazw kolumn podczas tworzenia PYSPARK DATAFrame za pomocą słownika.