W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. W tym artykule omówimy kilka sposobów tworzenia PYSPARK DATAFRAME.
Metoda 1: Korzystanie z słownika
Dictionary to aspekt danych, która będzie przechowywać dane w kluczowym formacie pary wartości.
Klucz działa jako kolumna i wartość działają jako wartość wiersza/dane w Pyspark DataFrame. To musi zostać przekazane na liście.
Struktura:
['kluczowa wartość]
Możemy również zapewnić wiele słowników.
Struktura:
[„key”: wartość, „key”: wartość,… .,'kluczowa wartość]
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
Metoda 2: Korzystanie z listy krotek
Tuple to struktura danych, która będzie przechowywać dane w ().
Możemy przekazać rzędy oddzielone przecinkiem w krotce otoczonej listą.
Struktura:
[(wartość 1, wartość2,.,valuen)]
Możemy również podać wiele krotek na liście.
Struktura:
[(wartość 1, wartość2,.,valuen), (wartość 1, wartość2,.,valuen),…, (wartość 1, wartość2,.,valuen)]
Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.
Składnia:
kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatleDATAFrame (List_of_Tuple, kolumn_names)
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [(„001”, „Sravan”, 23,5.79,67, „Guntur”),
(„002”, „Ojaswi”, 16,3.79,34, „Hyd”),
(„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
(„004”, „Rohith”, 9,3.69,28, „Hyd”),
(„005”, „Sridevi”, 37,5.59,54, „hyd”)]
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()
Wyjście:
Metoda 3: Korzystanie z krotek z list
Lista to struktura danych, która będzie przechowywać dane w [].
Możemy przekazać rzędy oddzielone przecinkiem na liście otoczonej krotką.
Struktura:
([wartość1, wartość2,.,valuen])
Możemy również podać wiele list w krotce.
Struktura:
([wartość1, wartość2,.,valuen], [wartość1, wartość2,.,valuen],…, [wartość1, wartość2,.,valuen])
Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.
Składnia:
kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (Tuple_of_List, kolumn_names)
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = ([„001”, „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”])
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()
Wyjście:
Metoda 4: Korzystanie z listy zagnieżdżonych
Lista to lista danych, która będzie przechowywać dane w [].
Możemy więc przekazać rzędy oddzielone przecinkiem na liście otoczonej listą.
Struktura:
[[Wartość 1, wartość2,.,valuen]]
Możemy również podać wiele list na liście.
Struktura:
[[Wartość 1, wartość2,.,valuen], [wartość1, wartość2,.,valuen],…, [wartość1, wartość2,.,valuen]]
Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.
Składnia:
kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (NESTEST_LIST, COUNTY_NAMES)
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = [['001', „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”]]
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()
Wyjście:
Metoda 5: Za pomocą zagnieżdżonego krotki
Struktura:
((wartość 1, wartość2,.,valuen))
Możemy również dostarczyć wiele krotek w krotce.
Struktura:
((wartość 1, wartość2,.,valuen), (wartość 1, wartość2,.,valuen),…, (wartość 1, wartość2,.,valuen))
Musimy podać nazwy kolumn za pośrednictwem listy podczas tworzenia ramki danych.
Składnia:
kolumn_names = ['kolumn1', „kolumna2 ',… .'kolumna']
Spark_App.CreatedATAframe (NESTEST_TUPLE, COUNTION_NAMES)
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami za pośrednictwem słownika. Wreszcie wyświetlamy Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = ((„001”, „sravan”, 23,5.79,67, „Guntur”),
(„002”, „Ojaswi”, 16,3.79,34, „Hyd”),
(„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
(„004”, „Rohith”, 9,3.69,28, „Hyd”),
(„005”, „Sridevi”, 37,5.59,54, „hyd”))
#Passign nazwy kolumn
kolumn_names = [„Rollno”, „name”, „wiek”, „wysokość”, „waga”, „adres”]
# Utwórz ramkę danych
df = Spark_App.CreatedATAframe (uczniowie, kolumn_names)
#Display the DataFrame
df.pokazywać()
Wyjście:
Wniosek
W tym samouczku omówiliśmy pięć metod utworzenia PYSPARK DataFrame: Lista krotek, krotki list, zagnieżdżone, użyte. Nie ma potrzeby podawania listy nazw kolumn podczas tworzenia PYSPARK DATAFrame za pomocą słownika.