PYSPARK - Printschema

PYSPARK - Printschema
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Metoda printschema () służy do wyświetlania schematu Pyspark DataFrame.

Zwróci strukturę przypominającą drzewo i uzyska nazwę kolumny wraz z dateType

Składnia:

Ramka danych.printschema ()

Zanim to zobaczymy, musimy utworzyć ramkę danych ze schematem. PYSPARK zapewnia metody struktury () i structfield (), które są używane do zdefiniowania kolumn w Pyspark DataFrame.

Za pomocą tych metod możemy zdefiniować nazwy kolumn i typy danych poszczególnych kolumn.

Omówmy jeden po drugim

StructType ()

Ta metoda służy do zdefiniowania struktury Pyspark DataFrame. Zaakceptuje listę typów danych wraz z nazwami kolumn dla danej ramki danych. Jest to znane jako schemat ramki danych. Przechowuje zbiór pól

Structfield ()

Ta metoda jest stosowana w metodzie structType () Pyspark DataFrame. Zaakceptuje nazwy kolumn za pomocą danych danych.

Składnia:

schemat = structType ([
Structfield („kolumna 1”, danych, true/false),
Structfield („kolumna 2”, danych, true/false),
… ,
Structfield („kolumna n”, danych, true/false)]))

Gdzie schemat odnosi się do ramki danych po utworzeniu

Parametry:

1. StructType akceptuje listę strukturów na liście oddzielonej przecinkiem

2. Structfield () dodaje kolumny do ramki danych, która przyjmuje nazwy kolumn jako pierwszy parametr i danych danych poszczególnych kolumn jako drugi parametr.

Musimy użyć typów danych z metod importowanych z Pyspark.SQL.Moduł typów.

Obsługiwane typy danych to:

  • StringType () - używany do przechowywania wartości ciągów
  • INTEGERTYPE () - używane do przechowywania wartości liczb całkowitych lub długich
  • FloatType () - używane do przechowywania wartości pływakowych
  • DubleType () - używane do przechowywania podwójnych wartości

3. Wartości logiczne jako trzeci parametr; Jeśli to prawda, zostanie użyty dany typ danych; W przeciwnym razie nie, gdy jest to fałszywe.

Musimy przekazać ten schemat do metody DataFrame wraz z danymi.

Składnia:

CreatedATAframe (dane, schema = schemat)

Przykład 1:

W tym przykładzie utworzyliśmy dane na liście zawierającej 5 wierszy i 6 kolumn, i przypisujemy nazwy kolumn jako Rollno z typem danych ciągów, nazwa z typem danych string, wiek z typem liczby całkowitej, wysokość z typem pływakowym , waga z liczbą całkowitą i adresem z typem danych ciągów.

Wreszcie wyświetlimy ramkę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#i importuj typy struktur i typy danych
od Pyspark.SQL.Typy importuj struktury, structfield, stringType, IntegerType, FloatType
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = [['001', „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”]]
#określić strukturę i pola struktury
#dla poniższych nazw kolumn
schemat = structType ([
Structfield („Rollno”, StringType (), true),
Structfield („name”, stringtype (), true),
Structfield („wiek”, IntegerType (), true),
Structfield („wysokość”, floattype (), true),
Structfield („waga”, IntegerType (), true),
Structfield („Adres”, StringType (), true)
])
#Ukreść ramkę danych i dodaj schemat do DataFrame
df = Spark_App.CreatedataFrame (Studenci, schema = schemat)
#Display the DataFrame
df.pokazywać()

Wyjście:

Przykład 2:

Wyświetl schemat w formacie drzewa za pomocą metody printschema ()

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#i importuj typy struktur i typy danych
od Pyspark.SQL.Typy importuj struktury, structfield, stringType, IntegerType, FloatType
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
Studenci = [['001', „Sravan”, 23,5.79,67, „Guntur”],
[„002”, „Ojaswi”, 16,3.79,34, „Hyd”],
[„003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”],
[„004”, „Rohith”, 9,3.69,28, „Hyd”],
[„005”, „Sridevi”, 37,5.59,54, „hyd”]]
#określić strukturę i pola struktury
#dla poniższych nazw kolumn
schemat = structType ([
Structfield („Rollno”, StringType (), true),
Structfield („name”, stringtype (), true),
Structfield („wiek”, IntegerType (), true),
Structfield („wysokość”, floattype (), true),
Structfield („waga”, IntegerType (), true),
Structfield („Adres”, StringType (), true)
])
#Ukreść ramkę danych i dodaj schemat do DataFrame
df = Spark_App.CreatedataFrame (Studenci, schema = schemat)
# Wyświetl schemat w formacie drzewa
df.printschema ()

Wyjście: