PYSPARK - ROW CLASS

PYSPARK - ROW CLASS
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Klasa wiersza w Pyspark służy do tworzenia wiersza dla Pyspark DataFrame. Możemy utworzyć wiersz za pomocą funkcji row ().

Jest to dostępne w Pyspark.Moduł SQL. Musimy więc zaimportować wiersz z tego modułu.

Składnia:

Wiersz (kolumn_name = „wartość”,… .)

Gdzie,

  1. Kolumna_nazwa to kolumna dla Pyspark DataFrame
  2. Wartość to wartość wiersza dla określonej kolumny

Możemy określić dowolną liczbę kolumn w klasie wierszy.

Jeśli chcemy utworzyć kilka wierszy, musimy określić klasę wiersza wewnątrz listy oddzielonej przez operatora przecinka.

Składnia:

[Wiersz (kolumn_name = „wartość”,… .), Wiersz (kolumn_name = „wartość”,… .)
,…]

Aby utworzyć Pyspark DataFrame z tego wiersza, po prostu przekazujemy listę wierszy do metody CreatleDATAFrame ().

Jeśli chcemy wyświetlić Pyspark DataFrame w formacie wierszy, musimy użyć metody Collect ().

Ta metoda służy do uzyskania danych w wierszu według formatu wiersza

Składnia:

Ramka danych.zbierać()

Gdzie DataFrame jest wejściem PYSPARK DataFrame.

Przykład :

Ten przykład utworzy 5 wierszy za pomocą klasy wiersza z 6 kolumnami i wyświetli ramę danych za pomocą metody kolekcji ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
#Utwórz wiersze
row_data = [row (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()

Wyjście:

[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]

Możemy również najpierw zdefiniować kolumny, a następnie przekazać wartości do wierszy.

Odbywa się to za pomocą nazwy wiersza. Zdefiniujemy kolumny o nazwie wiersza i używając tego, możemy dodać wartości do wiersza

Składnia:

Row_name = wiersz („Kolumna_nazwa .,„Kolumna_nazwa n)
[Row_name (wartość1, wartość2,…, valuen),…, nazwa_plizyjna (wartość1, wartość2,…, valuen)]

Przykład:

W tym przykładzie dodamy 6 kolumn z nazwą wiersza jako uczniów o nazwach jako „Rollno”, „Nazwa”, „Age”, „Height”, „Waga”, „Adres” i dodanie 5 wartości do tego wiersza uczniów.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz wiersz z 6 kolumnami
studenci = wiersz („Rollno”, „Nazwa”, „wiek”, „wysokość”, „waga”, „adres”)
#Utwórz wartości dla wierszy
row_data = [studenci („001”, „sravan”, 23,5.79,67, „Guntur”),
Studenci („002”, „Ojaswi”, 16,3.79,34, „Hyd”),
Studenci („003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
Studenci („004”, „Rohith”, 9,3.69,28, „Hyd”),
Studenci („005”, „Sridevi”, 37,5.59,54, „hyd”)]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()

Wyjście:

[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]

Tworzenie zagnieżdżonego wiersza

Rząd wewnątrz rzędu jest znany jako zagnieżdżony rząd. Możemy utworzyć zagnieżdżony rząd wewnątrz wiersza jest podobny do tworzenia normalnego rzędu

Składnia:

[Wiersz (kolumn_name = wiersz (kolumn_name = 'value',… .),… .),
Wiersz (kolumn_name = wiersz (kolumn_name = 'value',… .),
…]

Przykład:

W tym przykładzie utworzymy ramkę danych podobną do powyżej, ale dodajemy kolumnę o nazwie podmioty do każdego wiersza i dodajemy wartości Java i PHP za pomocą zagnieżdżonego wiersza.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
#Utwórz wiersze
row_data = [row (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, Adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()

Wyjście:

[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, Adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))]

Wniosek:

W tym artykule omówiono klasę wiersza i sposób utworzenia PYSPARK DATAFRAME za pomocą klasy wiersza. W końcu rozmawialiśmy o zagnieżdżonej klasie rzędów.