W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Klasa wiersza w Pyspark służy do tworzenia wiersza dla Pyspark DataFrame. Możemy utworzyć wiersz za pomocą funkcji row ().
Jest to dostępne w Pyspark.Moduł SQL. Musimy więc zaimportować wiersz z tego modułu.
Składnia:
Wiersz (kolumn_name = „wartość”,… .)
Gdzie,
- Kolumna_nazwa to kolumna dla Pyspark DataFrame
- Wartość to wartość wiersza dla określonej kolumny
Możemy określić dowolną liczbę kolumn w klasie wierszy.
Jeśli chcemy utworzyć kilka wierszy, musimy określić klasę wiersza wewnątrz listy oddzielonej przez operatora przecinka.
Składnia:
[Wiersz (kolumn_name = „wartość”,… .), Wiersz (kolumn_name = „wartość”,… .)
,…]
Aby utworzyć Pyspark DataFrame z tego wiersza, po prostu przekazujemy listę wierszy do metody CreatleDATAFrame ().
Jeśli chcemy wyświetlić Pyspark DataFrame w formacie wierszy, musimy użyć metody Collect ().
Ta metoda służy do uzyskania danych w wierszu według formatu wiersza
Składnia:
Ramka danych.zbierać()
Gdzie DataFrame jest wejściem PYSPARK DataFrame.
Przykład :
Ten przykład utworzy 5 wierszy za pomocą klasy wiersza z 6 kolumnami i wyświetli ramę danych za pomocą metody kolekcji ().
#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
#Utwórz wiersze
row_data = [row (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()
Wyjście:
[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]
Możemy również najpierw zdefiniować kolumny, a następnie przekazać wartości do wierszy.
Odbywa się to za pomocą nazwy wiersza. Zdefiniujemy kolumny o nazwie wiersza i używając tego, możemy dodać wartości do wiersza
Składnia:
Row_name = wiersz („Kolumna_nazwa .,„Kolumna_nazwa n)
[Row_name (wartość1, wartość2,…, valuen),…, nazwa_plizyjna (wartość1, wartość2,…, valuen)]
Przykład:
W tym przykładzie dodamy 6 kolumn z nazwą wiersza jako uczniów o nazwach jako „Rollno”, „Nazwa”, „Age”, „Height”, „Waga”, „Adres” i dodanie 5 wartości do tego wiersza uczniów.
#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz wiersz z 6 kolumnami
studenci = wiersz („Rollno”, „Nazwa”, „wiek”, „wysokość”, „waga”, „adres”)
#Utwórz wartości dla wierszy
row_data = [studenci („001”, „sravan”, 23,5.79,67, „Guntur”),
Studenci („002”, „Ojaswi”, 16,3.79,34, „Hyd”),
Studenci („003”, „Gnanesh Chowdary”, 7,2.79,17, „Patna”),
Studenci („004”, „Rohith”, 9,3.69,28, „Hyd”),
Studenci („005”, „Sridevi”, 37,5.59,54, „hyd”)]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()
Wyjście:
[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, adres = „hyd”),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”)]
Tworzenie zagnieżdżonego wiersza
Rząd wewnątrz rzędu jest znany jako zagnieżdżony rząd. Możemy utworzyć zagnieżdżony rząd wewnątrz wiersza jest podobny do tworzenia normalnego rzędu
Składnia:
[Wiersz (kolumn_name = wiersz (kolumn_name = 'value',… .),… .),
Wiersz (kolumn_name = wiersz (kolumn_name = 'value',… .),
…]
Przykład:
W tym przykładzie utworzymy ramkę danych podobną do powyżej, ale dodajemy kolumnę o nazwie podmioty do każdego wiersza i dodajemy wartości Java i PHP za pomocą zagnieżdżonego wiersza.
#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksessicess do tworzenia sesji i wiersza
od Pyspark.SQL Import Sparksession, wiersz
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
#Utwórz wiersze
row_data = [row (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, Adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))]
#Utworz ramkę danych z row_data
df = Spark_App.CreatedATAframe (row_data)
# Wyświetl ramkę danych
#rządy
df.zbierać()
Wyjście:
[Wiersz (Rollno = '001', name = 'sravan', wiek = 23, wysokość = 5.79, waga = 67, adres = „guntur”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '002', name = 'Ojaswi', wiek = 16, wysokość = 3.79, waga = 34, Adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '003', name = 'Gnanesh Chowdary', wiek = 7, wysokość = 2.79, waga = 17, adres = „patna”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = „004”, name = „Rohith”, wiek = 9, wysokość = 3.69, waga = 28, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))),
Row (Rollno = '005', name = 'sridevi', wiek = 37, wysokość = 5.59, waga = 54, adres = „hyd”, podmioty = wiersz (podmiot1 = „java”, podmiot2 = „php”))]
Wniosek:
W tym artykule omówiono klasę wiersza i sposób utworzenia PYSPARK DATAFRAME za pomocą klasy wiersza. W końcu rozmawialiśmy o zagnieżdżonej klasie rzędów.