PYSPARK - Wybierz klauzulę

PYSPARK - Wybierz klauzulę
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Wybierz () w PYSPARK służy do wyboru kolumn w DataFrame.

Możemy wybrać kolumny na wiele sposobów.

Omówmy to jeden po drugim. Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: Za pomocą nazw kolumn

Tutaj podamy nazwy kolumn bezpośrednio do metody wyboru (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz („Kolumna_nazwa”,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Nazwa i kolumny adresowe
df.Wybierz („Nazwa”, „Adres”).zbierać()

Wyjście:

[Wiersz (name = 'sravan', adres = 'guntur'),
Wiersz (name = „Ojaswi”, adres = „hyd”),
Wiersz (name = „gnanesh chowdary”, adres = „patna”),
Wiersz (name = „rohith”, adres = „hyd”),
Wiersz (name = 'sridevi', adres = 'hyd')]

Metoda -2: Używając nazw kolumn z DataFrame

Tutaj podamy nazwy kolumn z dataframe do metody wyboru (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz (DataFrame.Nazwa kolumny,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Nazwa i kolumny adresowe
df.Wybierz (DF.Nazwa, df.adres).zbierać()

Wyjście:

[Wiersz (name = 'sravan', adres = 'guntur'),
Wiersz (name = „Ojaswi”, adres = „hyd”),
Wiersz (name = „gnanesh chowdary”, adres = „patna”),
Wiersz (name = „rohith”, adres = „hyd”),
Wiersz (name = 'sridevi', adres = 'hyd')]

Metoda -3: Za pomocą operatora []

Tutaj podamy nazwy kolumn wewnątrz [] operator z dataframe do metody select (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz (DataFrame.Nazwa kolumny,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Nazwa i kolumny adresowe
df.Wybierz (df [„name”], df [„adres”]).zbierać()

Wyjście:

[Wiersz (name = 'sravan', adres = 'guntur'),
Wiersz (name = „Ojaswi”, adres = „hyd”),
Wiersz (name = „gnanesh chowdary”, adres = „patna”),
Wiersz (name = „rohith”, adres = „hyd”),
Wiersz (name = 'sridevi', adres = 'hyd')]

Metoda -4: Korzystanie z funkcji col

Tutaj podamy nazwy kolumn wewnątrz funkcji col, aby wybrać () metodę wyboru (). Ta funkcja jest dostępna w Pyspark.Funkcje SQL, które zwracają dane obecne w tych kolumnach; Możemy podawać wiele kolumn na raz w metodzie Select ().Składnia:

Ramka danych.Wybierz (col („kolumna_nazwa”),… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlacz za pomocą metody kolekcji ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Nazwa i kolumny adresowe
#z funkcją col
df.Wybierz (col („Nazwa”), col („adres”)).zbierać()

Wyjście:

[Wiersz (name = 'sravan', adres = 'guntur'),
Wiersz (name = „Ojaswi”, adres = „hyd”),
Wiersz (name = „gnanesh chowdary”, adres = „patna”),
Wiersz (name = „rohith”, adres = „hyd”),
Wiersz (name = 'sridevi', adres = 'hyd')]

Wniosek

W tym artykule omówiliśmy, jak wybrać dane z DataFrame, i omówiliśmy 4 sposoby wyboru danych za pomocą nazw kolumn za pomocą metody Collect ().