PYSPARK - Wybierz klauzulę

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Wybierz () w PYSPARK służy do wyboru kolumn w DataFrame.

Możemy wybrać kolumny na wiele sposobów.

Omówmy to jeden po drugim. Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: Za pomocą nazw kolumn

Tutaj podamy nazwy kolumn bezpośrednio do metody wyboru (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz („Kolumna_nazwa”,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

Wyjście:

[Wiersz (name = 'sravan', adres = 'guntur'),
Wiersz (name = „Ojaswi”, adres = „hyd”),
Wiersz (name = „gnanesh chowdary”, adres = „patna”),
Wiersz (name = „rohith”, adres = „hyd”),
Wiersz (name = 'sridevi', adres = 'hyd')]

Metoda -2: Używając nazw kolumn z DataFrame

Tutaj podamy nazwy kolumn z dataframe do metody wyboru (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz (DataFrame.Nazwa kolumny,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

Wyjście:

Metoda -3: Za pomocą operatora []

Tutaj podamy nazwy kolumn wewnątrz [] operator z dataframe do metody select (). Ta metoda zwraca dane obecne w tych kolumnach; Możemy podawać wiele kolumn jednocześnie.

Składnia:

Ramka danych.Wybierz (DataFrame.Nazwa kolumny,… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlimy ją za pomocą metody kolekcji ()

Wyjście:

Metoda -4: Korzystanie z funkcji col

Tutaj podamy nazwy kolumn wewnątrz funkcji col, aby wybrać () metodę wyboru (). Ta funkcja jest dostępna w Pyspark.Funkcje SQL, które zwracają dane obecne w tych kolumnach; Możemy podawać wiele kolumn na raz w metodzie Select ().Składnia:

Ramka danych.Wybierz (col („kolumna_nazwa”),… .)

Przykład:

W tym przykładzie wybierzemy nazwę i kolumnę adresu z Pyspark DataFrame i wyświetlacz za pomocą metody kolekcji ()

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display Nazwa i kolumny adresowe
#z funkcją col
df.Wybierz (col („Nazwa”), col („adres”)).zbierać()

Wyjście:

Wniosek

W tym artykule omówiliśmy, jak wybrać dane z DataFrame, i omówiliśmy 4 sposoby wyboru danych za pomocą nazw kolumn za pomocą metody Collect ().

Pyton

Numpy Astype

Metoda „istype ()” modułu Numpy służy do zmiany typu danych tablicy Numpy na inne typy danych, takie...

Albert Szcześniak

Pyton

Pandas read_csv multiprocessing

W celu poprawy prędkości ładowania danych, w tym ich korzyści i ograniczeń „PD.Funkcja read_csv () ”...

Oliwia Makowski

System systemu Windows

Jaka jest różnica między systemem Windows Top 10 a Pro

Wersja „pro” jest przeznaczona dla profesjonalnych użytkowników i ma więcej narzędzi administracyjny...

Igor Skrzypek