PYSPARK - DROP, KOLUMNE DROP

PYSPARK - DROP, KOLUMNE DROP
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Drop () w PYSPARK służy do usuwania kolumn z DataFrame. Za pomocą Drop () możemy usunąć więcej niż jedną kolumnę na raz w Pyspark DataFrame. Możemy upuścić kolumny z DataFrame na trzy sposoby. Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Teraz wyświetl schemat DataFrame za pomocą metody printschema (), aby sprawdzić kolumny przed usunięciem kolumn.

Ta metoda zwróci nazwy kolumn wraz z ich typem danych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the Schemat
df.printschema ()

Wyjście:

źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)

Metoda -1: Upuść pojedynczą kolumnę

Usuniemy tylko jedną kolumnę za pomocą funkcji Drop (), przekazując kolumnę wewnątrz funkcji Drop.

Składnia:

df.upuść („kolumna_nazwa”)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumnę nazw i wyświetlimy wynikową ramkę danych i schemat.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop Nazwa kolumna
df = df.Drop („Nazwa”)
#Sprawdź ramkę danych
Wydrukuj (DF.zbierać())
#Display the Schemat
#po usunięciu kolumny nazwy
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, Rollno = „001”, waga = 67), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, Rollno = „002”, waga = 34), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, Rollno = „003”, waga = 17), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, Rollno = „004”, waga = 28), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, Rollno = „005”, waga = 54)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)

W powyższym przykładzie zobaczymy, że kolumna nazwy nie jest obecna w DataFrame

Metoda - 2: Kolumny upuść mutiple

Usuniemy tylko jedną kolumnę za pomocą funkcji Drop (), przekazując kolumnę wewnątrz funkcji Drop. Jeśli musimy usunąć wiele kolumn, musimy dodać * przed nazwami kolumn, aby zostać usunięte w środku ().

Składnia:

df.upuść (*('kolumn_name', 'kolumn_name',…, 'kolumn_name')))

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumny nazwy, wysokości i wagi i wyświetlimy wynikową ramkę danych wraz z schematem.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Drop Nazwa, kolumna wysokości i wagi
df = df.Drop (*(„Nazwa”, „wysokość”, „waga”))
#Sprawdź ramkę danych
Wydrukuj (DF.zbierać())
#Display the Schemat
#po usunięciu kolumny nazwy
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, Rollno = „001”), wiersz (adres = „hyd”, wiek = 16, Rollno = '002'), wiersz (adres = „patna”, wiek = 7 , Rollno = '003'), wiersz (adres = 'hyd', wiek = 9, Rollno = '004'), wiersz (adres = 'hyd', wiek = 37, Rollno = '005')]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- Rollno: String (nullable = true)

W powyższym przykładzie zobaczymy, że kolumny nazwy, wysokości i wagi nie są obecne w ramce danych.

Metoda - 3: Upuść kolumny mutiple z listy

Usuniemy tylko jedną kolumnę za pomocą funkcji Drop (), przekazując kolumnę wewnątrz funkcji Drop. Jeśli musimy usunąć wiele kolumn, musimy dodać * przed nazwami kolumn, aby zostać usunięte w liście - [].

Składnia:

df.upuść (*lista)

Tutaj lista pomieści wiele kolumn

list = (kolumn_name ', „kolumna_nazwa”,…, „kolumna_nazwa”)

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumny nazwy, wysokości i wagi przekazywane przez list1 i wyświetlimy wynikowy ramkę danych wraz z schematem.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#lista kolumn
LIST1 = [„Nazwa”, „wysokość”, „waga”]
#Drop kolumny z listy 1
df = df.Drop (*List1)
#Sprawdź ramkę danych
Wydrukuj (DF.zbierać())
#Display the Schemat
#po usunięciu kolumny nazwy
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, Rollno = „001”), wiersz (adres = „hyd”, wiek = 16, Rollno = '002'), wiersz (adres = „patna”, wiek = 7 , Rollno = '003'), wiersz (adres = 'hyd', wiek = 9, Rollno = '004'), wiersz (adres = 'hyd', wiek = 37, Rollno = '005')]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- Rollno: String (nullable = true)

W powyższym przykładzie zobaczymy, że kolumny nazwy, wysokości i wagi nie są obecne w ramce danych.

Wniosek:

Omówiliśmy, jak upuścić kolumny za pomocą funkcji Drop (), a także omówiliśmy, jak usunąć wiele kolumn na raz z upuszczaniem, przekazując listę kolumn i przekazując wiele kolumn.