PYSPARK - DROP, KOLUMNE DROP

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Drop () w PYSPARK służy do usuwania kolumn z DataFrame. Za pomocą Drop () możemy usunąć więcej niż jedną kolumnę na raz w Pyspark DataFrame. Możemy upuścić kolumny z DataFrame na trzy sposoby. Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Teraz wyświetl schemat DataFrame za pomocą metody printschema (), aby sprawdzić kolumny przed usunięciem kolumn.

Ta metoda zwróci nazwy kolumn wraz z ich typem danych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the Schemat
df.printschema ()

Wyjście:

Metoda -1: Upuść pojedynczą kolumnę

Usuniemy tylko jedną kolumnę za pomocą funkcji Drop (), przekazując kolumnę wewnątrz funkcji Drop.

Składnia:

df.upuść („kolumna_nazwa”)

Gdzie,

DF to wejście PYSPARK DATAFRAME
nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumnę nazw i wyświetlimy wynikową ramkę danych i schemat.

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, Rollno = „001”, waga = 67), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, Rollno = „002”, waga = 34), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, Rollno = „003”, waga = 17), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, Rollno = „004”, waga = 28), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, Rollno = „005”, waga = 54)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)

W powyższym przykładzie zobaczymy, że kolumna nazwy nie jest obecna w DataFrame

Metoda - 2: Kolumny upuść mutiple

Usuniemy tylko jedną kolumnę za pomocą funkcji Drop (), przekazując kolumnę wewnątrz funkcji Drop. Jeśli musimy usunąć wiele kolumn, musimy dodać * przed nazwami kolumn, aby zostać usunięte w środku ().

Składnia:

df.upuść (*('kolumn_name', 'kolumn_name',…, 'kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumny nazwy, wysokości i wagi i wyświetlimy wynikową ramkę danych wraz z schematem.

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, Rollno = „001”), wiersz (adres = „hyd”, wiek = 16, Rollno = '002'), wiersz (adres = „patna”, wiek = 7 , Rollno = '003'), wiersz (adres = 'hyd', wiek = 9, Rollno = '004'), wiersz (adres = 'hyd', wiek = 37, Rollno = '005')]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- Rollno: String (nullable = true)

W powyższym przykładzie zobaczymy, że kolumny nazwy, wysokości i wagi nie są obecne w ramce danych.

Metoda - 3: Upuść kolumny mutiple z listy

Składnia:

df.upuść (*lista)

Tutaj lista pomieści wiele kolumn

list = (kolumn_name ', „kolumna_nazwa”,…, „kolumna_nazwa”)

Gdzie,

DF to wejście PYSPARK DATAFRAME
nazwa_polution to kolumna do upuszczenia.

Przykład :

W tym przykładzie upuścimy kolumny nazwy, wysokości i wagi przekazywane przez list1 i wyświetlimy wynikowy ramkę danych wraz z schematem.

Wyjście:

W powyższym przykładzie zobaczymy, że kolumny nazwy, wysokości i wagi nie są obecne w ramce danych.

Wniosek:

Omówiliśmy, jak upuścić kolumny za pomocą funkcji Drop (), a także omówiliśmy, jak usunąć wiele kolumn na raz z upuszczaniem, przekazując listę kolumn i przekazując wiele kolumn.

Windows

Poproś o zgodę administratorów

Jak zażądać od administratora zgody na usunięcie folderu lub pliku, jeśli system Windows zgłasza, że...

Pan Ludwik Żak

Windows

Jak pobrać ISO Windows 8.1 (oryginalny obraz)

Oficjalne sposoby Pobierz ISO Windows 8.1 64-bitowy i 32-bitowy z witryny Microsoft. Bezpłatne ładow...

Pan Sara Łapiński

Windows

Windows 10 News

Nowe informacje o aktualizacji systemu Windows 10, różnice w wydaniach systemu operacyjnym, procedur...

Klara Kopeć