W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Omówimy różne metody konwersji kolumny z ciągów na liczbę całkowitą w Pyspark DataFrame.
- Metoda 1: Za pomocą słowa kluczowego int withColumn ()
- Metoda 2: Za pomocą IntegerType () z WhoLolumn ()
- Metoda 3: Używanie słowa kluczowego INT z Select ()
- Metoda 4: Używanie słowa kluczowego INT z SelectExpr ()
Przed przejściem do scenariuszy utworzymy PYSPARK DATEFrame. Tutaj utworzymy Pyspark DataFrame z 5 rzędami i 6 kolumnami i wyświetlimy kolumnę z typami danych za pomocą metody printschema ().
Import Pyspark
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Get schemat
df.printschema ()
Wyjście:
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: string (nullable = true)
Metoda 1: Za pomocą słowa kluczowego INT z metodą withColumn ()
W tej metodzie używamy metody withColumn () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast ().
Składnia:
ramka danych.withcoolumn („kolumna”, DF.kolumna.cast („int”))
withColumn () weźmie dwa parametry:
- Kolumna to nazwa kolumny, której typ danych jest konwertowany.
- cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.
Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().
Import Pyspark
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.z kolumnami („waga”, DF.waga.cast („int”)).printschema ()
Wyjście:
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: liczba całkowita (zerowa = true)
Metoda 2: Zastosowanie IntegerType () z metodą Wholemn ()
W tej metodzie używamy metody withColumn () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując IntegerType () Metoda Inside Cast () Funkcja. Musimy zaimportować tę metodę z Pyspark.SQL.Moduł typów.
Składnia:
ramka danych.withcoolumn („kolumna”, DF.kolumna.cast (IntegerType ()))
withColumn () weźmie dwa parametry:
- Kolumna to nazwa kolumny, której typ danych jest konwertowany.
- cast () przekształca ciąg na liczbę całkowitą, przyjmując metodę IntegerType () jako parametr.
Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().
Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Typy importują IntegerType
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.z kolumnami („waga”, DF.waga.cast (IntegerType ())).printschema ()
Wyjście:
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: liczba całkowita (zerowa = true)
Metoda 3: Za pomocą słowa kluczowego INT z metodą Select ()
W tej metodzie używamy metody select () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast (). Możemy wybrać kolumnę za pomocą metody col (). col () jest importowany z Pyspark.SQL.Moduł funkcji.
Składnia:
ramka danych.Wybierz (col („kolumna”), cast ('int'))
Select () weźmie dwa parametry:
- Kolumna to nazwa kolumny, której typ danych jest konwertowany.
- cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.
Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().
Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.Wybierz (col („waga”).cast („int”)).printschema ()
Wyjście:
źródło
|- waga: liczba całkowita (zerowa = true)
Metoda 4: Za pomocą słowa kluczowego INT z metodą SelectExpr ()
W tej metodzie używamy metody SelectExpr () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast (). Zakłada parametr jako wyrażenie
Składnia:
ramka danych.SelectExpr („cast (kolumna jako int)”)
Select () weźmie dwa parametry:
- Kolumna to nazwa kolumny, której typ danych jest konwertowany.
- cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.
Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().
Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.SelectExpr („Cast (waga jako int)”)
Wyjście:
DataFrame [waga: int]
Wniosek
W tym samouczku omówiliśmy cztery metody konwersji ciągów na kolumny typu liczb całkowitych w Pyspark DataFrame. withColumn (), select () i selectExpr () to metody używane do konwersji danych. Zauważyliśmy, że we wszystkich metodach stosuje się parametr CAST ().