PYSPARK CONVER COUNT z ciągów na typ liczby całkowitej

PYSPARK CONVER COUNT z ciągów na typ liczby całkowitej
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Omówimy różne metody konwersji kolumny z ciągów na liczbę całkowitą w Pyspark DataFrame.
  1. Metoda 1: Za pomocą słowa kluczowego int withColumn ()
  2. Metoda 2: Za pomocą IntegerType () z WhoLolumn ()
  3. Metoda 3: Używanie słowa kluczowego INT z Select ()
  4. Metoda 4: Używanie słowa kluczowego INT z SelectExpr ()

Przed przejściem do scenariuszy utworzymy PYSPARK DATEFrame. Tutaj utworzymy Pyspark DataFrame z 5 rzędami i 6 kolumnami i wyświetlimy kolumnę z typami danych za pomocą metody printschema ().

Import Pyspark
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Get schemat
df.printschema ()

Wyjście:

źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: string (nullable = true)

Metoda 1: Za pomocą słowa kluczowego INT z metodą withColumn ()

W tej metodzie używamy metody withColumn () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast ().

Składnia:
ramka danych.withcoolumn („kolumna”, DF.kolumna.cast („int”))

withColumn () weźmie dwa parametry:

  1. Kolumna to nazwa kolumny, której typ danych jest konwertowany.
  2. cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.

Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().

Import Pyspark
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.z kolumnami („waga”, DF.waga.cast („int”)).printschema ()

Wyjście:

źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: liczba całkowita (zerowa = true)

Metoda 2: Zastosowanie IntegerType () z metodą Wholemn ()

W tej metodzie używamy metody withColumn () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując IntegerType () Metoda Inside Cast () Funkcja. Musimy zaimportować tę metodę z Pyspark.SQL.Moduł typów.

Składnia:
ramka danych.withcoolumn („kolumna”, DF.kolumna.cast (IntegerType ()))

withColumn () weźmie dwa parametry:

  1. Kolumna to nazwa kolumny, której typ danych jest konwertowany.
  2. cast () przekształca ciąg na liczbę całkowitą, przyjmując metodę IntegerType () jako parametr.

Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().

Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Typy importują IntegerType
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.z kolumnami („waga”, DF.waga.cast (IntegerType ())).printschema ()

Wyjście:

źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: liczba całkowita (zerowa = true)

Metoda 3: Za pomocą słowa kluczowego INT z metodą Select ()

W tej metodzie używamy metody select () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast (). Możemy wybrać kolumnę za pomocą metody col (). col () jest importowany z Pyspark.SQL.Moduł funkcji.

Składnia:
ramka danych.Wybierz (col („kolumna”), cast ('int'))

Select () weźmie dwa parametry:

  1. Kolumna to nazwa kolumny, której typ danych jest konwertowany.
  2. cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.

Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().

Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.Wybierz (col („waga”).cast („int”)).printschema ()

Wyjście:

źródło
|- waga: liczba całkowita (zerowa = true)

Metoda 4: Za pomocą słowa kluczowego INT z metodą SelectExpr ()

W tej metodzie używamy metody SelectExpr () do zmiany typu danych z ciągu na liczbę całkowitą, przekazując słowo kluczowe Inside Funkcja Cast (). Zakłada parametr jako wyrażenie

Składnia:
ramka danych.SelectExpr („cast (kolumna jako int)”)

Select () weźmie dwa parametry:

  1. Kolumna to nazwa kolumny, której typ danych jest konwertowany.
  2. cast () przekształca ciąg na liczbę całkowitą, biorąc słowo kluczowe INT jako parametr.

Przykład:
W tym przykładzie przekonwertujemy typ danych kolumny wagowej na liczbę całkowitą i wyświetlimy schemat za pomocą metody printschema ().

Import Pyspark
od Pyspark.SQL Import Sparksession
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: „67”, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: „34”, „Adres”: „hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: „17”, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: „28”, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: „54”, „Adres”: „HYD”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Waga Kolumna typu Integer
df.SelectExpr („Cast (waga jako int)”)

Wyjście:

DataFrame [waga: int]

Wniosek

W tym samouczku omówiliśmy cztery metody konwersji ciągów na kolumny typu liczb całkowitych w Pyspark DataFrame. withColumn (), select () i selectExpr () to metody używane do konwersji danych. Zauważyliśmy, że we wszystkich metodach stosuje się parametr CAST ().