W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Omówimy funkcje daty w Pyspark. Utwórzmy najpierw DataFrame
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 3 kolumnami z datami.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl ramkę danych
df.pokazywać()
Wyjście:
datediff ()
Ta metoda służy do zwrócenia liczby dni między bieżącą datą a daną datą. Aby użyć tej metody, musimy ją zaimportować z SQL.Funkcje. Tak więc po prostu importujemy wszystkie metody z Pyspark.SQL.Funkcje.
Składnia:
datediff (col („kolumn_date1”), col („kolumn_date2”)).alias („Result_Column”)
Gdzie:
- kolumn_date1 to kolumna pierwszej daty
- kolumn_date2 to kolumna drugiej daty odejmowana od kolumn_date1.
- alias służy do określenia etykiety dla kolumny wyników
Możemy wyświetlić wynikowy ramkę danych, przekazując tę metodę w metodzie Select ().
Składnia:
df.Wybierz (datediff (col („kolumn_date1”), col („kolumn_date2”))).alias („Result_Column”)
)
Możemy również odjąć kolumnę daty z bieżącą datą. Możemy uzyskać bieżącą datę za pomocą funkcji current_date ().
Przykład:
W tym przykładzie odejmujemy kolumnę ADMED_DATE od Current_Date () jako różnica daty, wybierając Current_Date () i Admed_Date oraz wyświetlanie danych danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Oblicz różnicę daty od bieżącej daty-2022-02-15 z przyjętym_datelem
df.Wybierz (current_date (), col („admtisted_date”), datediff (current_date (), col („admtiste_date”))))).pseudonim („różnica dat”)).pokazywać()
Wyjście:
Miesiąty_between ()
Ta metoda służy do zwrócenia liczby miesięcy między bieżącą datą a datą. Aby użyć tej metody, musimy ją zaimportować z SQL.Funkcje. Tak więc importujemy wszystkie metody z Pyspark.SQL.Funkcje.
Składnia:
Miesiąty_between (col („kolumn_date1”), col („kolumn_date2”))).alias („Result_Column”)
Gdzie:
- kolumn_date1 to kolumna pierwszej daty
- kolumn_date2 to kolumna drugiej daty odejmowana od kolumn_date1.
- alias służy do określenia etykiety dla kolumny wyników
Możemy wyświetlić wynikowy ramkę danych, przekazując tę metodę w metodzie Select ().
Składnia:
df.Wybierz (miesiąc_between (col („kolumn_date1”), col („kolumn_date2”))).alias („Result_Column”)
)
Możemy również odjąć kolumnę daty z bieżącą datą. Możemy uzyskać bieżącą datę za pomocą funkcji current_date ().
Przykład:
W tym przykładzie otrzymamy miesiące między kolumną Adrited_Date a Current_Date () jako miesiące, wybierając Current_Date () i Admed_Date oraz wyświetlanie formy danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Uzyskaj miesiące między bieżącą datą-2022-02-15 i przyjęciem_date
df.Wybierz (current_date (), col („admtisted_date”), miesiąc_between (current_date (), col („admtisted_date”)))))).alias („miesiące”)).pokazywać()
Wyjście:
add_months ()
Ta metoda służy do dodania miesięcy do danego daty.
Składnia:
ramka danych.Wybierz (add_months (col („kolumna”), numer_of_months).alias („wynik_kolusz”))
Gdzie,
- Kolumna to kolumna daty
- numer_of_months to łączna liczba miesięcy do dodania do daty kolumny.
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie dodamy miesiące do Adrited_Date i wyświetlimy metodę DataFrame za pomocą show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj 12 miesięcy do administrowania_date
df.Wybierz (col („admtisted_date”), add_months (col („admtisted_date”), 12).pseudonim („po 12 miesiącach”)).pokazywać()
# Dodaj 4 miesiące do administrowania_date
df.Wybierz (col („admtiste_date”), add_months (col („admtisted_date”), 4).pseudonim („po 4 miesiącach”)).pokazywać()
# Dodaj 6 miesięcy do administrowania
df.Wybierz (col („admtisted_date”), add_months (col („admtisted_date”), 6).pseudonim („po 6 miesiącach”)).pokazywać()
Wyjście:
date_add ()
Ta metoda służy do dodawania dni do danego daty.
Składnia:
ramka danych.Wybierz (date_add (col („kolumna”), numer_of_days).alias („wynik_kolusz”))
Gdzie:
- Kolumna to kolumna daty
- numer_of_days to łączna liczba dni do dodania do daty kolumny.
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie dodamy dni do Adrited_Date i wyświetlimy metodę danych za pomocą show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj 12 dni do administrowania_date
df.Wybierz (col („admtisted_date”), date_add (col („admtisted_date”), 12).pseudonim („po 12 dniach”)).pokazywać()
# Dodaj 4 dni do administrowania_date
df.Wybierz (col („admtisted_date”), date_add (col („admtite_date”), 4).pseudonim („po 4 dniach”)).pokazywać()
# Dodaj 6 dni do administrowania_date
df.Wybierz (col („admtisted_date”), date_add (col („admtisted_date”), 6).alias („po 6 dniach”)).pokazywać()
Wyjście:
date_sub ()
Ta metoda służy do odejmowania dni do danego daty.
Składnia:
ramka danych.Wybierz (date_sub (col („kolumna”), numer_of_days).alias („wynik_kolusz”))
Gdzie:
- Kolumna to kolumna daty
- Number_of_Days to łączna liczba dni, które należy odejmować od daty kolumny.
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie odejmujemy dni od administrowanego_date i wyświetlimy ramkę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Odejmij 12 dni od administrowanego data
df.Wybierz (col („admtisted_date”), date_sub (col („admtite_date”), 12).pseudonim („przed 12 dni”)).pokazywać()
# Odejmij 4 dni od administrowanego data
df.Wybierz (col („admtisted_date”), date_sub (col („admtite_date”), 4).alias („przed 4 dni”)).pokazywać()
# Odejmij 6 dni od administrowanego datanu
df.Wybierz (col („admtisted_date”), date_sub (col („admtite_date”), 6).pseudonim („przed 6 dni”)).pokazywać()
Wyjście:
rok()
rok () jest używany do zwrotu roku z danego terminu.
Składnia:
ramka danych.Wybierz (rok (col („kolumna”)).alias („wynik_kolusz”))
Gdzie:
- Kolumna to kolumna daty
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie wyodrębnimy rok z kolumny admined_date i wyświetlimy kolumnę rok za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wybierz rok z kolumny admtisted_date
df.Wybierz (rok (col („admtisted_date”)).alias („rok”)).pokazywać()
Wyjście:
miesiąc()
miesiąc () służy do zwrotu miesiąca z danego terminu.
Składnia:
ramka danych.Wybierz (miesiąc (col („kolumna”)).alias („wynik_kolusz”))
Gdzie:
- Kolumna to kolumna daty
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie wyodrębnimy miesiąc z administrowanej kolumny i wyświetlimy kolumnę miesiąca za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wybierz miesiąc z kolumny admtisted_date
df.Wybierz (miesiąc (col („admtisted_date”)).alias („miesiąc”)).pokazywać()
Wyjście:
Dayofonth (), Dayofweek (), Dayofyear ()
Dayofonth () służy do zwrotu dnia miesiąca z danego terminu.
DayOfWeek () służy do powrotu dnia tygodnia od danego terminu.
DayOfyear () jest używany do powrotu dnia roku z danego terminu.
Składnia:
ramka danych.Wybierz (Dayofonth (col („kolumna”)).alias („wynik_kolusz”))
ramka danych.Wybierz (DayOfWeek (col („kolumna”)).alias („wynik_kolusz”))
ramka danych.Wybierz (DayOfyear (col („kolumna”)).alias („wynik_kolusz”))
Gdzie:
- Kolumna to kolumna daty
- alias służy do określenia etykiety dla kolumny wyników.
Przykład:
W tym przykładzie wyodrębnimy dzień tygodnia, miesiąca i roku z metody Admined_Date i wyświetlacz za pomocą show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Zaimportuj wszystkie funkcje SQL
od Pyspark.SQL.Funkcje importu *
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: „2022-01-25”,
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: „2022-02-11”,
„Rollno”: „003”, „nazwa”: „Chandrika”, „Admisted_date”: „2022-02-02”,
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: „2021-04-12”,
„Rollno”: „005”, „nazwa”: „Thanuja”, „Admisted_date”: „2022-01-25”
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wybierz dzień tygodnia z kolumny admined_date
df.Select (DayOfWeek (col („admtisted_date”)).pseudonim („dzień tygodnia”)).pokazywać()
# Wybierz dzień miesiąca z kolumny admined_date
df.Select (Dayofonth (col („admtisted_date”)).pseudonim („dzień miesiąca”)).pokazywać()
# Wybierz dzień roku z kolumny admined_date
df.Select (DayOfyear (col („admtisted_date”)).pseudonim („dzień roku”)).pokazywać()
Wyjście:
Wniosek
Z tego artykułu dowiedzieliśmy się, jak korzystać z funkcji daty w PYSPARK DATEFRAME. Są one bardzo przydatne w aplikacjach DATEAPI. Dotyczy to również dodawania dni i kolumn do istniejącej daty.