Omówimy funkcje znacznika czasu w Pyspark. Najpierw utwórzmy ramkę danych.
Znak czasu
Znacznik czasu to dane, które obejmują datę i godzinę.
Data obejmuje miesiące, datę i rok.
Czas obejmuje godzinę, minutę, drugą i młyna.
Możemy reprezentować znacznik czasu jako - (Jyyy, MM, DD, H, M, S, MI.S)
Gdzie:
Korzystając z modułu DATETIME, możemy tworzyć znaczniki czasu. Zatem wymaga importowania modułu DATETIME.
Przykładowe stworzenie:
Datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585)
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 3 kolumnami z znacznikami znaczników czasu i wyświetli się metodę zbiorów zbiorów ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl ramkę danych
df.zbierać()
Wyjście:
[Wiersz (admtisted_date = dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585), nazwa = „Sravan”, Rollno = '001'),
Wiersz (admtisted_date = dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582), nazwa = „Deepika”, Rollno = '002'),
Wiersz (admtisted_date = dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585), nazwa = „Chandrika”, Rollno = '003'),
Wiersz (admtisted_date = dateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185), nazwa = „Akash”, Rollno = „004”),
Wiersz (admtisted_date = dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585), name = „Thanuja”, Rollno = '005')]
format daty()
Ten format służy do wyodrębnienia daty/godziny z danego znacznika czasu. Zajmie format daty/godziny i otrzyma datę/godzinę na podstawie tego formatu.
Aby uzyskać datę, format jest „Ryyy-MM-DD”. Możemy złożyć MM/DD/YYYY na dowolnym zamówieniu.
Składnia:
DATE_FORMAT (col („Timestamp_Column”), „Yyyy-Mm-Dd”).alias („Result_Column”)
Gdzie:
Aby uzyskać czas, format brzmi „HH: MM: SS.SSS ”.
Składnia:
ramka danych.Wybierz (date_format (col („mimestamp_column”), „HH: MM: SS.SSS ”).alias („wynik_kolusz”))
Gdzie:
Przykład 1:
W tym przykładzie wyodrębnimy datę jako „datę” z kolumny MEDITED_DATE MESTAMP i wyświetlimy ją za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij datę znacznika czasu
df.Wybierz (col („admtisted_date”), date_format (col („admtisted_date”), „yyyy-mm-dd”).alias („data”)).pokazywać()
Wyjście:
Przykład 2:
W tym przykładzie wyodrębnimy czas jako „czas” z kolumny MEDITED_DATE MEDAME i wyświetlimy go za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij czas ze znacznika czasu
df.Wybierz (col („admtisted_date”), date_format (col („admtisted_date”), „HH: mm: ss.SSS ”).alias („czas”)).pokazywać()
Wyjście:
godzina()
hour () to metoda, która powróci godzinę z danego znacznika czasu. Powróci godziny na rzędach w kolumnie znacznika czasu.
Składnia:
ramka danych.Wybierz (hour (col („timestamp_column”)))))
Gdzie, mimestamp_column to kolumna danych znaczników czasu.
minuta()
Minute () to metoda, która powróci minuty z danego znacznika czasu. Zwróci minuty w rzędach w kolumnie znacznika czasu.
Składnia:
ramka danych.Wybierz (minute (col („Timestamp_Column”))))
Gdzie, mimestamp_column to kolumna danych znaczników czasu.
drugi()
Second () to metoda, która powróci sekund z danego znacznika czasu. Powróci sekundy w rzędach w kolumnie znacznika czasu.
Składnia:
ramka danych.Wybierz (drugie (col („Timestamp_Column”))))
Gdzie, mimestamp_column to kolumna danych znaczników czasu.
Przykład:
W tym przykładzie wyodrębnimy godzinę, minuty i sekundy z kolumny MADED_DATE MESPINES przy użyciu powyższych metod i wyświetlaj ramkę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij godziny ze znacznika czasu
df.Wybierz (col („admtisted_date”), hour (col („admtisted_date”)))).pokazywać()
# Wyciągnij minuty ze znacznika czasu
df.Select (col („admtiste_date”), minute (col („admtisted_date”))))).pokazywać()
# Wyodrębnij sekundy ze znacznika czasu
df.Wybierz (col („admtite_date”), drugi (col („adminted_date”)))))).pokazywać()
Wyjście:
Wniosek
W tym samouczku omówiliśmy, jak wyodrębnić datę i godzinę za pomocą metody date_format () oraz przy użyciu hour (), minute () i second (). Wyodrębniliśmy godziny, minuty i sekundy z kolumny czasowej w Pyspark DataFrame.