Teraz istnieją dobre powody, dla których naukowcy danych wolą korzystać z wyżej wymienionych narzędzi, ponieważ narzędzia są dobrze przygotowane do obsługi wielu zadań związanych z danymi. Nie są to jednak jedyne dostępne w użyciu narzędzia dla nich lub nas.
Ludzie, którzy są regularnymi użytkownikami Linuksa, wiedzą, jak potężny jest terminal poleceń Linux. Użytkownicy mogą wykonywać praktycznie wszystko związane z ich systemami za pomocą terminalu poleceń. Chociaż Linux zapewnia swoim użytkownikom atrakcyjny GUI, terminal poleceń jest bardziej zabawny i interaktywny.
Jednak tylko kilka osób faktycznie wie, jak korzystać z terminalu do wykonywania regularnych zadań na temat nauki danych. Ponadto, jeśli chcesz dowiedzieć się, jak używać terminala jako narzędzia do nauki o danych, jesteś we właściwym miejscu, ponieważ będziemy omawiać niektóre z poleceń, których możesz użyć do zrobienia tego.
$ WC
Pierwszym poleceniem, które będziemy wyjaśniać, jest $ WC i służy do znalezienia liczby słów, liczby znaków, liczby linii i liczby bajtów określonego pliku. To polecenie może być ważne, ponieważ możesz sprawdzić, jak duży jest plik, który zamierzasz sprawdzić. Istnieją różne wyjścia z różnymi operatorami używanymi z $ WC. Domyślne wyjście daje nam liczbę linii, liczbę słów i liczba znaków odpowiednio od lewej do prawej. Składnia tego polecenia to:
$ WC
$ wget
Kolejnym ważnym poleceniem, które może być regularnie używane przez naukowców z danych, jest polecenie $ wget. To polecenie pobiera pliki ze zdalnych lokalizacji. W przypadku zestawu danych należy przejść do pobrania, możesz użyć polecenia $ wget, aby odzyskać go prosto na komputer bez czkawek. Składnia $ wget to:
$ wget
$ Head i $ ogon polecenia.
Rozważ scenariusz, w którym pobrałeś zestaw danych składający się z wielu plików. Teraz szukasz konkretnego pliku o określonej zawartości zainteresowania. Możesz użyć poleceń $ head i $ ogon, aby poznać zawartość plików.
Polecenie $ Head drukuje pierwsze wiersze pliku jako wyjście. Domyślne wyjście to 10 linii i możesz zobaczyć tyle linii, ile chcesz.
Polecenie $ Tail podaje wiersze na końcu pliku jako wyjście. Ma również domyślne wyjście 10 linii. Składnia obu poleceń jest następująca:
$ head -n
$ ogon -n
$ znajdź
Następnym poleceniem, na które przyjrzymy się, jest polecenie $ Find. Teraz wiesz, że zestaw danych, z którymi naukowcy mają do czynienia, jest zwykle bardzo duży. Składa się z tysięcy plików, a jeśli chcą szukać określonego pliku, może stać się bólem głowy. Jednak terminal Linux dostarczył użytkownikom polecenie $ Find. Jeśli ktoś zna nazwę pliku, którego szuka, po prostu użyj polecenia $ FINK, aby znaleźć ją natychmiast.
$ znajdź-nazwa <'filename'> - typ
$ cat
Polecenie $ CAT ma wiele zastosowań w świecie nauki danych. Najbardziej podstawowym zastosowaniem polecenia $ CAT jest to, że wyświetla całą zawartość konkretnego pliku.
$ CAT oznacza „Conatenate” i może być używany do łączenia dwóch lub wielu plików razem, aby utworzyć pojedynczy plik.
Składnia do uzyskania zawartości pliku jest następująca:
$ cat
Inne zastosowania polecenia $ CAT obejmują numerowanie wierszy obecnych w pliku, dołączanie tekstu do plików, tworzenie nowych plików itp.
$ cut
Komenda $ CUT służy do usuwania sekcji spisu zawartości w określonym pliku. Możesz także skopiować te sekcje i wkleić je do innego pliku. Powinien okazać się przydatny, gdy chcesz wyodrębnić kilka wierszy przydatnych informacji z określonego pliku.
$ cut -
Awk
Wcześniej przyjrzeliśmy się poleceniom Linuksa, które mogą okazać się przydatne dla naukowców danych. Z drugiej strony AWK to pełnoprawny język programowania, który zasadniczo dotyczy tekstu przetwarzania obecnego w plikach lub ogólnie. Jest to potężne narzędzie, które można wezwać w terminalu z krótkimi poleceniami. Istnieje wiele zadań, które można wykonać za pomocą AWK i zaleca się, aby nauczyć się używać AWK w terminalu Linux.
Grep
GREP to kolejne narzędzie do przetwarzania tekstu, które jest nieco podobne do AWK, ale może również wykonywać inne zadania z minimalnym zamieszaniem i łatwą do wdrożenia składni. Jest to kolejne narzędzie, którego można się szybko nauczyć i wykorzystać na swoją korzyść do wykonywania zadań związanych z danymi tekstowymi.
Wniosek
W tym artykule przyjrzeliśmy się różnym narzędziom i poleceniom dostępnym na terminalu Linux, które mogą pomóc w wykonywaniu zadań na temat danych. Jak widać, istnieje wiele sposobów, w jaki terminal Linux może okazać się pomocny, szczególnie w zarządzaniu danymi i obsłudze danych.