Narzędzia wiersza poleceń do nauki o danych w Linux

Narzędzia wiersza poleceń do nauki o danych w Linux
Dostępne są różne narzędzia i metody wykonywania analizy danych i nauki o danych. Niektóre z bardziej popularnych oprogramowania i narzędzi to Python, Excel, SQL itp.

Teraz istnieją dobre powody, dla których naukowcy danych wolą korzystać z wyżej wymienionych narzędzi, ponieważ narzędzia są dobrze przygotowane do obsługi wielu zadań związanych z danymi. Nie są to jednak jedyne dostępne w użyciu narzędzia dla nich lub nas.

Ludzie, którzy są regularnymi użytkownikami Linuksa, wiedzą, jak potężny jest terminal poleceń Linux. Użytkownicy mogą wykonywać praktycznie wszystko związane z ich systemami za pomocą terminalu poleceń. Chociaż Linux zapewnia swoim użytkownikom atrakcyjny GUI, terminal poleceń jest bardziej zabawny i interaktywny.

Jednak tylko kilka osób faktycznie wie, jak korzystać z terminalu do wykonywania regularnych zadań na temat nauki danych. Ponadto, jeśli chcesz dowiedzieć się, jak używać terminala jako narzędzia do nauki o danych, jesteś we właściwym miejscu, ponieważ będziemy omawiać niektóre z poleceń, których możesz użyć do zrobienia tego.

$ WC

Pierwszym poleceniem, które będziemy wyjaśniać, jest $ WC i służy do znalezienia liczby słów, liczby znaków, liczby linii i liczby bajtów określonego pliku. To polecenie może być ważne, ponieważ możesz sprawdzić, jak duży jest plik, który zamierzasz sprawdzić. Istnieją różne wyjścia z różnymi operatorami używanymi z $ WC. Domyślne wyjście daje nam liczbę linii, liczbę słów i liczba znaków odpowiednio od lewej do prawej. Składnia tego polecenia to:

$ WC

$ wget

Kolejnym ważnym poleceniem, które może być regularnie używane przez naukowców z danych, jest polecenie $ wget. To polecenie pobiera pliki ze zdalnych lokalizacji. W przypadku zestawu danych należy przejść do pobrania, możesz użyć polecenia $ wget, aby odzyskać go prosto na komputer bez czkawek. Składnia $ wget to:

$ wget

$ Head i $ ogon polecenia.

Rozważ scenariusz, w którym pobrałeś zestaw danych składający się z wielu plików. Teraz szukasz konkretnego pliku o określonej zawartości zainteresowania. Możesz użyć poleceń $ head i $ ogon, aby poznać zawartość plików.

Polecenie $ Head drukuje pierwsze wiersze pliku jako wyjście. Domyślne wyjście to 10 linii i możesz zobaczyć tyle linii, ile chcesz.

Polecenie $ Tail podaje wiersze na końcu pliku jako wyjście. Ma również domyślne wyjście 10 linii. Składnia obu poleceń jest następująca:

$ head -n
$ ogon -n

$ znajdź

Następnym poleceniem, na które przyjrzymy się, jest polecenie $ Find. Teraz wiesz, że zestaw danych, z którymi naukowcy mają do czynienia, jest zwykle bardzo duży. Składa się z tysięcy plików, a jeśli chcą szukać określonego pliku, może stać się bólem głowy. Jednak terminal Linux dostarczył użytkownikom polecenie $ Find. Jeśli ktoś zna nazwę pliku, którego szuka, po prostu użyj polecenia $ FINK, aby znaleźć ją natychmiast.

$ znajdź -nazwa <'filename'> - typ

$ cat

Polecenie $ CAT ma wiele zastosowań w świecie nauki danych. Najbardziej podstawowym zastosowaniem polecenia $ CAT jest to, że wyświetla całą zawartość konkretnego pliku.

$ CAT oznacza „Conatenate” i może być używany do łączenia dwóch lub wielu plików razem, aby utworzyć pojedynczy plik.

Składnia do uzyskania zawartości pliku jest następująca:

$ cat

Inne zastosowania polecenia $ CAT obejmują numerowanie wierszy obecnych w pliku, dołączanie tekstu do plików, tworzenie nowych plików itp.

$ cut

Komenda $ CUT służy do usuwania sekcji spisu zawartości w określonym pliku. Możesz także skopiować te sekcje i wkleić je do innego pliku. Powinien okazać się przydatny, gdy chcesz wyodrębnić kilka wierszy przydatnych informacji z określonego pliku.

$ cut -

Awk

Wcześniej przyjrzeliśmy się poleceniom Linuksa, które mogą okazać się przydatne dla naukowców danych. Z drugiej strony AWK to pełnoprawny język programowania, który zasadniczo dotyczy tekstu przetwarzania obecnego w plikach lub ogólnie. Jest to potężne narzędzie, które można wezwać w terminalu z krótkimi poleceniami. Istnieje wiele zadań, które można wykonać za pomocą AWK i zaleca się, aby nauczyć się używać AWK w terminalu Linux.

Grep

GREP to kolejne narzędzie do przetwarzania tekstu, które jest nieco podobne do AWK, ale może również wykonywać inne zadania z minimalnym zamieszaniem i łatwą do wdrożenia składni. Jest to kolejne narzędzie, którego można się szybko nauczyć i wykorzystać na swoją korzyść do wykonywania zadań związanych z danymi tekstowymi.

Wniosek

W tym artykule przyjrzeliśmy się różnym narzędziom i poleceniom dostępnym na terminalu Linux, które mogą pomóc w wykonywaniu zadań na temat danych. Jak widać, istnieje wiele sposobów, w jaki terminal Linux może okazać się pomocny, szczególnie w zarządzaniu danymi i obsłudze danych.