Co to jest przetwarzanie danych?
Przedrożenie danych jest kluczowym etapem uczenia maszynowego, który poprawia jakość danych, aby zachęcić do wyodrębnienia cennych informacji z danych. Przygotowanie danych w uczeniu maszynowym to proces przygotowania surowych danych (czyszczenie i organizowanie ich) do tworzenia i szkolenia modeli uczenia maszynowego. Przedstawienie danych w uczeniu maszynowym jest, mówiąc prosto, podejście do eksploracji danych, które przekształca surowe dane w format, który jest czytelny i zrozumiały.
Dlaczego potrzebujemy wstępnego przetwarzania danych?
Dane rzeczywistych często nie mają konkretnych wartości lub trendów atrybutów i są często niespójne, błędne (zawiera błędy lub wartości odstające) i niekompletne. Przygotowanie danych pojawia się w tej sytuacji, ponieważ pomaga wyczyścić, formatować i organizować surowe dane, przygotowując je do użycia przez modele uczenia maszynowego.
Przetwarzanie danych dotyczących danych dotyczy następujących:
Standardy dla API scikit-learn
Istnieje kilka specyfikacji rodzaju danych, które przetworzy Sklearn.
Wdrażanie sklearn przed przetwarzaniem
Importowanie bibliotek i danych
# Importowanie bibliotek i klasŁadowanie pierwszych 5 wierszy danych
df.głowa()Wyjście
Długość sepalu (cm) | Szerokość sepalowa (cm) | długość płatków (cm) | szerokość płatków (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Uzyskanie informacji o rodzajach i wartości zerowych
df.informacje ()Wyjście
RangeIndex: 150 wpisów, od 0 do 149Wypełnianie brakujących wartości danych za pomocą Sklearn:
Imputer = SimpleMimputer (strategia = „Mean”)Możemy iterować wszystkie kolumny do wykonywania tego zadania we wszystkich kolumnach.
Skalowanie danych za pomocą standardowego skalera
scaller = standardCaler ()Wyjście
tablica ([[-0.90068117, 1.01900435, -1.34022653, -1.3154443],Jedno gorące kodowanie
encoder = onehotencoder (uchwyt_inknown = 'ignor')Wyjście
[array (['a', 'b'], dtype = obiekt), tablica ([1, 2, 3], dtype = obiekt)]]Wniosek
W tym artykule omówiliśmy wstępne przetwarzanie i jego wdrożenie w bibliotece Sklearn Python. Aby ułatwić ekstrakcję użytecznych spostrzeżeń z danych, przetwarzanie danych jest kluczowym krokiem w uczeniu maszynowym. Podnosi jakość danych. Następnie omówiliśmy wdrożenie w Sklearn. Najpierw odzyskaliśmy informacje o danych, w tym brakujące wartości i danych, a następnie wypełniliśmy brakujące wartości. Pracowaliśmy również nad skalowaniem danych i jednym kodowaniem gorącym.