„Technika statystyczna zwana osadzeniem sąsiada dystrybucji T, umieszcza każdy punkt danych na dwu- lub trójwymiarowej mapie w celu wizualizacji danych o wysokości wymiarowej. Ta operacja jest wykonywana podobnie metodami analizy głównych (PCA), które są również wykorzystywane do wyświetlania do niższych wymiarów z wysokiego wymiaru. W tym artykule omówiono T-SNE, jak różni się od PCA i jak działa w Sklearn."
Co to jest redukcja wymiarowości?
Redukcja wymiarowości koduje dane wielowymiarowe (N-dimensions) z obfitymi cechami w 2 lub 3 wymiarach. Wiele funkcji jednostek, które należy podzielić na kategorie, jest używanych w problemach klasyfikacji uczenia maszynowego. Szkolenie wizualizacji danych byłoby bardziej złożone, a wymagania dotyczące przechowywania wzrosłyby w miarę użycia większej liczby funkcji. Te cechy są często połączone. W rezultacie liczba funkcji można zmniejszyć. Liczbę funkcji można obniżyć, jeśli okaże się, że trzy używane funkcje są podłączone. Jeśli potrzebna jest tylko jedna funkcja, dane rozłożone na przestrzeni 3D mogą być rzutowane na linię w celu wytworzenia danych 1D lub na płaszczyznę 2D, jeśli potrzebne są dwie funkcje.
Co to jest T-SNE?
Dane o wysokiej wymiarach są rzutowane na niższe wymiary przy użyciu podejścia do uczenia maszynowego bez nadzoru znanego jako osadzanie stochastycznych sąsiadów rozdzielanych przez T (T-SNE), utworzone w 2008 roku przez Laurens van der Maaten i Geoffery Hinton. Jest to głównie stosowane do eksploracji danych i wizualizacji danych o wysokiej wymiarach. T-SNE pomaga zrozumieć organizację danych w przestrzeni wielowymiarowej.
Jak działa T-Sne?
Rozkład prawdopodobieństwa sąsiadów otaczających każdy punkt jest modelowany za pomocą algorytmu T-SNE. Grupa punktów, które są najbliżej każdego punktu w tym kontekście, jest określana jako sąsiadów. Model tego w oryginalnej przestrzeni wielowymiarowej jest rozkład Gaussa.
Dystrybucja T służy do symulacji tego w 2-wymiarowej przestrzeni wyjściowej. Celem tej techniki jest znalezienie mapowania na przestrzeni 2D, która minimalizuje różnice między tymi dwoma rozkładami. Podstawowy czynnik wpływający na dopasowanie jest znany jako zamieszanie. Liczba najbliższych sąsiadów rozważanych podczas dopasowania oryginalnych i dopasowanych rozkładów dla każdego punktu jest ogólnie równoważna złożoności.
Czym różni się PCA od T-SNE
PCA | T-sne |
Jest to liniowa technika redukcji wymiarów. | Jest to nieliniowa technika redukcji wymiarów. |
Stara się utrzymać ogólną strukturę danych. | Stara się utrzymać lokalną strukturę danych |
Nie są zaangażowane hiperparametry | Obejmuje to hiperparametry, takie jak zakłopotanie, wskaźnik uczenia się i liczba kroków. |
Nie radzi sobie dobrze | Może obsłużyć wartości odstające. |
Wdrażanie T-SNE w Sklearn
# Importowanie bibliotek
importować Numpy jako NP
ze Sklearn.Import kolektora TSNE
# Tworzenie zestawu danych
X = np.tablica ([[0, 0, 0, 1], [0, 1, 1, 1], [1, 0, 1, 0], [1, 1, 1, 0]])
# rzutowanie danych do niższych wymiarów
X_projected = tsne (n_components = 2, uczenie_rate = „auto”, init = „losowo”, zakłopotanie = 3).Fit_Transform (x)
Drukuj („nowy kształt danych to”, x_projectioned.kształt)
Wyjście
Nowy kształt danych wynosi (4, 2)
Wniosek
Dowiedzieliśmy się o algorytmie T-SNE, który służy do konwersji danych o wysokim wymiarach na niższą i ostatecznie łatwą wizualizację. Widzieliśmy również, dlaczego potrzebujemy algorytmów redukcji wymiarowości i jak T-SNE różni się od algorytmów alternatywnych: PCA. Wdrożyliśmy również T-SNE w Sklearn za pomocą modułu „różnorodnego” i przewidywaliśmy 4-wymiarowe dane na 2 wymiary.