Podczas pracy z dużymi ilościami danych, które są przechwytywane przy użyciu szerokiego zestawu parametrów, próba znalezienia relacji i wzorców między funkcjami może stać się męczącym zadaniem. Pomimo różnych wcześniej istniejących modeli, które są już dostępne w przestrzeni analizy danych, użycie jednego do znalezienia znaczącego wnioskowania na dużych zestawach danych może stać się złożonym i kompleksowym zadaniem odkrywania wiedzy. Duże zestawy danych z bardzo szerokim zestawem parametrów zbierania danych zwykle mają wiele różnych rodzajów wniosków danych. Lekka inteligencja w znajdowaniu algorytmów nie jest zatem w stanie poprawnie znaleźć wszystkie relacje zawarte w takim zestawie danych.
W tym momencie wchodzi Apache Uima. Nieustrukturyzowane aplikacje do zarządzania informacjami (UIMA) są specjalnie zbudowane w tym celu - znalezienie znaczenia w pozornie nieuzasadnionym dystrybucji danych. Zwykle służy do sortowania danych nieustrukturyzowanych i do kategoryzacji znaczeń zawartych w relacjach między różnymi funkcjami, które są obecne w zestawie danych. To, co robi Apache UIMA, umożliwia użytkownikom zrozumienie, jakie funkcje są współzależne od siebie, które relacje są ważne dla kategorii w zestawie danych i jak wszystkie instancje w zestawie danych w końcu naciskają zestaw danych w określonym kierunku.
UIMA nie ogranicza się do pracy z danymi tekstowymi; Można go również używać z danymi opartymi na sygnał (dane wideo i audio). Oznacza to, że UIMA może nie tylko znaleźć znaczenie w danych tekstowych, ale może również analizować duże zestawy danych zawierające próbki audio lub wideo i generować znaczenie użytkownika na podstawie pewnego zestawu dostarczonych parametrów. Podsumowując, Apache UIMA umożliwia odkrycie wiedzy przy użyciu multimodalnego analitycznego podejścia, które wyświetla zestaw danych z różnych perspektyw, aby znaleźć wszystkie relacje zawarte w środku.
Instalacja
Aby rozpocząć od instalacji Apache UIMA, zaczynamy od aktualizacji APT lokalnego repozytorium, które zawiera nazwy i informacje pakietów.
1. Uruchom następujące polecenie w terminalu, aby zaktualizować lokalne repozytoria i informacje:
$ sudo apt -get aktualizacja -yPowinieneś zobaczyć wyjście podobne do następujących:
2. Teraz instalujemy Apache UIMA, uruchamiając następujące polecenie w terminalu:
$ sudo apt-get install -y uima-docNOTATKA: Argument -y zapewnia, że instalacja nastąpi w milczeniu bez konieczności wprowadzania „tak” w przypadku dowolnego wiersza, którego wymaga konfiguracja instalacji.
Powinieneś zobaczyć wyjście podobne do następujących:
3. Teraz pobieramy preferowany pakiet dystrybucji UIMA, odwiedzając link lub za pomocą narzędzia WGET i uruchamianie polecenia w terminalu (tylko dla użytkowników Linux):
$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/uimaj-3.3.1-bin.smoła.GZPowinieneś zobaczyć wyjście podobne do następujących:
4. Po zakończeniu pobierania wyodrębniamy pobrany plik i CD do niego.
Uruchom następujące polecenie w terminalu:
$ tar xzfTak jak:
Następnie przejdź do wyodrębnionego folderu, uruchamiając następujące polecenie:
$ CD Apache-Uima5. Teraz tworzymy zmienną środowiskową UIMA i nadajemy ścieżkę, w której znajduje się wyodrębniony folder.
Uruchom następujące polecenie w terminalu:
6. Uruchom następujące polecenia w terminalu. Zobaczysz instancję otwarcia Apache UIMA:
$ $ UIMA_HOME/BIN/REGIREXamplePaths.sh $ $ UIMA_HOME/BIN/DOCOMATOMALALYZER.ciiPodręcznik użytkownika
Z APACHE UIMA teraz gotowy do użycia, zaczynamy od wybrania lokalizacji deskryptora silnika analizy XML. Do celów tego przewodnika wybieramy dystrybucję danych Premade, aby uruchomić analizę i znajdujemy wzorce w tym rozkładowi danych.
Teraz uruchamiamy model i badamy generowane wyniki.
Rzućmy okiem na jedno z wygenerowanych wyników:
Widzimy, że z całego zestawu danych, które zawierają wiele fragmentów tekstowych zawierających różne informacje na różne tematy, UIMA jest w stanie sortuj je na mniejsze rozkłady, które zawierają informacje o określonym temacie.
Wybierając osobistego w dostępnych adnotacja.
Wniosek
Znalezienie znaczenia i wnioskowania w dużych nieustrukturyzowanych zestawach danych może być trudnym zadaniem. Liczba różnych parametrów, na które należy zwrócić uwagę i analizować, czyni przestrzeń docelową naprawdę ogromną i staje się nieco nieefektywna analiza takiego zestawu danych za pomocą tradycyjnych algorytmów. Apache UIMA pomaga rozwiązać ten problem, ponieważ jest w stanie analizować duże zestawy danych ze względną łatwością i generować wnioskowanie, znaleźć relacje i odkryć wzorce nawet w największych zestawach danych, które są kompilowane na podstawie bardzo szerokiego zestawu parametrów wejściowych. Nie tylko działa doskonale na danych tekstowych, ale także naprawdę dobrze radzi sobie z danymi audio lub wideo.