Odkryj wzorce i ukryte informacje w danych za pomocą Apache UIMA w Linux

Odkryj wzorce i ukryte informacje w danych za pomocą Apache UIMA w Linux

Podczas pracy z dużymi ilościami danych, które są przechwytywane przy użyciu szerokiego zestawu parametrów, próba znalezienia relacji i wzorców między funkcjami może stać się męczącym zadaniem. Pomimo różnych wcześniej istniejących modeli, które są już dostępne w przestrzeni analizy danych, użycie jednego do znalezienia znaczącego wnioskowania na dużych zestawach danych może stać się złożonym i kompleksowym zadaniem odkrywania wiedzy. Duże zestawy danych z bardzo szerokim zestawem parametrów zbierania danych zwykle mają wiele różnych rodzajów wniosków danych. Lekka inteligencja w znajdowaniu algorytmów nie jest zatem w stanie poprawnie znaleźć wszystkie relacje zawarte w takim zestawie danych.

W tym momencie wchodzi Apache Uima. Nieustrukturyzowane aplikacje do zarządzania informacjami (UIMA) są specjalnie zbudowane w tym celu - znalezienie znaczenia w pozornie nieuzasadnionym dystrybucji danych. Zwykle służy do sortowania danych nieustrukturyzowanych i do kategoryzacji znaczeń zawartych w relacjach między różnymi funkcjami, które są obecne w zestawie danych. To, co robi Apache UIMA, umożliwia użytkownikom zrozumienie, jakie funkcje są współzależne od siebie, które relacje są ważne dla kategorii w zestawie danych i jak wszystkie instancje w zestawie danych w końcu naciskają zestaw danych w określonym kierunku.

UIMA nie ogranicza się do pracy z danymi tekstowymi; Można go również używać z danymi opartymi na sygnał (dane wideo i audio). Oznacza to, że UIMA może nie tylko znaleźć znaczenie w danych tekstowych, ale może również analizować duże zestawy danych zawierające próbki audio lub wideo i generować znaczenie użytkownika na podstawie pewnego zestawu dostarczonych parametrów. Podsumowując, Apache UIMA umożliwia odkrycie wiedzy przy użyciu multimodalnego analitycznego podejścia, które wyświetla zestaw danych z różnych perspektyw, aby znaleźć wszystkie relacje zawarte w środku.

Instalacja

Aby rozpocząć od instalacji Apache UIMA, zaczynamy od aktualizacji APT lokalnego repozytorium, które zawiera nazwy i informacje pakietów.

1. Uruchom następujące polecenie w terminalu, aby zaktualizować lokalne repozytoria i informacje:

$ sudo apt -get aktualizacja -y

Powinieneś zobaczyć wyjście podobne do następujących:

2. Teraz instalujemy Apache UIMA, uruchamiając następujące polecenie w terminalu:

$ sudo apt-get install -y uima-doc

NOTATKA: Argument -y zapewnia, że ​​instalacja nastąpi w milczeniu bez konieczności wprowadzania „tak” w przypadku dowolnego wiersza, którego wymaga konfiguracja instalacji.

Powinieneś zobaczyć wyjście podobne do następujących:

3. Teraz pobieramy preferowany pakiet dystrybucji UIMA, odwiedzając link lub za pomocą narzędzia WGET i uruchamianie polecenia w terminalu (tylko dla użytkowników Linux):

$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/uimaj-3.3.1-bin.smoła.GZ

Powinieneś zobaczyć wyjście podobne do następujących:

4. Po zakończeniu pobierania wyodrębniamy pobrany plik i CD do niego.

Uruchom następujące polecenie w terminalu:

$ tar xzf

Tak jak:

Następnie przejdź do wyodrębnionego folderu, uruchamiając następujące polecenie:

$ CD Apache-Uima

5. Teraz tworzymy zmienną środowiskową UIMA i nadajemy ścieżkę, w której znajduje się wyodrębniony folder.
Uruchom następujące polecenie w terminalu:

$ export uima_home = ""

6. Uruchom następujące polecenia w terminalu. Zobaczysz instancję otwarcia Apache UIMA:

$ $ UIMA_HOME/BIN/REGIREXamplePaths.sh $ $ UIMA_HOME/BIN/DOCOMATOMALALYZER.cii

Podręcznik użytkownika

Z APACHE UIMA teraz gotowy do użycia, zaczynamy od wybrania lokalizacji deskryptora silnika analizy XML. Do celów tego przewodnika wybieramy dystrybucję danych Premade, aby uruchomić analizę i znajdujemy wzorce w tym rozkładowi danych.

Teraz uruchamiamy model i badamy generowane wyniki.

Rzućmy okiem na jedno z wygenerowanych wyników:

Widzimy, że z całego zestawu danych, które zawierają wiele fragmentów tekstowych zawierających różne informacje na różne tematy, UIMA jest w stanie sortuj je na mniejsze rozkłady, które zawierają informacje o określonym temacie.

Wybierając osobistego w dostępnych adnotacja.

Wniosek

Znalezienie znaczenia i wnioskowania w dużych nieustrukturyzowanych zestawach danych może być trudnym zadaniem. Liczba różnych parametrów, na które należy zwrócić uwagę i analizować, czyni przestrzeń docelową naprawdę ogromną i staje się nieco nieefektywna analiza takiego zestawu danych za pomocą tradycyjnych algorytmów. Apache UIMA pomaga rozwiązać ten problem, ponieważ jest w stanie analizować duże zestawy danych ze względną łatwością i generować wnioskowanie, znaleźć relacje i odkryć wzorce nawet w największych zestawach danych, które są kompilowane na podstawie bardzo szerokiego zestawu parametrów wejściowych. Nie tylko działa doskonale na danych tekstowych, ale także naprawdę dobrze radzi sobie z danymi audio lub wideo.