Mowa do tekstu

Mowa do tekstu
Rozpoznawanie mowy to technika, która przekształca ludzki głos w tekst. Jest to bardzo ważna koncepcja w świecie sztucznej inteligencji, w którym musimy udzielić poleceń maszynom takim jak samochód bez kierowcy itp.

Zamierzamy wdrożyć mowę do tekstu w Python. I w tym celu musimy zainstalować następujące pakiety:

  1. PIP instaluj rozpoznawanie mowy
  2. PIP Instaluj Pyaudio

Tak więc importujemy rozpoznawanie mowy i inicjowanie rozpoznawania mowy, ponieważ bez inicjowania rozpoznawania nie możemy użyć dźwięku jako wejścia i nie rozpozna dźwięku.

Istnieją dwa sposoby przekazywania audio wejściowego do rozpoznawania:

  1. Nagrany dźwięk
  2. Za pomocą domyślnego mikrofonu

Tym razem wdrażamy opcję domyślną (mikrofon). Dlatego przynosimy mikrofon modułu, jak pokazano poniżej:

Z Linuxhint.Mikrofon () jako mikrofon

Ale jeśli chcemy użyć wcześniej nagranego dźwięku jako wejścia źródłowego, wówczas składnia będzie taka:

Z Linuxhint.Audiofile (nazwa pliku) jako źródło

Teraz używamy metody rekordu. Składnia metody rekordu to:

Record (źródło, czas trwania)

Tutaj źródłem jest nasz mikrofon, a zmienna czasu trwania akceptuje liczby całkowite, czyli sekundy. Mamy czas trwania = 10, który informuje system, ile czasu mikrofon zaakceptuje głos od użytkownika, a następnie zamyka go automatycznie.

Następnie używamy rozpoznaje_google () Metoda, która akceptuje dźwięk i ukrywa dźwięk do formularza tekstowego.

Powyższy kod akceptuje dane wejściowe z mikrofonu. Ale czasami chcemy przedstawić wkład z wcześniej nagranego dźwięku. W tym celu kod jest podany poniżej. Składnia tego została już wyjaśniona powyżej.

Możemy również zmienić opcję języka w metodzie rozpoznawania_google. Gdy zmieniamy język z angielskiego na hindi, jak pokazano poniżej: