Мазмұны:

Google Speech API және Python көмегімен сөйлеуді тану: 4 қадам
Google Speech API және Python көмегімен сөйлеуді тану: 4 қадам

Бейне: Google Speech API және Python көмегімен сөйлеуді тану: 4 қадам

Бейне: Google Speech API және Python көмегімен сөйлеуді тану: 4 қадам
Бейне: ChatGPT феномені: AI әзірлеушінің пейзажын қалай өзгертеді! 2024, Қараша
Anonim
Google Speech API және Python көмегімен сөйлеуді тану
Google Speech API және Python көмегімен сөйлеуді тану

Сөйлеуді тану

Сөйлеуді тану - бұл жасанды интеллектке бағынатын табиғи тілді өңдеудің бөлігі. Қарапайым тілмен айтқанда, сөйлеуді тану - бұл компьютерлік бағдарламалық қамтамасыз етудің сөйлеу тіліндегі сөздер мен сөз тіркестерін анықтап, оларды адам оқитын мәтінге айналдыру қабілеті. Ол бірнеше қосымшаларда қолданылады, мысалы, дауыстық көмекші жүйелері, үй автоматикасы, дауысқа негізделген чат -боттар, дауыспен әрекет ететін робот, жасанды интеллект және т.

Сөйлеуді тануға арналған әр түрлі API (Application Programming Interface) бар. Олар ақылы немесе ақысыз қызметтерді ұсынады. Бұлар:

  • CMU сфинксі
  • Google сөйлеуді тану
  • Google Cloud Speech API
  • Wit.ai
  • Microsoft Bing дауысты тану
  • Houndify API
  • IBM мәтінге сөйлеу
  • Снеговикке арналған сөзді анықтау

Біз бұл жерде Google Speech Recognition қолданбасын қолданамыз, себебі оған API кілті қажет емес. Бұл оқулықта Seeed Studio-дан ReSpeaker USB 4-Mic Array сияқты сыртқы микрофон көмегімен Python-да Google Speech Recognition кітапханасын қалай пайдалану керектігі туралы кіріспе ұсынуға бағытталған. Сыртқы микрофонды қолдану міндетті болмаса да, ноутбуктің кіріктірілген микрофонын да қолдануға болады.

1-қадам: ReSpeaker USB 4-микрофон жиыны

ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB 4-микрофон жиыны

ReSpeaker USB Mic-бұл AI мен дауыстық қосымшаларға арналған төрт микрофонды құрылғы, оны Seeed Studio жасаған. Ол 4 жоғары өнімділікті, дауысыңызды бөлменің кез келген жерінен қабылдауға арналған кіріктірілген көп бағытты микрофондар мен RGB LED бағдарламаланатын 12 индикаторымен жабдықталған. ReSpeaker USB микрофон Linux, macOS және Windows операциялық жүйелерін қолдайды. Толық ақпаратты мына жерден табуға болады.

ReSpeaker USB микрофонында келесі элементтер бар жақсы пакет бар:

  • Қолданушы нұсқаулығы
  • ReSpeaker USB микрофон жиыны
  • Micro USB - USB кабелі

Сондықтан біз бастауға дайынбыз.

2 -қадам: Қажетті кітапханаларды орнатыңыз

Бұл оқулық үшін сіз Python 3.x қолданасыз деп ойлаймын.

Кітапханаларды орнатамыз:

pip3 SpeechRecognition орнатыңыз

MacOS үшін алдымен PortAudio -ны Homebrew көмегімен, сосын PyAudio -ды pip3 -пен орнату қажет болады:

brew portaudio орнатыңыз

Біз пяудионы орнату үшін төмендегі команданы орындаймыз

pip3 pyaudio орнатыңыз

Linux үшін PyAudio бағдарламасын apt көмегімен орнатуға болады:

sudo apt-get python-pyaudio python3-pyaudio орнатыңыз

Windows үшін PyAudio -ны pip көмегімен орнатуға болады:

pyaudio орнатыңыз

Жаңа python файлын жасаңыз

nano get_index.py

Get_index.py сайтына код үзіндісін қойыңыз:

пяудионы импорттау

p = pyaudio. '))> 0: басып шығару («Input Device id», i, « -», p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Келесі пәрменді іске қосыңыз:

python3 get_index.py

Менің жағдайда, команда экранға келесі шығуды береді:

Енгізу құрылғысының идентификаторы 1 - ReSpeaker 4 микро массиві (UAC1.0)

Енгізу құрылғысының идентификаторы 2 - MacBook Air микрофон

Төмендегі код үзіндісінде сіздің таңдауыңыз бойынша device_index индекс нөміріне өзгертіңіз.

speech_recognition қызметін sr ретінде импорттау

r = sr. Recognizer () сөйлеу = sr. Микрофон (device_index = 1) көзі ретінде сөйлеуі бар: басып шығару («бірдеңе айт! …») аудио = r.adjust_for_ambient_noise (дереккөз) аудио = r. тыңдау (көз) көріңіз: recog = r.recognize_google (audio, language = 'en-US') print («Сіз:» + recog «) sr. UnknownValueError -дан басқа: print (» Google Speech Recognition Recognition аудионы түсінбеді «) қоспағанда, sr. RequestError e: print («Google Speech Recognition қызметінен нәтиже сұрау мүмкін болмады; {0}». Форматы (e))

Құрылғылар индексі 1 таңдалды, себебі ReSpeaker 4 Mic Array негізгі көзі болады.

3-қадам: Pyttsx3 кітапханасы бар Python-да мәтінді сөйлеу

Питонда мәтінді сөйлеуге түрлендіру үшін бірнеше API бар. Осындай API-дің бірі-pyttsx3, бұл менің ойымша мәтіннен сөйлеуге арналған ең жақсы пакет. Бұл пакет Windows, Mac және Linux жүйелерінде жұмыс істейді. Бұл қалай жасалатынын білу үшін ресми құжаттаманы тексеріңіз.

Пакетті орнату Буманы орнату үшін pip пайдаланыңыз.

pip install pyttsx3

Егер сіз Windows жүйесінде болсаңыз, сізге pypiwin32 қосымша пакеті қажет болады, ол жергілікті Windows сөйлеу API -ге кіруі керек.

pip орнату pypiwin32

Мәтінді python сценарийіне түрлендіру Төменде pyttsx3 көмегімен мәтінді сөйлеуге арналған код үзіндісі берілген:

pyttsx3 импорты

қозғалтқыш = pyttsx3.init ()

engine.setProperty ('жылдамдық', 150) # Жылдық пайызы

engine.setProperty ('көлемі', 0,9) # 0-1 том

engine.say («Сәлем, әлем!»)

engine.runAndWait ()

4 -қадам: Барлығын біріктіру: Google Speech Recognition API және Pyttsx3 кітапханасының көмегімен Python көмегімен сөйлеуді тануды құру

Төмендегі код Google Speech Recognition көмегімен адамның сөйлеуін тануға және pyttsx3 кітапханасының көмегімен мәтінді сөйлеуге түрлендіруге жауап береді.

speech_recognition қызметін sr ретінде импорттау

pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Микрофон (device_index = 1): audio = r.adjust_for_ambient_noise (қайнар көз) audio = r.listen (дереккөз) көріңіз: recog = r.recognize_google (аудио, тіл = 'en-US') басып шығару («Сіз айттыңыз:» + recog) engine.say (« Сіз: «sr. UnknownValueError» қоспағанда, « + recog» engine.runAndWait (): engine.say («Google Speech Recognition аудионы түсінбеді») engine.runAndWait () sr. RequestError ретінде e: engine.say («Болмады Google Speech Recognition қызметінен нәтиже сұрау; {0} «. format (e)) engine.runAndWait ()

Ол терминалда шығуды басып шығарады. Сонымен қатар, ол сөйлеуге айналады.

Сіз: Лондон - Ұлыбританияның астанасы

Сіз енді сөйлеуді танудың жалпы қалай жұмыс істейтінін, ең бастысы, Python көмегімен Google Speech Recognition API көмегімен оны қалай жүзеге асыру керектігін жақсы түсінесіз деп үміттенемін.

Егер сізде сұрақтар немесе кері байланыс болса? Төменге пікір қалдырыңыз. Бізбен бірге қалыңыз!

Ұсынылған: