Мазмұны:
- 1-қадам: ReSpeaker USB 4-микрофон жиыны
- 2 -қадам: Қажетті кітапханаларды орнатыңыз
- 3-қадам: Pyttsx3 кітапханасы бар Python-да мәтінді сөйлеу
- 4 -қадам: Барлығын біріктіру: Google Speech Recognition API және Pyttsx3 кітапханасының көмегімен Python көмегімен сөйлеуді тануды құру
Бейне: Google Speech API және Python көмегімен сөйлеуді тану: 4 қадам
2024 Автор: John Day | [email protected]. Соңғы өзгертілген: 2024-01-30 10:24
Сөйлеуді тану
Сөйлеуді тану - бұл жасанды интеллектке бағынатын табиғи тілді өңдеудің бөлігі. Қарапайым тілмен айтқанда, сөйлеуді тану - бұл компьютерлік бағдарламалық қамтамасыз етудің сөйлеу тіліндегі сөздер мен сөз тіркестерін анықтап, оларды адам оқитын мәтінге айналдыру қабілеті. Ол бірнеше қосымшаларда қолданылады, мысалы, дауыстық көмекші жүйелері, үй автоматикасы, дауысқа негізделген чат -боттар, дауыспен әрекет ететін робот, жасанды интеллект және т.
Сөйлеуді тануға арналған әр түрлі API (Application Programming Interface) бар. Олар ақылы немесе ақысыз қызметтерді ұсынады. Бұлар:
- CMU сфинксі
- Google сөйлеуді тану
- Google Cloud Speech API
- Wit.ai
- Microsoft Bing дауысты тану
- Houndify API
- IBM мәтінге сөйлеу
- Снеговикке арналған сөзді анықтау
Біз бұл жерде Google Speech Recognition қолданбасын қолданамыз, себебі оған API кілті қажет емес. Бұл оқулықта Seeed Studio-дан ReSpeaker USB 4-Mic Array сияқты сыртқы микрофон көмегімен Python-да Google Speech Recognition кітапханасын қалай пайдалану керектігі туралы кіріспе ұсынуға бағытталған. Сыртқы микрофонды қолдану міндетті болмаса да, ноутбуктің кіріктірілген микрофонын да қолдануға болады.
1-қадам: ReSpeaker USB 4-микрофон жиыны
ReSpeaker USB Mic-бұл AI мен дауыстық қосымшаларға арналған төрт микрофонды құрылғы, оны Seeed Studio жасаған. Ол 4 жоғары өнімділікті, дауысыңызды бөлменің кез келген жерінен қабылдауға арналған кіріктірілген көп бағытты микрофондар мен RGB LED бағдарламаланатын 12 индикаторымен жабдықталған. ReSpeaker USB микрофон Linux, macOS және Windows операциялық жүйелерін қолдайды. Толық ақпаратты мына жерден табуға болады.
ReSpeaker USB микрофонында келесі элементтер бар жақсы пакет бар:
- Қолданушы нұсқаулығы
- ReSpeaker USB микрофон жиыны
- Micro USB - USB кабелі
Сондықтан біз бастауға дайынбыз.
2 -қадам: Қажетті кітапханаларды орнатыңыз
Бұл оқулық үшін сіз Python 3.x қолданасыз деп ойлаймын.
Кітапханаларды орнатамыз:
pip3 SpeechRecognition орнатыңыз
MacOS үшін алдымен PortAudio -ны Homebrew көмегімен, сосын PyAudio -ды pip3 -пен орнату қажет болады:
brew portaudio орнатыңыз
Біз пяудионы орнату үшін төмендегі команданы орындаймыз
pip3 pyaudio орнатыңыз
Linux үшін PyAudio бағдарламасын apt көмегімен орнатуға болады:
sudo apt-get python-pyaudio python3-pyaudio орнатыңыз
Windows үшін PyAudio -ны pip көмегімен орнатуға болады:
pyaudio орнатыңыз
Жаңа python файлын жасаңыз
nano get_index.py
Get_index.py сайтына код үзіндісін қойыңыз:
пяудионы импорттау
p = pyaudio. '))> 0: басып шығару («Input Device id», i, « -», p.get_device_info_by_host_api_device_index (0, i).get (' name '))
Келесі пәрменді іске қосыңыз:
python3 get_index.py
Менің жағдайда, команда экранға келесі шығуды береді:
Енгізу құрылғысының идентификаторы 1 - ReSpeaker 4 микро массиві (UAC1.0)
Енгізу құрылғысының идентификаторы 2 - MacBook Air микрофон
Төмендегі код үзіндісінде сіздің таңдауыңыз бойынша device_index индекс нөміріне өзгертіңіз.
speech_recognition қызметін sr ретінде импорттау
r = sr. Recognizer () сөйлеу = sr. Микрофон (device_index = 1) көзі ретінде сөйлеуі бар: басып шығару («бірдеңе айт! …») аудио = r.adjust_for_ambient_noise (дереккөз) аудио = r. тыңдау (көз) көріңіз: recog = r.recognize_google (audio, language = 'en-US') print («Сіз:» + recog «) sr. UnknownValueError -дан басқа: print (» Google Speech Recognition Recognition аудионы түсінбеді «) қоспағанда, sr. RequestError e: print («Google Speech Recognition қызметінен нәтиже сұрау мүмкін болмады; {0}». Форматы (e))
Құрылғылар индексі 1 таңдалды, себебі ReSpeaker 4 Mic Array негізгі көзі болады.
3-қадам: Pyttsx3 кітапханасы бар Python-да мәтінді сөйлеу
Питонда мәтінді сөйлеуге түрлендіру үшін бірнеше API бар. Осындай API-дің бірі-pyttsx3, бұл менің ойымша мәтіннен сөйлеуге арналған ең жақсы пакет. Бұл пакет Windows, Mac және Linux жүйелерінде жұмыс істейді. Бұл қалай жасалатынын білу үшін ресми құжаттаманы тексеріңіз.
Пакетті орнату Буманы орнату үшін pip пайдаланыңыз.
pip install pyttsx3
Егер сіз Windows жүйесінде болсаңыз, сізге pypiwin32 қосымша пакеті қажет болады, ол жергілікті Windows сөйлеу API -ге кіруі керек.
pip орнату pypiwin32
Мәтінді python сценарийіне түрлендіру Төменде pyttsx3 көмегімен мәтінді сөйлеуге арналған код үзіндісі берілген:
pyttsx3 импорты
қозғалтқыш = pyttsx3.init ()
engine.setProperty ('жылдамдық', 150) # Жылдық пайызы
engine.setProperty ('көлемі', 0,9) # 0-1 том
engine.say («Сәлем, әлем!»)
engine.runAndWait ()
4 -қадам: Барлығын біріктіру: Google Speech Recognition API және Pyttsx3 кітапханасының көмегімен Python көмегімен сөйлеуді тануды құру
Төмендегі код Google Speech Recognition көмегімен адамның сөйлеуін тануға және pyttsx3 кітапханасының көмегімен мәтінді сөйлеуге түрлендіруге жауап береді.
speech_recognition қызметін sr ретінде импорттау
pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Микрофон (device_index = 1): audio = r.adjust_for_ambient_noise (қайнар көз) audio = r.listen (дереккөз) көріңіз: recog = r.recognize_google (аудио, тіл = 'en-US') басып шығару («Сіз айттыңыз:» + recog) engine.say (« Сіз: «sr. UnknownValueError» қоспағанда, « + recog» engine.runAndWait (): engine.say («Google Speech Recognition аудионы түсінбеді») engine.runAndWait () sr. RequestError ретінде e: engine.say («Болмады Google Speech Recognition қызметінен нәтиже сұрау; {0} «. format (e)) engine.runAndWait ()
Ол терминалда шығуды басып шығарады. Сонымен қатар, ол сөйлеуге айналады.
Сіз: Лондон - Ұлыбританияның астанасы
Сіз енді сөйлеуді танудың жалпы қалай жұмыс істейтінін, ең бастысы, Python көмегімен Google Speech Recognition API көмегімен оны қалай жүзеге асыру керектігін жақсы түсінесіз деп үміттенемін.
Егер сізде сұрақтар немесе кері байланыс болса? Төменге пікір қалдырыңыз. Бізбен бірге қалыңыз!
Ұсынылған:
Arduino көмегімен сөйлеуді тану (Bluetooth + LCD + Android): 6 қадам
Arduino көмегімен сөйлеуді тану (Bluetooth + LCD + Android): Бұл жобада біз Arduino, Bluetooth модулі (HC-05) және СКД көмегімен сөйлеуді тануды жүзеге асырамыз. сөйлеуді тану құрылғысын жасайық
Бетті тану және сәйкестендіру - OpenCV Python және Arduino көмегімен Arduino Face ID: 6 қадам
Бетті тану және сәйкестендіру | OpenCV Python және Arduino көмегімен Arduino Face ID: бетті тану AKA тұлғаның идентификаторы қазіргі кезде ұялы телефондардағы ең маңызды мүмкіндіктердің бірі болып табылады. Сонымен, менде " менің Arduino жобам үшін жеке идентификаторым болуы мүмкін " деген сұрақ болды. және жауап - иә … Менің саяхатым келесідей басталды: 1 -қадам: Бізге кіру
Android қосымшасын AWS IOT көмегімен және дауысты тану API көмегімен қалай қосуға болады: 3 қадам
Android қосымшасын AWS IOT көмегімен және дауысты тану API көмегімен қалай қосуға болады: Бұл оқулық пайдаланушыға Android қосымшасын AWS IOT серверіне қосуды және кофе машинасын басқаратын дауысты тану API түсінуді үйретеді. Қолданба Alexa арқылы кофе машинасын басқарады. Дауыстық қызмет, әр қосымшаның
Python көмегімен цифрлық тану құралы: 3 қадам
Python көмегімен цифрлық тану құралы: «Компьютерлік көрініс» бағдарламасының кең таралған нұсқасы, бұл бағдарламалық жасақтаманы жаңартуға қолдау көрсетеді. Мүмкіндігінше, мүмкін болған жағдайда, бұл мүмкін емес
Сөйлеуді тану құралы: 12 қадам
Сөйлеуді тану құралы: Сәлем баршаңызға ………. Бұл менің екінші нұсқаулық, мен оны жіберемін, сондықтан бәріне қош келдіңіз ….. Бұл нұсқаулықта мен сізге дауысты тану құралын жасауды үйретемін. arduino тақтасын қолдана отырып, менің ойымша, сізде ардуино қабанының тәжірибесі бар