Ang Estado ng Linux Voice Recognition

Panimula

Gumugugol ako ng maraming oras sa pagsasaliksik para sa mga artikulo at medyo madalas na iniisip ko ang tungkol sa paksa para sa isang artikulo habang naglalakad sa istasyon ng tren o kapag lumabas at tungkol sa pangkalahatan.

Isang gabi habang naglalakad ang 1.5 milya sa istasyon mula sa aking trabaho naisip ko "hindi ba ito ay mabuti kung maaari kong i-record kung ano ang gusto kong sabihin at pagkatapos ay awtomatiko itong na-transcribe sa isang text file na maaari kong i-edit at mag-format sa ibang pagkakataon sa" .

Ginugol ko ang maraming mahabang oras na pagtingin sa iba't ibang mga opsyon na magagamit para sa pagkilala ng boses at pagdidikta kabilang ang direktang pagre-record sa pamamagitan ng mikropono gamit ang software ng pagdidikta sa Linux, pagtatala ng file sa MP3 o WAV na format at pag-convert nito sa pamamagitan ng command line, pati na rin gamit ang Chrome at mga application ng Android.

Itinatampok ng artikulong ito ang aking mga natuklasan pagkatapos ng mga araw ng matapang na paggawa.

Mga Pagpipilian sa Linux

Ang pagsisikap na makahanap ng software na pagdidikta at pagkilala ng boses sa Linux ay hindi kasingdali at maaaring hindi magagamit ang mga pagpipilian na iyon na matalino.

Ang pahinang wikipedia na ito ay may listahan ng mga potensyal na opsyon kabilang ang CMU Sphinx, Julius at Simon.

Gumagamit ako ng SparkyLinux na batay sa Debian Testing sa ngayon at maaari kong sabihin sa iyo na ang tanging package ng pagkilala ng boses na magagamit sa mga repository ay Sphinx.

Ang mga native na programang Linux na natapos kong sinusubukan ay PocketSphinx, na ginamit ko upang i-convert ang mga WAV file sa text at Freespeech-VR na isang python application na hinahayaan kang i-record diretso mula sa isang mikropono.

Sinubukan ko din ang ilang apps ng Chrome kabilang ang VoiceNote II at Dictanote.

Sa wakas sinubukan ko ang "Dictation and Email" at "Talk And Talk Dictation" Android Apps.

Freespeech-VR

Ang Freespeech-VR ay hindi magagamit sa karaniwang mga repositoryo. Na-download ko ang mga file mula rito.

Pagkatapos ng pag-download at pag-extract ng mga nilalaman ng zip file binuksan ko ang isang terminal at na-navigate sa folder kung saan nakuha ang mga file.

Nai-type ko ang sumusunod na command upang buksan ang freespeech-vr.

sudo python freespeech-vr

Mayroon akong isang pares ng mga headphone na may isang medyo disenteng mikropono at isang malinaw na katimugang tuldik na Ingles.

Ang sumusunod na teksto ay lumitaw sa freespeech-vr window:

Maligayang pagdating sa yunit ng mga aso ng kinalabasan Ngayon Nakakatiyak na Paano Naubusan ng Mga Pagsubok Isang kailangang subukan Kapag Upang teksto Gumagamit ng isang paraan ng paraan Pagsasalita Ako ang Sa bawat isa ay Lamang Sa isang Upang pag-asa ng pananatiling At Ang sa Ibig Sabihin ng Isang chickens ginintuang bilang sistema Ang Ea kapag ito ang pangalan ko ang susunod na tawag sa telepono Ang file na ito Hindi sapat ang isang kaso ng telepono sa Hands- Space ang sphinx Pupunta Iyon ay hindi isang telepono ay ibabahagi Isang sinanay at at mga tool Gamitin ang pagsasalita Kapag natapos ka na Gumamit ng isang ginamit na file Huling isang kuwento A At gamit ang isang sa pamamagitan ng Kapag ito ay napaka kung paano tagumpay Linux na ito ay bilang Huwag mong iwasan ay

Gusto ko lang sabihin ngayon na hindi ito ang website ng Unit Of Dogs at sa walang punto ay banggitin ko ang anumang gagawin sa Golden chickens. Talagang sinusubukan ko na ilarawan ang proseso ng paggamit ng software ng pagkilala ng boses.

Sinubukan ko ang software ng ilang beses kabilang ang iba't ibang mga pitch at bilis ngunit ang katumpakan ay mahirap.

PocketSphinx

PocketSphinx ay makakakuha ng WAV file at i-convert ito sa text gamit ang command line.

Available ang PocketSphinx sa pamamagitan ng mga repository ng Debian at dapat na magamit para sa karamihan ng mga distribusyon.

Ang pangunahing isyu na nakita ko sa PocketSphinx ay kailangan mo ng isang degree sa mga konsepto ng pagkilala ng boses, mga file ng wika, mga diksyunaryo at kung paano sanayin ang sistema.

Pagkatapos mag-install ng PocketSphinx dapat kang pumunta sa website ng CMU Sphinx at magbasa ng maraming impormasyon hangga't maaari. Kailangan mo ring i-download ang sumusunod na modelo ng file.

(Kung hindi ka katutubong nagsasalita ng Ingles piliin ang modelo ng wika na angkop para sa iyo).

Ang dokumentasyon para sa PocketSphinx at Sphinx sa pangkalahatan ay mahirap maunawaan para sa lay person ngunit mula sa kung ano ang maaari kong gawin ang mga file ng diksyunaryo ay ginagamit upang magbigay ng isang listahan ng mga posibleng mga salita at mga modelo ng wika ay may listahan ng mga potensyal na pronunciations.

Upang subukan ang PocketSphinx Ginamit ko ang isang recording ng aking sariling boses, isang snippet mula sa Al Pacino sa "The Devils Advocate" at isang snippet mula sa "Morgan Freeman". Ang punto ng ito ay upang subukan ang iba't ibang mga tinig at para sa akin walang sinuman na maaaring sabihin sa isang kuwento bilang malinaw na bilang Morgan Freeman at walang naghahatid ng isang linya tulad ng Al Pacino.

Para sa PocketSphinx upang gumana ito ay nangangailangan ng isang WAV file at kailangan nito upang maging sa isang tiyak na format. Kung ang file ay nasa MP3 format gamitin ang ffmpeg command upang i-convert ito sa WAV na format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Upang patakbuhin ang PocketSphinx gamitin ang sumusunod na command:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

Ang pocketsphinx_continuous ay tumatagal ng isang WAV file at nag-convert ito sa text.

Sa utos sa itaas pocketsphinx ay sinabihan na gumamit ng isang file ng diksyunaryo na tinatawag na "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" kasama ang modelo ng wika na "cmusphinx-5.0-en-us.lm". Ang file na na-convert sa text ay tinatawag na voice2.wav (na isang rekord na ginawa ko sa aking boses). Sa wakas ang 2> ay naglalagay ng lahat ng mga verbose output na hindi mo kinakailangang kailangan sa isang file na tinatawag na voice2.log. Ang aktwal na mga resulta ng pagsubok ay ipinapakita sa loob ng terminal window.

Ang mga resulta gamit ang aking boses ay ang mga sumusunod:

maligayang pagdating sa susunod tungkol sa mahusay na hindi ito linggo paksa tungkol sa kung aling pagkilala ng software sa isang minuto

Ang mga resulta ay hindi kasing horrendous gaya ng freespeech-vr ngunit hindi pa rin magamit. Pagkatapos ay sinubukan kong gamitin ang PocketSphinx sa Al Pacino ngunit hindi ito nagbalik ng mga resulta.

Sa wakas sinubukan kong gamitin ang boses ni Morgan Freeman mula sa sinehan na "Bruce Almighty" at narito ang mga resulta:

000000000: makikita namin sa kanya
000000001: lahat na matigas oo ang araw na ngayon oo yeah ito ang pinaka kami ay buhay na ako bahagi ng mainit
000000002: sa elevator na ang susi sa isang bit ng baseball o alam kung ano ang dapat gawin sa buhay
000000003: ano ang mga makakakuha nito
000000004: hindi nila isinulat ito
000000005: mayroon silang karapatan sa akin
000000006: dapat kang maging mga alituntunin
000000007: ako ay umaasa sa iyo
000000008: at natutunan niya dito na isang paglalarawan ay ang nakamatay na party ng pasko
000000009: lumiliko ang isa sa mga paraan upang sumulat o. asno naisip ko ilang palaging magsuot ng isa
000000010: tulad ng problema nagkakaisa ay hindi magbibigay sa kanya ng mabuti ako ang tinantya ang mga ito sa sandaling iyon kapag hindi namin ang lahat na sa tingin mo ako sa mundo ay tahanan at nakita ko na
000000011: isang ama na may ito
000000012: kung ano ang isang pulutong tungkol sa mga ito
000000013: ay ibinigay iyan
000000014: lahat ng bagay sa iyo yaong hindi mahulog para sa maraming
000000015: tama sa pagkahulog
000000016: maayos na humawak sa para lang sa akin
000000017: ito ay isang malungkot kung sa tingin ko masyadong na sila ay pagpunta sa magkaroon ng isang na ang lahat ng na may-asawa sa isang ay hindi namin gusto ko ang hindi tulad ng paraan

Ang aking pagsusuri ay maaaring hindi maiisip na siyentipiko at maaaring ipahayag ng mga nag-develop ng PocketSphinx na hindi ako gumagamit ng software nang tama. Mayroon ding pamamaraan na tinatawag na pagsasanay ng boses na maaaring magamit upang lumikha ng mas mahusay na mga diksyunaryo at mga file ng wika.

Gayunman, ang aking opinyon ay napakahirap para sa pamantayang pang-araw-araw na paggamit.

VoiceNote II

Ang VoiceNote II ay isang Chrome App na gumagamit ng Google Voice recognition API.

Kung ginagamit mo ang Chrome o Chromium browser maaari mong i-install ang VoiceNote II sa pamamagitan ng Web Store .

Ang mga icon sa VoiceNote II ay inilatag sa isang kakaibang paraan tulad ng kailangan mong i-set up ang wika sa ibaba ng window at ang pindutan ng pag-edit ay nasa ibaba, gayunpaman ang pindutan ng rekord ay nasa tuktok na kanang posisyon.

Ang unang bagay na kailangan mong gawin ay pumili ng isang wika at ito ay maaaring makamit sa pamamagitan ng pag-click sa icon ng mundo.

Upang simulan ang pag-record, mag-click sa icon ng mikropono at magsimulang magsalita sa iyong mikropono. Para sa pinakamahusay na mga resulta na nakita ko na nagsasalita nang dahan-dahan ay susi upang ang software ay magkakaroon ng isang pagkakataon upang panatilihin up.

Ang mga resulta ay hindi mahusay na tulad ng makikita sa ibaba:

Kumusta at malugod kang kumonekta. About.com todays articles about voice to text conversion dunelm farrell resession 2008 as conversions and it said well supported the best way i found voice text addon to show 2014debian or rpm package open it voice type to speech to text open it if you want to choose vs pinili sa edinburgh french german makakakuha ka ng oras sa nagkakaisa kingdomstart sa dagat microphonewhat mo natapos pagsulat ng iyong teksto bilang isang text file sa itsuccess na rin na napaka karaniwang ingles accent mula sa timog ng england pinakamahusay na para sa mga ito ngunit ako pagpunta sa textvia ito torrentalong na may aktwal na dokumento at makikita mo ang mga pagkakamali na nakakatawa sa iyo para sa mga pakikinig

Dictanote

Ang Dictanote ay isa pang Chrome App na maaaring magamit para sa mga layunin ng pagdidikta at dumating sa kabuuan bilang mas madaling maunawaan ngunit ang mga resulta ay hindi mas mahusay kaysa sa VoiceNote II.

Ginamit ko lamang ang demo na bersyon ng Dictanote na pumipigil sa iyo sa paglikha ng mga bagong dokumento ngunit hinahayaan kang makipag-usap sa teksto na nasa editor na. Nakuha ko ang pagsubok sa pagkilala ng boses ngunit ang mga resulta ay hindi mas mahusay kaysa sa VoiceNote II at kaya hindi ako nag-sign up para sa pro na bersyon.

Pagdidikta at sulat

Ang "Dictation And Mail" ay isang Android Application na gumagamit ng katutubong Google voice recognition API.

Ang mga resulta mula sa "Dictation and Mail" ay mas mahusay kaysa sa alinman sa iba pang mga programa na sinubukan hanggang sa puntong ito.

kumusta maligayang pagdating sa Linux tungkol sa., ngayon kami ng pakikipag-usap tungkol sa pag-convert ng tunog sa teksto

Ang bilis ng kamay na may "pagdidikta at Mail" ay upang magsalita nang dahan-dahan at magbigkas pati na rin sa maaari mong may kahit na tuldik.

Matapos mong matapos ang pakikipag-usap maaari mong i-email ang mga resulta sa iyong sarili.

Talk And Talk Dictation

Ang iba pang Android Application na sinubukan ko ay "Talk And Talk Dictation".

Ang interface para sa app na ito ay ang pinakamahusay na ng bungkos at ang pagkilala ng boses ay nagtrabaho nang napakahusay talaga. Matapos irekord ang pagdidikta, nakapagbahagi ako ng mga resulta sa iba't ibang paraan kabilang ang sa pamamagitan ng email.

maligayang pagdating sa linux about.com ngayon pinag-uusapan natin ang pag-convert ng pagsasalita sa text

Tulad ng makikita mo ang teksto sa itaas ay tungkol sa bilang malinaw na maaari mong marahil inaasahan upang makakuha ng. Ang pag-uusap ay dahan-dahan ang susi.

Buod

Ang Native Linux ay may ilang mga paraan upang pumunta tungkol sa pagkilala ng Voice at partikular na pagdidikta. Mayroong ilang mga application na gumagamit ng Google Voice API ngunit hindi pa sila nakalista sa mga repository.

Ang mga application ng ChromeOS ay medyo mas mahusay ngunit sa ngayon ang mga pinakamahusay na resulta ay nakamit gamit ang aking Android phone. Siguro ang telepono ay may isang mas mahusay na mikropono at samakatuwid ang software sa pagkilala ng boses ay nakatayo ng isang mas mahusay na pagkakataon ng conversion.

Para sa pagkilala ng boses upang maging tunay na kapaki-pakinabang ito ay kailangang maging mas magaling sa mas kaunting pag-setup na kinakailangan. Hindi mo kailangang mag-gulo sa mga modelo ng wika at mga diksyunaryo upang maunawaan ito.

Gayunman, pinahahalagahan ko na ang buong sining ng pagkilala ng boses ay napakahirap dahil ang lahat ay may iba't ibang boses at maraming dialekto mula sa rehiyon hanggang rehiyon sa isang bansa na hindi nababahala tungkol sa daan-daang wika na ginagamit sa buong mundo.

Kung gayon, ang aking pag-aaral ay ang software ng pagkilala ng boses ay gumagana pa rin.