Ano ang Pag-unawa sa Pagsasalita?

Paggamit ng Iyong Voice bilang Paraan ng Pag-input

Ang pagkilala sa pagsasalita ay isang teknolohiya na nagpapahintulot sa pasalitang input sa mga system. Kausap mo ang iyong computer, telepono o aparato at ginagamit nito ang iyong sinabi bilang input upang ma-trigger ang ilang aksyon. Ginagamit ang teknolohiya upang palitan ang ibang mga paraan ng input tulad ng pag-type, pag-click o pagpili sa iba pang mga paraan. Ito ay isang paraan upang gumawa ng mga aparato at software na mas user-friendly at upang madagdagan ang pagiging produktibo.

Mayroong maraming mga aplikasyon at mga lugar kung saan ginagamit ang pagkilala sa pagsasalita, kabilang ang militar, bilang isang tulong para sa mga taong may kapansanan (isipin ang isang taong may lumpo o walang mga kamay o daliri), sa medikal na larangan, sa robotics atbp Sa malapit na hinaharap, halos lahat ay malantad sa pagkilala sa pagsasalita dahil sa pagpapalaganap nito sa mga karaniwang aparato tulad ng mga computer at mga mobile phone.

Ang ilang mga smartphone ay gumagawa ng kagiliw-giliw na paggamit ng pagkilala sa pagsasalita. Ang mga iPhone at Android device ay mga halimbawa nito. Sa pamamagitan ng mga ito, maaari mong simulan ang isang tawag sa isang contact sa pamamagitan lamang ng pagkuha ng mga pasalitang tagubilin tulad ng 'Call office'. Ang iba pang mga utos ay maaari ding maging naaaliw, tulad ng 'Lumipat sa Bluetooth'.

Mga Problema sa Pagkilala sa Pagsasalita

Ang pagkilala ng speech, sa bersyon nito na kilala bilang Speech to Text (STT), ay ginagamit din para sa isang mahabang panahon upang isalin ang binabanggit na mga salita sa teksto. "Nagsasalita ka, nag-type ito", gaya ng sinasabi ng ViaVoice sa kahon nito. Ngunit may isang problema sa STT dahil alam natin ito. Mahigit sa 10 taon pabalik, sinubukan ko ang ViaVoice at hindi ito tumagal ng isang linggo sa aking computer. Bakit? Ito ay lubos na hindi tumpak at natapos ko ang paggastos ng mas maraming oras at pagsasalita at pagwawasto ng enerhiya kaysa sa pag-type ng lahat. Ang ViaVoice ay isa sa mga pinakamahusay sa industriya, kaya isipin ang iba. Ang teknolohiya ay umunlad at napabuti, ngunit ang pagsasalita sa teksto ay nagpapatuloy pa rin sa mga tao na magtanong. Ang isa sa mga pangunahing problema nito ay ang napakalawak na pagkakaiba-iba sa mga tao sa pagbigkas ng mga salita.

Hindi lahat ng mga wika ay nararapat sa pagkilala sa pagsasalita, at ang mga ginagawa nito ay madalas na hindi sinusuportahan pati na rin ang Ingles. Bilang resulta, karamihan sa mga device na nagpapatakbo ng software sa pagkilala sa pagsasalita ay nagsasagawa ng makatwirang lamang sa Ingles.

Ang isang hanay ng mga kinakailangan sa hardware ay gumagawa ng pagsasalita sa pagsasalita ay mahirap upang i-deploy sa ilang mga kaso. Kailangan mo ng isang mikropono na sapat na matalino upang i-filter ang ingay sa background ngunit sa parehong oras sapat na malakas upang makuha ang boses natural.

Sa pagsasalita ng ingay sa background, maaari itong magdulot ng buong sistema na mabibigo. Bilang resulta, nabigo ang pagkilala sa pagsasalita sa maraming mga kaso dahil sa mga noises na wala sa kontrol ng gumagamit.

Ang pagkilala sa pagsasalita ay pinatutunayan na mas mahusay na bilang isang paraan ng pag-input para sa mga bagong telepono at mga teknolohiya ng komunikasyon tulad ng VOIP, kaysa bilang tool ng pagiging produktibo para sa masusing pag-input ng teksto.

Application of Speech Recognition

Ang teknolohiya ay nakakakuha ng katanyagan sa maraming lugar at naging matagumpay sa mga sumusunod:

- Pagkontrol ng device. Ang pagsasabi lamang ng "OK Google" sa isang telepono ng Android ay nag-apoy ng isang sistema na lahat ng mga tainga sa iyong mga utos ng boses.

- Mga sistema ng Bluetooth ng Car. Maraming mga kotse ay may isang sistema na kumokonekta sa mekanismo ng radyo nito sa iyong smartphone sa pamamagitan ng Bluetooth. Pagkatapos ay maaari kang gumawa at tumanggap ng mga tawag nang hindi nauugnay ang iyong smartphone, at maaari ring i-dial ang mga numero sa pamamagitan lamang ng pagsasabi sa kanila.

- Pagkasalin ng boses. Sa mga lugar kung saan ang mga tao ay kailangang mag-type ng maraming, kinukuha ng ilang matalino na software ang kanilang mga salita at isalin ang mga ito sa teksto. Ito ay kasalukuyang nasa ilang word processing software. Gumagana din ang transcription ng boses sa visual na voicemail .