Paano Gamitin ang Tool ng 'Ngram Viewer' sa Google Books

Ang isang Ngram, karaniwan ding tinatawag na N-gram ay isang istatistikal na pagtatasa ng nilalaman ng teksto o pagsasalita upang makahanap ng n (isang numero) ng isang uri ng item sa teksto. Maaaring lahat ng uri ng mga bagay, tulad ng mga phonemes, mga prefix, parirala, o mga titik. Kahit na ang N-gram ay medyo nakakubli sa labas ng researcher, ito ay aktwal na ginagamit sa iba't ibang larangan, at ito ay may maraming mga implikasyon para sa mga taong gumagawa ng mga programa sa computer na nauunawaan at tumutugon sa natural na pasalitang wika. Iyon, sa maikling salita, ay magiging interes ng Google sa ideya.

Sa kaso ng Google Books Ngram Viewer, ang teksto na pinag-aralan ay mula sa malawak na halaga ng mga libro na na-scan ng Google mula sa mga pampublikong aklatan upang populate ang kanilang Google Books search engine. Para sa Google Books Ngram Viewer, sumangguni sila sa teksto na iyong susuriin bilang "corpus." Ang korporal sa Ngram Viewer ay nahahati sa pamamagitan ng wika, bagama't maaari mong hiwalay na pag-aralan ang Ingles at Amerikanong Ingles o magkasamang magkasama. Nagtatapos ito na sobrang kawili-wiling upang magpalipat-lipat mula sa paggamit ng mga tuntunin ng Ingles hanggang Amerikano at makita ang pagbabago ng mga tsart.

Paano Gumagana ang Ngram

  1. Pumunta sa Google Books Ngram Viewer sa books.google.com/ngrams.
  2. Ang mga item ay sensitibo sa kaso, hindi katulad ng mga paghahanap sa Google Web, kaya siguraduhin na mapakinabangan ang mga tamang nouns.
  3. I-type ang anumang parirala o parirala na nais mong pag-aralan. Tiyaking ihiwalay ang bawat parirala na may kuwit. Nagmumungkahi ang Google, "Albert Einstein, Sherlock Holmes, Frankenstein" upang makapagsimula ka.
  4. Susunod, mag-type sa hanay ng petsa. Ang default ay 1800 hanggang 2000, ngunit mayroong higit pang mga kamakailang mga libro (2011 ay ang pinakahuling nakalista sa dokumentasyon ng Google, ngunit maaaring nagbago ito.)
  5. Pumili ng isang corpus. Maaari kang maghanap ng mga teksto ng wikang banyaga o Ingles, at bilang karagdagan sa mga karaniwang pagpipilian, maaari mong mapansin ang mga bagay tulad ng "Ingles (2009) o American English (2009)" sa ibaba. Ang mga ito ay mas lumang korporasyon na na-update na ng Google, ngunit maaari kang magkaroon ng ilang kadahilanan upang gawin ang iyong mga paghahambing laban sa mga lumang hanay ng data. Maaaring balewalain ng karamihan ng mga user ang mga ito at tumuon sa pinakabagong corpora.
  6. Itakda ang iyong antas ng smoothing. Ang pagpapaputi ay tumutukoy sa kung gaano kaayon ang graph sa dulo. Ang pinaka-tumpak na representasyon ay magiging isang smoothing na antas ng 0, ngunit maaaring mahirap basahin. Ang default ay naka-set sa 3. Sa karamihan ng mga kaso, hindi mo kailangang i-adjust ito.
  1. Pindutin ang pindutan ng Paghahanap ng maraming mga libro . (Maaari mo ring pindutin lamang ang ipasok sa prompt ng paghahanap.)

Ano ang Ipinapakita ng Ngram?

Ang Google Books Ngram Viewer ay magpapadala ng isang graph na kumakatawan sa paggamit ng isang partikular na parirala sa mga aklat sa pamamagitan ng oras. Kung nakapasok ka ng higit sa isang salita o parirala, makikita mo ang mga linya ng naka-code na kulay upang i-contrast ang iba't ibang mga term sa paghahanap. Ito ay medyo katulad sa Google Trends , tanging ang paghahanap ay sumasaklaw sa mas matagal na panahon.

Narito ang isang real-buhay na halimbawa. Kami ay kakaiba tungkol sa mga pie ng suka kamakailan. Nabanggit ang mga ito sa Little House ng Laura Ingalls Wilder sa serye ng Prairie , ngunit hindi namin narinig ang ganoong bagay. Unang ginamit namin ang paghahanap sa Web ng Google upang matuto nang higit pa tungkol sa mga pie ng suka. Tila, sila ay itinuturing na bahagi ng American Southern cuisine at talagang ginawa mula sa suka. Sila ay nakikinig muli sa mga oras na hindi lahat ay may access sa sariwang ani sa lahat ng oras ng taon. Iyan ba ang buong kuwento?

Hinanap namin ang Google Ngram Viewer, at may ilang pagbanggit ng pie sa parehong maaga at late na 1800s, maraming mga pagbanggit sa 1940s, at isang pagtaas ng bilang ng mga pagbanggit sa kamakailang mga oras (marahil ilang pie nostalgia.) Well, mayroong ilang problema sa data sa isang antas ng smoothing ng 3. May isang talampas sa pagbanggit sa 1800s. Tiyak na hindi isang pantay na bilang ng pagbanggit ng isang partikular na pie bawat taon sa loob ng limang taon? Ang nangyayari ay dahil walang maraming mga libro na inilathala sa panahong iyon, at dahil ang aming data ay nakatakda upang makinis, ito ay distorts ang larawan. Marahil ay may isang libro na binanggit ang suka pie, at nakuha lamang ang average na ito upang maiwasan ang isang pako. Sa pamamagitan ng pag-set ng smoothing sa 0, maaari naming makita na ito ay eksakto ang kaso. Ang spike center sa 1869, at mayroong isa pang pako sa 1897 at 1900.

Walang sinuman ang nagsasalita tungkol sa suka ng pie sa nalalabing bahagi ng panahon? Marahil ay pinag-uusapan nila ang mga pie na iyon. May mga malamang na mga recipe na lumulutang sa buong lugar. Hindi lang nila isinulat ang tungkol sa mga ito sa mga aklat, at iyan ay isang limitasyon sa mga paghahanap sa Ngram na ito.

Advanced na Mga Paghahanap sa Ngram

Tandaan kung paano namin sinabi na ang Ngrams ay maaaring binubuo ng lahat ng uri ng iba't ibang mga paghahanap sa teksto? Pinapayagan ka ng Google na mag-drill ka nang lubos sa Ngram Viewer pati na rin. Kung nais mong maghanap ng isda ang pandiwa sa halip na isda ang pangngalan, magagawa mo ito sa pamamagitan ng paggamit ng mga tag. Sa kasong ito, maghanap ka ng "fish_VERB"

Ang Google ay nagbibigay ng isang kumpletong listahan ng mga utos na maaari mong gamitin at iba pang mga advanced na dokumentasyon sa kanilang website.