Pinag-aaralan ang pagbabalik-aral Mga Relasyon sa Pagitan ng Variable
Ang pagbabalik-loob ay isang pamamaraan ng pagmimina ng data na ginagamit upang mahulaan ang isang hanay ng mga numerong halaga (tinatawag din na mga tuloy-tuloy na halaga ), na ibinigay sa isang partikular na dataset. Halimbawa, maaaring gamitin ang pagbabalik upang mahulaan ang halaga ng isang produkto o serbisyo, na ibinigay sa ibang mga variable.
Ang pagbabalik-loob ay ginagamit sa maraming mga industriya para sa pagpaplano ng negosyo at pagmemerkado, pagtataya sa pananalapi, pagmomodelo sa kapaligiran at pagtatasa ng mga uso.
Mga Vs. Regression Pag-uuri
Ang pagbabalik at pag- uuri ay mga pamamaraan ng pagmimina ng data na ginagamit upang malutas ang mga katulad na problema, ngunit madalas itong nalilito. Ang parehong ay ginagamit sa pagtatasa ng hula, ngunit ang pagbabalik ay ginagamit upang mahulaan ang isang numeric o patuloy na halaga habang ang pag-uuri ay nagtatalaga ng data sa mga hiwalay na kategorya.
Halimbawa, ang pagbabalik ay gagamitin upang mahulaan ang halaga ng isang bahay batay sa lokasyon nito, mga paa sa parisukat, presyo kung kailan huling ibinebenta, ang presyo ng mga katulad na tahanan, at iba pang mga kadahilanan. Maayos ang pag-uuri kung nais mong halip ayusin ang mga bahay sa mga kategorya, tulad ng walkability, laki ng laki o mga rate ng krimen.
Mga Uri ng Mga Diskarte sa Pagbabalik-tanaw
Ang pinakasimpleng at pinakalumang paraan ng pagbabalik ay ang linear regression na ginamit upang tantiyahin ang isang relasyon sa pagitan ng dalawang mga variable. Ang pamamaraan na ito ay gumagamit ng matematikal na formula ng isang tuwid na linya (y = mx + b). Sa plain terms, ito ay nangangahulugan lamang na, binigyan ng isang graph na may Y at isang X-axis, ang relasyon sa pagitan ng X at Y ay isang tuwid na linya na may ilang mga outliers. Halimbawa, maaari nating isipin na, na binigyan ng pagtaas ng populasyon, ang produksyon ng pagkain ay tataas sa parehong rate - nangangailangan ito ng isang malakas, linear na relasyon sa pagitan ng dalawang numero. Upang maisalarawan ito, isaalang-alang ang isang graph kung saan ang Y-aksis ay sumusubaybay sa populasyon, at ang X-axis ay sumusubaybay sa produksyon ng pagkain. Habang tumutataas ang halaga ng Y, ang halaga ng X ay magtataas sa magkaparehong rate, na gumagawa ng ugnayan sa pagitan nila ng isang tuwid na linya.
Ang mga mahuhusay na diskarte, tulad ng maraming pagbabalik, mahuhulaan ang isang relasyon sa pagitan ng maraming mga variable - halimbawa, may kaugnayan sa pagitan ng kita, edukasyon at kung saan pipiliin ng isang tao na mamuhay? Ang pagdaragdag ng higit pang mga variable ay malaki ang pinatataas ang pagiging kumplikado ng hula. Mayroong ilang mga uri ng maramihang mga diskarte sa pagbabalik kabilang ang standard, hierarchical, setwise at stepwise, bawat isa ay may sariling aplikasyon.
Sa puntong ito, mahalaga na maunawaan kung ano ang sinisikap nating hulaan (ang umaasa o hinulaang variable) at ang data na ginagamit namin upang gawin ang hula (ang mga independyente o mga variable ng prediksyon). Sa aming halimbawa, gusto naming hulaan ang lokasyon kung saan pipiliin ng isang tao na mamuhay (ang hinulaang variable) na ibinigay na kita at edukasyon (parehong mga variable ng prediksyon ).
- Isinasaalang- alang ng karaniwang maramihang pagbabalik ang lahat ng mga variable ng prediktor nang sabay. Halimbawa 1) ano ang relasyon sa pagitan ng kita at edukasyon (tagahula) at pagpili ng kapitbahayan (hinulaang); at 2) hanggang sa anong antas ang bawat isa sa mga indibidwal na predikor ay nag-ambag sa relasyon na iyon?
- Ang sagot ng maramihang mga pagbabalik ay tumutugon sa isang lubos na naiibang tanong. Ang isang stepwise regression algorithm ay pag-aralan kung aling mga predictors ang pinakamahusay na ginagamit upang mahulaan ang pagpili ng kapitbahayan - ibig sabihin na ang stepwise modelo ay sinusuri ang pagkakasunud-sunod ng kahalagahan ng mga variable ng prediksyon at pagkatapos ay pipili ng isang kaugnay na subset. Ang ganitong uri ng problema sa pagbabalik ay gumagamit ng "mga hakbang" upang bumuo ng equation ng pagbabalik. Dahil sa ganitong uri ng pagbabalik, ang lahat ng mga prediktor ay hindi maaaring lumitaw sa huling equation ng pagbabalik.
- Ang hierarchical regression , tulad ng stepwise, ay isang sunud-sunod na proseso, ngunit ang mga variable ng prediktor ay ipinasok sa modelo sa isang paunang tinukoy na pagkakasunod-sunod na tinukoy nang maaga, ibig sabihin ang algorithm ay hindi naglalaman ng built-in na hanay ng mga equation para sa pagtukoy ng pagkakasunud-sunod kung saan ipasok ang predictors. Ito ay madalas na ginagamit kapag ang indibidwal na lumilikha ng equation ng pagbabalik ay may dalubhasang kaalaman sa larangan.
- Ang Setwise regression ay katulad din sa stepwise ngunit pinag-aaralan ang mga hanay ng mga variable kaysa sa mga indibidwal na variable.