Ang Pagtukoy sa Modelong Modelo ng Regression

Pinag-aaralan ang pagbabalik-aral Mga Relasyon sa Pagitan ng Variable

Ang pagbabalik-loob ay isang pamamaraan ng pagmimina ng data na ginagamit upang mahulaan ang isang hanay ng mga numerong halaga (tinatawag din na mga tuloy-tuloy na halaga ), na ibinigay sa isang partikular na dataset. Halimbawa, maaaring gamitin ang pagbabalik upang mahulaan ang halaga ng isang produkto o serbisyo, na ibinigay sa ibang mga variable.

Ang pagbabalik-loob ay ginagamit sa maraming mga industriya para sa pagpaplano ng negosyo at pagmemerkado, pagtataya sa pananalapi, pagmomodelo sa kapaligiran at pagtatasa ng mga uso.

Mga Vs. Regression Pag-uuri

Ang pagbabalik at pag- uuri ay mga pamamaraan ng pagmimina ng data na ginagamit upang malutas ang mga katulad na problema, ngunit madalas itong nalilito. Ang parehong ay ginagamit sa pagtatasa ng hula, ngunit ang pagbabalik ay ginagamit upang mahulaan ang isang numeric o patuloy na halaga habang ang pag-uuri ay nagtatalaga ng data sa mga hiwalay na kategorya.

Halimbawa, ang pagbabalik ay gagamitin upang mahulaan ang halaga ng isang bahay batay sa lokasyon nito, mga paa sa parisukat, presyo kung kailan huling ibinebenta, ang presyo ng mga katulad na tahanan, at iba pang mga kadahilanan. Maayos ang pag-uuri kung nais mong halip ayusin ang mga bahay sa mga kategorya, tulad ng walkability, laki ng laki o mga rate ng krimen.

Mga Uri ng Mga Diskarte sa Pagbabalik-tanaw

Ang pinakasimpleng at pinakalumang paraan ng pagbabalik ay ang linear regression na ginamit upang tantiyahin ang isang relasyon sa pagitan ng dalawang mga variable. Ang pamamaraan na ito ay gumagamit ng matematikal na formula ng isang tuwid na linya (y = mx + b). Sa plain terms, ito ay nangangahulugan lamang na, binigyan ng isang graph na may Y at isang X-axis, ang relasyon sa pagitan ng X at Y ay isang tuwid na linya na may ilang mga outliers. Halimbawa, maaari nating isipin na, na binigyan ng pagtaas ng populasyon, ang produksyon ng pagkain ay tataas sa parehong rate - nangangailangan ito ng isang malakas, linear na relasyon sa pagitan ng dalawang numero. Upang maisalarawan ito, isaalang-alang ang isang graph kung saan ang Y-aksis ay sumusubaybay sa populasyon, at ang X-axis ay sumusubaybay sa produksyon ng pagkain. Habang tumutataas ang halaga ng Y, ang halaga ng X ay magtataas sa magkaparehong rate, na gumagawa ng ugnayan sa pagitan nila ng isang tuwid na linya.

Ang mga mahuhusay na diskarte, tulad ng maraming pagbabalik, mahuhulaan ang isang relasyon sa pagitan ng maraming mga variable - halimbawa, may kaugnayan sa pagitan ng kita, edukasyon at kung saan pipiliin ng isang tao na mamuhay? Ang pagdaragdag ng higit pang mga variable ay malaki ang pinatataas ang pagiging kumplikado ng hula. Mayroong ilang mga uri ng maramihang mga diskarte sa pagbabalik kabilang ang standard, hierarchical, setwise at stepwise, bawat isa ay may sariling aplikasyon.

Sa puntong ito, mahalaga na maunawaan kung ano ang sinisikap nating hulaan (ang umaasa o hinulaang variable) at ang data na ginagamit namin upang gawin ang hula (ang mga independyente o mga variable ng prediksyon). Sa aming halimbawa, gusto naming hulaan ang lokasyon kung saan pipiliin ng isang tao na mamuhay (ang hinulaang variable) na ibinigay na kita at edukasyon (parehong mga variable ng prediksyon ).