Hindamisel kasutatakse regressioonanalüüsi. Regressioonanalüüs on statistiline meetod juhusliku suuruse sõltuvuse uurimiseks muutujatest
Statistilises modelleerimises on regressioonanalüüs uuring, mida kasutatakse muutujate vahelise seose hindamiseks. See matemaatiline meetod hõlmab mitmeid muid tehnikaid mitme muutuja modelleerimiseks ja analüüsimiseks, kus keskendutakse sõltuva muutuja ja ühe või mitme sõltumatu muutuja vahelisele suhtele. Täpsemalt aitab regressioonanalüüs meil mõista, kuidas muutub sõltuva muutuja tüüpiline väärtus, kui üks sõltumatutest muutujatest muutub, samal ajal kui teised sõltumatud muutujad jäävad fikseerituks.
Kõigil juhtudel on sihthinnang sõltumatute muutujate funktsioon ja seda nimetatakse regressioonifunktsiooniks. Regressioonanalüüsis pakub huvi ka sõltuva muutuja muutuse iseloomustamine regressiooni funktsioonina, mida saab kirjeldada tõenäosusjaotuse abil.
Regressioonanalüüsi probleemid
The statistiline meetod Ennustamiseks kasutatakse laialdaselt uuringuid, kus selle kasutamisel on oluline eelis, kuid mõnikord võib see põhjustada illusiooni või valesid seoseid, mistõttu on soovitatav seda antud küsimuses hoolikalt kasutada, kuna näiteks korrelatsioon ei tähenda põhjuslikku seost.
Regressioonanalüüsiks on välja töötatud suur hulk meetodeid, näiteks lineaarne ja tavaline vähimruutude regressioon, mis on parameetrilised. Nende olemus seisneb selles, et regressioonifunktsioon on defineeritud piiratud arvu tundmatute parameetrite kaudu, mida hinnatakse andmete põhjal. Mitteparameetriline regressioon võimaldab selle funktsioonil asuda teatud funktsioonide komplektis, mis võib olla lõpmatu mõõtmega.
Statistilise uurimismeetodina sõltub regressioonanalüüs praktikas andmete genereerimise protsessi vormist ja sellest, kuidas see seostub regressioonimeetodiga. Kuna andmeprotsessi genereerimise tegelik vorm on tavaliselt teadmata arv, sõltub andmete regressioonanalüüs sageli teatud määral protsessi eeldustest. Need eeldused on mõnikord kontrollitavad, kui on piisavalt andmeid. Regressioonimudelid on sageli kasulikud isegi siis, kui eeldusi rikutakse mõõdukalt, kuigi need ei pruugi toimida maksimaalse efektiivsusega.
Kitsamas tähenduses võib regressioon viidata spetsiifiliselt pidevate reaktsioonimuutujate hindamisele, erinevalt klassifitseerimisel kasutatavatest diskreetsetest reaktsioonimuutujatest. Pidevat väljundmuutuja juhtu nimetatakse ka meetriliseks regressiooniks, et eristada seda seotud probleemidest.
Lugu
Kõige varajane vorm regressioonid on mõeldud kõigile tuntud meetod vähimruudud. Selle avaldasid Legendre 1805 ja Gauss 1809. Legendre ja Gauss rakendasid meetodit astronoomiliste vaatluste põhjal Päikese ümber paiknevate kehade (peamiselt komeetide, kuid hiljem ka äsja avastatud väikeplaneetide) orbiitide määramiseks. Gauss avaldas 1821. aastal vähimruutude teooria edasiarenduse, sealhulgas Gaussi-Markovi teoreemi versiooni.
Mõiste "regressioon" võttis 19. sajandil kasutusele Francis Galton bioloogilise nähtuse kirjeldamiseks. Idee seisnes selles, et järeltulijate kõrgus nende esivanemate kõrgusest kipub langema normaalse keskmise poole. Galtoni jaoks oli regressioonil ainult see bioloogiline tähendus, kuid hiljem jätkasid tema tööd Udney Yoley ja Karl Pearson ning tõid need üldisemasse statistilisse konteksti. Yule'i ja Pearsoni töödes eeldatakse, et vastuse ja selgitavate muutujate ühine jaotus on Gaussilik. Selle oletuse lükkas Fischer 1922. ja 1925. aasta paberites ümber. Fisher pakkus välja, et vastusemuutuja tingimuslik jaotus on Gaussi, kuid ühisjaotus ei pea olema. Selles osas on Fischeri ettepanek lähemal Gaussi 1821. aasta sõnastusele. Enne 1970. aastat kulus regressioonanalüüsi tulemuse saamiseks mõnikord kuni 24 tundi.
Regressioonanalüüsi meetodid on jätkuvalt aktiivse uurimistöö valdkond. Viimastel aastakümnetel on jõuliseks regressiooniks välja töötatud uued meetodid; regressioonid, mis hõlmavad korreleeritud vastuseid; regressioonimeetodid, mis sobivad Erinevat tüüpi puuduvad andmed; mitteparameetriline regressioon; Bayesi regressioonimeetodid; regressioonid, mille puhul ennustavaid muutujaid mõõdetakse veaga; regressioon, milles on rohkem ennustajaid kui vaatlusi, ja põhjus-tagajärg järeldus regressiooniga.
Regressioonimudelid
Regressioonanalüüsi mudelid sisaldavad järgmisi muutujaid:
- Tundmatud parameetrid, tähistatud beetaversiooniks, mis võib olla skalaar või vektor.
- Sõltumatud muutujad, X.
- Sõltuvad muutujad, Y.
Erinevates teadusvaldkondades, kus kasutatakse regressioonanalüüsi, kasutatakse sõltuvate ja sõltumatute muutujate asemel erinevaid termineid, kuid kõigil juhtudel seostab regressioonimudel Y funktsiooniga X ja β.
Lähendus kirjutatakse tavaliselt kujul E(Y | X) = F(X, β). Regressioonanalüüsi tegemiseks tuleb määrata funktsiooni f tüüp. Harvemini põhineb see teadmistel Y ja X vahelise seose kohta, mis ei tugine andmetele. Kui selliseid teadmisi pole, siis paindlik või mugav vorm F.
Sõltuv muutuja Y
Oletame nüüd, et tundmatute parameetrite vektori β pikkus on k. Regressioonanalüüsi tegemiseks peab kasutaja esitama teabe sõltuva muutuja Y kohta:
- Kui vaadeldakse N andmepunkti kujul (Y, X), kus N< k, большинство klassikalised lähenemised regressioonianalüüsi ei saa teha, kuna võrrandisüsteemil, mis määratleb regressioonimudeli alamääratletuna, puudub piisav kogus andmed β taastamiseks.
- Kui vaadeldakse täpselt N = K ja funktsioon F on lineaarne, saab võrrandi Y = F(X, β) lahendada pigem täpselt kui ligikaudselt. See tähendab N-võrrandite komplekti lahendamist N-tundmatutega (elemendid β), millel on ainulaadne lahendus seni, kuni X on lineaarselt sõltumatu. Kui F on mittelineaarne, ei pruugi lahendus olla või võib olla palju lahendusi.
- Kõige tavalisem on olukord, kus vaadeldakse N > andmepunkti. Sellisel juhul on andmetes piisavalt teavet, et hinnata β unikaalset väärtust, mis andmetega kõige paremini sobib, ja regressioonimudelit, kus andmete rakendust saab vaadelda β-s ülemääratletud süsteemina.
Viimasel juhul pakub regressioonanalüüs tööriistu:
- Tundmatute parameetrite β jaoks lahenduse leidmine, mis näiteks vähendab Y mõõdetud ja prognoositud väärtuse vahelist kaugust.
- Teatud statistiliste eelduste kohaselt kasutab regressioonanalüüs üleliigset teavet, et saada statistilist teavet tundmatute parameetrite β ja sõltuva muutuja Y prognoositud väärtuste kohta.
Nõutav arv sõltumatuid mõõtmisi
Vaatleme regressioonimudelit, millel on kolm tundmatut parameetrit: β 0 , β 1 ja β 2 . Oletame, et eksperimenteerija teeb sõltumatu muutuja vektori X sama väärtusega 10 mõõtmist. Sel juhul ei anna regressioonanalüüs ainulaadset väärtuste komplekti. Parim, mida saate teha, on hinnata keskmist ja standardhälve sõltuv muutuja Y. Samamoodi kahe mõõtmine erinevad tähendused X, saate piisavalt andmeid regressiooniks kahe tundmatuga, kuid mitte kolme või enama tundmatuga.
Kui katsetaja mõõtmised tehti sõltumatu muutuja vektori X kolme erineva väärtusega, annab regressioonanalüüs β kolme tundmatu parameetri jaoks ainulaadse hinnangute komplekti.
Üldise lineaarse regressiooni korral on ülaltoodud väide samaväärne maatriksi X T X inverteeritava nõudega.
Statistilised eeldused
Kui mõõtmiste arv N on suurem kui tundmatute parameetrite arv k ja mõõtmisvead ε i , siis reeglina levitatakse mõõtmistes sisalduv üleliigne informatsioon ja seda kasutatakse tundmatute parameetrite statistilisteks prognoosideks. Seda liigset teavet nimetatakse regressioonivabaduse astmeks.
Põhilised eeldused
Regressioonanalüüsi klassikalised eeldused hõlmavad järgmist:
- Valimi võtmine esindab järelduste ennustamist.
- Vea liige on juhuslik muutuja, mille keskmine on null ja mis sõltub selgitavatest muutujatest.
- Sõltumatuid muutujaid mõõdetakse vigadeta.
- Sõltumatute muutujatena (prognoosidena) on nad lineaarselt sõltumatud, st ühtegi ennustajat ei ole võimalik väljendada teiste lineaarse kombinatsioonina.
- Vead on korrelatsioonita, see tähendab, et diagonaalide ja iga nullist erineva elemendi vea kovariatsioonimaatriks on vea dispersioon.
- Vea dispersioon on vaatluste lõikes konstantne (homoskedastilisus). Kui ei, siis võib kasutada kaalutud vähimruutusid või muid meetodeid.
Nendel vähimruutude hindamise piisavatel tingimustel on nõutavad omadused; eelkõige tähendavad need eeldused, et parameetrite hinnangud on objektiivsed, järjepidevad ja tõhusad, eriti kui neid võetakse arvesse lineaarsete hinnangute klassis. Oluline on märkida, et tõendid vastavad harva tingimustele. See tähendab, et meetodit kasutatakse isegi siis, kui eeldused ei ole õiged. Mudeli kasulikkuse mõõtmiseks võib mõnikord kasutada eeldustest kõrvalekaldumist. Paljusid neist eeldustest saab täiustatud meetoditega leevendada. Statistilise analüüsi aruanded sisaldavad tavaliselt prooviandmete testide analüüsi ja mudeli kasulikkuse metoodikat.
Lisaks viitavad muutujad mõnel juhul punktides mõõdetud väärtustele. Muutujates võivad esineda ruumilised trendid ja ruumilised autokorrelatsioonid, mis rikuvad statistilisi eeldusi. Geograafiline kaalutud regressioon on ainus meetod, mis selliseid andmeid käsitleb.
Lineaarse regressiooni tunnuseks on see, et sõltuv muutuja, mis on Yi, on parameetrite lineaarne kombinatsioon. Näiteks lihtne lineaarne regressioon kasutab n-punktide modelleerimiseks ühte sõltumatut muutujat x i ja kahte parameetrit β 0 ja β 1.
Mitme lineaarse regressiooni korral on mitu sõltumatut muutujat või nende funktsiooni.
Kui populatsioonist võetakse juhuslik valim, võimaldavad selle parameetrid saada valimi lineaarse regressiooni mudeli.
IN see aspekt Kõige populaarsem on vähimruutude meetod. Seda kasutatakse parameetrite hinnangute saamiseks, mis minimeerivad jääkide ruudu summa. Selle funktsiooni selline minimeerimine (mis on tüüpiline lineaarse regressiooni korral) toob kaasa normaalvõrrandite komplekti ja parameetritega lineaarsete võrrandite komplekti, mis lahendatakse parameetrite hinnangute saamiseks.
Eeldusel, et populatsiooniviga üldiselt levib, saab teadlane kasutada neid standardvea hinnanguid usaldusvahemike loomiseks ja parameetrite hüpoteesitestide läbiviimiseks.
Mittelineaarne regressioonianalüüs
Näide, kus funktsioon ei ole parameetrite suhtes lineaarne, näitab, et ruutude summa tuleks iteratiivse protseduuri abil minimeerida. See toob kaasa palju komplikatsioone, mis määratlevad erinevused lineaarsete ja mittelineaarsete vähimruutude meetodite vahel. Sellest tulenevalt on regressioonanalüüsi tulemused mittelineaarse meetodi kasutamisel mõnikord ettearvamatud.
Võimsuse ja valimi suuruse arvutamine
Üldiselt puuduvad järjekindlad meetodid vaatluste arvu ja sõltumatute muutujate arvu kohta mudelis. Esimese reegli pakkusid välja Dobra ja Hardin ja see näeb välja selline N = t^n, kus N on valimi suurus, n on sõltumatute muutujate arv ja t on soovitud täpsuse saavutamiseks vajalike vaatluste arv, kui mudelil oleks ainult üks sõltumatu muutuja. Näiteks loob teadlane lineaarse regressioonimudeli, kasutades andmekogumit, mis sisaldab 1000 patsienti (N). Kui uurija otsustab, et sirge (m) täpseks määratlemiseks on vaja viit vaatlust, siis maksimaalne sõltumatute muutujate arv, mida mudel saab toetada, on 4.
Muud meetodid
Kuigi regressioonimudeli parameetreid hinnatakse tavaliselt vähimruutude meetodil, on ka teisi meetodeid, mida kasutatakse palju harvemini. Näiteks on need järgmised meetodid:
- Bayesi meetodid (näiteks Bayesi lineaarne regressioon).
- Protsentuaalne regressioon, kasutatakse olukordades, kus protsentuaalsete vigade vähendamist peetakse sobivamaks.
- Väikseimad absoluutsed kõrvalekalded, mis on tugevamad kvantiilse regressioonini viivate kõrvalekallete korral.
- Nõutav mitteparameetriline regressioon suur kogus tähelepanekud ja arvutused.
- Kaugõppemõõdik, mida õpitakse antud sisestusruumis tähendusliku kaugusmõõdiku leidmiseks.
Tarkvara
Kõik suuremad statistikatarkvarapaketid teostavad vähimruutude regressioonianalüüsi. Lihtne lineaarne regressioon ja mitmekordset regressioonianalüüsi saab kasutada nii mõnes arvutustabelirakenduses kui ka mõnes kalkulaatoris. Kuigi paljud statistikatarkvarapaketid suudavad teostada erinevat tüüpi mitteparameetrilist ja robustset regressiooni, on need meetodid vähem standardiseeritud; erinevaid tarkvarapakette erinevaid meetodeid. Spetsiaalne regressioon tarkvara töötati välja kasutamiseks sellistes valdkondades nagu uuringuanalüüs ja neuroimaging.
Regressioonanalüüs uurib teatud suuruse sõltuvust teisest suurusest või mitmest teisest suurusest. Regressioonanalüüsi kasutatakse peamiselt keskpika perioodi prognoosimises, samuti pikaajalises prognoosimises. Kesk- ja pikaajaline periood võimaldab tuvastada muutusi ettevõtluskeskkonnas ning võtta arvesse nende muutuste mõju uuritavale näitajale.
Regressioonanalüüsi tegemiseks vajate:
iga-aastaste andmete olemasolu uuritud näitajate kohta,
ühekordsete prognooside olemasolu, s.o. sellised prognoosid, mida uute andmete saabudes ei korrigeerita.
Regressioonanalüüsi tehakse tavaliselt objektide puhul, millel on kompleksne, mitmefaktoriline iseloom, näiteks investeeringute maht, kasum, müügimahud jne.
Kell normatiivne prognoosimismeetod määratakse kindlaks eesmärgiks võetud nähtuse võimalike seisundite saavutamise viisid ja tähtajad. See seisneb nähtuse soovitud seisundite saavutamise ennustamises, mis põhineb etteantud normidel, ideaalidel, stiimulitel ja eesmärkidel. See prognoos vastab küsimusele: kuidas saate saavutada selle, mida soovite? Normatiivmeetodit kasutatakse sagedamini programmi- või sihtprognooside puhul. Kasutatakse nii standardi kvantitatiivset väljendust kui ka hindamisfunktsiooni teatud skaala võimalusi
Kui kasutatakse kvantitatiivset väljendit, näiteks üksikute toiduainete ja toiduks mittekasutatavate toodete füsioloogilisi ja ratsionaalseid tarbimise norme, mille on välja töötanud spetsialistid erinevate elanikkonnarühmade jaoks, on võimalik kindlaks teha nende kaupade tarbimise tase. nimetatud normi saavutamisele eelnenud aastad. Selliseid arvutusi nimetatakse interpoleerimiseks. Interpolatsioon on nähtuse dünaamilises reas puuduvate näitajate arvutamise meetod, mis põhineb väljakujunenud seosel. Võttes indikaatori tegeliku väärtuse ja selle standardite väärtuse kui äärmuslikud liikmed dünaamiline seeria, saate määrata selle seeria väärtuste väärtused. Seetõttu peetakse interpoleerimist normatiivseks meetodiks. Eelnevalt antud ekstrapolatsioonis kasutatud valemit (4) saab kasutada interpoleerimisel, kus y ei iseloomusta enam tegelikke andmeid, vaid standardnäitajat.
Skaala (välja, spektri) kasutamise korral normatiivmeetodis näitavad hindamisfunktsiooni ehk eelistuste jaotusfunktsiooni võimalused ligikaudu järgmist gradatsiooni: ebasoovitav - vähem soovitav - soovitavam - kõige soovitavam - optimaalne ( standard).
Normatiivne prognoosimismeetod aitab välja töötada soovitusi objektiivsuse ja seega ka otsuste tõhususe tõstmiseks.
Modelleerimine, võib-olla kõige keerulisem prognoosimismeetod. Matemaatiline modelleerimine tähendab majandusnähtuse kirjeldamist matemaatiliste valemite, võrrandite ja võrratuste kaudu. Matemaatiline aparaat peab prognoositava tausta täpselt kajastama, kuigi prognoositava objekti kogu sügavust ja keerukust on üsna raske täielikult kajastada. Mõiste "mudel" on tuletatud Ladina sõna modelus, mis tähendab "mõõta". Seetõttu oleks õigem käsitleda modelleerimist mitte prognoosimeetodina, vaid sarnase nähtuse uurimise meetodit kasutades mudelit.
Laiemas mõttes on mudelid uurimisobjekti asendajad, mis on sellega sarnased nii, et see võimaldab objekti kohta uusi teadmisi saada. Mudelit tuleks käsitleda kui objekti matemaatilist kirjeldust. Sel juhul defineeritakse mudelit kui nähtust (objekti, seadet), mis on mingis vastavuses uuritava objektiga ja võib seda uurimisprotsessis asendada, esitades objekti kohta informatsiooni.
Rohkemaga kitsas arusaam Mudelis käsitletakse seda prognoosiobjektina, selle uurimine võimaldab saada teavet objekti võimalike olekute kohta tulevikus ja nende saavutamise viiside kohta. Sel juhul on ennustava mudeli eesmärk saada teavet mitte objekti kohta üldiselt, vaid ainult selle tulevaste olekute kohta. Siis võib mudeli ehitamisel olla võimatu otse kontrollida selle vastavust objektile, kuna mudel kujutab ainult oma tulevast olekut ja objekt ise võib hetkel puududa või olla teistsuguse olemasoluga.
Mudelid võivad olla materiaalsed või ideaalsed.
Majandusteadus kasutab ideaalseid mudeleid. Kõige arenenum ideaalne mudel sotsiaalmajandusliku (majandusliku) nähtuse kvantitatiivseks kirjeldamiseks on matemaatiline mudel, mis kasutab numbreid, valemeid, võrrandeid, algoritme või graafilist esitust. Majandusmudelite abil määravad nad:
sõltuvus erinevate majandusnäitajate vahel;
näitajatele seatud mitmesugused piirangud;
kriteeriumid protsessi optimeerimiseks.
Objekti sisuka kirjelduse saab esitada selle vormistatud diagrammi kujul, mis näitab, milliseid parameetreid ja esialgset teavet on vaja koguda vajalike koguste arvutamiseks. Matemaatiline mudel, erinevalt formaliseeritud skeemist, sisaldab konkreetseid objekti iseloomustavaid arvandmeid Matemaatilise mudeli väljatöötamine sõltub suuresti prognoosija arusaamast modelleeritava protsessi olemusest. Oma ideedele tuginedes esitab ta tööhüpoteesi, mille abil luuakse mudelist analüütiline kirje valemite, võrrandite ja võrratuste näol. Võrrandisüsteemi lahendamise tulemusena saadakse funktsiooni spetsiifilised parameetrid, mis kirjeldavad soovitud muutujate muutumist ajas.
Tööde järjekord ja järjestus prognoosikorralduse elemendina määratakse sõltuvalt kasutatavast prognoosimeetodist. Tavaliselt tehakse seda tööd mitmes etapis.
1. etapp – ennustav tagasivaade, st prognoosiobjekti ja prognoosi tausta kindlaks tegemine. Esimese etapi tööd tehakse järgmises järjestuses:
objekti kirjelduse kujundamine minevikus, mis sisaldab objekti eelprognoosi analüüsi, selle parameetrite, nende olulisuse ja omavaheliste seoste hindamist,
teabeallikate väljaselgitamine ja hindamine, nendega töötamise kord ja korraldus, tagasiulatuva teabe kogumine ja paigutamine;
uurimiseesmärkide seadmine.
Prognooside retrospektsiooni ülesandeid täites uurivad ennustajad objekti arengulugu ja prognoosi tausta, et saada nendest süsteemne kirjeldus.
2. etapp - ennustav diagnoos, mille käigus uuritakse prognoosiobjekti ja prognoosi tausta süstemaatilist kirjeldust, et tuvastada nende arengusuundumused ning valida mudelid ja prognoosimeetodid. Tööd tehakse järgmises järjekorras:
prognoosiobjekti mudeli väljatöötamine, sh objekti formaliseeritud kirjeldus, mudeli objektile adekvaatsuse astme kontrollimine;
prognoosimismeetodite (põhi- ja abi) valik, algoritmi ja tööprogrammide väljatöötamine.
3. etapp - kaitse, st prognoosi ulatusliku väljatöötamise protsess, mis hõlmab: 1) prognoositavate parameetrite arvutamist etteantud perioodiks; 2) prognoosi üksikute komponentide süntees.
4. etapp - prognoosi hindamine, sealhulgas selle kontrollimine, st usaldusväärsuse, täpsuse ja kehtivuse määra kindlaksmääramine.
Uurimise ja hindamise käigus lahendatakse eelnevate etappide põhjal prognoosimise ja selle hindamise probleemid.
Näidatud etapid on ligikaudsed ja sõltuvad peamisest prognoosimeetodist.
Prognoositulemused vormistatakse sertifikaadi, aruande või muu materjalina ja esitatakse kliendile.
Prognoosides saab näidata prognoosi hälbe suurust objekti tegelikust olekust, mida nimetatakse prognoosiveaks, mis arvutatakse valemiga:
;
;
.
(9.3)
Vigade allikad prognoosimisel
Peamised allikad võivad olla:
1. Lihtne andmete ülekandmine (ekstrapoleerimine) minevikust tulevikku (näiteks ettevõttel pole muid prognoosivõimalusi peale 10% müügikasvu).
2. Suutmatus täpselt määrata sündmuse tõenäosust ja selle mõju uuritavale objektile.
3. Plaani elluviimist mõjutavad ettenägematud raskused (segavad sündmused), näiteks müügiosakonna juhataja ootamatu vallandamine.
Üldiselt prognoosimise täpsus suureneb prognoosimiskogemuse kogunedes ja selle meetodite täiustamisel.
Pärast seda, kui korrelatsioonianalüüs on näidanud statistiliste seoste olemasolu muutujate vahel ja hinnanud nende läheduse astet, liigume tavaliselt edasi matemaatilise kirjelduse juurde. konkreetne tüüp sõltuvused regressioonanalüüsi abil. Selleks valitakse funktsioonide klass, mis ühendab saadud indikaatori y ja argumendid x 1, x 2, ..., x k, valitakse kõige informatiivsemad argumendid, parameetrite tundmatute väärtuste hinnangud. kommunikatsioonivõrrand arvutatakse ja saadud võrrandi omadusi analüüsitakse.
Funktsiooni f(x 1, x 2,..., x k), mis kirjeldab resultanttunnuse y keskmise väärtuse sõltuvust argumentide antud väärtustest, nimetatakse regressioonifunktsiooniks (võrrandiks). Mõiste "regressioon" (ladina keeles -regression - taganemine, millegi juurde tagasi pöördumine) võttis kasutusele inglise psühholoog ja antropoloog F. Galton ning see on seotud eranditult ühe esimese konkreetse näite spetsiifikaga, milles seda mõistet kasutati. Nii leidis F. Galton statistilisi andmeid seoses pikkuse pärilikkuse analüüsiga töödeldes, et kui isad kalduvad kõigi isade keskmisest pikkusest x tolli võrra, siis nende pojad kalduvad kõigi poegade keskmisest pikkusest vähem kui x võrra. tolli. Tuvastatud suundumust nimetati "regressiooniks keskmisele". Sellest ajast alates on terminit “regressioon” statistikakirjanduses laialdaselt kasutatud, kuigi paljudel juhtudel ei iseloomusta see statistilise sõltuvuse mõistet täpselt.
Regressioonivõrrandi täpseks kirjeldamiseks on vaja teada efektiivse näitaja y jaotusseadust. Statistilises praktikas tuleb tavaliselt piirduda sobivate lähenduste otsimisega tundmatu tõelise regressioonifunktsiooni jaoks, kuna uurijal ei ole täpseid teadmisi analüüsitava resultantindikaatori y tingimusliku tõenäosusjaotuse seadusest antud väärtuste korral. argument x.
Vaatleme seost tõese f(x) = M(y1x) vahel, mudeli regressiooni? ja regressioonihinnang y. Olgu efektiivne näitaja y seotud argumendiga x seosega:
kus on juhuslik suurus, millel on normaaljaotuse seadus ja Me = 0 ja D e = y 2. Tõeline regressioonifunktsioon on sel juhul kujul: f (x) = M(y/x) = 2x 1,5.
Oletame, et me ei tea tõelise regressioonivõrrandi täpset kuju, kuid meil on üheksa vaatlust kahemõõtmelise juhusliku suuruse kohta, mis on seotud seosega yi = 2x1,5 + e ja mis on esitatud joonisel fig. 1
Pilt 1 - Vastastikune korraldus tõde f(x) ja teoreetiline? regressioonimudelid
Punktide asukoht joonisel fig. 1 lubab meil piirduda vormi lineaarsete sõltuvuste klassiga? = in 0 + in 1 x. Vähimruutude meetodit kasutades leiame regressioonivõrrandi hinnangu y = b 0 + b 1 x. Võrdluseks joonisel fig. 1 näitab tõelise regressioonifunktsiooni y = 2x 1,5 graafikuid, teoreetilise lähendava regressioonifunktsiooni? = in 0 + in 1 x .
Kuna tegime regressioonifunktsiooni klassi valikul vea ja see on statistilise uurimistöö praktikas üsna tavaline, siis osutuvad meie statistilised järeldused ja hinnangud ekslikeks. Ja olenemata sellest, kui palju me suurendame vaatluste mahtu, ei ole meie valimi hinnang y tõelise regressioonifunktsiooni f(x) lähedal. Kui oleksime regressioonifunktsioonide klassi õigesti valinud, siis kas f(x) kirjeldamisel on ebatäpsus? saab seletada ainult valimipiirangutega.
Eesmärgiga parim taastumine efektiivse näitaja y(x) tingimusliku väärtuse ja tundmatu regressioonifunktsiooni f(x) = M(y/x) statistiliste algandmete põhjal kasutatakse kõige sagedamini järgmisi adekvaatsuse kriteeriume (kahjufunktsioone).
Vähima ruudu meetod. Selle järgi on efektiivse indikaatori y vaadeldud väärtuste (i = 1,2,..., n) kõrvalekalde ruut mudeli väärtustest,? = f(x i), kus x i on argumendivektori väärtus in i-s tähelepanek: ?(y i - f(x i) 2 > min. Saadud regressiooni nimetatakse ruutkeskmiseks.
Väikseimate moodulite meetod. Selle kohaselt on efektiivse indikaatori vaadeldud väärtuste absoluutsete kõrvalekallete summa modulaarsetest väärtustest viidud miinimumini. Ja me saame,? = f(x i), keskmine absoluutne keskmine regressioon? |y i - f(x i)| > min.
Regressioonanalüüs on statistilise analüüsi meetod juhusliku suuruse y sõltuvuse kohta muutujatest x j = (j = 1,2,..., k), mida regressioonanalüüsis peetakse mitte. juhuslikud muutujad, sõltumata tõelisest jaotusseadusest x j.
Tavaliselt eeldatakse, et juhuslikul muutujal y on normaaljaotuse seadus tingimusliku ootusega y, mis on argumentide x/ (/ = 1, 2,..., k) funktsioon ja konstantne dispersioon y 2, mis ei sõltu argumendid.
Üldiselt on lineaarse regressioonianalüüsi mudelil järgmine vorm:
Y = Y k j = 0 V j ts j(x 1 , x 2 . . .. ,x k)+E
kus q j on selle muutujate - x 1, x 2 - mingi funktsioon. . .. ,x k, E on juhuslik suurus, mille matemaatiline ootus ja dispersioon y 2 on null.
Regressioonanalüüsis valitakse regressioonivõrrandi tüüp, lähtudes uuritava nähtuse füüsikalisest olemusest ja vaatlustulemustest.
Regressioonivõrrandi tundmatute parameetrite hinnangud leitakse tavaliselt vähimruutude meetodil. Allpool käsitleme seda probleemi üksikasjalikumalt.
Kahe muutujaga lineaarse regressiooni võrrand. Oletame uuritava nähtuse analüüsi põhjal, et “keskmiselt” y on x lineaarfunktsioon, st on olemas regressioonivõrrand.
y=M(y/x)=in 0 + in 1 x)
kus M(y1x) on juhusliku suuruse y tingimuslik matemaatiline ootus antud x jaoks; 0 ja 1 juures - üldkogumi tundmatud parameetrid, mida tuleb hinnata valimivaatluste tulemuste põhjal.
Oletame, et parameetrite hindamiseks 0 ja 1 juures võetakse kahemõõtmelisest populatsioonist (x, y) valim suurusega n, kus (x, y,) on i-nda vaatluse tulemus (i = 1). , 2,..., n) . Sel juhul on regressioonanalüüsi mudelil järgmine vorm:
y j = in 0 + in 1 x+e j .
kus e j on sõltumatud normaaljaotusega juhuslikud suurused, mille matemaatiline ootus ja dispersioon y 2 on null, st M e j. = 0;
D e j .= y 2 kõigi i = 1, 2,..., n korral.
Vähimruutude meetodi kohaselt tuleks tundmatute parameetrite hinnangutena 0 ja 1 juures võtta sellised valimi karakteristikute väärtused b 0 ja b 1, mis minimeerivad resultantide väärtuste ruutude hälvete summa. i-le iseloomulik tinglik matemaatiline ootus? i
Vaatleme metoodikat turundustunnuste mõju määramiseks ettevõtte kasumile seitsmeteistkümne tüüpilise keskmise suuruse ja majandustegevuse näitajatega ettevõtte näitel.
Probleemi lahendamisel võeti arvesse järgmisi ankeetküsitluse tulemusel kõige olulisemate (olulisemate) tunnuseid:
* uuendustegevus ettevõtted;
* toodetava tootevaliku planeerimine;
* hinnapoliitika kujundamine;
* avalikud suhted;
* müügisüsteem;
* töötajate motivatsioonisüsteem.
Faktorite võrdlussüsteemi põhjal koostati külgnevuse ruutmaatriksid, milles arvutati iga teguri suhteliste prioriteetide väärtused: ettevõtte uuendustegevus, tootevaliku planeerimine, hinnapoliitika kujundamine, reklaam. , suhtekorraldus, müügisüsteem, töötajate motivatsioonisüsteem.
Ettevõtlusspetsialistide küsitluse tulemusena saadi teguri „suhe avalikkusega“ prioriteetide hinnangud. Aktsepteeritakse järgmisi tähiseid: > (parem), > (parem või sama), = (sama),< (хуже или одинаково), <
Järgmisena lahendati ettevõtte turundustaseme tervikliku hindamise probleem. Näitaja arvutamisel määrati vaadeldavate osatunnuste olulisus (kaal) ja lahendati osanäitajate lineaarkonvolutsiooni probleem. Andmetöötlus viidi läbi spetsiaalselt välja töötatud programmide abil.
Järgmisena arvutatakse ettevõtte turundustaseme terviklik hinnang - turunduskoefitsient, mis kantakse tabelisse 1. Lisaks on tabelis toodud ettevõtet kui tervikut iseloomustavad näitajad. Tabelis olevaid andmeid kasutatakse regressioonianalüüsi tegemiseks. Saadud atribuut on kasum. Koos turunduskoefitsiendiga kasutati tegurite tunnustena järgmisi näitajaid: kogutoodangu maht, põhivara maksumus, töötajate arv, spetsialiseerumiskoefitsient.
Tabel 1 – algandmed regressioonanalüüsiks
Tabeliandmete ja kõige olulisemate korrelatsioonikoefitsientide väärtustega tegurite põhjal konstrueeriti kasumi teguritest sõltumise regressioonifunktsioonid.
Meie puhul on regressioonivõrrand järgmine:
Eelpool käsitletud tegurite kvantitatiivset mõju kasumi suurusele näitavad regressioonivõrrandi koefitsiendid. Need näitavad, mitu tuhat rubla muutub selle väärtus, kui teguri tunnus muutub ühe ühiku võrra. Nagu võrrandist järeldub, suurendab turundusmiksi koefitsiendi suurendamine ühe ühiku võrra kasumit 1547,7 tuhande rubla võrra. See viitab sellele, et turundustegevuse parandamisel on tohutu potentsiaal ettevõtete majandustulemuste parandamiseks.
Turunduse efektiivsuse uurimisel on kõige huvitavam ja olulisem tegur X5 - turunduskoefitsient. Vastavalt statistika teooriale on olemasoleva mitme regressiooni võrrandi eeliseks võimalus hinnata iga teguri, sealhulgas turundusteguri isoleeritud mõju.
Regressioonanalüüsi tulemustel on laiem rakendus kui võrrandi parameetrite arvutamisel. Ettevõtete (Kef) suhteliselt paremaks või suhteliselt halvemaks liigitamise kriteerium põhineb tulemuse suhtelisel näitajal:
kus Y facti on i-nda ettevõtte tegelik väärtus, tuhat rubla;
Y arvutatud - i-nda ettevõtte kasumi summa, mis saadakse arvutamisel regressioonivõrrandi abil
Lahendatava probleemi mõistes nimetatakse väärtust "efektiivsuse koefitsiendiks". Ettevõtte tegevust võib pidada tulemuslikuks juhtudel, kui koefitsiendi väärtus on suurem kui üks. See tähendab, et tegelik kasum on suurem kui valimi keskmine kasum.
Tegelikud ja hinnangulised kasumi väärtused on toodud tabelis. 2.
Tabel 2 – Saadud karakteristiku analüüs regressioonimudelis
Tabeli analüüs näitab, et meie puhul võib ettevõtete 3, 5, 7, 9, 12, 14, 15, 17 tegevust vaadeldaval perioodil lugeda edukaks.
Regressioonanalüüsi meetodit kasutatakse konkreetsesse parameetriseeriasse kuuluvate toodete tehniliste ja majanduslike parameetrite määramiseks, et luua ja joondada väärtussuhteid. Seda meetodit kasutatakse selliste toodete taseme ja hinnasuhte analüüsimiseks ja põhjendamiseks, mida iseloomustab ühe või mitme tehnilise ja majandusliku parameetri olemasolu, mis kajastavad tarbija peamisi omadusi. Regressioonanalüüs võimaldab leida empiirilise valemi, mis kirjeldab hinna sõltuvust toodete tehnilistest ja majanduslikest parameetritest:
P=f(X1X2,...,Xn),
kus P on toote ühikuhinna väärtus, hõõruda; (X1, X2, ... Xn) - toodete tehnilised ja majanduslikud parameetrid.
Regressioonanalüüsi meetod - kasutatud normatiiv-parameetrilistest meetoditest kõige arenenum - on efektiivne kaasaegsete infotehnoloogiate ja -süsteemide kasutamisel põhinevate arvutuste tegemisel. Selle rakendus hõlmab järgmisi põhietappe:
- toodete klassifikatsiooni parameetriliste rühmade määramine;
- toote hinda kõige enam mõjutavate parameetrite valik;
- parameetrite muutumisel hinnamuutuste vahelise seose vormi valik ja põhjendamine;
- normaalvõrrandisüsteemi koostamine ja regressioonikordajate arvutamine.
Peamine toodete kvalifitseerimisgrupp, mille hind kuulub võrdsustamisele, on parameetriseeria, mille raames saab tooteid rühmitada erinevatesse konstruktsioonidesse olenevalt nende rakendusest, töötingimustest ja nõuetest jne. Parameetriliste seeriate moodustamisel kasutatakse automaatseid klassifitseerimismeetodeid saab kasutada, mis võimaldab eristada homogeenseid rühmi toodete kogumassist. Tehniliste ja majanduslike parameetrite valik tehakse järgmiste põhinõuete alusel:
- valitud parameetrid hõlmavad standardites ja tehnilistes kirjeldustes registreeritud parameetreid; lisaks tehnilistele parameetritele (võimsus, kandevõime, kiirus jne) kasutatakse toote serialiseerimise, keerukuskoefitsientide, unifitseerimise jms näitajaid;
- valitud parameetrite kogum peaks piisavalt täielikult iseloomustama seeriasse kuuluvate toodete disaini, tehnoloogilisi ja tööomadusi ning olema hinnaga üsna tihedalt seotud;
- parameetrid ei tohiks olla üksteisest sõltuvad.
Hinda oluliselt mõjutavate tehniliste ja majanduslike parameetrite valimiseks arvutatakse paaride korrelatsioonikoefitsientide maatriks. Parameetrite omavaheliste korrelatsioonikoefitsientide suuruse põhjal saab hinnata nende seose tihedust. Samas näitab nullilähedane korrelatsioon parameetri ebaolulist mõju hinnale. Tehniliste ja majanduslike parameetrite lõplik valik viiakse läbi samm-sammulise regressioonianalüüsi protsessis, kasutades arvutitehnoloogiat ja sobivaid standardprogramme.
Hinnakujunduspraktikas kasutatakse järgmisi funktsioonide komplekti:
lineaarne
P = ao + alXl + ... + antXn,
lineaarne võimsus
P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)
pöördlogaritm
P = a0 + a1: X1 + ... + an: Xn,
võimsus
P = a0 (X1^a1) (X2^a2) .. (Xn^an)
soovituslik
P = e^(a1+a1X1+...+anXn)
hüperboolne
P = ao + a1:X1 + a2:X2 + ... + ap:Xn,
kus P on hinna võrdsustamine; X1 X2,..., Xn - seeria toodete tehniliste ja majanduslike parameetrite väärtus; a0, a1 ..., аn - regressioonivõrrandi arvutatud koefitsiendid.
Hinnakujunduse praktilises töös võib sõltuvalt hindade ning tehniliste ja majanduslike parameetrite seose vormist kasutada muid regressioonivõrrandeid. Hinna ja tehniliste ja majanduslike parameetrite kogumi vahelise seose funktsiooni tüüpi saab arvutitöötluse käigus eelseadistada või automaatselt valida. Hinna ja parameetrite kogumi vahelise korrelatsiooni lähedust hinnatakse mitmekordse korrelatsioonikordaja väärtusega. Selle lähedus ühele näitab tihedat seost. Regressioonivõrrandi abil saadakse antud parameetrilise seeria toodete võrdsustatud (arvutatud) hinnaväärtused. Tasandamise tulemuste hindamiseks arvutatakse arvutatud hinnaväärtuste tegelikest kõrvalekallete suhtelised väärtused:
Tsr = Rf - Rr: R x 100
kus Рф, Рр - tegelikud ja arvestuslikud hinnad.
CR väärtus ei tohiks ületada 8-10%. Arvutatud väärtuste oluliste kõrvalekallete korral tegelikest on vaja uurida:
- parameetrilise seeria moodustamise õigsus, kuna see võib sisaldada tooteid, mis oma parameetrite poolest erinevad järsult teistest seeria toodetest. Need tuleb välja jätta;
- tehniliste ja majanduslike parameetrite õige valik. Võimalik on parameetrite kogum, mis on nõrgalt korrelatsioonis hinnaga. Sel juhul on vaja jätkata otsingut ja parameetrite valimist.
Regressioonanalüüsi läbiviimise, võrrandi tundmatute parameetrite leidmise ja saadud tulemuste majandusliku hindamise protseduur ja metoodika viiakse läbi vastavalt matemaatilise statistika nõuetele.
Mis on regressioon?
Vaatleme kahte pidevat muutujat x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).
Asetame punktid kahemõõtmelisele hajuvusgraafikule ja ütleme, et on lineaarne seos, kui andmed on ligikaudsed sirgjoonega.
Kui me seda usume y sõltub x ja muutub y on põhjustatud just muutustest x, saame määrata regressioonijoone (regressioon y peal x), mis kirjeldab kõige paremini nende kahe muutuja vahelist lineaarset seost.
Sõna regressioon statistiline kasutamine tuleneb nähtusest, mida tuntakse kui regressiooni keskmiseni ja mille omistab Sir Francis Galton (1889).
Ta näitas, et kuigi pikkadel isadel on tavaliselt pikad pojad, on poegade keskmine pikkus lühem kui nende pikkadel isadel. Poegade keskmine pikkus "taandus" ja "nihkus tahapoole" elanikkonna kõigi isade keskmise pikkuse suunas. Seega on pikkadel isadel keskmiselt lühemad (kuid siiski üsna pikad) pojad, lühikestel isadel aga pikemad (aga siiski üsna lühikesed) pojad.
Regressioonijoon
Matemaatiline võrrand, mis hindab lihtsat (paaripõhist) lineaarset regressioonijoont:
x nimetatakse sõltumatuks muutujaks või ennustajaks.
Y- sõltuv muutuja või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on "ennustatud väärtus" y»
- a- hindamisliini vabaliige (ristmik); see on tähendus Y, Millal x=0(joonis 1).
- b- hinnangulise joone kalle või gradient; see tähistab summat, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.
- a Ja b nimetatakse hinnangulise rea regressioonikordajateks, kuigi seda terminit kasutatakse sageli ainult b.
Paaripõhist lineaarset regressiooni saab laiendada nii, et see hõlmaks rohkem kui ühte sõltumatut muutujat; sel juhul tuntakse seda kui mitmekordne regressioon.
Joonis 1. Lineaarne regressioonijoon, mis näitab lõikepunkti a ja kallet b (summa Y suureneb, kui x suureneb ühe ühiku võrra)
Vähima ruudu meetod
Regressioonanalüüsi teostame vaatluste valimi abil, kus a Ja b- tõeliste (üldiste) parameetrite α ja β valimihinnangud, mis määravad lineaarse regressioonijoone populatsioonis (üldkogumis).
Lihtsaim meetod koefitsientide määramiseks a Ja b on vähima ruudu meetod(MNC).
Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = vaadeldud y- ennustas y, Riis. 2).
Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.
Riis. 2. Lineaarne regressioonijoon iga punkti jääkidega (vertikaalsed punktiirjooned).
Lineaarse regressiooni eeldused
Seega on iga vaadeldava väärtuse jääk võrdne erinevuse ja vastava prognoositud väärtusega.Iga jääk võib olla positiivne või negatiivne.
Jääkide abil saate testida järgmisi lineaarse regressiooni eeldusi.
- Jäägid jaotatakse tavaliselt nulliga;
Kui lineaarsuse, normaalsuse ja/või konstantse dispersiooni eeldused on küsitavad, saame teisendada või arvutada uue regressioonisirge, mille puhul need eeldused on täidetud (näiteks kasutada logaritmilist teisendust vms).
Anomaalsed väärtused (kõrvalväärtused) ja mõjupunktid
"Mõjuline" vaatlus, kui see välja jäetakse, muudab üht või mitut mudeli parameetri hinnangut (st kallet või lõikepunkti).
Kõrvalväärtus (vaatlus, mis ei ole kooskõlas enamiku andmekogumi väärtustega) võib olla "mõjukas" vaatlus ja seda saab hõlpsasti visuaalselt tuvastada, kontrollides kahe muutujaga hajuvusdiagrammi või jääkgraafikut.
Nii kõrvalekallete kui ka “mõjukate” vaatluste (punktide) puhul kasutatakse mudeleid nii nende kaasamisega kui ka ilma ning pööratakse tähelepanu muutustele hinnangutes (regressioonikordajad).
Analüüsi tegemisel ei tohiks kõrvalekaldeid ega mõjupunkte automaatselt kõrvale jätta, kuna nende lihtsalt eiramine võib saadud tulemusi mõjutada. Uurige alati nende kõrvalekallete põhjuseid ja analüüsige neid.
Lineaarse regressiooni hüpotees
Lineaarse regressiooni konstrueerimisel testitakse nullhüpoteesi, et regressioonijoone β üldine kalle on võrdne nulliga.
Kui sirge kalle on null, ei ole lineaarset seost ja vahel: muutus ei mõjuta
Nullhüpoteesi testimiseks, et tegelik kalle on null, võite kasutada järgmist algoritmi:
Arvutage katsestatistika, mis on võrdne suhtega , mis allub vabadusastmetega jaotusele, kus koefitsiendi standardviga
,
- jääkide hajuvuse hindamine.
Tavaliselt lükatakse nullhüpotees tagasi, kui saavutatakse olulisuse tase.
kus on vabadusastmetega jaotuse protsendipunkt, mis annab kahepoolse testi tõenäosuse
See on intervall, mis sisaldab üldist kallet tõenäosusega 95%.
Näiteks suurte valimite puhul saame ligikaudse väärtusega 1,96 (st testistatistika kipub olema normaalselt jaotunud)
Lineaarse regressiooni kvaliteedi hindamine: määramistegur R 2
Lineaarse seose tõttu ja eeldame, et see muutub
ja nimetage seda variatsiooniks, mis on regressioonist tingitud või sellega seletatav. Jääkvariatsioon peaks olema võimalikult väike.
Kui see on tõsi, siis on suurem osa variatsioonist seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.
Regressiooniga seletatavat kogudispersiooni osakaalu nimetatakse määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R 2(paaris lineaarses regressioonis on see suurus r 2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.
Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.
Hindamiseks pole formaalset testi; regressioonijoone sobivuse kindlaksmääramiseks peame tuginema subjektiivsele hinnangule.
Regressioonijoone rakendamine prognoosile
Saate kasutada regressioonijoont, et ennustada väärtust vaadeldava vahemiku äärmises lõpus olevast väärtusest (ärge kunagi ekstrapoleerige neid piire kaugemale).
Me ennustame konkreetse väärtusega vaadeldavate näitajate keskmist, ühendades selle väärtuse regressioonijoone võrrandiga.
Seega, kui ennustame kui Kasutage seda ennustatud väärtust ja selle standardviga, et hinnata populatsiooni tegeliku keskmise usaldusvahemikku.
Selle protseduuri kordamine erinevate väärtuste jaoks võimaldab teil luua selle rea usalduspiirid. See on riba või ala, mis sisaldab tõelist joont, näiteks 95% usaldusnivooga.
Lihtsad regressiooniplaanid
Lihtsad regressioonikujundused sisaldavad ühte pidevat ennustajat. Kui ennustavate väärtustega P on 3 vaatlust, näiteks 7, 4 ja 9, ja disain sisaldab esimest järku efekti P, siis on kujundusmaatriks X
ja regressioonivõrrand, kasutades P jaoks X1 on
Y = b0 + b1 P
Kui lihtne regressioonikujundus sisaldab P-le kõrgemat järku efekti, näiteks ruutlikku efekti, siis tõstetakse kujundusmaatriksi veerus X1 olevad väärtused teise astmeni:
ja võrrand saab kuju
Y = b0 + b1 P2
Sigma-piiratud ja üleparameetrilised kodeerimismeetodid ei kehti lihtsate regressioonikavandite ja muude ainult pidevaid ennustajaid sisaldavate kujunduste puhul (kuna kategoorilisi ennustajaid lihtsalt pole). Olenemata valitud kodeerimismeetodist suurendatakse pidevate muutujate väärtusi vastavalt ja kasutatakse X muutujate väärtustena. Sel juhul ümberkodeerimist ei teostata. Lisaks võite regressiooniplaanide kirjeldamisel jätta arvestamata kujundusmaatriksi X ja töötada ainult regressioonivõrrandiga.
Näide: Lihtne regressioonianalüüs
See näide kasutab tabelis esitatud andmeid:
Riis. 3. Algandmete tabel.
Andmed on koostatud 1960. ja 1970. aasta rahvaloenduse võrdlusest juhuslikult valitud 30 maakonnas. Maakonnanimed esitatakse vaatlusnimedena. Teave iga muutuja kohta on esitatud allpool:
Riis. 4. Muutuvate spetsifikatsioonide tabel.
Uurimisprobleem
Selle näite puhul analüüsitakse korrelatsiooni vaesuse määra ja allapoole vaesuspiiri jäävate perede protsenti ennustava määra vahel. Seetõttu käsitleme muutujat 3 (Pt_Poor) sõltuva muutujana.
Võime püstitada hüpoteesi: rahvaarvu muutused ja allapoole vaesuspiiri jäävate perede protsent on omavahel seotud. Tundub mõistlik eeldada, et vaesus toob kaasa väljarände, mistõttu oleks alla vaesuspiiri jäävate inimeste osakaalu ja rahvastiku muutuse vahel negatiivne korrelatsioon. Seetõttu käsitleme muutujat 1 (Pop_Chng) ennustava muutujana.
Vaata tulemusi
Regressioonikoefitsiendid
Riis. 5. Pt_Poor regressioonikoefitsiendid Pop_Chng.
Pop_Chng rea ja veeru Param ristumiskohas. standardeerimata koefitsient Pt_Poor regressiooni jaoks Pop_Chng'il on -0,40374. See tähendab, et iga rahvaarvu vähenemise ühiku kohta suureneb vaesuse määr 0,40374 võrra. Selle standardimata koefitsiendi ülemine ja alumine (vaikimisi) 95% usalduspiir ei sisalda nulli, seega on regressioonikoefitsient p-tasemel oluline<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
Muutuv jaotus
Korrelatsioonikordajad võivad muutuda oluliselt üle- või alahinnatuks, kui andmetes on suured kõrvalekalded. Uurime sõltuva muutuja Pt_Poor jaotust linnaosade kaupa. Selleks koostame muutuja Pt_Poor histogrammi.
Riis. 6. Muutuja Pt_Poor histogramm.
Nagu näete, erineb selle muutuja jaotus normaaljaotusest märgatavalt. Kuigi isegi kahes maakonnas (kaks parempoolset veergu) on suurem protsent perekondi, kes jäävad allapoole vaesuspiiri, kui normaaljaotuse korral eeldati, näivad nad olevat "vahemikus".
Riis. 7. Muutuja Pt_Poor histogramm.
See otsus on mõnevõrra subjektiivne. Rusikareegel on, et kõrvalekaldeid tuleks arvesse võtta, kui vaatlus (või vaatlused) ei jää intervalli (keskmine ± 3 korda standardhälbe) sisse. Sel juhul tasub analüüsi korrata nii kõrvalekalletega kui ka ilma, et need ei avaldaks populatsiooniliikmete vahelisele korrelatsioonile suurt mõju.
Hajuvusdiagramm
Kui üks hüpoteesidest on a priori antud muutujate vahelise seose kohta, siis on kasulik seda testida vastava hajuvusdiagrammi graafikul.
Riis. 8. Hajumisdiagramm.
Hajuvusdiagramm näitab selget negatiivset korrelatsiooni (-.65) kahe muutuja vahel. See näitab ka regressioonijoone 95% usaldusvahemikku, st on 95% tõenäosus, et regressioonijoon asub kahe punktiirkõvera vahel.
Olulisuse kriteeriumid
Riis. 9. Olulisuse kriteeriume sisaldav tabel.
Pop_Chng regressioonikordaja test kinnitab, et Pop_Chng on tugevalt seotud Pt_Poor , p<.001 .
Alumine joon
See näide näitas, kuidas analüüsida lihtsat regressioonidisaini. Esitati ka standardiseerimata ja standardiseeritud regressioonikordajate tõlgendused. Arutletakse sõltuva muutuja vastusejaotuse uurimise tähtsusest ning demonstreeritakse ennustaja ja sõltuva muutuja vahelise seose suuna ja tugevuse määramise tehnikat.