12.2 Aðhvarfsjafnan
Gögn falla sjaldan nákvæmlega á beina línu. Yfirleitt þarf að sætta sig við nálgunarspár. Algengt er að gagnasafn hafi punktarit sem virðist falla að beinni línu. Slík lína kallast besta lína eða aðhvarfslína minnstu ferninga.
Dæmi 12.5
Slembiúrtak 11 tölfræðinema gaf gögnin í töflu 12.1, þar sem x er einkunn á þriðja prófi af 80 og y er lokaprófseinkunn af 200. Er hægt að spá fyrir um lokaprófseinkunn slembivalins nemanda ef þriðja prófseinkunnin er þekkt?
Lausn
| x (einkunn á þriðja prófi) | y (lokaprófseinkunn) |
| 65 | 175 |
| 67 | 133 |
| 71 | 185 |
| 71 | 163 |
| 66 | 126 |
| 75 | 198 |
| 67 | 153 |
| 70 | 163 |
| 71 | 159 |
| 69 | 151 |
| 69 | 159 |

Einkunnin á þriðja prófi, x, er skýribreytan og lokaprófseinkunnin, y, er svarbreytan. Við munum teikna aðhvarfslínu sem fellur sem best að gögnunum. Ef hvert ykkar myndi laga línu að gögnunum með auganu mynduð þið teikna ólíkar línur. Við getum fengið bestu línu annaðhvort með miðgildis-miðgildis aðferðinni eða með því að reikna aðhvarfslínu minnstu ferninga.
Finnum fyrst bestu línu fyrir sambandið milli einkunnar á þriðja prófi og lokaprófseinkunnar með miðgildis-miðgildis aðferðinni. Þetta eru gögnin úr dæmi 12.5 eftir að raðað hefur verið eftir x-gildum. Ef fleiri en einn gagnapunktur hefur sama x-gildi eru punktarnir skráðir í röð frá minnsta til stærsta y-gildis. Við skiptum fyrst einkunnunum í þrjá hópa með um það bil jafn mörgum x-gildum í hverjum hópi. Fyrsti og þriðji hópurinn hafa sama fjölda x-gilda.
x (einkunn á þriðja prófi) y (lokaprófseinkunn) 65 175 66 126 67 133 67 153 69 151 69 159 70 163 71 159 71 163 71 185 75 198 Í þessu gagnasafni hafa fyrsti og síðasti hópurinn hvor um sig fjögur x-gildi og fjögur samsvarandi y-gildi. Annar hópurinn hefur þrjú x-gildi og þrjú samsvarandi y-gildi. Við þurfum að skipuleggja x- og y-gildin í hverjum hópi og finna miðgildi x og y fyrir hvern hóp. Tafla 12.4 sýnir þessa framsetningu; takið eftir að röðuðu pörin hafa þá verið rofin, þannig að (65, 126) er ekki gagnapunktur í upphaflega safninu.
Hópur x (einkunn á þriðja prófi) y (lokaprófseinkunn) Miðgildi x Miðgildi y 1 65 66 67 67 126 133 153 175 66,5 143 2 69 69 70 151 159 163 69 159 3 71 71 71 75 159 163 185 198 71 174 Röðuðu pörin fyrir miðgildin eru (66,5; 143), (69; 159) og (71; 174). Hallatalan fæst með formúlunni
Skurðpunktinn við y-ás má finna með formúlunni
Besta línan er rituð sem y = mx + b. Því má skrifa jöfnuna sem
Miðgildis-miðgildis línuna má einnig finna með grafískri reiknivél. Reiknivélin getur sýnt örlítið frávik frá handreikningnum vegna námundunar. Námundað að næsta tíunda gefur reiknivélin miðgildis-miðgildis línuna y = 6,9x − 315,5. Hver gagnapunktur hefur formið (x, y), en hver punktur á bestu línu með línulegri aðhvarfsgreiningu minnstu ferninga hefur formið (x, ŷ).
Táknið ŷ er lesið „y-hattur“ og er metið gildi y. Það er það gildi á y sem fæst með aðhvarfslínunni. Það er almennt ekki jafnt gagnagildinu y, en er mikilvægt vegna þess að það getur hjálpað til við spár fyrir önnur gildi.

Stærðin y₀ − ŷ₀ = ε₀ kallast skekkja eða leif. Hún er ekki villa í merkingunni mistök. Algildi leifar mælir lóðrétta fjarlægð milli raunverulegs gildis y og metins gildis y. Með öðrum orðum mælir hún lóðrétta fjarlægð milli raunverulegs gagnapunkts og spáðra punkts á línunni, eða hversu langt matið er frá raunverulega gagnagildinu.
Ef mældi gagnapunkturinn liggur fyrir ofan línuna er leifin jákvæð og línan vanmetur raunverulegt y-gildi. Ef mældi gagnapunkturinn liggur fyrir neðan línuna er leifin neikvæð og línan ofmetur raunverulegt y-gildi. Í mynd 12.6 er y₀ − ŷ₀ = ε₀ leifin fyrir punktinn sem sýndur er. Þar liggur punkturinn fyrir ofan línuna og leifin er jákvæð.
ε er gríski bókstafurinn epsilon. Fyrir hvern gagnapunkt má reikna leifar eða skekkjur, yᵢ − ŷᵢ = εᵢ fyrir i = 1, 2, 3, ..., 11. Hvert |ε| er lóðrétt fjarlægð.
Í dæminu um þriðja próf og lokapróf 11 tölfræðinema eru 11 gagnapunktar. Þess vegna eru 11 ε-gildi. Ef hvert ε er sett í annað veldi og þau lögð saman fæst summa kvaðraðra skekkja, SSE.
Með örsmæðareikningi má ákvarða gildi a og b sem gera SSE sem minnsta. Þá hafa punktarnir á bestu línu verið ákvarðaðir. Besta línan hefur jöfnuna
Úrtaksmeðaltöl x-gildanna og y-gildanna eru x̄ og ȳ. Besta línan fer alltaf í gegnum punktinn (x̄, ȳ). Hallatalan b má einnig skrifa sem b = r(s_y/s_x), þar sem s_y er staðalfrávik y-gilda og s_x er staðalfrávik x-gilda. r er fylgnistuðullinn, sem sýnir sambandið milli x- og y-gilda.
Viðmið minnstu ferninga fyrir bestu línu
Ferlið við að laga bestu línu að gögnum kallast línuleg aðhvarfsgreining. Við gerum ráð fyrir að gögnin dreifist um beina línu. Til að finna þá línu lágmörkum við summu kvaðraðra skekkja, SSE. Önnur lína sem þú gætir valið hefði hærra SSE en besta línan. Þessi besta lína kallast aðhvarfslína minnstu ferninga.
Töflureiknar, tölfræðihugbúnaður og margar reiknivélar geta fljótt reiknað bestu línu og búið til gröf. Útreikningarnir eru oft tímafrekir ef þeir eru gerðir í höndunum.
Dæmi: þriðja próf og lokapróf
Graf bestu línunnar fyrir dæmið um þriðja próf og lokapróf er eftirfarandi.

Aðhvarfslína minnstu ferninga, eða besta línan, fyrir dæmið um þriðja próf og lokapróf hefur jöfnuna
Að skilja og túlka skurðpunkt við y-ás
Skurðpunktur línunnar við y-ás, a, lýsir því hvar línan sker y-ásinn. Skurðpunktur bestu línu við y-ás segir okkur besta gildi sambandsins þegar x er núll. Í sumum tilvikum er ekki merkingarbært að reikna hvað y er þegar x = 0. Í dæminu um þriðja próf og lokapróf verður skurðpunkturinn við y-ás þegar einkunn á þriðja prófi, x, er núll. Þar sem allar einkunnirnar eru í kringum staðist/eða hærra er engin þörf á að reikna hver lokaprófseinkunnin, y, væri þegar þriðja prófseinkunnin væri núll.
Skurðpunkturinn við y-ás er þó mjög gagnlegur í mörgum tilvikum. Í mörgum vísindadæmum gefur hann grunnmælingu þegar tilraunaskilyrði eru ekki lögð á tilraunakerfið. Þessi grunnlína sýnir hversu mikil áhrif tilraunaskilyrðið hefur á kerfið og má einnig nota til að tryggja að búnaður og mælingar séu rétt stillt áður en tilraunin hefst.
Í líffræði má mæla styrk próteina í sýni með efnagreiningu sem breytir lit eftir því hversu mikið prótein er til staðar. Því meira prótein sem er til staðar, þeim mun dekkri verður liturinn. Litmagnið má mæla með gleypnimælingu. Tafla 12.5 sýnir vænt gleypnigildi við mismunandi próteinstyrk. Þetta kallast staðalkúrfa fyrir greininguna.
| Styrkur (mM) | Gleypni (mAU) |
|---|---|
| 125 | 0,021 |
| 250 | 0,023 |
| 500 | 0,068 |
| 750 | 0,086 |
| 1.000 | 0,105 |
| 1.500 | 0,124 |
| 2.000 | 0,146 |
Punktaritið á mynd 12.8 inniheldur bestu línu.

Skurðpunktur þessarar línu við y-ás er 0,0226 mAU. Það þýðir að greiningin gefur mælinguna 0,0226 mAU þegar ekkert prótein er til staðar. Þetta er grunnmæling sem má rekja til einhvers annars, í þessu tilviki annarra efna en próteina sem gleypa ljós. Við sjáum að þessi besta lína er skynsamleg vegna þess að skurðpunkturinn við y-ás er lítill og nálægt núlli. Þegar ekkert prótein er í sýninu væntum við þess líka að gleypnin sé mjög lítil eða nálægt núlli.
Að skilja hallatölu
Hallatala línunnar, b, lýsir því hvernig breytingar í breytunum tengjast. Mikilvægt er að túlka hallatölu línunnar í samhengi við aðstæðurnar sem gögnin lýsa. Þú ættir að geta skrifað setningu sem túlkar hallatöluna á venjulegu máli.
Túlkun hallatölu: Hallatala bestu línu segir okkur hvernig svarbreytan (y) breytist að meðaltali fyrir hverja einnar einingar aukningu í skýribreytunni (x).
Dæmi um þriðja próf og lokapróf: Hallatala línunnar er b = 4,83. Túlkun: Fyrir hverja eins stigs hækkun á einkunn á þriðja prófi hækkar lokaprófseinkunn að meðaltali um 4,83 stig.
Notkun TI-83, 83+, 84 og 84+ reiknivélar
Notkun línulegs aðhvarfs t-prófs: LinRegTTest.
- Í STAT listaritlinum skulið þið slá x-gögnin inn í lista L1 og y-gögnin inn í lista L2, pöruð þannig að samsvarandi (x, y)-gildi séu hlið við hlið í listunum. Ef tiltekið gildiapar endurtekur sig skal slá það inn eins oft og það kemur fyrir í gögnunum.
- Í STAT TESTS valmyndinni skulið þið fara niður og velja LinRegTTest. Gætið þess að velja LinRegTTest; sumar reiknivélar geta einnig haft annað atriði sem heitir LinRegTInt.
- Á inntaksskjá LinRegTTest skulið þið slá inn Xlist: L1, Ylist: L2 og Freq: 1.
- Í næstu línu, við kvaðninguna β or ρ, skulið þið velja ≠ 0 og ýta á ENTER.
- Látið línuna RegEQ vera auða.
- Veljið Calculate og ýtið á ENTER.

Úttaksskjárinn inniheldur miklar upplýsingar. Í bili beinum við athyglinni að nokkrum atriðum og komum aftur að hinum síðar. Önnur línan segir y = a + bx. Skrunið niður til að finna gildin a = −173,513 og b = 4,8273.
Jafna bestu línu er ŷ = −173,51 + 4,83x. Neðstu tvö atriðin eru r² = 0,43969 og r = 0,663. Í bili skulið þið aðeins taka eftir hvar þessi gildi eru; við skoðum þau í næstu tveimur köflum.
Að teikna punktarit og aðhvarfslínu
- Við gerum ráð fyrir að x-gögnin séu þegar í lista L1 og y-gögnin í lista L2.
- Ýtið á 2nd STATPLOT ENTER til að nota Plot 1.
- Á inntaksskjánum fyrir PLOT 1 skulið þið velja On og ýta á ENTER.
- Fyrir TYPE skulið þið velja fyrsta táknið, sem er punktarit, og ýta á ENTER.
- Tilgreinið Xlist: L1 og Ylist: L2.
- Fyrir Mark skiptir ekki máli hvaða tákn er valið.
- Ýtið á ZOOM og síðan töluna 9 fyrir valmyndaratriðið ZoomStat; reiknivélin aðlagar gluggann að gögnunum.
- Til að teikna bestu línu skulið þið ýta á Y= og slá jöfnuna −173,5 + 4,83X inn í jöfnu Y1. Ýtið aftur á ZOOM 9 til að teikna hana.
- Valfrjálst: Ef þið viljið breyta sýniglugganum skulið þið ýta á WINDOW og slá inn æskileg gildi fyrir Xmin, Xmax, Ymin og Ymax.
Athugasemd
Önnur leið til að teikna línuna eftir að punktarit hefur verið búið til er að nota LinRegTTest: gangið úr skugga um að punktaritið sé til, farið í LinRegTTest og sláið inn listana. Við RegEq skulið þið ýta á VARS, fara yfir í Y-VARS, velja 1:Function og síðan 1:Y1. Farið svo niður í Calculate og reiknið bestu línu. Ýtið á Y= til að sjá aðhvarfsjöfnuna og GRAPH til að teikna línuna.
Fylgnistuðullinn r
Auk þess að skoða punktaritið og sjá að lína virðist skynsamleg, hvernig er hægt að ákvarða hvort línan sé góður spár? Notið fylgnistuðulinn sem annan mælikvarða, auk punktaritsins, á styrk sambandsins milli x og y.
Fylgnistuðullinn, r, sem Karl Pearson þróaði í byrjun 20. aldar, er tölulegur mælikvarði á styrk og stefnu línulegs sambands milli skýribreytunnar x og svarbreytunnar y. Ef grunur er um línulegt samband milli x og y getur r mælt styrk þess línulega sambands.
Hvað gildi r segir okkur
- Gildi r er alltaf á bilinu −1 til +1. Með öðrum orðum: −1 ≤ r ≤ 1.
- Stærð fylgninnar r gefur til kynna styrk línulega sambandsins milli x og y. Gildi r nálægt −1 eða +1 gefa til kynna sterkara línulegt samband milli x og y.
- Ef r = 0 er ekkert línulegt samband milli x og y, það er engin línuleg fylgni.
- Ef r = 1 er fullkomin jákvæð fylgni. Ef r = −1 er fullkomin neikvæð fylgni. Í báðum tilvikum liggja allir upphaflegu gagnapunktarnir á beinni línu. Í raunheimum gerist þetta auðvitað yfirleitt ekki.
Hvað formerki r segir okkur
- Jákvætt gildi á r þýðir að þegar x eykst hefur y tilhneigingu til að aukast, og þegar x minnkar hefur y tilhneigingu til að minnka. Þetta er jákvæð fylgni.
- Neikvætt gildi á r þýðir að þegar x eykst hefur y tilhneigingu til að minnka, og þegar x minnkar hefur y tilhneigingu til að aukast. Þetta er neikvæð fylgni.
- Formerki r er það sama og formerki hallatölunnar b á bestu línu.
Athugasemd
Sterk fylgni bendir ekki til þess að x valdi y eða að y valdi x. Við segjum að fylgni feli ekki í sér orsakasamband.
Fylgnistuðullinn er reiknaður með eftirfarandi formúlu, þar sem n er fjöldi gagnapunkta:

Formúlan fyrir r virðist erfið. Töflureiknar, tölfræðihugbúnaður og margar reiknivélar geta þó reiknað r hratt. Fylgnistuðullinn r er neðsta atriðið í úttaksskjám LinRegTTest á TI-83, TI-83+ eða TI-84+ reiknivél.
Skýringarhlutfallið
Breytan r² kallast skýringarhlutfall og er fylgnistuðullinn í öðru veldi, en hún er venjulega sett fram sem prósenta fremur en tugabrot. Hún hefur túlkun í samhengi gagnanna.
- r², þegar það er sett fram sem prósenta, táknar það hlutfall breytileika í svarbreytunni y sem má skýra með breytileika í skýribreytunni x með aðhvarfslínunni, eða bestu línu.
- 1 − r², þegar það er sett fram sem prósenta, táknar það hlutfall breytileika í y sem ekki er skýrt með breytileika í x með aðhvarfslínunni. Þetta má sjá sem dreifingu mældu gagnapunktanna um aðhvarfslínuna.
Skoðum aftur dæmið um þriðja próf og lokapróf.
- Besta línan er ŷ = −173,51 + 4,83x.
- Fylgnistuðullinn er r = 0,6631.
- Skýringarhlutfallið er r² = 0,6631² = 0,4397.
Túlkið r² í samhengi þessa dæmis.
- Um það bil 44 prósent af breytileika lokaprófseinkunna, þar sem 0,4397 er um það bil 0,44, má skýra með breytileika í einkunnum á þriðja prófi með bestu aðhvarfslínunni.
- Þess vegna er afgangurinn af breytileikanum, 1 − 0,44 = 0,56 eða 56 prósent, í lokaprófseinkunnum ekki skýrður með breytileika í einkunnum á þriðja prófi með bestu aðhvarfslínunni. Þetta er breytileiki punktanna sem eru ekki eins nálægt aðhvarfslínunni og aðrir.