12.5 Fráviksgildi
Í sumum gagnasöfnum eru gildi, það er mældir gagnapunktar, sem kallast fráviksgildi. Fráviksgildi eru mældir gagnapunktar sem liggja langt frá aðhvarfslínu minnstu ferninga. Þau hafa stórar skekkjur, þar sem skekkjan eða leifin er ekki nálægt bestu línu.
Fráviksgildi þarf að skoða vandlega. Stundum ætti ekki að hafa þau með í gagnagreiningunni, til dæmis ef mögulegt er að fráviksgildið stafi af röngum gögnum. Í öðrum tilvikum getur fráviksgildi geymt mikilvægar upplýsingar um þýðið sem verið er að rannsaka og ætti þá að vera áfram í gögnunum. Lykilatriðið er að skoða vandlega hvað veldur því að gagnapunktur verður fráviksgildi.
Auk fráviksgilda getur úrtak innihaldið einn eða fáa punkta sem kallast áhrifapunktar. Áhrifapunktar eru mældir gagnapunktar sem liggja langt frá hinum mældu gagnapunktunum í lárétta stefnu. Slíkir punktar geta haft mikil áhrif á hallatölu aðhvarfslínunnar. Til að byrja að bera kennsl á áhrifapunkt má fjarlægja hann úr gagnasafninu og kanna hvort hallatala aðhvarfslínunnar breytist verulega.
Einnig þarf að skoða hvernig fylgnistuðullinn r hefur breyst. Stundum er erfitt að greina verulega breytingu á hallatölu og þá þarf að skoða hvernig styrkur línulega sambandsins hefur breyst. Tölvur og margar reiknivélar má nota til að finna fráviksgildi og áhrifapunkta. Aðhvarfsgreining getur skorið úr um hvort fráviksgildi sé í raun áhrifapunktur. Nýja aðhvarfsgreiningin sýnir hvernig það að sleppa fráviksgildinu hefur áhrif á fylgni breytanna og á það hversu vel línan fellur að gögnunum. Graf sem sýnir báðar aðhvarfslínurnar hjálpar til við að meta hvernig fjarlæging fráviksgildis hefur áhrif á líkanið.
Að bera kennsl á fráviksgildi
Við gætum giskað á fráviksgildi með því að skoða graf af punktariti og bestu línu. Samt er gagnlegt að hafa viðmið um hversu langt frá línunni punktur þarf að vera til að teljast fráviksgildi. Sem grófa þumalputtareglu má merkja sem fráviksgildi hvern punkt sem er meira en tvö staðalfrávik fyrir ofan eða neðan bestu línu. Staðalfrávikið sem er notað er staðalfrávik leifanna, eða skekkjanna.
Þetta má gera sjónrænt í punktaritinu með því að teikna aukapar lína sem liggja tveimur staðalfrávikum fyrir ofan og neðan bestu línu. Allir gagnapunktar utan þessa aukapars lína eru merktir sem möguleg fráviksgildi. Einnig má gera þetta tölulega með því að reikna hverja leif og bera hana saman við tvöfalt staðalfrávikið. Fyrir TI-83, 83+ eða 84+ reiknivélar er myndræna aðferðin auðveldari. Hún er sýnd fyrst og tölulegir útreikningar á eftir. Yfirleitt þarf aðeins að nota aðra hvora aðferðina.
Dæmi 12.11
Verkefni
Í dæminu með þriðja próf og lokapróf má ákvarða hvort fráviksgildi sé til staðar. Ef fráviksgildi er til staðar skaltu, sem æfingu, eyða því og laga nýja línu að gagnapunktunum sem eftir standa. Í þessu dæmi ætti nýja línan að falla betur að gögnunum sem eftir eru. Það þýðir að SSE, summa kvaðraðra skekkja, ætti að vera minni og fylgnistuðullinn ætti að vera nær 1 eða −1.
Lausn
Myndræn greining fráviksgilda
Með TI-83, 83+ eða 84+ grafískum reiknivélum er auðvelt að bera kennsl á fráviksgildi myndrænt. Ef lóðrétt fjarlægð frá einhverjum gagnapunkti að samsvarandi punkti á bestu línu er jöfn 2s eða meiri teljum við gagnapunktinn vera of langt frá bestu línu. Við þurfum að finna og teikna línurnar sem eru tveimur staðalfrávikum fyrir neðan og ofan aðhvarfslínuna. Allir punktar utan þessara tveggja lína eru fráviksgildi. Köllum þessar línur Y₂ og Y₃.
Eins og við gerðum með jöfnu aðhvarfslínunnar og fylgnistuðulinn notum við tækni til að reikna þetta staðalfrávik. Þegar LinRegTTest er notað með þessum gögnum má fletta niður í úttakinu og finna s = 16,412.
Línurnar Y₂ og Y₃ hafa sömu hallatölu og besta línan. Teiknaðu punktaritið með bestu línu í jöfnunni Y₁ og settu síðan aukalínurnar tvær inn sem Y₂ og Y₃ í Y= jöfnuritlinum. Ýttu á ZOOM-9 til að fá góða yfirsýn. Þá sést að eini punkturinn sem er ekki á milli Y₂ og Y₃ er punkturinn (65, 175). Á reiknivélarskjánum er hann aðeins rétt utan við línurnar, en hann telst fráviksgildi því hann er meira en tvö staðalfrávik frá bestu línu. Fráviksgildið er nemandinn sem fékk 65 á þriðja prófinu og 175 á lokaprófinu.
Stundum er punktur svo nálægt línunum sem merkja fráviksgildi á grafinu að erfitt er að sjá hvort hann er milli línanna eða utan þeirra. Í tölvu getur hjálpað að stækka grafið; á litlum reiknivélarskjá getur aðdráttur gert myndina skýrari. Þegar grafið gefur ekki nógu skýra mynd má nota tölulegan samanburð til að finna fráviksgildi.

Mynd 12.15. Mynd 12.15
Reyndu sjálf(ur) 12.11
Finndu mögulega fráviksgildið í punktaritinu. Staðalfrávik leifanna, eða skekkjanna, er um það bil 8,6.

Töluleg greining fráviksgilda
Í töflu 12.6 eru í fyrstu tveimur dálkunum gögn um þriðja próf og lokapróf. Þriðji dálkurinn sýnir spáð ŷ-gildi sem reiknað er út frá bestu línu:
Leifarnar, eða skekkjurnar, sem nefndar voru í kafla 12.3, hafa verið reiknaðar í fjórða dálki töflunnar:
s er staðalfrávik allra y − ŷ = ε gildanna, þar sem n er heildarfjöldi gagnapunkta. Ef hver leif er reiknuð, sett í annað veldi og niðurstöðurnar lagðar saman fáum við SSE. Staðalfrávik leifanna er reiknað út frá SSE svona:
Athugasemd
Við deilum með n − 2 vegna þess að aðhvarfslíkanið felur í sér tvö möt.
Í stað þess að reikna s sjálf getum við fundið s með tölvu eða reiknivél. Í þessu dæmi finnur LinRegTTest s = 16,4 sem staðalfrávik leifanna 35; −17; 16; −6; −19; 9; 3; −1; −10; −9; −1.
| x | y | ŷ | y − ŷ |
|---|---|---|---|
| 65 | 175 | 140 | 175 − 140 = 35 |
| 67 | 133 | 150 | 133 − 150 = −17 |
| 71 | 185 | 169 | 185 − 169 = 16 |
| 71 | 163 | 169 | 163 − 169 = −6 |
| 66 | 126 | 145 | 126 − 145 = −19 |
| 75 | 198 | 189 | 198 − 189 = 9 |
| 67 | 153 | 150 | 153 − 150 = 3 |
| 70 | 163 | 164 | 163 − 164 = −1 |
| 71 | 159 | 169 | 159 − 169 = −10 |
| 69 | 151 | 160 | 151 − 160 = −9 |
| 69 | 159 | 160 | 159 − 160 = −1 |
Við leitum að öllum gagnapunktum þar sem leifin er stærri en 2s eða minni en −2s.
Berðu þessi gildi saman við leifarnar í fjórða dálki töflunnar. Eini slíki gagnapunkturinn er nemandinn sem fékk 65 á þriðja prófinu og 175 á lokaprófinu; leif þessa nemanda er 35.
Hvernig hefur fráviksgildið áhrif á bestu línu?
Tölulega og myndrænt höfum við greint punktinn (65, 175) sem fráviksgildi. Mundu að endurreikningur á aðhvarfslínu minnstu ferninga og samantektartölum, eftir að fráviksgildi hefur verið fjarlægt, getur hjálpað til við að ákvarða hvort fráviksgildið sé einnig áhrifapunktur. Ferlið gerir þér einnig kleift að bera saman styrk fylgni breytanna og mögulegar breytingar á hallatölu fyrir og eftir að fráviksgildum er sleppt.
Reiknaðu nýja bestu línu og fylgnistuðul með þeim 10 punktum sem eftir standa. Á TI-83, TI-83+ eða TI-84+ reiknivélum skaltu eyða fráviksgildinu úr L1 og L2. Með LinRegTTest undir Stat og Tests fæst eftirfarandi ný besta lína og fylgnistuðull:
Hallatalan er nú 7,39, samanborið við fyrri hallatölu 4,83. Þetta virðist vera veruleg breyting, en við þurfum einnig að skoða breytinguna á r-gildunum. Nýja línan sýnir r = 0,9121, sem gefur til kynna sterkari fylgni en upprunalega línan, þar sem r = 0,6631, því r = 0,9121 er nær 1. Þetta þýðir að nýja línan fellur betur að gagnagildunum. Línan getur betur spáð fyrir um lokaprófseinkunn út frá einkunn á þriðja prófi. Það þýðir einnig að fráviksgildið (65, 175) var áhrifapunktur, því talsverður munur er á r-gildunum.
Nú þarf að ákveða hvort fráviksgildinu skuli eytt. Ef fráviksgildið var skráð rangt ætti vissulega að eyða því. Þar sem það hefur svo mikil áhrif á fylgnina leyfir nýja besta línan betri spágerð og almennt sterkara líkan.
Þú getur notað Excel til að teikna báðar aðhvarfslínur minnstu ferninga og bera saman hallatölur og hversu vel línurnar falla að gögnunum, eins og sýnt er á mynd 12.17.

Mynd 12.17. Mynd 12.17 Sjá má að seinna grafið sýnir minni frávik frá bestu línu. Ljóst er að þegar áhrifapunktinum var sleppt varð til besta lína sem líkanar gögnin betur.
Töluleg greining fráviksgilda: s reiknað og fráviksgildi fundin handvirkt
Ef reiknivélin þín hefur ekki LinRegTTest þarftu að reikna fráviksgildið í fyrsta dæminu með eftirfarandi hætti. Fyrst skaltu setja hvert |y − ŷ| í annað veldi.
Síðan leggurðu saman öll |y − ŷ|² gildin með formúlunni:
Mundu að yᵢ − ŷᵢ = εᵢ.
Niðurstaðan, SSE, er summa kvaðraðra skekkja. Næst reiknum við s, staðalfrávik allra y − ŷ = ε gildanna, þar sem n er heildarfjöldi gagnapunkta.
Næst margföldum við s með 2. Gildið 32,94 er tvö staðalfrávik frá meðaltali y − ŷ gildanna.
Ef lóðrétt fjarlægð frá gagnapunkti að samsvarandi punkti á bestu línu er að minnsta kosti 2s teljum við gagnapunktinn vera of langt frá bestu línu. Við köllum slíkan punkt mögulegt fráviksgildi.
Í dæminu er samsvarandi (x, y) gagnapunktur mögulegt fráviksgildi ef eitthvert |y − ŷ| gildi er að minnsta kosti 32,94. Öll |y − ŷ| gildin eru minni en 32,94 nema það fyrsta, sem er 35.
Punkturinn sem samsvarar |y − ŷ| = 35 er (65, 175). Þess vegna er gagnapunkturinn (65, 175) mögulegt fráviksgildi. Í þessu dæmi eyðum við honum. Mundu þó að fráviksgildum er ekki alltaf eytt.
Athugasemd
Þegar fráviksgildum er eytt ætti rannsakandinn annaðhvort að skrá að gögnum hafi verið eytt og hvers vegna, eða birta niðurstöður bæði með og án gagnanna sem var eytt. Ef gögnin eru röng og réttu gildin eru þekkt, til dæmis ef nemandi 1 fékk í raun 70 en ekki 65, má leiðrétta gögnin.
Næsta skref er að reikna nýja bestu línu með þeim 10 punktum sem eftir standa. Nýja besta línan og fylgnistuðullinn eru:
Dæmi 12.12
Verkefni
Með þessari nýju bestu línu, sem byggist á þeim 10 gagnapunktum sem eftir standa í dæminu með þriðja próf og lokapróf, hverju mætti nemandi sem fær 73 á þriðja prófinu búast við að fá á lokaprófinu? Er þetta sama spá og fæst með upprunalegu línunni?
Lausn
Með nýju bestu línunni má nemandi sem fékk 73 stig á þriðja prófinu búast við að fá um 184 stig á lokaprófinu. Upprunalega línan spáði ŷ = 179,08, þannig að spáin með nýju línunni, þar sem fráviksgildinu hefur verið sleppt, er frábrugðin upprunalegu spánni.
Reyndu sjálf(ur) 12.12
Gagnapunktarnir fyrir grafið úr dæminu með þriðja próf og lokapróf eru: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) og (7, 21). Fjarlægðu fráviksgildið og endurreiknaðu bestu línu. Finndu gildi ŷ þegar x = 10.
Dæmi 12.13
Vísitala neysluverðs, CPI, mælir meðalbreytingu yfir tíma á verði sem neytendur í þéttbýli greiða fyrir neysluvörur og þjónustu. CPI hefur áhrif á næstum alla Bandaríkjamenn vegna þess hve víða hún er notuð. Ein stærsta notkun hennar er sem mælikvarði á verðbólgu. Með því að veita stjórnvöldum, fyrirtækjum og launafólki upplýsingar um verðbreytingar í þjóðarbúskapnum hjálpar CPI þeim að taka efnahagslegar ákvarðanir. Forseti Bandaríkjanna, Bandaríkjaþing og seðlabanki Bandaríkjanna nota þróun CPI til að móta peninga- og ríkisfjármálastefnu. Í eftirfarandi töflu er x árið og y er CPI.
| x | y | x | y |
|---|---|---|---|
| 1915 | 10,1 | 1969 | 36,7 |
| 1926 | 17,7 | 1975 | 49,3 |
| 1935 | 13,7 | 1979 | 72,6 |
| 1940 | 14,7 | 1980 | 82,4 |
| 1947 | 24,1 | 1986 | 109,6 |
| 1952 | 26,5 | 1991 | 130,7 |
| 1964 | 31,0 | 1999 | 166,6 |
Verkefni
- Teiknaðu punktarit af gögnunum.
- Reiknaðu línu minnstu ferninga. Skrifaðu jöfnuna á forminu ŷ = a + bx.
- Teiknaðu línuna á punktarit.
- Finndu fylgnistuðulinn. Er hann marktækur?
- Hver er meðal-CPI fyrir árið 1990?
Lausn
- Sjá mynd 12.18.
- Með reiknivélinni fæst eftirfarandi jafna bestu línu:
- Sjá mynd 12.18.
- r = 0,8694. Fjöldi gagnapunkta er n = 14. Notaðu töfluna yfir 95 prósent markgildi úrtaksfylgnistuðuls aftast í 12. kafla. Hér eru frígráðurnar df = 12 og samsvarandi markgildi úr töflunni eru ±0,532. Þar sem 0,8694 > 0,532 er r marktækt. Við getum notað spáðu aðhvarfslínuna sem við fundum til að spá fyrir um x = 1990.
Spáð vísitala neysluverðs fyrir árið 1990 er 103,4.

Athugasemd
Í dæminu skaltu taka eftir mynstri punktanna miðað við línuna. Þótt fylgnistuðullinn sé marktækur bendir mynstrið í punktaritinu til þess að ferill væri viðeigandi líkan frekar en lína. Í þessu dæmi myndi tölfræðingur frekar nota aðrar aðferðir til að laga feril að þessum gögnum en að líkana gögnin með línunni sem við fundum. Auk útreikninganna er alltaf mikilvægt að skoða punktaritið þegar ákveðið er hvort línulegt líkan sé viðeigandi.
Ef þú vilt sjá gögn fyrir fleiri ár geturðu heimsótt CPI-vef Bureau of Labor Statistics (ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt). Gögnin okkar eru tekin úr dálkinum Annual Avg. (þriðja dálki frá hægri). Þú gætir til dæmis bætt við nýrri árum: 2004, CPI = 188,9; 2008, CPI = 215,3; og 2011, CPI = 224,9. Skoðaðu hvernig það hefur áhrif á líkanið.
Athugaðu: Er r marktækt? Fellur líkanið betur að gögnunum þegar nýju punktunum er bætt við?
Reyndu sjálf(ur) 12.13
Eftirfarandi tafla sýnir efnahagsþróun mælda sem tekjur á mann, PCINC.
| Ár | PCINC | Ár | PCINC |
|---|---|---|---|
| 1870 | 340 | 1920 | 1.050 |
| 1880 | 499 | 1930 | 1.170 |
| 1890 | 592 | 1940 | 1.364 |
| 1900 | 757 | 1950 | 1.836 |
| 1910 | 927 | 1960 | 2.132 |
- Hverjar eru skýribreytan og svarbreytan?
- Teiknaðu punktarit.
- Notaðu aðhvarfsgreiningu til að finna bestu línu og fylgnistuðul.
- Túlkaðu marktækni fylgnistuðulsins.
- Er línulegt samband milli breytanna?
- Finndu skýringarhlutfallið og túlkaðu það.
- Hver er hallatala aðhvarfsjöfnunnar? Hvað merkir hún?
- Notaðu bestu línu til að meta PCINC fyrir 1900 og 2000.
- Ákvarðaðu hvort einhver fráviksgildi séu til staðar.
Tafla yfir 95 prósent markgildi úrtaksfylgnistuðuls
| Frígráður: n − 2 | Markgildi: + og − |
|---|---|
| 1 | 0,997 |
| 2 | 0,950 |
| 3 | 0,878 |
| 4 | 0,811 |
| 5 | 0,754 |
| 6 | 0,707 |
| 7 | 0,666 |
| 8 | 0,632 |
| 9 | 0,602 |
| 10 | 0,576 |
| 11 | 0,555 |
| 12 | 0,532 |
| 13 | 0,514 |
| 14 | 0,497 |
| 15 | 0,482 |
| 16 | 0,468 |
| 17 | 0,456 |
| 18 | 0,444 |
| 19 | 0,433 |
| 20 | 0,423 |
| 21 | 0,413 |
| 22 | 0,404 |
| 23 | 0,396 |
| 24 | 0,388 |
| 25 | 0,381 |
| 26 | 0,374 |
| 27 | 0,367 |
| 28 | 0,361 |
| 29 | 0,355 |
| 30 | 0,349 |
| 40 | 0,304 |
| 50 | 0,273 |
| 60 | 0,250 |
| 70 | 0,232 |
| 80 | 0,217 |
| 90 | 0,205 |
| 100 | 0,195 |