1.1 Definitions of Statistics, Probability, and Key Terms
Tölfræði sem vísindagrein fjallar um söfnun, greiningu, túlkun og framsetningu gagna. Við sjáum og notum gögn í daglegu lífi okkar.
Í þessum áfanga munuð þið læra hvernig á að skipuleggja og draga saman gögn. Að skipuleggja og draga saman gögn kallast lýsandi tölfræði. Tvær leiðir til að draga saman gögn eru með myndrænni framsetningu og með tölulegum lýsistærðum, til dæmis með því að finna meðaltal. Eftir að þið hafið lært um líkindi og líkindadreifingar munuð þið nota formlegar aðferðir til að draga ályktanir af góðum gögnum. Formlegu aðferðirnar kallast ályktunartölfræði. Tölfræðileg ályktun notar líkindi til að ákvarða hversu viss við getum verið um að ályktanir okkar séu réttar.
Árangursrík túlkun gagna, eða ályktun, byggist á góðum aðferðum við öflun gagna og ígrundaðri skoðun á gögnunum. Þið munuð rekast á margar stærðfræðilegar formúlur til að túlka gögn. Markmið tölfræðinnar er ekki að framkvæma fjölmarga útreikninga með formúlunum, heldur að öðlast skilning á gögnunum ykkar. Útreikningana er hægt að gera með reiknivél eða tölvu. Skilningurinn verður að koma frá ykkur. Ef þið náið góðum tökum á grunnatriðum tölfræðinnar getið þið verið öruggari í þeim ákvörðunum sem þið takið í lífinu.
Tölfræði, líkt og aðrar greinar stærðfræðinnar, notar stærðfræðilíkön til að lýsa fyrirbærum sem eiga sér stað í raunheimum. Í sumum stærðfræðilíkönum er niðurstaðan ákvörðuð með ótvíræðum hætti. Slík líkön má nota þegar eitt gildi ákvarðast nákvæmlega af öðru gildi. Dæmi eru annars stigs jöfnur sem lýsa hröðun bíls úr kyrrstöðu og diffurjöfnur sem lýsa varmaflutningi frá eldavél yfir í pott. Þessi líkön eru mjög nákvæm og hægt er að nota þau til að svara spurningum og gera spár með mikilli nákvæmni. Geimferðastofnanir nota til dæmis slík líkön til að spá nákvæmlega fyrir um það þrýstiafl sem eldflaug þarf til að losna undan þyngdarafli jarðar og komast á sporbraut.
Lífið er þó ekki alltaf nákvæmt. Þótt vísindamenn geti sagt upp á mínútu hvenær sólin rís, geta þeir ekki sagt nákvæmlega hvar fellibylur gengur á land. Tölfræðilíkön má nota til að spá fyrir um óvissari aðstæður. Þessi sérstöku form stærðfræðilíkana eða falla byggjast á þeirri hugmynd að eitt gildi hafi áhrif á annað. Sum tölfræðilíkön eru nákvæmari stærðfræðiföll: eitt mengi gilda getur spáð fyrir um eða ákvarðað annað mengi gilda. Önnur tölfræðilíkön eru stærðfræðiföll þar sem eitt mengi gilda ákvarðar önnur gildi ekki nákvæmlega. Tölfræðilíkön eru mjög gagnleg vegna þess að þau geta lýst líkum á því að atburður eigi sér stað og gefið mögulegar aðrar niðurstöður ef hann gerist ekki. Veðurspár eru til dæmis tölfræðilíkön. Veðurfræðingar geta ekki spáð fyrir um veðrið á morgun með vissu, en þeir nota oft tölfræðilíkön til að segja til um hversu líklegt sé að það rigni á tilteknum tíma. Þú getur síðan undirbúið þig út frá þeim líkum.
Líkindi eru stærðfræðilegt verkfæri sem notað er til að rannsaka slembni. Þau fjalla um líkurnar á því að atburður eigi sér stað. Ef þú kastar til dæmis óhlutdrægri mynt fjórum sinnum er ekki víst að niðurstöðurnar verði tvö skjaldarmerki og tveir fiskar. Ef þú kastar sömu mynt 4.000 sinnum verða niðurstöðurnar hins vegar nálægt því að vera jafnmörg skjaldarmerki og fiskar. Fræðileg líkindi þess að fá skjaldarmerki í einu kasti eru 1/2 eða 0,5. Þótt niðurstöður fárra endurtekninga séu óvissar kemur fram reglulegt mynstur þegar endurtekningarnar eru margar. Eftir að hafa lesið um enska tölfræðinginn Karl Pearson, sem kastaði mynt 24.000 sinnum og fékk skjaldarmerki 12.012 sinnum, kastaði einn höfundanna mynt 2.000 sinnum. Niðurstöðurnar voru 996 skjaldarmerki. Brotið 996/2.000 er jafnt og 0,498, sem er mjög nálægt 0,5, væntum líkindum.
Líkindafræði hófst með rannsóknum á hasardleikjum eins og póker. Spár eru settar fram sem líkindi. Til að meta líkur á jarðskjálfta, rigningu eða því hvort þú fáir A í þessum áfanga notum við líkindi. Læknar nota líkindi til að meta líkurnar á því að bólusetning valdi sjúkdómnum sem henni er ætlað að koma í veg fyrir. Verðbréfamiðlari notar líkindi til að meta ávöxtun fjárfestinga viðskiptavinar.
Í tölfræði viljum við almennt rannsaka þýði. Þú getur hugsað um þýði sem safn einstaklinga, hluta eða viðfanga sem verið er að rannsaka. Til að rannsaka þýðið veljum við úrtak. Hugmyndin með úrtökutöku er að velja hluta, eða hlutmengi, af stærra þýðinu og rannsaka þann hluta – úrtakið – til að afla upplýsinga um þýðið. Gögn eru niðurstaða úrtökutöku úr þýði.
Vegna þess að það tekur mikinn tíma og peninga að rannsaka heilt þýði er úrtökutaka mjög hagnýt aðferð. Ef þú vildir reikna út heildarmeðaleinkunn í skólanum þínum væri skynsamlegt að velja úrtak nemenda sem stunda nám við skólann. Gögnin sem safnað væri úr úrtakinu væru meðaleinkunnir nemendanna. Í forsetakosningum eru tekin úrtök í skoðanakönnunum með 1.000–2.000 manns. Skoðanakönnuninni er ætlað að endurspegla skoðanir fólksins í öllu landinu. Framleiðendur kolsýrðra drykkja í dós taka úrtök til að ákvarða hvort 16 únsa dós innihaldi 16 únsur af kolsýrðum drykk.
Út frá úrtaksgögnunum getum við reiknað út lýsistærð. Lýsistærð er tala sem stendur fyrir eiginleika úrtaksins. Til dæmis, ef við lítum á einn stærðfræðiáfanga sem úrtak úr þýði allra stærðfræðiáfanga, þá er meðalfjöldi stiga sem nemendur í þeim eina stærðfræðiáfanga fá í lok annarinnar dæmi um lýsistærð. Þar sem við höfum ekki gögn fyrir alla stærðfræðiáfanga er sú lýsistærð okkar besta mat á meðaltali fyrir allt þýði stærðfræðiáfanga. Ef við höfum gögn fyrir alla stærðfræðiáfanga getum við fundið stika þýðisins. Stiki er tölulegur eiginleiki alls þýðisins sem hægt er að meta með lýsistærð. Þar sem við litum á alla stærðfræðiáfanga sem þýðið, þá er meðalfjöldi stiga sem hver nemandi fær í öllum stærðfræðiáföngunum dæmi um stika.
Eitt helsta viðfangsefni tölfræðinnar er hversu nákvæmlega lýsistærð metur stika. Til að úrtak sé nákvæmt þarf það að endurspegla eiginleika þýðisins og vera dæmigert úrtak. Í ályktunartölfræði höfum við áhuga bæði á lýsistærð úrtaksins og stika þýðisins. Í síðari kafla munum við nota lýsistærð úrtaksins til að prófa réttmæti tiltekins þýðisstika.
Breyta, venjulega táknuð með hástöfum eins og X og Y, er eiginleiki eða mæling sem hægt er að ákvarða fyrir hvern meðlim þýðis. Breytur geta lýst gildum eins og þyngd í pundum eða uppáhaldsfagi í skóla. Talnabreytur taka töluleg gildi með mælieiningum, til dæmis þyngd í pundum eða tíma í klukkustundum. Flokkabreytur skipa einstaklingi eða hlut í flokk. Ef við látum X tákna fjölda stiga sem einn stærðfræðinemi fær í lok annarinnar, þá er X talnabreyta. Ef við látum Y tákna stjórnmálaflokk einstaklings, þá gætu gildi Y til dæmis verið repúblikani, demókrati og óháður. Y er flokkabreyta. Við gætum reiknað með gildum X, til dæmis meðalfjölda stiga, en það er merkingarlaust að reikna með gildum Y. Til dæmis er merkingarlaust að reikna meðalstjórnmálaflokk.
Gögn eru raunveruleg gildi breytunnar. Þau geta verið tölur eða orð. Eitt gagnagildi er eitt stakt gildi.
Tvö hugtök sem koma oft fyrir í tölfræði eru meðaltal (mean) og hlutfall (proportion). Ef þú tækir þrjú próf í stærðfræðiáföngum og fengir einkunnirnar 86, 75 og 92, myndirðu reikna meðaleinkunnina með því að leggja saman einkunnirnar þrjár og deila með þremur. Meðaleinkunnin væri 84,3 með einum aukastaf. Ef það eru 40 nemendur í stærðfræðiáfanganum þínum, þar af 22 piltar og 18 stúlkur, þá er hlutfall pilta 22/40 og hlutfall stúlkna 18/40. Fjallað er nánar um meðaltal og hlutfall í síðari köflum.
Dæmi 1.1
Ákvarðið hvað þýði, úrtak, stiki, lýsistærð, breyta og gögn vísa til í eftirfarandi rannsókn.
Við viljum vita meðalfjölda tómstundastarfa sem framhaldsskólanemar taka þátt í. Við lögðum könnun fyrir 100 framhaldsskólanema af handahófi. Þrír þessara nemenda tóku þátt í 2, 5 og 7 tómstundastörfum.
Lausn
Þýðið er allir framhaldsskólanemar.
Úrtakið er þeir 100 framhaldsskólanemar sem rætt var við.
Stikinn er meðalfjöldi tómstundastarfa sem allir framhaldsskólanemar taka þátt í.
Lýsistærðin er meðalfjöldi tómstundastarfa sem úrtak framhaldsskólanema tekur þátt í.
Breytan gæti verið fjöldi tómstundastarfa hjá einum framhaldsskólanema. Látum X tákna fjölda tómstundastarfa hjá einum framhaldsskólanema.
Gögnin eru fjöldi tómstundastarfa sem framhaldsskólanemarnir taka þátt í. Dæmi um gögn eru 2, 5, 7.
Dæmi 1.2
Ákvarðið til hvers lykilhugtökin vísa í eftirfarandi rannsókn.
Rannsókn var gerð í framhaldsskóla á staðnum til að greina uppsafnaða meðaleinkunn (GPA) nemenda sem útskrifuðust á síðasta ári. Skráðu bókstaf þeirrar setningar sem lýsir best hverjum lið hér að neðan.
1. Þýði ____ 2. Lýsistærð ____ 3. Stiki ____ 4. Úrtak ____ 5. Breyta ____ 6. Gögn ____
- a) allir nemendur sem stunduðu nám við framhaldsskólann á síðasta ári
- b) meðaleinkunn eins nemanda sem útskrifaðist úr framhaldsskólanum á síðasta ári
- c) 3,65, 2,80, 1,50, 3,90
- d) hópur nemenda sem útskrifaðist úr framhaldsskólanum á síðasta ári, valinn af handahófi
- e) meðaleinkunn nemenda sem útskrifuðust úr framhaldsskólanum á síðasta ári
- f) allir nemendur sem útskrifuðust úr framhaldsskólanum á síðasta ári
- g) meðaleinkunn nemenda í rannsókninni sem útskrifuðust úr framhaldsskólanum á síðasta ári
Lausn
1. f ; 2. g ; 3. e ; 4. d ; 5. b ; 6. c
Dæmi 1.3
Ákvarðið hvað þýði, úrtak, stiki, lýsistærð, breyta og gögn vísa til í eftirfarandi rannsókn.
Sem hluti af rannsókn sem ætlað var að prófa öryggi bifreiða safnaði bandaríska samgönguöryggisstofnunin (National Transportation Safety Board) gögnum um áhrif bílslysa á árekstrarbrúður og fór yfir þau (The Data and Story Library, e.d.). Hér eru viðmiðin sem stofnunin notaði.
| Hraði bíla við árekstur | Staðsetning ökumanns (þ.e. brúða) |
|---|---|
| 35 mílur/klst. | Framsæti |
Bílum með brúður í framsætum var ekið á vegg á 35 mílna hraða á klukkustund. Við viljum vita hlutfall brúða í ökumannssætinu sem hefðu hlotið höfuðáverka ef þær hefðu verið raunverulegir ökumenn. Við byrjum á einföldu slembiúrtaki 75 bíla.
Lausn
Þýðið er allir bílar með brúður í framsætinu.
Úrtakið er þeir 75 bílar sem valdir voru með einföldu slembiúrtaki.
Stikinn er hlutfall ökumannsbrúða – ef þær hefðu verið raunverulegar manneskjur – sem hefðu hlotið höfuðáverka í þýðinu.
Lýsistærðin er hlutfall ökumannsbrúða – ef þær hefðu verið raunverulegar manneskjur – sem hefðu hlotið höfuðáverka í úrtakinu.
Breytan X skráir hvort ökumannsbrúða – ef hún hefði verið raunveruleg manneskja – hefði hlotið höfuðáverka.
Gögnin eru annaðhvort: já, höfuðáverki; eða nei, enginn höfuðáverki.
Dæmi 1.4
Ákvarðið hvað þýði, úrtak, stiki, lýsistærð, breyta og gögn vísa til í eftirfarandi rannsókn.
Tryggingafélag vill ákvarða hlutfall allra lækna sem hafa átt aðild að einu eða fleiri málum vegna meintra læknamistaka. Félagið velur 500 lækna af handahófi úr fagskrá og ákvarðar fjölda þeirra í úrtakinu sem hafa átt aðild að máli vegna meintra læknamistaka.
Lausn
Þýðið er allir læknar sem skráðir eru í fagskránni.
Stikinn er hlutfall lækna sem hafa átt aðild að einu eða fleiri málum vegna meintra læknamistaka í þýðinu.
Úrtakið er þeir 500 læknar sem valdir voru af handahófi úr fagskránni.
Lýsistærðin er hlutfall lækna sem hafa átt aðild að einu eða fleiri málum vegna meintra læknamistaka í úrtakinu.
Breytan X skráir hvort læknir hafi átt aðild að máli vegna meintra læknamistaka eða ekki.
Gögnin eru annaðhvort: já, átti aðild að einu eða fleiri málum vegna meintra læknamistaka; eða nei, átti ekki aðild.