Kaflayfirlit
2.1 Laufrit, línurit og stöplarit
Laufrit er leið til að setja gögn fram og skoða dreifingu þeirra. Í laufriti sjást öll gagnagildi innan hvers flokks. Kosturinn við laufrit er að öll gildin eru talin upp, ólíkt stuðlariti sem sýnir flokka gagnagilda. Línurit er oft notað til að sýna gagnagildi þar sem stærð breytist með tíma. Slík gröf nýtast til að finna leitni, það er almennt mynstur í gagnasöfnum, til dæmis hitastigi, sölu, atvinnu, hagnaði fyrirtækis eða kostnaði yfir ákveðið tímabil. Stöplarit notar lárétta eða lóðrétta stöpla til að bera saman flokka. Annar ásinn sýnir flokkana sem bornir eru saman og hinn ásinn sýnir strjál gildi. Stöplarit eru sérstaklega gagnleg þegar flokkuð gögn eru notuð.
2.2 Stuðlarit, tíðnimarghyrningar og tímaraðagröf
Stuðlarit er myndræn útgáfa af tíðnidreifingu. Grafið er gert úr jafn breiðum stöplum sem liggja hver að öðrum. Lárétti ásinn sýnir flokka megindlegra gagnagilda og lóðrétti ásinn sýnir tíðni. Hæð stöplanna samsvarar tíðninni. Stuðlarit eru yfirleitt notuð fyrir stór, samfelld, megindleg gagnasöfn. Tíðnimarghyrningur getur einnig nýst þegar stór gagnasöfn með endurteknum gagnapunktum eru teiknuð. Þá er tíðni sett fram með línu yfir flokkunum. Tímaraðargraf getur hjálpað þegar skoðað er mikið magn gagna fyrir eina breytu yfir tímabil.
2.3 Staðsetningarmælikvarðar gagna
Gildi sem skipta röðuðu gagnasafni í 100 jafna hluta kallast prósentumörk. Prósentumörk eru notuð til að bera saman og túlka gögn. Til dæmis er athugun við 50. prósentumark stærri en 50 prósent annarra athugana í safninu. Fjórðungamörk skipta gögnum í fjórðunga. Fyrsta fjórðungamarkið (Q₁) er 25. prósentumarkið, annað fjórðungamarkið (Q₂ eða miðgildi) er 50. prósentumarkið og þriðja fjórðungamarkið (Q₃) er 75. prósentumarkið. Fjórðungaspönn, IQR, er spönn miðju 50 prósenta gagnagildanna. IQR fæst með því að draga Q₁ frá Q₃ og getur hjálpað til við að finna fráviksgildi með eftirfarandi tveimur mörkum.
- Q₃ + 1,5(IQR)
- Q₁ - 1,5(IQR)
2.4 Kassarit
Kassarit eru myndrit sem geta hjálpað til við að skipuleggja gögn sjónrænt. Áður en kassarit er teiknað þarf að reikna eftirfarandi punkta: lágmarksgildi, fyrsta fjórðungamark, miðgildi, þriðja fjórðungamark og hámarksgildi. Þegar kassarit hefur verið teiknað er hægt að sýna og bera saman dreifingar gagna.
2.5 Mælikvarðar á miðju gagna
Meðaltal og miðgildi má reikna til að finna miðju gagnasafns. Meðaltalið er besta matið fyrir gagnasafnið sjálft, en miðgildið er betri mælikvarði þegar gagnasafn inniheldur nokkur fráviksgildi eða öfgagildi. Tíðasta gildið segir hvaða gagnagildi kemur oftast fyrir í gagnasafninu. Meðaltal, miðgildi og tíðasta gildi eru mjög gagnleg við greiningu gagna. Ef gagnasafnið samanstendur af bilum án tiltekinna gilda getur þó virst ómögulegt að reikna meðaltal. Þá má nálga meðaltalið með því að leggja saman neðri og efri mörk hvers bils og deila með tveimur til að finna miðpunkt bilsins. Margfaldaðu hvern miðpunkt með fjölda gilda í samsvarandi bili. Deildu síðan summu þessara margfelda með heildarfjölda gagnagilda í safninu.
2.6 Skekkja og meðaltal, miðgildi og tíðasta gildi
Með því að skoða dreifingu gagna má sjá margt um tengsl meðaltals, miðgildis og tíðasta gildis. Dreifingar geta verið af þremur gerðum. Dreifing sem er skekkt til hægri, eða jákvætt skekkt, hefur lögun eins og á mynd 2.19. Dreifing sem er skekkt til vinstri, eða neikvætt skekkt, hefur lögun eins og á mynd 2.20. Samhverf dreifing lítur út eins og á mynd 2.18.
2.7 Mælikvarðar á dreifingu gagna
Staðalfrávik hjálpar til við að mæla breytileika gagnanna. Nota þarf ólíkar jöfnur eftir því hvort reiknað er staðalfrávik úrtaks eða þýðis.
- Staðalfrávik gerir okkur kleift að bera einstök gagnagildi eða flokka tölulega saman við meðaltal gagnasafnsins.
- Formúlan s = √(∑(x - x̄)²/(n - 1)), eða s = √(∑f(x - x̄)²/(n - 1)) fyrir tíðnitöflu, er notuð til að reikna staðalfrávik úrtaks. Til að reikna staðalfrávik þýðis notum við þýðismeðaltalið μ og formúluna σ = √(∑(x - μ)²/N), eða σ = √(∑f(x - μ)²/N).