Laatikko- ja viiksikuvaajat ovat hyödyllisiä numeerisen datan visualisoinnissa ja tärkeimpien ominaisuuksien, kuten mediaanin, kvartiilien, vaihteluvälin ja poikkeamien tunnistamisessa. Niitä käytetään yleisesti eri ryhmien tai populaatioiden tietojen yhteenvetoon ja vertailuun tilastoissa, data-analyysissä ja tieteellisessä tutkimuksessa.
Tämä opas opastaa sinua luomaan ja tulkitsemaan laatikko- ja viiksijuttuja, jos olet uusi niissä tai tarvitset päivitystä niiden käyttöön. Opit keräämään dataa, laskemaan kvartiilien välisen alueen, tunnistamaan poikkeavia arvoja, luomaan laatikko- ja viiksikuvaajan ja tulkitsemaan tuloksia. Käymme myös läpi joitakin parhaita käytäntöjä ja vinkkejä tehokkaiden laatikko- ja viiksikaavioiden tekemiseen ja niiden käyttämiseen tietojoukkojen vertailuun.
Tämän oppaan loppuun mennessä sinulla on vankka käsitys siitä, kuinka visualisoida ja analysoida tietoja käyttämällä laatikko- ja viiksikaavioita.
Sisällysluettelo
Vaihe 1: Kerää tietosi
Vaiheen 1, jossa käytetään laatikko- ja viiksikuvaa, tavoitteena on kerätä tiedot, jotka haluat visualisoida. Keräämäsi tiedon tulee olla numeerista ja jatkuvaa, mikä tarkoittaa, että se voi ottaa minkä tahansa arvon alueella.
Numeerinen data on mitä tahansa tietoa, joka voidaan ilmaista numeerisesti. Tiedot esimerkiksi ihmisryhmän pituuksista tai objektijoukon painoista ovat molemmat esimerkkejä numeerisista tiedoista. Numeeriset tiedot voidaan myös luokitella jatkuvaksi tai diskreetiksi. Jatkuvat tiedot, kuten henkilön pituus, voivat saada minkä tahansa arvon alueella. Sen sijaan erilliset tiedot ovat tietoja, jotka voivat saada vain tiettyjä arvoja, kuten henkilön sisarusten lukumäärän.
On kriittistä ottaa huomioon datatyyppi, joka sinulla on, kun valitset dataa, joka esitetään laatikolla ja viiksellä. Box- ja whisker-kaaviot ovat hyödyllisimpiä jatkuvan numeerisen datan esittämiseen, koska ne näyttävät datan vaihteluvälin, mediaanin ja kvartiilit. Jos sinulla on erillisiä tietoja, histogrammi tai pylväsdiagrammi voi olla parempi tapa esittää ne.
Kaiken kaikkiaan vaiheessa 1 päätetään, mitkä tiedot esitetään laatikolla ja viiksellä. Voit varmistaa, että laatikko- ja viiksikaavio edustaa tarkasti tietojesi jakautumista ja antaa merkityksellisiä oivalluksia valitsemalla oikeat tiedot.
Vaihe 2: Määritä kvartiilit
Vaiheen 2 tavoitteena on määrittää tietojoukkosi kvartiilit. Kvartiilit ovat arvoja, jotka jakavat tietojoukon neljään yhtä suureen osaan, joista jokaisessa on 25 % tiedoista.
Löytääksesi neljännekset lajittele ensin tietojoukko alimmasta korkeimpaan. Kun olet lajitellut tietojoukon, voit tunnistaa arvot, jotka edustavat ensimmäistä, toista ja kolmatta kvartiilia.
Ensimmäinen kvartiili, Q1, edustaa tietojen 25. prosenttipistettä. Tämä tarkoittaa, että 25 % tiedoista on tämän kynnyksen alapuolella. Löydät Q1:n laskemalla 25 % tiedoista tietojoukkosi alareunasta. Q1 on tietojoukon alemman puoliskon keskiarvo, jos tietojoukossasi on pariton määrä arvoja. Jos tietojoukossasi on parillinen määrä arvoja, Q1 on kahden keskiarvon keskiarvo alemmasta puoliskosta.
Mediaani tunnetaan myös toisena kvartiilina, Q2. Se edustaa tietojoukon keskiarvoa. Etsi vain arvo, joka on täsmälleen tietojoukon keskellä, jotta voit löytää Q2:n. Q2 on kahden keskiarvon keskiarvo, jos tietojoukossasi on parillinen määrä arvoja.
Kolmas kvartiili, Q3, edustaa tietojen 75. prosenttipistettä. Tämä tarkoittaa, että 75 % tiedoista on tämän kynnyksen alapuolella. Löydät Q3:n laskemalla 75 % tiedoista tietojoukkosi alareunasta. Q3 on tietojoukkosi ylemmän puoliskon keskiarvo, jos tietojoukossasi on pariton määrä arvoja. Jos tietojoukossasi on parillinen määrä arvoja, Q3 on kahden keskiarvon keskiarvo yläpuoliskosta.
Voit käyttää Q1:n, Q2:n ja Q3:n arvoja laatikko- ja viiksikuvaajan laatikkoosuuden muodostamiseen, kun olet määrittänyt niiden arvot. Laatikko edustaa tietojen keskimmäistä 50 %:a, Q1 alareunassa ja Q3 ylhäällä. Laatikon pituus edustaa kvartiiliväliä (IQR), joka on tiedon leviämisen mitta.
Vaihe 3: Laske kvartiiliväli (IQR)
Vaiheen 3, jossa käytetään laatikko- ja whisker-diagrammia, tavoitteena on laskea kvartiilialue (IQR). IQR mittaa tietojen leviämistä ensimmäisen ja kolmannen kvartiilin välillä (Q1 ja Q3).
Vähennä vain Q1:n arvo Q3:n arvosta saadaksesi IQR:n. Tämä voidaan ilmaista matemaattisesti seuraavasti:
IQR = Q3 – Q1
Jos esimerkiksi tietojoukossasi on Q1 = 5 ja Q3 = 10, IQR on:
IQR = 10-5 = 5
Tämä tarkoittaa, että keskimmäinen 50 % tiedoista on 5 yksikön alueella.
IQR on tärkeä tiedon leviämisen mitta, koska se on vähemmän herkkä ääriarvoille kuin alue, joka on datajoukon maksimi- ja minimiarvojen välinen ero. IQR ottaa huomioon vain keskimmäiset 50 % tiedoista, kun taas alue ottaa huomioon kaikki tiedot. Tämän seurauksena IQR on luotettavampi tiedon leviämisen mitta.
Voit käyttää IQR:ää tunnistaaksesi poikkeamat tietojoukostasi, kun olet laskenut sen. Poikkeavat arvot ovat arvoja, jotka ovat yli 1,5 kertaa IQR:n Q1:n alapuolella tai Q3:n yläpuolella, ja ne esitetään yksittäisinä pisteinä laatikossa ja pistekaaviossa. Outliers on tärkeää tunnistaa, koska ne voivat edustaa ääriarvoja, jotka eroavat merkittävästi muusta tiedosta, mikä vääristää kokonaisjakauman tulkintaa.
Vaihe 4: Määritä vähimmäis- ja enimmäisarvot
Vaiheen 4, jossa käytetään laatikko- ja viiksikuvaajaa, tavoitteena on löytää vähimmäis- ja enimmäisarvot tietojoukostasi. Näitä arvoja käytetään laatikkosi viiksien ja viiksikuvaajan laskemiseen.
Tietojoukon pienin arvo on pienin arvo ja enimmäisarvo tietojoukon suurin arvo. Nämä arvot edustavat tietojen absoluuttista vaihteluväliä.
Selaa vain tietojoukkosi läpi ja tunnista pienin ja suurin arvo löytääksesi vähimmäis- ja enimmäisarvot. Kun olet määrittänyt nämä arvot, voit käyttää niitä laatikon ja viiksikuvan viiksien rakentamiseen.
Viikset edustavat ensimmäisen ja kolmannen kvartiilin välistä data-aluetta, joka on 1,5 kertaa kvartiilien välinen alue (IQR). Poikkeavat arvot ovat arvoja, jotka jäävät tämän alueen ulkopuolelle, ja ne esitetään yksittäisinä pisteinä laatikossa ja pistekaaviossa.
Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta tietojoukon minimi- ja maksimiarvoihin. Siinä tapauksessa viikset ulottuvat vain korkeimpiin ja alimpiin ei-outlier-datapisteisiin.
Kaiken kaikkiaan laatikko ja viikset -yhdistelmä tarjoaa visuaalisen esityksen tietojen jakautumisesta, minkä avulla voit nopeasti tunnistaa datan mediaanin, kvartiilit ja alueen sekä mahdolliset poikkeamat.
Vaihe 5: Tunnista poikkeamat
Vaiheen 5 tavoitteena on tunnistaa poikkeamat tietojoukostasi. Poikkeamat ovat tietopisteitä, jotka eroavat merkittävästi muusta tietojoukosta ja jotka voidaan tunnistaa useilla eri tekniikoilla, mukaan lukien 1,5*IQR-sääntö.
1.5IQR-sääntö on hyvin tunnettu menetelmä poikkeamien havaitsemiseen tietojoukossa. Se määrittelee poikkeavan arvon mitä tahansa datapistettä, joka on yli 1,5 kertaa kvartiilien välinen alue (IQR) ensimmäisen kvartiilin (Q1) alapuolella tai yläpuolella. Toisin sanoen poikkeavat arvot ovat datapisteitä, jotka jäävät Q1 – 1.5IQR ja Q3 + 1.5*IQR määrittämien alueiden ulkopuolelle.
Jos esimerkiksi Q1- ja Q3-arvot ovat 5 ja 15, ja IQR on 10, alaraja poikkeavien arvojen tunnistamiselle on:
Q1 – 1,5 IQR = 5 – 1,510 = -10
Samoin yläraja olisi:
Q3 + 1,5 IQR = 15 + 1,510 = 30
Outliers ovat datapisteitä, jotka ovat alle -10 tai suurempia kuin 30.
Poikkeamat on tunnistettava, koska ne voivat vääristää tietojen kokonaisjakauman tulkintaa. Poikkeavat arvot voivat olla ääriarvoja, jotka eroavat merkittävästi muusta tiedosta, tai ne voivat olla tiedonkeruuprosessin virheitä.
Poikkeavat arvot voidaan esittää yksittäisinä pisteinä laatikossa ja viiksissä korostamaan niiden läsnäoloa ja erottamaan ne muusta tiedosta, kun ne on tunnistettu.
Vaihe 6: Rakenna Box and Whisker Plot
Vaiheen 6, jossa käytetään laatikko- ja viiksikuvaa, tavoitteena on rakentaa varsinainen tontti aiempien vaiheiden laskelmien perusteella.
Luodaksesi laatikko- ja viiksikuvaajan piirrä sarja viivoja ja ruutuja edustamaan datan eri puolia. Tässä on seuraavat vaiheet:
- Luo numerorivi asteikolla, joka vastaa käsittelemääsi tietojoukkoa.
- Määritä kvartiiliväli (IQR) ja kvartiilit Q1, Q2 ja Q3 vaiheissa 2 ja 3 kuvatulla tavalla.
- Piirrä laatikko, joka ulottuu Q1:stä Q3:een. Tämä on keskimmäinen 50 % tiedoista.
- Piirrä pystyviiva laatikkoon mediaanikohtaan (Q2). Tämä viiva jakaa laatikon kahtia.
- Piirrä viiva ruudun yläosasta tietojoukon suurimpaan ei-poikkeavaan arvoon. Ylempi viiksi on esitetty tällä viivalla.
- Piirrä viiva laatikon alaosasta tietojoukon pienimpään ei-poikkeavaan arvoon. Alempi viiksi on esitetty tällä viivalla.
- Mahdolliset poikkeamat tulee esittää yksittäisinä pisteinä viiksien ulkopuolella.
Keskellä oleva laatikko edustaa keskimmäistä 50 % tiedosta, kun taas keskellä oleva viiva edustaa mediaania. Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta tietojoukon minimi- ja maksimiarvoihin. Siinä tapauksessa viikset ulottuvat vain korkeimpiin ja alimpiin ei-outlier-datapisteisiin.
Kaiken kaikkiaan laatikko ja viikset kuvaavat datan jakautumista visuaalisesti, jolloin voit nopeasti tunnistaa mediaanin, kvartiilit, vaihteluvälin ja mahdolliset poikkeamat.
Vaihe 7: tulkitse juoni
Vaihe 7 sisältää laatikko- ja viiksikaavioiden tulkitsemisen saadaksesi lisätietoja tiedoista.
Kun tulkitset laatikko- ja viiksikaaviota, pidä seuraavat seikat mielessä:
- Keskimmäistä 50 % tiedoista edustaa ruutu kaavion keskellä. Laatikon sisällä oleva viiva edustaa mediaaniarvoa, joka on arvo, joka erottaa datan ylemmän ja alemman 50 %:n.
- Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta datan minimi- ja maksimiarvoihin. Jos poikkeavia arvoja on, viikset ulottuvat korkeimpiin ja pienimpiin ei-poikkeaviin tietopisteisiin.
- Yksittäisiä pisteitä viiksien ulkopuolella käytetään edustamaan poikkeavia arvoja. Nämä ovat datapisteitä, jotka eroavat merkittävästi muusta tiedosta, ja niitä tulee tutkia tarkemmin sen selvittämiseksi, ovatko ne päteviä vai ovatko ne tietovirheitä.
- Mitä pidempi laatikko, sitä laajemmin keskimmäinen 50 % tiedoista on hajallaan, kun taas mitä lyhyempi laatikko, sitä tiiviimmin klusteroitu data on.
- Jos mediaani on lähempänä laatikon pohjaa, se tarkoittaa, että suurin osa tiedoista on ryhmitelty sinne. Jos se on lähellä laatikon yläosaa, se tarkoittaa, että suurin osa tiedoista on keskittynyt sinne.
Kaiken kaikkiaan laatikko- ja viiksikuvaajat ovat yksinkertainen mutta tehokas tapa visualisoida numeeristen tietojen jakaumia ja tunnistaa tärkeitä ominaisuuksia, kuten mediaani, kvartiilit, alue ja poikkeamat.
Johtopäätös
Lopuksi voidaan todeta, että laatikko- ja viiksikuvaajat ovat hyödyllinen työkalu numeeristen tietojen yhteenvetoon ja vertailuun. Noudattamalla tässä oppaassa esitettyjä seitsemää vaihetta voit rakentaa ja tulkita laatikko- ja viiksikaavioita yksinkertaisella tavalla. Nämä kaaviot voivat auttaa sinua tunnistamaan tietojoukkosi vaihteluvälin, mediaanin, kvartiilit ja poikkeamat, ja niitä voidaan käyttää kahden tai useamman tietojoukon jakaumien vertaamiseen.