Opas: Box and Whisker Plots (manuaalinen) (2024)

Laatikko- ja viiksikuvaajat ovat hyödyllisiä numeerisen datan visualisoinnissa ja tärkeimpien ominaisuuksien, kuten mediaanin, kvartiilien, vaihteluvälin ja poikkeamien tunnistamisessa. Niitä käytetään yleisesti eri ryhmien tai populaatioiden tietojen yhteenvetoon ja vertailuun tilastoissa, data-analyysissä ja tieteellisessä tutkimuksessa.

Tämä opas opastaa sinua luomaan ja tulkitsemaan laatikko- ja viiksijuttuja, jos olet uusi niissä tai tarvitset päivitystä niiden käyttöön. Opit keräämään dataa, laskemaan kvartiilien välisen alueen, tunnistamaan poikkeavia arvoja, luomaan laatikko- ja viiksikuvaajan ja tulkitsemaan tuloksia. Käymme myös läpi joitakin parhaita käytäntöjä ja vinkkejä tehokkaiden laatikko- ja viiksikaavioiden tekemiseen ja niiden käyttämiseen tietojoukkojen vertailuun.

Tämän oppaan loppuun mennessä sinulla on vankka käsitys siitä, kuinka visualisoida ja analysoida tietoja käyttämällä laatikko- ja viiksikaavioita.

Sisällysluettelo

Vaihe 1: Kerää tietosi

Vaiheen 1, jossa käytetään laatikko- ja viiksikuvaa, tavoitteena on kerätä tiedot, jotka haluat visualisoida. Keräämäsi tiedon tulee olla numeerista ja jatkuvaa, mikä tarkoittaa, että se voi ottaa minkä tahansa arvon alueella.

Numeerinen data on mitä tahansa tietoa, joka voidaan ilmaista numeerisesti. Tiedot esimerkiksi ihmisryhmän pituuksista tai objektijoukon painoista ovat molemmat esimerkkejä numeerisista tiedoista. Numeeriset tiedot voidaan myös luokitella jatkuvaksi tai diskreetiksi. Jatkuvat tiedot, kuten henkilön pituus, voivat saada minkä tahansa arvon alueella. Sen sijaan erilliset tiedot ovat tietoja, jotka voivat saada vain tiettyjä arvoja, kuten henkilön sisarusten lukumäärän.

On kriittistä ottaa huomioon datatyyppi, joka sinulla on, kun valitset dataa, joka esitetään laatikolla ja viiksellä. Box- ja whisker-kaaviot ovat hyödyllisimpiä jatkuvan numeerisen datan esittämiseen, koska ne näyttävät datan vaihteluvälin, mediaanin ja kvartiilit. Jos sinulla on erillisiä tietoja, histogrammi tai pylväsdiagrammi voi olla parempi tapa esittää ne.

Kaiken kaikkiaan vaiheessa 1 päätetään, mitkä tiedot esitetään laatikolla ja viiksellä. Voit varmistaa, että laatikko- ja viiksikaavio edustaa tarkasti tietojesi jakautumista ja antaa merkityksellisiä oivalluksia valitsemalla oikeat tiedot.

Vaihe 2: Määritä kvartiilit

Vaiheen 2 tavoitteena on määrittää tietojoukkosi kvartiilit. Kvartiilit ovat arvoja, jotka jakavat tietojoukon neljään yhtä suureen osaan, joista jokaisessa on 25 % tiedoista.

Löytääksesi neljännekset lajittele ensin tietojoukko alimmasta korkeimpaan. Kun olet lajitellut tietojoukon, voit tunnistaa arvot, jotka edustavat ensimmäistä, toista ja kolmatta kvartiilia.

Ensimmäinen kvartiili, Q1, edustaa tietojen 25. prosenttipistettä. Tämä tarkoittaa, että 25 % tiedoista on tämän kynnyksen alapuolella. Löydät Q1:n laskemalla 25 % tiedoista tietojoukkosi alareunasta. Q1 on tietojoukon alemman puoliskon keskiarvo, jos tietojoukossasi on pariton määrä arvoja. Jos tietojoukossasi on parillinen määrä arvoja, Q1 on kahden keskiarvon keskiarvo alemmasta puoliskosta.

Mediaani tunnetaan myös toisena kvartiilina, Q2. Se edustaa tietojoukon keskiarvoa. Etsi vain arvo, joka on täsmälleen tietojoukon keskellä, jotta voit löytää Q2:n. Q2 on kahden keskiarvon keskiarvo, jos tietojoukossasi on parillinen määrä arvoja.

Kolmas kvartiili, Q3, edustaa tietojen 75. prosenttipistettä. Tämä tarkoittaa, että 75 % tiedoista on tämän kynnyksen alapuolella. Löydät Q3:n laskemalla 75 % tiedoista tietojoukkosi alareunasta. Q3 on tietojoukkosi ylemmän puoliskon keskiarvo, jos tietojoukossasi on pariton määrä arvoja. Jos tietojoukossasi on parillinen määrä arvoja, Q3 on kahden keskiarvon keskiarvo yläpuoliskosta.

Voit käyttää Q1:n, Q2:n ja Q3:n arvoja laatikko- ja viiksikuvaajan laatikkoosuuden muodostamiseen, kun olet määrittänyt niiden arvot. Laatikko edustaa tietojen keskimmäistä 50 %:a, Q1 alareunassa ja Q3 ylhäällä. Laatikon pituus edustaa kvartiiliväliä (IQR), joka on tiedon leviämisen mitta.

Vaihe 3: Laske kvartiiliväli (IQR)

Vaiheen 3, jossa käytetään laatikko- ja whisker-diagrammia, tavoitteena on laskea kvartiilialue (IQR). IQR mittaa tietojen leviämistä ensimmäisen ja kolmannen kvartiilin välillä (Q1 ja Q3).

Vähennä vain Q1:n arvo Q3:n arvosta saadaksesi IQR:n. Tämä voidaan ilmaista matemaattisesti seuraavasti:

IQR = Q3 – Q1

Jos esimerkiksi tietojoukossasi on Q1 = 5 ja Q3 = 10, IQR on:

IQR = 10-5 = 5

Tämä tarkoittaa, että keskimmäinen 50 % tiedoista on 5 yksikön alueella.

IQR on tärkeä tiedon leviämisen mitta, koska se on vähemmän herkkä ääriarvoille kuin alue, joka on datajoukon maksimi- ja minimiarvojen välinen ero. IQR ottaa huomioon vain keskimmäiset 50 % tiedoista, kun taas alue ottaa huomioon kaikki tiedot. Tämän seurauksena IQR on luotettavampi tiedon leviämisen mitta.

Voit käyttää IQR:ää tunnistaaksesi poikkeamat tietojoukostasi, kun olet laskenut sen. Poikkeavat arvot ovat arvoja, jotka ovat yli 1,5 kertaa IQR:n Q1:n alapuolella tai Q3:n yläpuolella, ja ne esitetään yksittäisinä pisteinä laatikossa ja pistekaaviossa. Outliers on tärkeää tunnistaa, koska ne voivat edustaa ääriarvoja, jotka eroavat merkittävästi muusta tiedosta, mikä vääristää kokonaisjakauman tulkintaa.

Vaihe 4: Määritä vähimmäis- ja enimmäisarvot

Vaiheen 4, jossa käytetään laatikko- ja viiksikuvaajaa, tavoitteena on löytää vähimmäis- ja enimmäisarvot tietojoukostasi. Näitä arvoja käytetään laatikkosi viiksien ja viiksikuvaajan laskemiseen.

Tietojoukon pienin arvo on pienin arvo ja enimmäisarvo tietojoukon suurin arvo. Nämä arvot edustavat tietojen absoluuttista vaihteluväliä.

Selaa vain tietojoukkosi läpi ja tunnista pienin ja suurin arvo löytääksesi vähimmäis- ja enimmäisarvot. Kun olet määrittänyt nämä arvot, voit käyttää niitä laatikon ja viiksikuvan viiksien rakentamiseen.

Viikset edustavat ensimmäisen ja kolmannen kvartiilin välistä data-aluetta, joka on 1,5 kertaa kvartiilien välinen alue (IQR). Poikkeavat arvot ovat arvoja, jotka jäävät tämän alueen ulkopuolelle, ja ne esitetään yksittäisinä pisteinä laatikossa ja pistekaaviossa.

Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta tietojoukon minimi- ja maksimiarvoihin. Siinä tapauksessa viikset ulottuvat vain korkeimpiin ja alimpiin ei-outlier-datapisteisiin.

Kaiken kaikkiaan laatikko ja viikset -yhdistelmä tarjoaa visuaalisen esityksen tietojen jakautumisesta, minkä avulla voit nopeasti tunnistaa datan mediaanin, kvartiilit ja alueen sekä mahdolliset poikkeamat.

Vaihe 5: Tunnista poikkeamat

Vaiheen 5 tavoitteena on tunnistaa poikkeamat tietojoukostasi. Poikkeamat ovat tietopisteitä, jotka eroavat merkittävästi muusta tietojoukosta ja jotka voidaan tunnistaa useilla eri tekniikoilla, mukaan lukien 1,5*IQR-sääntö.

1.5IQR-sääntö on hyvin tunnettu menetelmä poikkeamien havaitsemiseen tietojoukossa. Se määrittelee poikkeavan arvon mitä tahansa datapistettä, joka on yli 1,5 kertaa kvartiilien välinen alue (IQR) ensimmäisen kvartiilin (Q1) alapuolella tai yläpuolella. Toisin sanoen poikkeavat arvot ovat datapisteitä, jotka jäävät Q1 – 1.5IQR ja Q3 + 1.5*IQR määrittämien alueiden ulkopuolelle.

Jos esimerkiksi Q1- ja Q3-arvot ovat 5 ja 15, ja IQR on 10, alaraja poikkeavien arvojen tunnistamiselle on:

Q1 – 1,5 IQR = 5 – 1,510 = -10

Samoin yläraja olisi:

Q3 + 1,5 IQR = 15 + 1,510 = 30

Outliers ovat datapisteitä, jotka ovat alle -10 tai suurempia kuin 30.

Poikkeamat on tunnistettava, koska ne voivat vääristää tietojen kokonaisjakauman tulkintaa. Poikkeavat arvot voivat olla ääriarvoja, jotka eroavat merkittävästi muusta tiedosta, tai ne voivat olla tiedonkeruuprosessin virheitä.

Poikkeavat arvot voidaan esittää yksittäisinä pisteinä laatikossa ja viiksissä korostamaan niiden läsnäoloa ja erottamaan ne muusta tiedosta, kun ne on tunnistettu.

Vaihe 6: Rakenna Box and Whisker Plot

Vaiheen 6, jossa käytetään laatikko- ja viiksikuvaa, tavoitteena on rakentaa varsinainen tontti aiempien vaiheiden laskelmien perusteella.

Luodaksesi laatikko- ja viiksikuvaajan piirrä sarja viivoja ja ruutuja edustamaan datan eri puolia. Tässä on seuraavat vaiheet:

  • Luo numerorivi asteikolla, joka vastaa käsittelemääsi tietojoukkoa.
  • Määritä kvartiiliväli (IQR) ja kvartiilit Q1, Q2 ja Q3 vaiheissa 2 ja 3 kuvatulla tavalla.
  • Piirrä laatikko, joka ulottuu Q1:stä Q3:een. Tämä on keskimmäinen 50 % tiedoista.
  • Piirrä pystyviiva laatikkoon mediaanikohtaan (Q2). Tämä viiva jakaa laatikon kahtia.
  • Piirrä viiva ruudun yläosasta tietojoukon suurimpaan ei-poikkeavaan arvoon. Ylempi viiksi on esitetty tällä viivalla.
  • Piirrä viiva laatikon alaosasta tietojoukon pienimpään ei-poikkeavaan arvoon. Alempi viiksi on esitetty tällä viivalla.
  • Mahdolliset poikkeamat tulee esittää yksittäisinä pisteinä viiksien ulkopuolella.

Keskellä oleva laatikko edustaa keskimmäistä 50 % tiedosta, kun taas keskellä oleva viiva edustaa mediaania. Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta tietojoukon minimi- ja maksimiarvoihin. Siinä tapauksessa viikset ulottuvat vain korkeimpiin ja alimpiin ei-outlier-datapisteisiin.

Kaiken kaikkiaan laatikko ja viikset kuvaavat datan jakautumista visuaalisesti, jolloin voit nopeasti tunnistaa mediaanin, kvartiilit, vaihteluvälin ja mahdolliset poikkeamat.

Vaihe 7: tulkitse juoni

Vaihe 7 sisältää laatikko- ja viiksikaavioiden tulkitsemisen saadaksesi lisätietoja tiedoista.

Kun tulkitset laatikko- ja viiksikaaviota, pidä seuraavat seikat mielessä:

  • Keskimmäistä 50 % tiedoista edustaa ruutu kaavion keskellä. Laatikon sisällä oleva viiva edustaa mediaaniarvoa, joka on arvo, joka erottaa datan ylemmän ja alemman 50 %:n.
  • Ellei poikkeavuuksia ole, viikset ulottuvat laatikosta datan minimi- ja maksimiarvoihin. Jos poikkeavia arvoja on, viikset ulottuvat korkeimpiin ja pienimpiin ei-poikkeaviin tietopisteisiin.
  • Yksittäisiä pisteitä viiksien ulkopuolella käytetään edustamaan poikkeavia arvoja. Nämä ovat datapisteitä, jotka eroavat merkittävästi muusta tiedosta, ja niitä tulee tutkia tarkemmin sen selvittämiseksi, ovatko ne päteviä vai ovatko ne tietovirheitä.
  • Mitä pidempi laatikko, sitä laajemmin keskimmäinen 50 % tiedoista on hajallaan, kun taas mitä lyhyempi laatikko, sitä tiiviimmin klusteroitu data on.
  • Jos mediaani on lähempänä laatikon pohjaa, se tarkoittaa, että suurin osa tiedoista on ryhmitelty sinne. Jos se on lähellä laatikon yläosaa, se tarkoittaa, että suurin osa tiedoista on keskittynyt sinne.

Kaiken kaikkiaan laatikko- ja viiksikuvaajat ovat yksinkertainen mutta tehokas tapa visualisoida numeeristen tietojen jakaumia ja tunnistaa tärkeitä ominaisuuksia, kuten mediaani, kvartiilit, alue ja poikkeamat.

Johtopäätös

Lopuksi voidaan todeta, että laatikko- ja viiksikuvaajat ovat hyödyllinen työkalu numeeristen tietojen yhteenvetoon ja vertailuun. Noudattamalla tässä oppaassa esitettyjä seitsemää vaihetta voit rakentaa ja tulkita laatikko- ja viiksikaavioita yksinkertaisella tavalla. Nämä kaaviot voivat auttaa sinua tunnistamaan tietojoukkosi vaihteluvälin, mediaanin, kvartiilit ja poikkeamat, ja niitä voidaan käyttää kahden tai useamman tietojoukon jakaumien vertaamiseen.

Opas: Box and Whisker Plots (manuaalinen) (2024)

FAQs

What do the lines on a box and whisker plot mean? ›

In a box and whisker plot: The left and right sides of the box are the lower and upper quartiles. The box covers the interquartile interval, where 50% of the data is found. The vertical line that split the box in two is the median. Sometimes, the mean is also indicated by a dot or a cross on the box plot.

How do you complete a box and whisker plot? ›

Here's a list of steps on how to make a box and whisker plot:
  1. Collect and organize your data. ...
  2. Calculate the median. ...
  3. Calculate each of the quartiles. ...
  4. Create your plot line and draw a line for each of your quartiles. ...
  5. Create a box connecting the quartiles. ...
  6. Find the interquartile range. ...
  7. Find the new upper and lower limits.
Mar 10, 2023

How do you make a box plot on a number line? ›

To construct a box plot, use a horizontal or vertical number line and a rectangular box. The smallest and largest data values label the endpoints of the axis. The first quartile marks one end of the box and the third quartile marks the other end of the box.

What are the 5 main points of a box and whisker plot? ›

A box and whisker plot—also called a box plot—displays the five-number summary of a set of data. The five-number summary is the minimum, first quartile, median, third quartile, and maximum.

What is the horizontal line in a Boxplot in R? ›

A boxplot in base R already consists three horizontal lines that represents minimum, median, and the maximum but we might to create an extra horizontal to showcase some threshold value. For example, we might to create a horizontal line at 2 to understand the variation in values that are greater than say 2.

How do you read a box and whisker plot range? ›

Lastly, we draw “whiskers” from the quartiles to the minimum and maximum value. The range of a box plot is the difference between the maximum and minimum value. What is this? To find the range of a given box plot, we can simply subtract the value located at the lower whisker from the value located at the upper whisker.

What is the formula for an outlier in a box plot? ›

The standard definition for an outlier is a number which is less than Q1 or greater than Q3 by more than 1.5 times the interquartile range ( IQR=Q3−Q1 ). That is, an outlier is any number less than Q1−(1.5×IQR) or greater than Q3+(1.5×IQR) .

How is a number line on a line plot like a ruler? ›

A number line is like a ruler or tape measure. The numbers have equal spaces between them. The numbers are in order. No numbers are skipped.

Does a line plot have to have numbers? ›

Continuous data can take on any of the infinite number of values within a range of values. Line plots are used to display numerical, discrete data only, not the continuous data. Line plots organize the data by indicating the occurrences of each value on a number line.

What does a line plot look like? ›

A Line plot can be defined as a graph that displays data as points or check marks above a number line, showing the frequency of each value. Here, for instance, the line plot shows the number of ribbons of each length. – A line plot is often confused with a line graph. A line plot is different from a line graph.

What do outliers mean in a box plot? ›

What are Box Plot Outliers? An outlier is a value that lies in both extremes of data. In other words, it's a value that lies outside the overall distribution pattern and thus can affect the overall data series. These anomalies are treated as abnormal values that can distort the final insights.

How do you interpret skewness of a box plot? ›

If the box in a box plot is stretched in one direction or the other, then the data is skewed in that direction. Data skewed right indicates a closer concentration of values on the left, since the plot indicates values more “strung out” on the right side.

What is upper and lower quartile? ›

The lower quartile, or first quartile (Q1), is the value under which 25% of data points are found when they are arranged in increasing order. The upper quartile, or third quartile (Q3), is the value under which 75% of data points are found when arranged in increasing order.

Top Articles
Latest Posts
Article information

Author: Arline Emard IV

Last Updated:

Views: 5569

Rating: 4.1 / 5 (52 voted)

Reviews: 91% of readers found this page helpful

Author information

Name: Arline Emard IV

Birthday: 1996-07-10

Address: 8912 Hintz Shore, West Louie, AZ 69363-0747

Phone: +13454700762376

Job: Administration Technician

Hobby: Paintball, Horseback riding, Cycling, Running, Macrame, Playing musical instruments, Soapmaking

Introduction: My name is Arline Emard IV, I am a cheerful, gorgeous, colorful, joyous, excited, super, inquisitive person who loves writing and wants to share my knowledge and understanding with you.