Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (2024)

Yksi tilastollisen analyysin tärkeistä vaiheista on tietojen yhteenveto. On hyvä käytäntö tarkastella tiedoistasi sekä graafista että numeerista yhteenvetoa. Nämä tiivistelmät ovat usein osa todisteita, joita tutkijat käyttävät tukeakseen tiedoista tehtyjä johtopäätöksiä. Niiden avulla tutkijat voivat myös löytää rakennetta, joka olisi muuten jäänyt huomiotta todellisuudessa kerätyissä raakatiedoissa. Lopuksi sekä graafiset että numeeriset yhteenvedot tiedoista viittaavat usein muihin analyyseihin, joita tiedolla voidaan tehdä.

Kun raakadata on kerätty tutkimuksessa, voi olla ylivoimaista saada siitä irti minkäänlaista merkitystä. Ei esimerkiksi ole harvinaista, että Google käsittelee miljoonia tapauksia. Kuinka Google – tai kuka tahansa tutkija – voi siirtyä kaikesta raakadatasta johonkin, joka voi auttaa heitä vastaamaan tutkimuskysymyksiinsä?

Sen sijaan, että tutkisivat kaikkia näitä tapauksia erikseen, tutkijat tutkivat tietoja kollektiivisesti, usein piirtämällä ne. Tätä tarkoitetaan tietojen graafisella yhteenvedolla; se on aivan kirjaimellisesti, kuva jakelusta.

On olemassa monia, monia erilaisia ​​kaavioita, jotka on luotu tietojen graafista yhteenvetoa varten. Jokainen voi tarjota hieman erilaisen esityksen tiedoista. Metaforisesti voit kuvitella kunkin näistä eri juonityypeistä eri valokuvana, joka on otettu täsmälleen samasta henkilöstä. Jotkut voivat olla värillisiä, toiset mustavalkoisia. Jotkut voidaan ottaa eri näkökulmista, kulmista tai etäisyyksistä. Vaikka kaikki valokuvat "tiivistävät" saman henkilön, saatat huomata joissakin kuvissa kyseisen henkilön ominaisuuksia, jotka eivät näy toisissa. Monissa kuvissa näkyy kuitenkin sama asia.

Muoto

TinkerPlots™:n tarjoama pistekaavio on erittäin hyödyllinen juoni.9Sen avulla voimme tiivistää jakauman muodon erittäin helposti. Muotoa käytetään kuvaamaan jakauman symmetriaa. Kuten arvata saattaa, symmetriset jakaumat ovat samanmuotoisia keskustan molemmilla puolilla. (Toinen tapa ajatella tätä on, että jos taitat jakauman keskeltä, jakauman taitettu puolisko asettuisi melko hyvin toisen puolikkaan päälle.) Esimerkiksi "kellomainen" ("noin normaali") jakaumat ovat symmetrisiä.

Kun jakauma on epäsymmetrinen, sitä kutsutaan avinossajakelu. Kuvassa 1 esitetty jakauma on vino jakauma. Tässä jakelussa näyttää olevan pidempi häntä jakauman oikealla puolella. Koska häntä on jakauman oikealla puolella, tilastotieteilijät sanoisivat, että se on "vinossa oikealle" tai "positiivisesti vinossa". Samalla tavalla vasemmalle suuntautuva jakauma on "vinoutunut vasemmalle" tai "negatiivisesti vinossa".

Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (1)

Kuva 1: Tämä jakauma on vinossa oikealle tai positiivisesti vinossa.

Sijainti

Jakauman yleisen muodon lisäksi on hyödyllistä tehdä yhteenveto jakauman sijainnista. Jakauman sijainti tarjoaa yhteenvedon tietojen niin sanotusta "tyypillisestä" arvosta. "Tyypillinen" arvo voidaan arvioida jakauman kuvaajasta. Voit myös käyttää muodollisesti laskettuja yhteenvetoja sijainnista, kuten keskiarvoa, mediaania tai tilaa. Nämä arvot on helppo laskea TinkerPlots™-sovelluksella.

Kun tarkastellaan jakauman kuvaajaa, data-analyytikot ottavat usein huomioon jakauman kaaviossa näkyvien moodien tai "kumppaneiden" määrän. Tässä tilan käsite on hieman erilainen (vaikka liittyykin) tilan käsitteeseen, jonka olet ehkä oppinut aikaisemmilla matematiikan tai tilastotieteen kursseilla. Jakauman muoto antaa yleiskuvan arvoista tai mittauksista, joita esiintyy usein. Tämä voi olla yksittäinen numero, mutta monta kertaa ei. Esimerkiksi alla olevassa kuvassa näkyvä jakauman ensimmäinen kyhmy viittaa siihen, että arvot noin yhdeksän ovat hyvin yleisiä. Todellinen arvo yhdeksän voi kuitenkin näkyä tiedoissa vain kerran tai kahdesti.

Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (2)

Kuva 2: Bimodaalinen jakauma, joka esittää kaksi tilaa. Yksi tila on noin 9 ja toinen lähellä 12.

Jakelu voi ollayksimuotoinen(yksi tila),bimodaalinen(kaksi tilaa),multimodaalinen(useita tiloja), taiyhtenäinen(ei tiloja). Yllä esitetty jakauma on bimodaalinen – huomaa, että siinä on kaksi kohoumaa. Tasaisilla jakaumilla on suunnilleen sama taajuus kaikille mahdollisille arvoille (ne näyttävät olennaisesti tasaisilta) eikä niillä siten ole moodeja.

Variaatio

Kolmas jakauman ominaisuus, joka pitäisi tiivistää, on vaihtelu. Muutoksen yhteenveto antaa viitteen siitä, kuinka vaihtelevaa data on. Yksi tapa tehdä numeerinen yhteenveto tietojen vaihtelusta on kvantifioida kuinka lähellä havainnot ovat keskimäärin suhteessa "tyypilliseen" arvoon. Ovatko havainnot suurimmaksi osaksi lähellä "tyypillistä" arvoa? Kaukana "tyypillisestä" arvosta? Kuinka lähellä?

Osoittautuu, että jakauman muoto auttaa myös kuvaamaan datan vaihtelua. Esimerkiksi "kellomaisissa" jakaumissa useimmat havainnot ovat lähellä "tyypillistä" arvoa, ja äärimmäisemmät havainnot näkyvät sekä "tyypillisen" arvon ala- että yläpuolella (vaihtelu on sama "tyypillisen" arvon molemmilla puolilla ). Sen sijaan vinoissa jakaumissa on monia havaintoja lähellä "tyypillistä" arvoa, mutta ääriarvot poikkeavat tästä arvosta vain yhteen suuntaan ("tyypillisen" arvon toisella puolella on enemmän vaihtelua kuin toisella).

Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (3)

Kuva 3: Suurin osa tämän jakauman havainnoista on ryhmitelty 0:n ja 2:n välille. Jotkut havainnot ovat suurempia kuin 2 (jopa 10), vaikka ne ovat harvinaisia.

Yksi asia, joka vaikuttaa vaihteluun, ja se pitäisi kuvata, on se, onko havaintoja, jotka erottuvat muista havainnoista. Usein näillä havainnoilla on erittäin suuria tai pieniä arvoja verrattuna muihin havaintoihin. Näitä havaintoja kutsutaan nimellämahdolliset poikkeamat, taiäärimmäisiä tapauksia. Esimerkiksi aiemmin esitetyssä positiivisesti vinossa jakaumassa havaintoa, jonka arvo on lähellä 10, pidettäisiin todennäköisesti potentiaalisena poikkeavana arvona.

Laittamalla kaikki yhteen

Mädät tomaatiton sivusto, joka kokoaa yhteen elokuvakriitikkojen arvostelut elokuvista. Sivusto merkitsee jokaisen arvostelun joko positiiviseksi tai negatiiviseksi ja antaa sitten elokuvalle pistemäärän myönteisten arvostelujen prosenttiosuuden perusteella. Kriitikoiden pisteytyksen lisäksi jokaiselle elokuvalle annetaan pisteet, jotka perustuvat suuren yleisön arvosteluihin samalla menetelmällä (arvostelut on taulukoitu siten, että pisteet edustavat suuren yleisön myönteisten arvostelujen prosenttiosuutta). Alla oleva juoni näyttää pistekaavion suuren yleisön tulosten jakautumisesta vuonna 2009 julkaistulle 134 elokuvalle.

Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (4)

Kuva 4: 134 vuonna 2009 julkaistun elokuvan pisteet yleisön arvostelujen perusteella. Pisteet edustavat kunkin elokuvan myönteisten arvostelujen prosenttiosuutta.

Kirjallinen kuvaus jakelusta voisi olla seuraava:

Tämän 134 elokuvan näytteen pisteiden jakautuminen on melko symmetrinen. Näiden elokuvien mediaanipistemäärä on lähes 60, mikä osoittaa, että noin 60 % yleisöstä arvioi tyypillisen vuonna 2009 julkaistun elokuvan myönteisesti. Jakelu osoittaa myös, että elokuvien pisteissä on vaihtelua. Useimpien otokseen kuuluvien elokuvien pistemäärä on 35–85, mikä viittaa suuriin eroihin yleisön käsityksessä näiden elokuvien laadusta.

Huomaa, että kuvaus sisältää kuvauksen jakauman muodosta, sijainnista ja muunnelmasta. Se sisältää myös datan kontekstin, tässä tapauksessa elokuvan partituurit. Tämä auttaa lukijaa tulkitsemaan kuvauksen.

  1. TinkerPlots™ tarjoaa myös muun tyyppisiä tontteja, mukaan lukien box plot (jota joskus kutsutaan box-and-whiskers plot) ja hat plot (muunnelma box plot).↩︎

Jakelujen kuvaus | Tilastollinen ajattelu: simulointimenetelmä epävarmuuden mallintamiseen (2024)
Top Articles
Latest Posts
Article information

Author: Jeremiah Abshire

Last Updated:

Views: 5573

Rating: 4.3 / 5 (54 voted)

Reviews: 93% of readers found this page helpful

Author information

Name: Jeremiah Abshire

Birthday: 1993-09-14

Address: Apt. 425 92748 Jannie Centers, Port Nikitaville, VT 82110

Phone: +8096210939894

Job: Lead Healthcare Manager

Hobby: Watching movies, Watching movies, Knapping, LARPing, Coffee roasting, Lacemaking, Gaming

Introduction: My name is Jeremiah Abshire, I am a outstanding, kind, clever, hilarious, curious, hilarious, outstanding person who loves writing and wants to share my knowledge and understanding with you.