Statistica descriptiv? sumarizeaz? concis, tadalafil cu ajutorul unor indicatori sintetici, o colec?ie de date. Descrierea m?sur?torilor se poate face prin 2 metode: numeric sau grafic.
Descrierea numerică folosește indicatori numerici de tipul mediei, medianei sau deviației standard. În cadrul unei colecții de date, descrierea numerică ne arată care este valoarea medie a parametrului analizat și în ce grad fiecare măsurătoare diferă de medie.
Descrierea grafică folosește ca instrumente poligonul frecvențelor, histograma și box-plotul. Descrierea grafică este mai potrivită decât cea numerică atunci când se dorește identificarea unor șabloane (pattern-uri) în șirul de date.
1. Descrierea numerică
Descrierea numerică se face cu ajutorul indicatorilor de tendință centrală (valoare medie, mediană și modală) și a indicatorilor de dispersie (interval, deviație/abatere standard, varianță).
Indicatori de tendință centrală
Dintre indicatorii de tendință centrală, media (μ, M) este cel mai des folosită: se calculează prin sumarea valorilor și împărțirea la numărul total de valori (media aritmetică a valorilor). Valoarea medie ia în considerare toate valorile distribuției și este folosită pentru caracterizarea distribuțiilor normale (simetrice). Media nu este însă adecvată pentru distribuțiile asimetrice (skewed), deoarece poate fi mult influențată de valorile din coada distribuției, și este mai puțin eficientă decât ceilalți indicatori de tendință centrală atunci când sunt posibile valori extreme. Dacă distribuția are doar valori pozitive și un skew pozitiv media geometrică este o alternativă bună.
Mediana este valoarea de mijloc a unei distribuții: jumătate dintre valori sunt peste mediană, iar jumătate sub. Este eficientă în distribuțiile asimetrice, dar are dezavantajul că ignoră multe valori. Pentru distribuțiile cu număr impar de valori – mediana este valoarea de mijloc după sortarea crescătoare (exemplu: 2,4,7,9,11 – mediana este 7), iar pentru distribuțiile cu număr par de valori – mediana este media celor 2 valori din mijloc după sortarea crescătoare (exemplu: 2,4,7,9,11,15 – mediana este 8).
Valoarea modală este valoarea cu cea mai mai frecvență într-o distribuție. Deși este singura măsură de tendință centrală care poate fi folosită în cazul variabilelor nominale, pentru celelalte tipuri de variabile nu este recomandat să se calculeze doar valoarea modală ca indicator de tendință centrală pentru caracterizarea unei distribuții. Valoarea modală nu prezintă acuratețe în caracterizarea distribuțiilor multimodale (cu mai multe valori modale) și în cazul eșantioanelor fluctuante (pentru care se recomandă trimean și trimmed mean).
Media, mediana și modul sunt aproximativ egale într-o distribuție simetrică (normală, gaussiană). Într-o distribuție unimodală, media este tipic mai mare decât mediana în distribuțiile cu skew pozitiv (la dreapta) și mai mică decât mediana în distribuțiile cu skew negativ (la stânga).
Indicatori de dispersie
Dispersia (împrăștierea, variabilitatea) unei distribuții se referă la gradul în care valorile diferă una de cealaltă. Cu cât valorile sunt mai apropiate între ele, cu atât dispersia este mai mică. Caracterizarea unei distribuții din punct de vedere al dispersiei este importantă deoarece pot exista situații în care 2 distribuții au aceeași medie dar o dispersie diferită (exemplu).
Deviația (abatarea standard) este de departe cea mai folosită măsură de dispersie a unei distribuții. Ca și media, ia fiecare valoare în considerare, este utilă în special în distribuțiile normale și poate fi folosită în statistica inferențială. Pentru distribuțiile asimetrice deviația standard trebuie înlocuită cu intervalul semi-intercvartile (diferența dintre percentila 75 și 25 raportată la 2).
Intervalul de valori este cea mai simplă măsură a dispersiei unei distribuții și se exprimă sub forma [valoare maximă; valoare minimă]. Mai frecvent se folosește amplitudinea, care este diferența dintre valoarea maximă și valoarea minimă (exemplu: 1,2,6,8,88,101,123,165,700 – amplitudinea este 609). Dezavantajul major al acestui indicator este că ia în considerare doar 2 valori.
Deviația standard (σ, s, SD) reprezintă abaterea fiecărei valori dintr-o distribuție de la medie, mai exact diferența între fiecare valoare și medie (poate fi negativă sau pozitivă). Varianța reprezintă media aritmetică a deviațiilor standard la pătrat. Deviația standard a distribuției se calculează ca rădăcină pătrată (radical) din varianță. Astfel, o distribuție va fi caracterizată sub forma medie ± deviație standard (cunoscând acești parametri putem indica percentila asociată oricărei valori din distribuția respectivă).
Indicatori de formă
Indicatorii de formă sunt skewness (asimetrie) și kurtosis (exces).
O distribuție este asimetrică (skewed) dacă una dintre cozi (brațe) este mai lungă decât cealaltă. Asimetria (skewness) poate fi pozitivă (coadă mai lungă în direcția pozitivă, spre dreapta) sau negativă (coadă mai lungă în direcția negativă, spre stânga). Distribuția normală are skewness 0, fiind simetrică. Ca o regulă generală, media este mai mare decât mediana în distribuțiile cu skew pozitiv și mai mică decât mediana în distribuțiile cu skew negativ.
Exemple de skew pozitiv și negativ.
Kurtosis-ul se bazează pe mărirea cozilor (brațelor) unei distribuții. Distribuțiile cu cozi relativ înalte sunt numite leptokurtic, iar cele cu cozi mici platykurtic. O distribuție normal este mesokurtică (kurtotsis=0).
Exemple de kurtosis.
Criterii de normalitate a unei distribuții:
- media > 2 SD, media > SD
- comparare cu graficul de clopot (curba lui Gauss)
- media = mediana = modul
- testul de normalitate Kolmogorov-Smirnov (p>0.10)
- 68% dintre valori sunt în intervalul ± 1 deviație standard de medie, iar 95% în intervalul ± 2 deviații standard de medie
2. Descrierea grafică
Histograma se construiește pe baza unui tabel de frecvență. Tabelul de frecvență constă în stabilirea frecvenței de apariție a unei valori/a unui interval de valori în cadrul colecției de date pe care o analizăm (spre exemplu: măsurarea tensiunii arteriale la 20 pacienți a relevat următoarea frecvență a valorilor tensionale sistolice: 40% între 120 și 139 mmHg, 40% între 140 și 159 mmHg și 20% peste 160 mmHg). Tabelul de frecvență se construiește pe baza frecvențelor relative a valorilor/intervalelor de valori, care sunt obținute prin raportarea numărului de valori absolute dintr-un anumit interval la numărul total de măsurători. Revenind, histograma are pe axa absciselor (X) valorile sau intervalul de valori determinate și pe axa ordonatelor (Y) frecvența relativă a valorilor respective, sub forma unor coloane cu înălțimea proporțională. Ca unitate de măsură se alege 1/10 din valoarea maximă (exemplu: dacă valoarea tensională maximă este 200 mmHg, se va alege ca unitate de măsură 20 mmHg). Alte tipuri de grafice care pot fi folosite în analiza descriptivă a datelor sunt: coloane sau bare (pentru variabile calitative), pie (pentru variabile cantitative).
Box-plotul permite un sumar vizual al multor aspecte importante ale distribuției. Limitele dreptunghiului sunt date de valorile cuprinse între percentila 25 (inferior) și percentila 75 (superior), prin urmare include jumătatea de mijloc a valorilor din distribuție. Percentila reprezintă proporția de valori dintr-o distrbuție față de care o valoare specifică este mai mare sau egală (exemplu: dacă un copil are înălțimea pe percentila 80, înseamnă că talia este este mai mare sau egală decât cea a 80% dintre ceilalți copii). Pe box-plot, mediana este reprezentată cu o linie orizontală (prin urmare 25% dintre valori sunt între această linie și marginea superioară a dreptunghiului, și 25% între acestă linie și marginea inferioară), iar media cu “+”. Valoarea H-spread este definită ca diferența între marginile dreptunghiului, iar pasul (step) este de 1.5 ori valoarea H-spread. Box-plotul prezintă superior și inferior 2 garduri (fence) – inner fence (la 1 pas de margini) și outer fence (la 2 pasuri de margini). Dreptunghiul este delimitat de 2 linii orizontale prin care este conectat cu 2 linii verticale ce pornesc din margini – liniile orizontale reprezintă valorile adiacente: cea mai mare valoare sub gardul intern superior și cea mai mică valoare sub gardul intern inferior. Orice valoare între gradul intern și cel extern este indicată printr-un "o", pe când o valoare în afara gradului extern este indicată printr-un "*". Box-ploturile sunt utile pentru compararea datelor din 2 sau mai multe grupuri: arată mărimea intervalului de valori, gradul de dispersie a valorilor și skewness (un skew este pozitiv dacă media este mai mare decât mediana și dacă brațul superior al dreptunghiului este mai lung decât brațul inferior). Există unele programe statistice care au ca marcaje percentila 10, 25, 50, 75 și 90.
Exemplu de box-plot.
Poligonul frecvențelor este o reprezentare grafică a tabelului de frecvențe. Valorile/intervalele de valori sunt prezentate pe axa X și numărul de valori/ sau de valori din interval este reprezentat printr-un punct, la o înălțime proporțională. Punctele sunt apoi unite între ele astfel că formează un poligon. Poligonul frecvențelor este util pentru compararea distribuțiilor. În realizarea poligonului se pot folosi atât frecvențele absolute cât și frecvențele relative.
Exemplu de analiză descriptivă:
Determinarea valorilor tensionale la 20 indivizi a dat ca rezultat următoarele valori (tensiunea arterială sistolică, mmHg): 120, 125, 180, 190, 200, 125, 120, 145, 150, 150, 130, 135, 130, 120, 150, 155, 175, 155, 150, 145.
Iată cum facem prelucrarea descriptivă a datelor:
- Media = 147.5
- Abaterea standard pentru fiecare valoare se calculează astfel: 120-147.5=-27.5, 125-147.5=-22.5, etc.
- Mediana = 147.5
- Modul = 150
- Deviația standard = 23.59
Deoarece media, mediana și valoarea modală sunt relativ egale, putem afirma că distribuția este normală (dar skewness este 0.8, iar kurtosis –0.04).
Tabel de frecvență a intervalelor de valori |
||
Valoare TAS (mmHg) |
Număr apariție |
Frecvență relativă |
120-139 |
8 |
40% |
140-159 |
8 |
40% |
> 160 |
4 |
20% |
Total |
20 |
100% |