☞ xuleta d’R

Fitxers de dades

Exemple: prova T d’igualtat de mitjanes per a dades aparellades.

Es vol comparar dos procediments de mesura del contingut de greixos a la llet. Amb aquest objectiu es va mesurar pels dos mètodes el contingut de greixos en 9 mostres de llet. Els resultats varen ser els següents:

Mètode A 0.50 0.57 0.89 1.10 1.14 0.83 1.21 0.75 0.76
Mètode B 0.69 0.71 0.82 0.81 0.73 0.81 0.83 0.73 0.84

A partir d’aquestes dades, s’observen diferències significatives entre els dos mètodes de mesura? Responeu la pregunta amb un nivell de significació del 0.05.

A realitzar prèviament:

  • Especifica el teu directori de treball
  • Carrega les dades del fitxer Practica6_llet.xlsx i guarda-les amb el nom dades.
  • Mira les primeres files de la taula de dades que has carregat
  • Fes un resum numèric de les dades
  summary(dades)
##      mostra     A.greix          B.greix      
##  Min.   :1   Min.   :0.5000   Min.   :0.6900  
##  1st Qu.:3   1st Qu.:0.7500   1st Qu.:0.7300  
##  Median :5   Median :0.8300   Median :0.8100  
##  Mean   :5   Mean   :0.8611   Mean   :0.7744  
##  3rd Qu.:7   3rd Qu.:1.1000   3rd Qu.:0.8200  
##  Max.   :9   Max.   :1.2100   Max.   :0.8400

  • Representa gràficament les dades amb un diagrama de caixes:
  boxplot(dades$A.greix, dades$B.greix)

plot of chunk unnamed-chunk-2

Volem saber si els dos mètodes mesuren el mateix o no

Test d’igualtat de dues mitjanes per a dades aparellades

H_0 : mu_A = mu_B

H_1 : mu_A ≠ mu_B

Tenim dues possibilitats:

  • Prova T per a dades aparellades, si les dades segueixen una distribució normal.
  • Prova de Wilcoxon per a dades aparellades, si les dades NO segueixen una distribució normal.

Per tant, el primer que cal fer és una prova de normalitat

Test de normalitat Shapiro-Wilk

H_0 : les dades segueixen una distribució normal

H_1 : les dades NO segueixen una distribució normal

Test de normalitat SHAPIRO-WILK:

  shapiro.test(dades$A.greix)
## 
##  Shapiro-Wilk normality test
## 
## data:  dades$A.greix
## W = 0.94451, p-value = 0.6301
  shapiro.test(dades$B.greix)
## 
##  Shapiro-Wilk normality test
## 
## data:  dades$B.greix
## W = 0.85607, p-value = 0.08688

En els dos casos el p-valor es > 0.05 i per tant no rebutgem H_0. Podem suposar que les dades segueixen una distribució normal. Per tant, per comparar les mitjanes dels temps segons la dieta aplicarem la prova T per a dades aparellades.

Prova T per a dades aparellades

Cal crear una nova variable igual a la diferència de les dues variables

  d<-dades$A.greix-dades$B.greix

Prova T per a la nova variable amb la funció t.test()

  t.test(d,mu=0)
## 
##  One Sample t-test
## 
## data:  d
## t = 1.1674, df = 8, p-value = 0.2767
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.08452384  0.25785717
## sample estimates:
##  mean of x 
## 0.08666667

Com que p-value > 0.05, NO rebutgen H_0; no s’observen diferències significatives en les mesures mitjanes de greixos segons els dos procediments.

Exemple: Prova d’igualtat de dues proporcions

Es volen comparar dues teràpies per a la migranya, la primera basada en l’administració de medicaments i la segona amb la utilització de l’acupuntura. La primera, utilitzada en 54 pacients, va resultar exitosa en 38 d’aquests. La segona, utilitzada en 43 pacients, va resultar exitosa en 29 d’aquests pacients. Es pot afirmar, amb un nivell de significació del 95%, que un dels dos tractaments és més eficaç que l’altre?

El fitxer Practica6_Migranya.xlsx conté les dades d’aquest estudi:

  • terapia: factor ( 1 = “medicació”, 2 = “acupuntura”)
  • eficacia: factor ( 0 = “NO èxit”, 1 = “èxit”)

A realitzar prèviament:

  • Especifica el teu directori de treball
  • Carrega les dades amb el nom dades.
  • Mira les primeres files de la taula de dades que has carregat
  • Fes un resum numèric de les dades summary(dades)
  • Defineix les dues variables com a categòriques i especifica el nom de les seves categories
  • Estudia a nivell descriptiu quina teràpia es més eficaç
  • Taula de contingència

Taula de freqüències absolutes:

  table(dades$terapia, dades$eficacia)
##    
##      0  1
##   1 16 38
##   2 14 29

Taula en percentatges fila

  100*prop.table(table(dades$terapia, dades$eficacia), 1)
##    
##            0        1
##   1 29.62963 70.37037
##   2 32.55814 67.44186

Segons aquests resultats, l’eficàcia dels fàrmacs és del 70% i la de l’acupuntura del 67%. Per saber si aquesta diferència en eficàcia a favor dels fàrmacs és significativa haurem d’aplicar una prova d’hipòtesis:

Prova d’igualtat de dues proporcions

Volem saber si les dues teràpies tenen la mateixa eficàcia o no:

H_0 : pi_1 = pi_2

H_1 : pi_1 ≠ pi_2

Test d’igualtat de dues proporcions amb la funció prop.test():

  prop.test(table(dades$terapia, dades$eficacia))
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  table(dades$terapia, dades$eficacia)
## X-squared = 0.0079028, df = 1, p-value = 0.9292
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2357765  0.1772063
## sample estimates:
##    prop 1    prop 2 
## 0.2962963 0.3255814

Com que p-value > 0.05, no rebutgem H_0; no s’observen diferències significatives entre l’eficàcia de l’acupuntura i els tractament amb medicaments.

Problema 1

Es va fer un estudi comparatiu sobre l’agressivitat d’un grup de 10 nens a principi de curs i a final de curs. Els resultats d’aquest estudi són els següents i es troben en el fitxer Practica6_Prob_66.xlsx:

Principi de curs 15 12 8 3 18 4 7 10 5 6
Final de curs 12 14 5 3 10 5 5 8 6 3

Digueu si existeixen diferències significatives entre el grau d’agressivitat al principi i al final de curs amb un nivell de confiança del 95%.

Responeu les preguntes 1-3 del qüestionari.

Problema 2

Es va fer un estudi estadístic per analitzar l’eficàcia d’una dieta baixa en greixos a l’hora de disminuir els nivell de colesterol a la sang. Un grup de 12 persones van seguir aquesta dieta i els resultats que es van obtenir van ser els següents i es troben en el fitxer Practica6_Prob_71.xlsx:

 

Pacient 1 2 3 4 5 6 7 8 9 10 11 12
Abans de la dieta 4.72 5.23 3.27 5.18 3.55 3.49 5.95 4.87 6.24 3.72 6.29 7.18
Després de la dieta 4.51 4.12 4.07 3.56 3.50 4.01 4.18 3.85 5.19 4.18 5.37 6.30

Segons aquestes dades, es pot afirmar, amb un nivell de confiança del 95%, que la dieta analitzada disminueix els nivells de colesterol a la sang?

Responeu les preguntes 4-6 del qüestionari.

Problema 3

En el fitxer de dades Practica6_problema3.xlsx hi ha recollides les següents dades de 94 pacients:

  • edat: indicador franja d’edat ( 1 = “ de 18 a 30”, 2 = “de 31 a 40”, 3 = “més grans de 40”).
  • sexe: sexe del pacient (1 = “M”, 2 = “F”).
  • pes: pes del pacient en kg.
  • talla: talla en cm. del pacient.
  • imc: índex de massa corporal.
  • tabac: indicador de consum o no, de tabac ( 0 = “NO”, 1 = “SI”).
  • alcohol: indicador de consum d’alcohol (0 = “no consumeix”, 1 = “moderat”, 2 = “consum alt”).
  • ingca: indicador de si el pacient pren diàriament aliments rics en calci o no (0 = “NO”, 1 = “SI”).
  • ca: nivells de calci en os.
  • Comprovar si existeixen diferències significatives de l’índex de massa corporal entre homes i dones.
    Respon les preguntes 7 – 9 del qüestionari.
  • Comprovar si existeixen diferències significatives en el percentatge de fumadors segons el sexe.
    Respon les preguntes de 10 – 12 del qüestionari.
  • Comprovar si hi ha més homes que dones que prenen aliments rics en calci diàriament.
    Respon les preguntes 13 – 15 del qüestionari.