Exemple: prova Xi-quadrat d’independència entre dos factors
Classifiquem 500 persones dels dos sexes segons el grau de miopia que tenen i els seu color d’ulls, i obtenim els següents resultats recollits en el fitxer Practica7_miopia.xlsx:
Miopia / Color | Blau | Verd | Fosc |
---|---|---|---|
No | 60 | 88 | 154 |
Una mica | 27 | 46 | 75 |
Molta | 11 | 15 | 24 |
Podem dir que hi ha dependència entre el color d’ulls i la miopia?
- Especifica el teu directori de treball (on has guardat el fitxer de dades)
- Carrega les dades i guarda-les amb el nom “dades”.
- Mira les primeres files de la taula de dades amb la funció
head()
per confirmar que les dades s’han carregat correctament
Volem saber si el color dels ulls té alguna relació amb el grau de miopia. Primer fem un estudi descriptiu:
Taula freqüències absolutes
taula<-table(dades$grau.miopia, dades$color.ulls)
taula
## ## blau marro verd ## baixa 60 154 88 ## moderada 27 75 46 ## severa 11 24 15
Taula percentatge columna
100*prop.table(taula, 2)
## ## blau marro verd ## baixa 61.224490 60.869565 59.060403 ## moderada 27.551020 29.644269 30.872483 ## severa 11.224490 9.486166 10.067114
El percentatge de persones amb miopia és mol similar en els tres colors d’ulls; no sembla que hi hagi cap relació entre el color d’ulls i la miopia, però per assegurar-ho fem una prova d’hipòtesis:
H_0 : X i Y són independents (el color d’ulls no té cap efecte sobre la miopia).
H_1 : X i Y estan relacionats (el grau de miopia depèn del color d’ulls).
PROVA XI-QUADRAT D’INDEPENDÈNCIA ENTRE DOS FACTORS
# Test Xi - Quadrat d'independencia de dos factors chisq.test(dades$grau.miopia, dades$color.ulls)
## ## Pearson's Chi-squared test ## ## data: dades$grau.miopia and dades$color.ulls ## X-squared = 0.49962, df = 4, p-value = 0.9735
Com que p-value > 0.05, no rebutgem \(H_0\); no s’observa cap relació significativa entre el color d’ulls i la miopia.
Exercici 1
En el fitxer de dades Practica7_exercici1.xlsx hi ha recollides les següents dades de 94 pacients:
edat
: indicador franja d’edat ( 1 = “ de 18 a 30”, 2 = “de 31 a 40”, 3 = “més grans de 40”).sexe
: sexe del pacient (1 = “M”, 2 = “F”).pes
: pes del pacient en kg.talla
: talla en cm. del pacient.imc
: índex de massa corporal.tabac
: indicador de consum o no, de tabac ( 0 = “NO”, 1 = “SI”).alcohol
: indicador de consum d’alcohol (0 = “no consumeix”, 1 = “moderat”, 2 = “consum alt”).ingca
: indicador de si el pacient pren diàriament aliments rics en calci o no (0 = “NO”, 1 = “SI”).ca
: nivells de calci en os.
1. Comprovar si hi ha relació entre el consum de tabac i el consum d’alcohol.
2. Comprovar si hi ha relació entre la edat i el consum de tabac.
3. Quina és la mediana dels nivells de calci de tots els pacients?
4. Quina és la mediana dels nivells de calci per als pacients que prenen calci (4a) i per als que no en prenen (4b)?
4c. Quin és el millor gràfic per veure si hi ha diferències en els nivells de calci entre els pacients que prenen calci i els que no en prenen?
5. Quin percentatge de pacients tenen entre 18 i 30 anys?
6. Del total de dones, quin percentatge fumen?
7. Del total de fumadors, quin percentatge són dones?
8. Calcula un valor numèric que indiqui si hi ha relació entre els nivells de calci i l’imc
8b. Quin és el millor gràfic per determinar si hi ha relació entre els nivells de calci i l’imc?
9. Comprova si els nivells de calci segueixen una distribució normal. Quin és el p.valor de la prova?
10. Contrasta si el consum diari d’aliments rics en calci té algun efecte sobre els nivells de calci dels pacients.
Indica només els primers números del p-valor, fins a “e-07”
11. Comprova si el imc segueix una distribució normal. Quin és el p.valor de la prova? Indica només els primers números del p-valor, fins a “e-06”
12. Contrasta si hi ha diferències en l’imc entre els que consumeixen aliments rics en calci i els que no. Quin és el p.valor?