Fizica
Exercitiu - teste de detectare a heteroscedasticitatii si corectarea eiExercitiu - Teste de detectare a heteroscedasticitatii si corectarea eiIntr-o intreprindere producatoare de tesaturi textile, directorul de productie doreste sa determine o relatie intre numarul de defecte constatate la balotii de tesaturi, yi, dupa efectuarea verificarii, tinand seama de timpul cat a durat verificarea xi, folosind modelul liniar: . Pentru aceasta se dispune de informatiile, prezentate in Tabelul 5.3, referitoare la 6 masini de tesut, la care s-au verificat cate 5 baloti de stofa, inregistrandu-se si centralizandu-se numarul de defecte, depistat in orele de control:
Tabelul 5.3. Numarul orelor de control si al defectelor pentru 6 masini de tesut Sa se aplice urmatoarele teste pentru verificarea heteroscedasticitatii: 1) testul de egalitate a variantelor; 2) testul Goldfeld-Quandt; 3) testul lui Glejser; 4) in caz de heteroscedasticitate sa se corecteze efectele acesteia. Rezolvare 1) Testul de egalitate a variantelorSe dispune de 6 grupe de observari r = 6. Ipotezele testului sunt urmatoarele: H0: . H0 sustine ca nu exista nici o diferenta intre variantele grupelor. H1: Exista cel putin o varianta diferita de celelalte, i=1,r. Etapa1: Se calculeaza varianta pentru fiecare masina de tesut (grupa): , unde . Volumul unei grupe i este ni=5; intamplator aici sunt egale. Dispersiile grupelor sunt prezentate in Tabelul 5.4, si se obtin aplicand formula dispersiei sau o functie statistica de calcul a variantei datelor unui esantion, =VAR(blocul de date), in Excel. In Tabelul 5.4 sunt efectuate calculele pentru numarul mediu al defectelor si dispersia acestor defecte, pentru fiecare masina de tesut. Varianta fiecarei grupe arata influenta factorilor reziduali din interiorul fiecarei grupe, asupra variatiei variabilei y. In exercitiul acesta, influenta unor alti factori decat caracteristicile masinilor de tesut asupra numarului defectelor, pot fi: calitatea si caracteristicile firelor de tesut, dificultatea modelelor, indemanarea muncitorilor, starea lor de atentie, experienta in munca, etc.
Tabelul 5.4. Calculul variantelor pe grupe Etapa a 2-a: Se calculeaza media dispersiilor grupelor, care arata influenta factorilor reziduali la nivel de ansamblu. Pentru a obtine acest indicator se utilizeaza media aritmetica ponderata a dispersiilor de grupa: , cu . In acest caz ni = 5 si ni = 4, pentru orice i = 1,r. Numarul de masini este r=6. Valoarea obtinuta pentru media dispersiilor masinilor de tesut este . Etapa a 3-a: Se calculeaza valoarea unui test empiric c2 * cu r-1 grade de libertate, astfel: Cantitatea=24 Ln(38.517)-73.056=14.57, urmeaza o lege c2 cu 5 grade de libertate. Aceasta estimatie se poate ameliora prin impartirea la o constanta de scala C: =1.097. , urmeaza o lege c2a=5%; 5 grade libertate=11.07. Q=13.28 > 11.07, = 14.57 > 11.07, rezulta ca modelul este heteroscedastic.. 2) Testul Goldfeld-QuandtIpoteza nula H0 este cea de homoscedasticitate, iar cea alternativa H1, cea de heteroscedasticitate. Etapa 1: Se ordoneaza observarile in functie de variabila explicativa xi, in Tabelul 5.5. Aceasta ordonare este deja existenta, orele de verificare (xi), sunt deja in ordine descrescatoare. Graficul din Figura 5.4 arata corelatia inversa dintre numarul defectelor si numarul orelor de verificare.
Tabelul 5.5. Numar defecte/masina, in ordinea descrescatoare a timpului
Figura 5.4. Corelatia inversa dintre numarul defectelor si orele de verificare Etapa a 2-a: Se omit d observari centrale, aproximativ o patrime din numarul total de observari: d=INT(30/4)=8. Se aleg arbitrar cele 8 observari, situate in centrul esantionului, pentru a fi excluse din analiza. Etapa a 3-a: Se efectueaza regresiile liniare pe fiecare din cele doua esantioane ramase (in Tabelul 5.5. cele doua esantioane sunt scrise cu format italic) si se calculeaza un test Fisher. Din cele doua tabele de regresie, prezinta interes numai tabelele ANOVA, care sunt prezentate in Tabelul 5.6 pentru primul esantion si Tabelul 5.7, pentru al doilea esantion.
Tabelul 5.6. Tabelul ANOVA pentru primul esantion cu observarile j=1,11
Tabelul 5.7. Tabelul ANOVA pentru al doilea esantion cu observarile j=20,30 Variantele reziduurilor din cele doua tabele ANOVA sunt: SSR1=125.31 si SSR2=632. Raportul empiric urmeaza o lege Fisher cu gl1 si gl2 grade de libertate. Pentru a=5% si gl1=9 si gl2=9, valoarea tabelara este F0.059s9 grd.lib.= 3.18; F* > 3.18, ipoteza de homoscedasticitate H0 se respinge si modelul este heteroscedastic. 3) Testul lui GlejserTestul se bazeaza pe relatia dintre reziduurile obtinute in urma regresiei clasice, ignorand heteroscedasticitatea si o variabila explicativa suspecta a fi cauza acesteia. Glejser propune mai multe forme de legatura intre ei si xi: ei = a0 + a1xi + vi; ; . ; ; . Se respinge ipoteza de homoscedasticitate daca coeficientul a1 al uneia dintre specificatiile anterioare este semnificativ diferit de zero. Etapa 1: Se efectueaza regresia dintre yj si xj (j=1,30), prin metoda celor mai mici patrate, obtinandu-se tabela de regresie din Tabelul 5.8. In urma acestei estimari a modelului liniar: yi = 30.65 -3.64xi + ei, se pot calcula reziduurile ei. Etapa a 2-a: Se efectueaza regresia intre valorile absolute ale reziduurilor si valorile xj, testand cele trei tipuri de relatii alese. a) , heteroscedasticitate de tipul . In urma regresie se obtine modelul:, cu ratiile Student calculate, mai mari, in modul, decat (7.15) (-3.75) valoarea teoretica pentru a=5% si 28 grade de libertate, de 2.048.
Tabelul 5.8. Tabela de regresie y=f(x) b) , heteroscedasticitate de tipul . In urma regresie se obtine modelul:, cu ratiile Student, >2.048 (6.08) (-3.87) c) , heteroscedasticitate de tipul . Se obtine modelul: , cu ratiile Student, >2.048 (1.72) (3.48) Numai coeficientul variabilei explicative este semnificativ diferit de 0. Pentru toate cele trei forme de relatii, valoarea coeficientului de regresie este semnificativ diferita de 0, pentru ca ratia Student empirica, calculata este mai mare decat valoarea critica. Se respinge ipoteza nula H0 si se accepta faptul dovedit dealtfel si de celelalte teste, ca modelul este heteroscedastic. Forma b) de legatura, poate fi acceptata mai degraba decat celelalte doua, pentru ca ratia |t*| este cea mai mare si coeficientul de determinatie mai mare R2 = 0.3486. Forma a) este apropiata de b), avand R2=0.3352 si ratia Student a coeficientului de regresie apropiata de cea a formei b), desemnata ca fiind cea corespunzatoare. 4) Corectarea heteroscedasticitatii Cele trei teste au avut ca rezultat aceeasi concluzie: heteroscedasticitatea modelului. Presupunand ca se retine forma a), de relatie liniara intre reziduuri si variabila explicativa, atunci si se utilizeaza regresia ponderata cu factorul , care conduce la un model homoscedastic. Daca se utilizeaza forma b) propusa in urma aplicarii testului Glejser, se utilizeaza o regresie pe datele initiale ponderate cu factorul . Pentru acest exercitiu, se considera forma b) si datele transformate sunt:, , , prezentate in Tabelul 5.9. Noul model este: , unde ej raspunde ipotezelor clasice.
Tabelul 5.9. Variabilele transformate Regresia z=f(x1,x2) are tabela de regresie, prezentata in Tabelul 5.10.
Tabelul 5.10. Regresia pe variabilele transformate Coeficientii modelului initial sunt: si . Modelul estimat este: , cu ambii coeficienti semnificativi, iar R2=0.78.
Figura 5.5. Numarul defectelor observate si ajustarea lor cu modelul determinat Modelul, astfel determinat, are estimatori eficienti, obtinuti in conditii de heteroscedasticitate, cand erorile nu au varianta constanta.
|