Statistica
Analiza seriilor statistice - repartitii de frecventeEvaluarea anumitor indicatori (parametri) statistici implica stabilirea caracteristicilor (proprietatilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea, independenta si concentrarea/imprastierea (dispersia) catre/fata de un una sau mai multe valori ale seriei. Variabilitatea termenilor unei serii statistice este determinata de faptul ca fenomenul pe care il reprezinta nu este univoc determinat, ci apare ca un rezultat al actiunii combinate a mai multor cauze (permanente sau intamplatoare). Cu cat actiunea cauzelor intamplatoare este mai mare, cu atat variabilitatea este mai mare si gradul de omogenitate mai mic. Omogenitatea presupune o variatie minima intre termeni. Daca in urma analizei se constata ca o serie nu prezinta omogenitate, inseamna ca in acest caz colectivitatea este formata din mai multe tipuri calitative si seria trebuie descompusa in subserii componente. Independenta termenilor unei serii provine din faptul ca fiecare valoare individuala reprezinta un element distinct si obiectiv al unei populatii statistice. Termenii ce apartin aceleiasi colectivitati se supun acelorasi legi care se manifesta sub forma de tendinta. Concentrarea/imprastierea (dispersia) catre/fata de un una sau mai multe valori ale seriei apare ca rezultat al intensitatii unui efect produs de cauze esentiale si intamplatoare. Acest lucru determina fercventele diferite de aparitie a diferitelor valori din serie. Daca intensitatea factorilor este uniforma, frecventele de aparitie sunt apropiate. In caz contrar, frecventele de aparitie se concentreaza fie la un singur capat al seriei, fie catre o valoare centrala. Repartitii de frecvente Exista diferente intre analiza seriilor dinamice si problemele legate de gruparea si analizarea materialelor pentru care factorul timp nu are importanta. La cercetarea seriilor dinamice problema de baza o reprezinta analiza variabilei timp. Metodele de analiza folosite in aceste doua cazuri se deosebesc sensibil. In cele ce urmeaza ne vom ocupa de problemele gruparii si analizei prealabile a datelor numerice pentru care ordinea de asezare in timp nu conteaza. Datele statistice in stare bruta reprezinta o masa dezordonata de materiale. Prima problema este aceea de a face o asemenea grupare a datelor cu ajutorul careia sa se poata aprecia valoarea lor in legatura cu problema propusa, sa se poata inlesni comparatia cu alte date de acelasi gen si sa se poata obtine posibilitatea unei analize ulterioare. Inainte ca materialul statistic sa fie supus analizei ulterioare si generalizarilor care vor permite sa se faca anumite deductii, el trebuie sa capete o anumita forma si o structura clara. Cu alte cuvinte in cadrul analizei datelor statistice trebuie sa se ia in considerare atat valorile individuale cat si frecventele de aparitie ale acestora. In urma observarii caracteristicii cantitative X in n probe se obtin urmatoarele date primare: x1, x2,, xn (1) In cazul in care volumul selectiei este mic aceste date sunt usor de manipulat si nu este nevoie de o grupare a lor. Daca insa avem o selectie de volum mare este greu de lucrat cu aceste date. In plus tabelele de date primare nu sugereaza nimic referitor la referitor la repartitia variabilei X. De aceea este nevoie de o grupare (centralizare) a datelor. Gruparea datelor se face in functie de tipul caracteristicii X. Astfel, daca X este o variabila discreta ce poate lua valorile distincte v1, v2 ,, vn , atunci in locul datelor initiale se va retine repartitia empirica:
(2) Unde ni, (i=1, m) reprezinta frecventa aparitiei (numarul de aparitii) valorii vi, iar n reprezinta numarul valorilor din sirul initial (1) si se numeste frecventa absoluta a valorii v. Valoare m reprezinta numarul de clase. Raportul fj =nj/n dintre frecventa absoluta si numarul total de probe se numeste frecventa relativa. Se observa ca f1 + f2 + . + fm =1 intrucat n1 +n2 + +nm = n. Frecventele relative, numite impropriu si probabilitati de aparitie, stau la baza calcularii densitatii de repartitie a fercventelor si a indicatorilor care exprima gradul de concentrare. De asemenea permit compararea a doua repartitii construite pe aceeasi variabila, care difera numai prin numarul unitatilor pe grupe. Daca X este o variabila continua care poate lua valori intr-un interval [a,b] atunci acest interval este impartit in m subintervale [aj, aj+1], j=1, m , cu a1 = a si am+1 = b. Pentru fiecare din aceste subintervale se determina numarul n al valorilor din sirul (1) care se afla in acest interval numit frecventa absoluta a subintervalului. Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitatile se iau echidistante, deci subintervalele au lungimi egale. Insa numarul m al subintervalelor nu se alege la intimplare. Este important ca prin gruparea datelor sa nu se piarda caracterul global al repartitiei (daca m este prea mic se poate denatura repartitia reala a variabilei X). Astfel, dupa unii autori numarul subintervalelor, m, trebuie alese in conformitate cu formula lui Sturges : m=[1 + 3,322logn] Marimea intervalului va fi data de formula:
Reprezentarea grafica a repartitiilor statistice Exista mai multe tipuri de reprezentari grafice a datelor statistice. Dintre acestea prezentam histograma, poligonul frecventelor si graficul frecventelor cumulate. Histograma este o figura intr-un sistem de coordonate rectangualre care reprezinta distributia empirica prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor, reprezinta subintervalele folosite in centralizarea datelor. Inaltimea hj a dreptunghiului cu baza (aj, aj+1) este proportionala cu raportul dintre frecventa relativa a intervalului si lungimea sa:
constanta C fiind un factor de scara. In cazul cand subintervalele gruparii au lungimi egale, inaltimea hj va fi proportionala cu frecventa relativa, deci hj =C*fj . Poligonul frecventelor este o diagrama in care pe axa absciselor se iau mijloacele vj ale intervalelor (aj, aj+1) folosite in grupare, iar pe axa ordonatelor valorile hj definite in construirea histogramei. Linia frinta care uneste punctele de coordonate (vj, hj) se numeste poligonul frecventelor. El se poate obtine din histograma unind mijloacele laturilor superioare ale drptunghiurilor. In fig 1 poligonul frecventelor este trasat printr-o linie punctata. Marimile c1, c2, , cm definite prin:
se numesc frecvente cumulate. Linia franta obtinuta prin unirea punctelor de coordonate (aj+1, cj ] se numeste graficul frecventelor cumulate.
|