Statistica
Introducere in statistica matematicaIntroducere in statistica matematica Statistica matematica este una dintre ramurile moderne ale matematicii, cunoscand cea mai mare dezvoltare in ultimul timp si in cele mai variate domenii. Provenind din cuvantul latinesc status, adica Stat, termenul de statistica este folosit incepand cu secolul al XVIII-lea pentru a desemna datele sub forma de cifre pe care Statul, incepand de la formarea sa in antichitate si pana astazi, are rolul sa le stranga si sa le claseze in vederea cunoasterii bogatiilor si bunurilor pe care cetatenii sai le poseda, date necesare pentru stabilirea taxelor si impozitelor. Primele asemenea date tabelate au fost intocmite in China antica inca din anul 2238 i.Ch., la ordinul imparatului Yao, si ele se refereau la ceea ce azi ar reprezenta tabelele statistice agricole. Tot din timpul antichitatii, aflam de la Tacit ca imparatul Augustus a dispus efectuarea recensamantului tuturor bunurilor existente la acea vreme in Imperiul Roman. Chiar si civilizatiile antice care nu cunosteau scrierea intocmeau situatii statistice, acestea fiind prezentate pe piei scrijelite -un fel de rabojuri, sau prin sforii cu noduri. Incepand cu prima parte a secolului al XX-lea insa, impulsionata puternic de teoria probabilitatilor, statistica a cunoscut o dezvoltare teoretica si practica fara precedent. S-au dezvoltat noi metode de analiza datelor si metode mai sofisticate de testare a ipotezelor statistice. Folosirea in partea a doua a secolului trecut a computerelor a dus la o dezvoltare exponentiala a sa, ajutata de puterea enorma de calcul a acestora. Aceste metode moderne de lucru ale statisticii, cunoscute pe scurt ca statistica, au devenit astazi un mijloc foarte important care ne ajuta sa descoperim legile ce guverneaza realitatea inconjuratoare. Pentru ca nu avem puterea sa o cunoastem in totalitatea ei, incercam s-o ‚pipaim’ cu mijloacele puse la indemana de statistica pentru a o putea patrunde si intelege suficient. Sa ne amintim ca, actualmente, nu mai exista nici o domeniu de cunoastere, fie el din fizica, chimie, biologie, medicina, demografie, economie, meteorologie, psihologie, istorie, geografie, s.a.m.d. care sa nu o utilizeze cu succes. 1. Despre statistica Media de toate felurile ne bombardeaza zilnic cu tot felul de ‚statistici’, care de care mai complexe sau mai bizare. Ziarele, jurnalele televizate, rubricile economice, sociale, politice sau chiar militare din media actuala, abunda de tot felul de informatii statistice referitoare la sanatate, somaj, industrie si comert, accidente rutiere sau de munca, prognoze meteorologice, economice sau politice, sondaje de opinie pe teme social-politice, analize strategice, etc. In multe situatii, spre exemplu in cazul sondajelor de opinie cu tinta politica, sunt prezentate si anumite detalii tehnice privind volumul esantionului din populatie care a fost luat in consideratie, gradul de certitudine a rezultatelor prezentate, dar in cele mai multe cazuri ne lovim doar de cifre seci privind cresteri sau descresteri procentuale si nimic mai mult despre metodologia de recrutare a subiectilor, gradul de reprezentativitate s.a.m.d. Este evident din cele aratate mai sus ca sunt statistici de ‚incredere’ si statistici cu tenta mai mult de popularizare a anumitor date sau de propaganda, fara nici o pretentie de complexitate sau de consistenta. O statistica prezentata in media este, de cele mai multe ori, rezultatul unei cercetari. Putini stiu insa ce se ascunde in spatele cuvantului ‚cercetare’, care au fost de fapt metodele folosite, cat de corecte au fost datele procesate sau daca au fost verificate ipotezele de lucru. Ceea ce este prezentat este doar un mesaj de tipul „studii statistice au demonstrat ca metoda X este cu 28% mai eficienta decat metoda Y, medicamentul Z este de 3 ori mai eficace decat medicamentul W sau venitul mediu a crescut pe luna in curs cu Q% in timp ce inflatia a scazut cu R%”, etc., fara a pune la dispozitie si metodologia dupa care s-a lucrat. Evident, pentru o persoana oarecare este nerelevanta filosofia din spatele unor asemenea afirmatii, important fiind rezultatul in sine, dar exista o puternica tendinta de a prezenta rezultate mistificate, invaluindu-le intr-o haina de elevata ‚cercetare stiintifica’. O alta problema, de aceasta data des intalnita in mediul medical, este cea referitoare la prezentarea unor cazuri sau situatii particulare, valabile pe un numar insignifiant de subiecti, ca fiind reprezentative, extrapolandu-le la intreaga populatie. Aici problema se pune in ceea ce priveste reprezentativitatea esantionului, atat ca numar cat si ca stratificare. Pe de alta parte, tot in acest context, prezentarea unor simple caracteristici statistice ca, de exemplu, medie, dispersie, eroare standard, etc., sau prezentarea unor histograme frumos colorate, tine loc unei cercetari statistice serioase. Folosirea in ultimul timp de catre nespecialisti a unor programe de computer, fara sa se cunoasca prea bine conditiile pe care trebuie sa le verifice datele sau modul de introducere a acestora, duce la obtinerea unor rezultate despre care nu se poate afirma cu certitudine absolut nimic. In principiu, exista doua abordari graduale si complementare in cadrul unui studiu statistic. Este, pe de o parte, abordarea primara, initiala a datelor, explorarea si descrierea lor prin tehnicile clasice ale statisticii descriptive –reprezentari grafice si parametri numerici clasici si, pe de alta parte, procesarea ulterioara, complexa a datelor, utilizand modele probabiliste si folosind proceduri de estimare si teste statistice, ceea ce constituie inferenta statistica. Abordarea graduala a celor doua metode si folosirea cu rigurozitate a metodologiile corespunzatoare, duce, in final, la obtinerea de rezultate consistente si relevante privind domeniul studiat. In final, sa mentionam ca exista perceptia, destul de raspandita ca, folosind statistica, se poate demonstra aproape orice. Nimic mai fals. Intr-adevar, prezentand numai anumite aspecte, de cele mai multe ori rupte de adevaratul context sau fara verificarea ipotezelor de lucru, se pot face afirmatii favorabile sau nu unei anumite idei. In principiu, trebuie sa plecam de la ideea de baza ca statistica clarifica anumite aspecte mai confuze ale realitatii, limitand incertitudinea noastra, dar nicidecum nu poate demonstra ceva. Ea doar oglindeste cifric realitatea, nu o construieste sau modifica. Plecand de la acest principiu, putem folosi corect si eficient tehnicile puse la dispozitie de statistica, sondand cu ajutorul ei eficient realitatea inconjuratoare. 2. Proiectarea analizei statistice Atunci cand avem in vedere efectuarea unui studiu statistic, trebuie mai intai sa elaboram (proiectam) un plan de lucru. De fiecare data cand colectam date spre a fi procesate, trebuie sa avem in minte o schema prestabilita privind ceea ce vrem sa obtinem din procesarea lor. Este important sa stim acest lucru a priori deoarece vom sti astfel de ce fel de date este nevoie si forma sub care trebuie culese. Prezentam mai jos o schema privind planul unei cercetari statistice generale (Altman, 1991). Planificare
Proiectare
Executie (colectarea datelor)
Procesarea datelor
Analiza datelor
Prezentarea rezultatelor
Interpretarea rezultatelor
Publicarea Atunci cand vrem sa studiem un anumit aspect al realitatii inconjuratoare, nu o putem face studiind toate obiectele sau subiectii corespunzatori. Daca vrem sa studiem o anumita caracteristica a unei populatii, nu vom analiza toata populatia, ci vom considera un anumit esantion din ea. Daca, de exemplu, suntem interesati de efectele telefoniei mobile asupra sanatatii celor care o folosesc, vom face o investigatie printre utilizatori, considerand un anumit numar dintre acestia, luati la intamplare si tinand seama de timpul pe care il consuma vorbind de la un mobil. Rezultatul unei asemenea cercetari se vrea extrapolat la toti utilizatorii telefoniei mobile, deci esantionul ales trebuie sa fie reprezentativ pentru intreaga populatie a utilizatorilor. Cu toate ca, asa cum am spus mai sus, subiectii supusi testarii vor fi alesi la intamplare, totusi, din punct de vedere practic, exista o intreaga metodologie de a recruta subiectii, despre care vom mai vorbi in aceasta carte. Atunci cand se incepe o cercetare statistica si se recruteaza subiectii, este indeobste obligatoriu sa se precizeze criteriile dupa care au fost inclusi sau exclusi din studiu, precum si caracteristicile principale ale esantionului. In acest mod cercetare este transparenta si oricine poate sa evalueze cat de reprezentativ a fost lotul de subiecti pentru scopul propus. In cazul unui studiu comparativ, este necesara aceiasi prezentare pentru fiecare esantion si, in plus, trebuie verificat ca diferenta dintre volumele loturilor comparate sa nu fie semnificativa, denaturand rezultatele comparatiei. O alta chestiune importanta care trebuie avuta in vedere la proiectarea unei cercetari statistice este alegerea unui volum minim al esantionului care sa implice un grad suficient de reprezentativitate. In acest context vom mentiona ca diferite metode statistice cer anumite volume de esantion si astfel, inainte de inceperea propriu-zisa a studiului, trebuie sa asiguram numarul suficient de subiecti analizati. Cea mai importanta parte a unui studiu statistic serios ramane metodologia folosita. Aceasta parte include, de fapt, tot ceea ce am amintit mai sus. Partea intitulata generic ‚Material si metode’ va cuprinde descrierea detaliata a modului de recrutare al subiectilor, caracteristicile esantionului, gradul de reprezentativitate al sau si rezultatele statistice complete. 3. Analiza si interpretarea datelor In stransa legatura cu ceea ce am spus mai inainte, odata stabilit esantionul, este de o importanta vitala alegerea adecvata a tehnicile statistice folosite pentru procesarea datelor. Exista foarte multe tehnici statice folosite in analiza datelor si este intr-adevar de multe ori dificil sa alegem metoda sau metodele cele mai bune pentru studiul unui anumit caz particular. Pentru a usura aceasta alegere si pentru a ne feri de a folosi in mod eronat tehnicile statistice este absolut necesar sa se cunoasca foarte bine ‚filosofia’ ce sta in spatele fiecarei metode. Sunt foarte multe cazuri cand necunoscatori, care poseda vagi cunostinte in domeniu, folosesc diferite programe statistice ‚dupa ureche’, fara sa cunoasca nici ipotezele de lucru, nici conditiile pe care trebuie sa le indeplineasca datele si nici macar modul de introducere al datelor. Se obtin in astfel de cazuri rezultate care nu spun nimic din punct de vedere statistic dar care dau numai impresia, total falsa, ca ar fi rezultate ‚stiintifice’ riguroase, doar pe baza faptului ca au fost obtinute cu ajutorul statisticii si al computerelor. Dupa procesarea datelor urmeaza o parte foarte importanta a studiului care rezida in interpretarea rezultatelor. Daca scopul propus a fost clar si metodologia bine aleasa, in principiu nu sunt probleme privind interpretarea rezultatelor. Singura problema ramane compararea rezultatelor obtinute cu ceea ce se stia sau banuia in domeniul respectiv, pentru ca studiul statistic efectuat fie sa confirme, fie sa infirme anumite rezultate sau pareri deja cunoscute. Sunt si cazuri in acest context cand, analizand anumite date, se descopera anumite legaturi intime si fenomene necunoscute pana atunci si care, fara puternicul si eficientul mecanism statistico-informatic, ar fi fost imposibil de identificat. 6. Tipuri de date Obiectele cu care lucreaza statistica sunt reprezentate de date, adica acele caracteristici numerice sau nenumerice care descriu obiectele/subiectii unui studiu statistic. Vorbim, de exemplu, de caracteristici numerice, cantitative ale unei populatii ca inaltimea sau greutatea, precum si de date calitative, nenumerice ca, de exemplu, culoarea parului, diagnosticul unei boli, sexul s.a.m.d. Din cele spuse mai sus, rezulta ca exista, in principiu, doua tipuri importante de date: date numerice (cantitative) si date categoriale (calitative), cu toate ca in statistica sunt folosite, mai rar, si alte tipuri de date. 6.1. Date numerice Datele numerice, cantitative, sunt, la randul lor, de doua feluri: date discrete si date continue. Datele discrete apar atunci cand este vorba de observatii numerice intregi privitoare la un anumit proces de numarare ca, de exemplu, numarul de copii, pulsul, numarul de consultatii pe an la care a fost supus un pacient, etc. Spre deosebire de datele numerice discrete, obtinute de regula in urma unui proces de numarare, datele numerice continue se obtin indeobste in urma unor masuratori, de exemplu inaltimea, greutatea, tensiunea arteriala, colesterolul, etc. Aceste date sunt, de regula, exprimate prin numere reale, spre deosebire de cele discrete care sunt restrictionate la numerele intregi. Vom mentiona aici ca, de multe ori, datele discrete sunt tratate ca date continue, de exemplu numarul de batai pe minut al inimii. Pentru ca analiza unor asemenea date (discrete, dar considerate continue) sa nu aiba de suferit, trebuie sa dispunem de un numar suficient de mare de valori diferite posibile ale acestora care sa creeze premisele continuitatii lor. 6.2. Date categoriale Spre deosebire de datele numerice, datele categoriale sau calitative sunt acele date care, asa cum le spune si numele, impart subiectii in diferite categorii, ca de exemplu: 1. barbat/femeie 2. casatorit/necasatorit/vaduv 3. fumator/nefumator 4. hipertensiv/hipotensiv 5. stadii in cancer: I, II, III, IV 6. existenta simptoame: DA, NU 7. tip diagnostic: A, B, C, D, etc. Sa observam ca, daca datele numerice discrete sunt cateodata tratate ca date categoriale, de exemplu numarul de copii nascuti de o femeie, e.g. 0, 1, 2, 3, 4, impartind lotul mamelor in categoriile corespunzatoare; important in aceasta situatie este sa se ignore notiunile de ordine sau de parametri numerici ca, de exemplu, media. Invers, nu este corect sa interpretam datele categoriale ca date numerice, de exemplu, la stadiile in cancer stadiul IV nu este de doua ori mai rau decat stadiul II, s.a.m.d. 6.3. Alte tipuri de date Inafara de cele doua mari tipuri de date, numerice sau categoriale, descrise mai sus, in statistica se mai opereaza cateodata si cu alte tipuri de date. Enumeram mai jos tipurile cele mai cunoscute de astfel de date. Rangul reprezinta locul pe care il ocupa un subiect intr-o ierarhie (e.g. competitie sportiva, examinare, preferinta pacientilor pentru un anumit tratament, etc.) Procentajul asa cum arata si numele descrie o anumita proportie (raport) intre doua cantitati (e.g. procentajul de barbati dintr-o populatie, greutatea corporala relativa (raportul dintre greutatea observata si greutatea ideala), procentajul de stangaci dintr-o populatie, etc.) Rate si rapoarte referitor la frecventa observata a unui fenomen sau rapoartele dintre doua marimi, altele decat procentajele (e.g. mortalitatea raportata la mia de locuitori, rata de aparitie a unei boli pe sexe sau arii geografice, etc.) Scorul este folosit atunci cand nu este posibila o masuratoare directa si trebuie totusi cuantificata o anumita marime (e.g. scorul Apgar la nou-nascuti, gravitatea unei boli cuantificata ca usoara, moderata, severa, coloratia pielii in anumite maladii, etc.) Scale vizuale analogice folosite mai ales in studiile medicale, atunci cand subiectul este rugat sa indice pe o scala (i.e. un segment cu o anumita lungime data) punctul care este considerat a ilustra cel mai bine gradul de durere, de exemplu. Cu toate ca este o reprezentare foarte subiectiva, aproape imposibil de cuantificat numeric, reprezinta totusi un mijloc de a ‚masura’ un anumit fenomen. 6.4. Date cenzurate Sunt cazuri in care o anumita observatie nu poate fi bine precizata. De exemplu, in analiza supravietuirii, o tehnica clasica in statistica, care studiaza dinamica timpului de supravietuire dupa o anumita operatie sau tratament, o parte dintre subiectii inclusi in lotul de studiu decedeaza in perioada de observatie, dar o alta parte dintre subiecti supravietuiesc in aceasta perioada sau se retrag benevol si astfel momentul decesului nu mai poate fi inregistrat. Un alt exemplu este atunci cand se efectueaza anumite masuratori si aparatul respectiv nu poate inregistra valori mai mici sau mai mari decat scala sa. Rezumand, in orice situatie in care o anumita data exista dar, din diferite motive, nu poate fi precizata clar, spunem ca avem de-a face cu date cenzurate. 6. Variabilitatea datelor. Modelul probabilist Atunci cand procesam datele in cursul analizelor statistice este absolut necesar sa existe asa numita variabilitate a lor. Prin variabilitate intelegem orice fel de modificare care are loc intr-o multime de date, indiferent de tipul lor, cu alte cuvinte variabilitatea este opusul constantei datelor. Trebuie stiut faptul ca nu se poate face analiza statistica pe variabile care sunt constante. O buna parte a analizelor statistice clasice (e.g. regresia) fac apel la legaturile care exista intre diferite date referitoare la aceiasi subiecti, studiind modul cum variatia unora influenteaza variatia altora (e.g. legatura dintre inaltime si greutate, intre factorii de risc si probabilitatea declansarii unei maladii). Ori, daca un factor din analiza statistica nu are variabilitate (i.e. este constant) atunci el este ca si inexistent in analiza. Cu cat variabilitatea datelor este mai mare cu atat analiza statistica este mai bogata in rezultate consistente. In cele expuse in acest capitol privind datele statistice, am accentuat doar partea descriptiva a lor, fara a incerca sa le definim in context probabilist. Deoarece statistica nu poate fi rupta de teoria probabilitatilor, care ii ofera mijloacele de investigatie, este absolut necesar sa definim datele in acest context. Sa presupunem ca avem la dispozitie o anumita multime de obiecte/subiectii (o asa-numita populatie statistica) si suntem interesati de analiza principalelor lor caracteristici care reprezinta, asa cum am aratat mai sus, date statistice (sau caractere statistice). Incercam acum sa definim, din punct de vedere probabilist notiunea de data statistica. Matematic vorbind, prin dat (sau caracter) vom n elege o aplica ie definit pe mul imea ce reprezint popula ia i cu valori ntr-o anumit mul ime ce depinde de data respectiva. Mai mult, considerand un camp de probabilitate (, S, P), unde este chiar popula ia considerat , iar S este o -algebra de parti ale lui ( n cazul n care este finit S coincide cu mul imea p r ilor lui ), data X a popula iei statistice este o variabil aleatoare pe campul de probabilitate (, S, P), atunci cand data este numerica. O astfel de variabila aleatoare, din punct de vedere probabilistic, mai este cunoscuta, din punct de vedere statistic, ca variabila statistica. In cazul in care X nu ia valori numerice, se poate ca in unele cazuri, pe baza unor echival ri numerice a acestor valori, s privim pe X tot ca pe o variabil aleatoare. Exemplu. Considerand ca popula ie o clasa de elevi, o data (caracter) referitoare la aceasta popula ie, notata X, poate fi reprezentata prin n l imea elevilor, cu alte cuvinte prin variabila aleatoare X: R. Pentru un elev A, avand n l imea de 1, 75 cm, avem X (A) = 1, 7 In final, trebuie subliniat faptul ca alegerea unei metode statistice sau a alteia este intim legata de tipul de date cu care se lucreaza. Exista tendinta din partea necunoscatorilor, mai ales dintre cei care utilizeaza necontrolat cu ajutorul computerelor programele statistice, sa foloseasca alandala tot felul de programe pentru datele de care dispun, fara sa se intereseze de tipul de date cerute. De multe ori programele respective nu au o functie de avertizare in acest sens si produc raspunsuri care nu au nici o relevanta atat statistica cat si logica. Din fericire, programele profesioniste, pe langa Help-ul obligatoriu, au si indicatii privind tipul de date agreat (e.g. date numerice/date categoriale, date discrete/date continue, ranguri, etc.).
|