Statistica
Examen geostatisticaUNIVERSITATEA ECOLOGICA BUCURESTI FACULTATEA DE STIINTELE NATURII SI ECOLOGIE examen GEOSTATISTICA Introducere Statistica matematica este stiinta care urmareste explicarea fenomenelor de masa printr-un numar relativ redus de observatii. Ea foloseste metode inductive de cercetare, plecand de la particular la general. Desigur, concluziile rezultate in urma prelucrarii statistice a datelor experimentale nu sunt legitati absolut sigure, insa gradul de incertitudine poate fi calculat. Cunoscand gradul de incertitudine al concluziilor trase, metoda statistica de cercetare poate fi considerata o metoda matematica exacta. Pentru a putea studia procesul dorit, datele experimentale trebuie sistematizate prin grafice si tabele, intocmite prin luare in considerare fie a numarului total de date, fie a unui numar esantion extras din acestea. Din acest punct de vedere, statistica matematica opereaza cu doua notiuni de baza: 1. Populatia sau colectivitatea statistica; 2. Proba (esantionul) extras din populatia aflata in studiu. In scopul ajungerii la concluzii valabile, depinde, din punct de vedere statistic, de doua caracteristici ale datelor analitice: 1. Numarul observatiilor efectuate (n); 2. Imprastierea (dispersia) acestora (σ). Geostatistica , in demersul de clarificare a proceselor geologice, apeleaza in mod egal la limbajul imaginilor si al conceptelor la fel ca Pictura care degajeaza adevarul de formele vane si amagitoare ale acestei lumi imperfecte pentru a-l imbraca intr-o forma mai pura si mai elevata creata de spiritul insusi. Modelele geostatistice ofera una din caile cele mai performante pentru descrierea structurii spatiale a fenomenelor naturale, caracterizate printr-o extraordinara variabilitate spatiala si temporara, variabilitate determinata de complexitatea fizico-chimica a mediului si instabilitatea proceselor climatice. 1. Etapele metodologiei de analiza a variabilitatii globale Principalele etape ale estimarea structurilor spatiale sunt: colectarea datelor, analiza variabilitatii caracteristicilor geologice, estimarea distributiei spatiale, calculul si reducerea erorilor de estimare. Analiza variabilitatii caracteristicilor geologice are ca obiectiv filtrarea tuturor datelor colectate din reteaua de explorare preliminara in scopul pregatirii instrumentelor adecvate obtinerii desenului. Variabilitatea caracteristicilor geologice analizate se manifesta sub doua aspecte : global ; spatial . Variabilitatea globala este exprimata prin distributia valorilor caracteristicii in jurul valori centrale . Variabilitatea spatiala exprimata prin variatia valorii caracteristicii in functie de pozitia in spatiul geometric de desfasurare a procesului in care este implicata . Analiza variabilitatii globale a caracteristicilor geologice vizeaza asigurarea reprezentativitatii evaluarilor si se realizeaza prin: analiza modului de distributie, a eterogenitatii si a valorilor extreme ale selectiilor de date. Metodologia evaluarii geostatistice a unei caracteristici este elaborata pentru distributia normala a acesteia si din acest motiv neconcordanta dintre distributia valorilor prelucrate si cea normala conduce la supraestimari sau subestimari proportionale cu gradul de asimetrie al acestei distributii. Prin urmare, modul de distributie al valorilor unei caracteristici geologice in jurul mediei sau medianei de selectie influenteaza in mod determinant rezultatele prelucrarilor geostatistice. Analiza modului de distributie al frecventei valorilor, in cazul pregatirii acestora pentru prelucrari geostatistice, poate conduce la doua rezultate: repartitia valorilor este normala si in consecinta prelucrarea lor prin modele geostatistice conduce la rezultate corect interpretabile; repartitia valorilor nu este normala, in acest caz fiind necesara transformarea lor (normalizarea) in scopul eliminarii erorilor introduse prin subestimari sau supraestimari. Analiza eterogenitatii selectiei de date disponibile, realizata de obicei prin analiza dispersionala multifactoriala rezultatul analizei eterogenitatii selectiei de date poate conduce la doua variante de continuare a estimarilor geostatistice : selectia de date este omogena ; selectia de date este eterogena . Pentru analiza eterogenitati selectiei de date se foloseste de obicei analiza dispersionala multifunctionala . Stabilirea omogenitati si eterogenitati esantionului statistic se realizeaza in doua etape : analiza grafica ; testarea analitica . Analiza grafica a distributiei se bazeaza pe analiza de histograme si diagrame de probabilitate . Histogramele constau din reprezentari grafice in care datele statistice sunt grupate in clase care reprezinta baza dreptunghiului din reprezentarea grafica iar inaltimea reprezinta frecventa clasei . Avand in vedere modul de repartitie a datelor pe histograma se poate concluziona daca avem de afacere cu o distributie normala omogena ( unimodala ) sau o distributie ( plurimodala ) eterogena indicata de prezenta mai multor module a mai multor varfuri . Histograma de probabilitate reda modul de grupare a valorilor individuale din esantionul studiat , modul de grupare indicand modul de distribuire a valorilor si folosindu-se si testele analitice se poate determina modul in care sunt distribuite datele . Histogramele grupate indica faptul ca datele studiate sunt omogene , punctele izolate (extrem) pot sa reprezinte puncte de extrem , caracteristica care va fi cercetata folosindu-se testele analitice . Testarea analitica consta in folosirea unor indicatorii statistici calculati pe baza datelor din esantionul cercetat si permit o caracterizare a distributiilor observate si a populatiilor din care provin . Indicatorii variabilitati sunt reprezentati de : varianta s2 ; abaterea standard s : coeficientul de variatie s% ; coeficientul de omogenitate s0 abaterea absoluta aa ; abaterea medie liniara d ; amplitudinea variatiei w . Amplitudinea variatiei Amplitudinea variatiei reprezinta diferenta dintre valoarea observata maxima si ce minima din cadrul unui sir statistic . ea este data de relatia : w = xmax xmin Acest parametru are avantajul calcului rapid dar prezinta valente limitate in cea ce priveste caracterizarea variabilitati intr-o colectivitate statistica . Abaterea absoluta este definita ca suma in valoare absoluta a diferentei fiecarei valori si media sirului : aa= ∑│xi-x│ Abaterea medie lineara definita ca media aritmetica a abaterilor tuturor valorilor caracteristicii de la valoarea medie luate in valoare absoluta : d = ∑│xi-x│ni /∑ ni , numit ecartul mediei em , d = ∑│xi-x│ /N , pentru valori negrupate . Varianta este o masura pentru devierea dispersiei de la medie , este indicatorul care coincide din punct de vedere matematic cu momentul centrat de ordinul doi . Ea reprezinta deci media aritmetica a patratelor abaterilor valorilor individuale fata de media aritmetica a distributiei si ofera o imagine fidela asupra gradului de variabilitate a valorilor observate in jurul centrului de grupe . Varianta are o valoare concludenta daca sirul de date studiat este relativ simetric . In cazul distributiilor cu o asimetrie puternica acest indicator , la fel ca si media , isi pierd din valoarea de expresie . s2 = ∑(xi-x)2/(N-1) Valoarea dispersiei are tot timpul valoare mai mare sau egala cu zero . Abaterea standard se defineste ca radicalul de ordinul doi din varianta : s = √s2 Este tot un parametru al imprastieri ea caracterizand modul cum se imprastie valorile observate in jurul valorii medii . Coeficientul de varianta este abaterea standard exprimat in procente in raport cu media aritmetica : s% = s/x*100 Avantajul acestui indicator al imprastierii consta in faptul ca este singurul indicator care ofera posibilitatea comparari omogenitati a doua sau mai multe variabile exprimate in unitati de masura diferite . Cu cat valoarea lui s% este mai redusa cu atat varianta este mai mica , colectivitatea este mai omogena , iar media are un grad mai mare de reprezentativitate . Coeficientul de variatie se compara cu coeficientul de varianta limita : Daca s% < 30% => colectivitate omogena , Daca s% > 30% => colectivitate neomogena . Coeficientul de omogenitate al sirului se determina luand in considerare atat variabilitatea cat si numarul de valori ale sirului , precum si probabilitatea cu care se face aprecierea . s0 = 1 - t*s%/100 t parametrul student . Testarea analitica a concordantei repartitiei valorilor cu modelul repartitiei normale se realizeaza de cele mai multe ori cu testul χ2 . Analiza valorilor extreme ale selectiilor de date asigura estimarea corecta a intervalului de incredere al parametrilor statistici prin corectarea valorilor exagerate ale dispersiei. Includerea valorilor extreme in prelucrare modifica semnificativ dispersia de selectie, conducand la cresterea artificiala a gradului de incertitudine al evaluarilor statistice si geostatistice. Analiza valorilor extreme poate conduce si ea la doua situatii distincte: valorile extreme se elimina deoarece sunt putin numeroase si din punct de vedere statistic nu sunt reprezentative pentru caracteristica studiata (sunt fie rezultatul unor erori de masurare fie al unor variatii bruste ce nu sunt definitorii pentru variabilitatea spatiala a caracteristicii studiate); valorile extreme nu se elimina deoarece sunt suficient de numeroase pentru a putea forma o selectie de date careia i se aplica metode specifice de prelucrare . Valori extreme identificate la analiza graficelor , histogramelor, trebuie testate pentru a se identifica apartenenta la selectie , testarea se realizeaza printr-un test analitic Chouvenet, Irwin, Romanovski etc. In urma analizei analitice a valorilor extreme se compara valorile obtinute la testare cu valorile teoretice urmand a se stabili daca valorile vor fi eliminate sau sunt prezente intr-un numar suficient de mare care sa permita aplicarea unei metode care sa permita prelucrarea datelor . 2. Detalierea etapelor testului χ2 In cazul determinarilor cuantale comparative, pentru a calcula diferenta semnificativa intre doua activitati (probe) exprimate in procente, sau pentru a stabili daca exista o anumita concordanta sau discordanta intre frecventele asteptate (teoretice) si cele observate (experimentale, empirice) sau, alte cuvinte legatura existenta sau inexistenta intre o repartitie teoretica si o repartitie experimentala se foloseste indicele χ2 , propus pentru prima data de Helmert si Pearson. Testul χ2 , spre deosebire de alte teste aplicate ia in considerare si alti factori decat abaterea standard a procentelor, si anume numarul cazurilor, gradele de libertate, frecventele teoretice si frecventele experimentale. Legatura functionala este definita de concordanta sau neconcordanta dintre ipoteza de lucru (efecte teoretice) si rezultatele experimentale (empirice), gradul de legatura putandu-se masura prin stabilirea frecventei asociatiei in comparatie cu numarul cazurilor examinate, lucru care s le poate exprima matematic prin raportul asociatiei Muster: Rm= Nr. cazurilor de asociere Nr. indivizilor examinati Legatura functionala dintre rezultatele teoretice (asteptate) si rezultatele experimentale ar putea fi aflata din insumarea diferentelor intre frecventele teoretice si cele experimentale. Relatia care exprima matematic acest lucru este urmatoarea: Σdi =Σ(fteor. − fexp. ) In cazul concordantei perfecte intre teorie si observatie χ2 = 0. Practic formula de calcul a lui χ2 este cea de mai jos: χ2 = ee - et et ee - efectul observat experimental et - efectul teoretic (asteptat) Testul χ2 se aplica: - frecventelor absolute (numere, efecte de diverse categorii) - frecventelor relative (procentaje) Trebuie mentionat insa faptul ca nu putem folosi acest test decat daca efectele calculate depasesc 10 frecvente. In determinarile biologice testul χ2 poate fi folosit ca test de semnificatie in cazul raspunsurilor unice, cu ajutorul lui putandu-se aprecia daca exista o diferenta semnificativa intre doua distributii (una teoretica si alta experimentala). Pentru a compara o repartitie observata fata de o repartitie teoretica a unui caracter calitativ cu N clase, aplicam formula de mai sus si cautam probabilitatea corespunzatoare la N-1. Testul este cu atat mai semnificativ cu cat probabilitatea gasita este mai mica si χ2 calculat mai mare. In cazul comparatiei a doua procentaje, formula de calcul se bazeaza pe coeficientul de asociatie Q a lui Zule. Sa o aplicam in cazul a doua produse A si B, cu cate doua variabile a, respectiv b. Cifrele romane arata frecventele absolute ale acestor variabile: Q = I*III - II*IV I*III+II*IV Daca luam un numar M de cazuri (de exemplu un experiment ce foloseste M animale), formula de mai sus poate fi scrisa: χ2 = [ (I*III - II*IV) - M/2 ]2*M (I+II)(III+IV)(I+IV)(II+III) Criteriul χ2 se foloseste frecvent la verificarea calitatii ajustarii unei distributi empirice la o distributie teoretica , la testarea omogenitatii si a independentei , la compararea frecventelor cantitative si calitative . Calcularea valori criteriului χ2 se realizeaza prin calcularea unor parametri initiali , media aritmetica , abaterea standard , intervalele de grupare , frecventele absolute . Calculul frecventelor teoretice (npi), corespunzatoare repartitiei normale si al statisticii χexp . Testarea analitica folosind testul χ2 se bazeaza pe histograma celor n valori care se grupeaza intr-un numar de k grupe intervale de valori de amplitudine valorica ∆ . Datele se grupeaza in tabele statistice care sa usureze calculele ulterioare . Se calculeaza media aritmetica : m = ∑mi/N sau m = ∑ni∙mi/∑ni m - media aritmetica mi valori studiate N numarul valorilor studiate ni - frecventa fiecarei clase - se calculeaza abaterea standard s iar valorile centrale ale intervalului de grupe si frecventele frecventele absolute experimentale sunt grupate sub forma de tabele . - se calculeaza pornindu-se de la valorile din tabel frecventele teoretice npi folosindu-se formula :
se calculeaza valoarea lui χ2 experimental si se compara cu χ2 teoretic rezultat din tabele in functie de eroarea urmarita , numarul gradelor de libertate , χteor se calculeaza pornind de la numarul de grade de libertate dupa eliminarea intervalului de valori extreme ude este cazul. Daca χexp2 < χteor2 inseamna ca ipoteza este nula nu exista diferente semnificative intre distributia empirica si cea teoretica luata drept etalon . Daca χexp2 > χteor2 inseamna ca distributia empirica si cea teoretica luata drept etalon nu se suprapun . Pentru ca metoda χ2 sa fie eficienta la compararea distributiilor empirice cu cele teoretice trebuie avute in vedere urmatoarele : numarul total al observatiilor sa nu fie prea mic ; frecventa absoluta a fiecarei clase sa fie cel putin de 5 ; numarul claselor de frecventa sa nu fie prea mic ; ambele siruri de variatie trebuie sa aiba acelasi interval de clasa ; la calculul lui χ2 se vor folosi frecventele absolute . 3. Comentarea aplicatiei A1 A1.Analiza unei repartitii normale si omogene Ce mod de repartitie au grosimile depozitelor daciene masurate in 124 de foraje (Tabelul 1.1) distribuite relativ uniform in Bazinul Dacic (Fig.1.1) ? Rezolvare: BuzauGalatiTg JiuTr SeverinCraiovaRm ValceaPloiestiBucuresti Compararea bazinelor de sedimentare, identificarea directiilor de transport a sedimentelor, zonarea acestor bazine, utilizeaza frecvent ca date primare grosimile formatiunilor depuse in anumite intervale de timp (Scradeanu et.al.,1998). Bazinul Dacic, unitatea sedimentara lacustra din estul Paratethisului, a fost intens cercetat prin foraje, in legatura cu zacamintele de petrol.
Fig.3.1.Distributia celor 124 de foraje care au traversat formatiunile daciene Analiza variabilitatii globale Stabilirea modului de repartitie al grosimii formatiunilor daciene se realizeaza in doua etape : - analiza grafica a modelului de distributie ; - testarea analitica a concordantei cu modelul de repartitie identificat.
Tabelul .3.1.Grosimi ale depozitelor daciene din Bazinul Dacic Analiza grafica a modelului de distributie se bazeaza pe histograma (Fig.3.2.a) si diagrama de probabilitate (Fig.3.2.b) ale grosimilor depozitelor daciene. Analiza histogramei conduce la urmatoarele observatii : histograma are un singur modul - indicatie clara a caracterului omogen (din punct de vedere statistic) al selectiei; consecinta acestei observatii este ca din punct de vedere statistic toti factorii care au determinat distributia grosimilor depozitelor dacianului au actionat convergent ;
Fig.3.2.Histograma (a) si diagrama de probabilitate (b) ale grosimii depozitelor daciene (Bazinul Dacic) caracterul simetric al histogramei (coeficientul de asimetrie: β1 = 0,01) sugereaza o distributie normala a valorilor; corectitudinea acestei ipoteze urmeaza sa fie testata prin metode analitice . Analiza diagramei de probabilitate, intocmita pentru repartitia normala, permite sesizarea urmatoarelor caracteristici : punctele ce reprezinta valorile grosimilor se coliniarizeaza - indicatie clara a distributiei normale a acestora ; la extremitatile graficului se plaseaza un numar de 4 valori extreme (doua la limita inferioara si doua la cea superioara) a caror apartenenta la selectie trebuie testata (printr-un test analitic; ex.: Chouvenet,Irwin, Romanovski etc.) . Testarea analitica a concordantei repartitiei valorilor cu modelul repartitiei normale se realizeaza de cele mai multe ori cu testul χ2. Aplicarea testului χ2 se bazeaza
pe histograma celor n = 124 valori
de grosimi, histograma care s-a realizat prin gruparea datelor pe k = 13 intervale, fiecare avand
amplitudinea valorica Δ = Media aritmetica ponderata a celor 124 de
valori este m = Datele necesare testului χ2 sunt parametrii statistici elementari si valorile din primele patru coloane din Tabelul 3.2. Calculul frecventelor teoretice (npi), corespunzatoare repartitiei normale (coloana a cincea din Tabelul 3.1.), si al statisticii 2expχ se efectueaza pe baza relatiilor (D.Scradeanu,1995):
Prin eliminarea intervalelor de grupare extreme, cu frecvente absolute mai mici de doi (P.Bomboe,1979), se obtine:
Pentru un risc al erorii de genul I, α = 1%, la un numar al gradelor de libertate ν = 7 (dupa eliminarea celor trei intervale de grupare extreme) rezulta (din tabelul functiei 2χ):
Conform criteriului testului de concordanta 2χ, deoarece :
rezulta ca, din punct de vedere statistic, cu o eroare admisibila α= 1%, distributia grosimilor dacianului este conforma cu modelul repartitiei normale. Tabelul .3.2.Calculele asociate testului χ2
COMENTARIU Grosimile depozitelor daciene, masurate in cele 124 de foraje din Bazinul Dacic au o repartitie normala. Din analiza histogramei se observa o distributie apropiata de distributia normala unimodala indicad faptul ca avem de afaceri cu un esantion reprezentativ omogen . Diagrama de probabilitate indica o grupare a valorilor experimentale cu exceptia unui numar de patru puncte care trebuie testate folosindu-se testele analitice . Prezenta celor patru valori la extremitatea inferioara si superioara impune folosirea testului χ2 pentru a testa apartenenta acestor valori la selectie . Pentru aplicarea testului χ2 valorile au fost grupate in 13 intervale cu amplitudinea de variatie de 75m , dupa care sa procedat la calculul mediei aritmetice ponderate si a abateri standard . In urma calculelor a rezultat χ2 exp = 0,46 , pentru un risc al erori de 1% la un numar de grade de libertate de 7 rezulta un χ2 teor = 1,23 rezultand χexp2 < χteor2 inseamna ca ipoteza este nula nu exista diferente semnificative intre distributia empirica si cea teoretica luata drept etalon . Acest rezultat ne asigura de faptul ca se pot folosi datele obtinute din cele 124 de esantioane la estimari cu privire la diferite caracteristici pe care le urmarim a le determina fara ca acestea sa duca la subestimari sau supra estimari . Suprapunerea distributiei peste distributia normala indica faptul ca datele obtinute se pot folosi pentru determinarea diferitelor caracteristici pe care le urmarim fara a fi nevoie de lucrari costisitoare de teren de preluare a datelor , fiind mult mai simplu analiza acestora din birou pe baza unor esantioane statistice care au fost corect determinate . Testele statistice permit obtinerea unor date foarte concludente intr-un timp foarte scurt fara a fi nevoie de lucrari costisitoare de teren . 4. Normalizarea repartitiei selectiilor de date Este putin probabil ca toti sa percepem realitatea la fel. Am convingerea ca de fapt totul se regleaza prin limbaj si chiar daca spunem toti ca vedem un mar rosu (al lui Machintosh, de exemplu), senzatiile fiecaruia difera; altfel spus, fiecare cu marul lui rosu. Si daca punem zece pictori sa deseneze acelasi mar rosu vom avea zece viziuni diferite ale marului rosu. Este dificil sa privim toti realitatea prin aceeasi lentila. Fiecare cu dioptriile lui. Pentru o scurta perioada, cea a prelucrarilor geostatistice, va propun sa acceptati acest lucru. Este in interesul unei estimari obiective a realitatii, estimare realizata prin filtrul instrumentelor matematice. Lentila prin care vom privi realitatea ne va face s-o vedem totdeauna normala. Este o lentila interactiva, este cunoscuta sub denumirea de normalizarea realitatii si la orice anormalitate a acesteia distorsioneaza semnalul plasandu-l in coordonatele unui model unic, cel al distributiei normale (gaussiene). De ce este nevoie sa acceptam aceasta lentila ? Cititi mai departe si sper ca veti fi cel putin curiosi sa incercati o senzatie noua, aceea de normalitate generalizata. Metodele geostatistice (topo-probabiliste) sunt puse la punct pentru prelucrarea selectiilor de date cu distributie normala (gaussiana). Aceasta premiza nu exclude utilizarea acestor metode si pentru variabilele cu altfel de distributii. Daca valorile variabilelor prelucrate (vi) se abat de la repartitia normala, aplicarea corecta a metodelor geostatistice (topo-probabiliste) necesita o transformare a datelor originale (T(vi)) care sa conduca la valori cu distributie normala (ti):
Valorile transformate vor fi prelucrate cu metodologia specifica modelelor topo-probabiliste. La finalul prelucrarilor pentru revenirea in campul valorilor originale se realizeaza transformarea inversa (T-1) celei prin care datele originale au fost transformate in vederea prelucrarii. Normalizarea distributiei diferitelor variabile poate fi realizata in campul valorilor normate si este cunoscuta sub numele de normalizare redusa. Normalizarea redusa a distributiilor in campul valorilor normate conduce la o variabila normata (ui)cu repartitie normala,cu media zero (m = 0) si dispersia unitara (s2= 1).Pentru normarea valorilor vi se utilizeaza relatia :
in care ui este valoarea normata, m si s sunt media de selectie, respectiv abaterea standard de selectie a valorilor netransformate (viui). Normalizarea valorilor poate fi realizata si in campul valorilor originale fara normarea acestora si este cunoscuta sub denumirea de normalizare generalizata. Normalizarea distributiei valorilor se bazeaza pe probabilitatea de aparitie (pi) a fiecarei valori masurate (vi) (i = 1 n, n - numarul total de valori masurate). Probabilitatile de aparitie a valorilor masurate (pi), in cazul variabilelor geologice, de cele mai multe ori depind de distributia in spatiu a punctelor in care se face determinarea lor: a) daca punctele de observatie sunt distribuite uniform pe suprafata cercetata aceasta probabilitate se aproximeaza prin relatia:
b) daca punctele de observatie sunt distribuite neuniform pe suprafata cercetata, probabilitatile pot fi estimate prin diferite tehnici (declustering celular, declustering poligonal etc., Scradeanu,D.,1996). In ambele cazuri (a si b), trebuie respectata conditia :
Calculul probabilitatilor pentru valorile extreme (valori maxime si minime) ale selectiilor de date trebuie abordat in mod diferentiat. Pentru situatia unor volume reduse de date trebuie luata in considerare o probabilitate diferita de zero pentru valori mai mici ca valoarea minima si mai mari decat cea maxima. O solutie simplista pentru calculul probabilitatilor valorilor extreme nedeterminate este egalarea sumei probabilitatilor cu o valoare mai mica decat unitatea (ex.: n/(n+1)), solutie sensibila insa la variatia numarului de probe disponibile. Normalizarea valorilor masurate se percepe cel mai comod pe baza unei reprezentari grafice (Fig.1).
Fig.1.Principiul normalizarii valorilor. Pentru aceasta operatie sunt necesare doua curbe de frecvente cumulate: curba frecventelor cumulate a valorilor masurate (vi), adica histograma experimentala cumulata; curba frecventelor cumulate ale repartitiei normale (functia lui Laplace (Φ(u)). Pentru normalizarea valorii vi se duce prin valoarea masurata (vi) o paralela la axa frecventelor pana ce intersecteaza curba frecventelor cumulate a valorilor masurate. Din punctul de intersectie se duce o paralela la abscisa pana intersecteaza functia lui Laplace iar de aici o paralela la axa frecventelor obtinandu-se valoarea normalizata cautata (ui). Echivalenta analitica a acestei operatiuni grafice este:
in care G-1 - inversa integralei lui Gauss; ci - probabilitatea cumulata corespunzatoare valorii vi. Normalizarea generalizata a distributiei datelor in campul valorilor reale este o operatiune similara cu cea a normalizarii in campul valorilor normate care presupune inlocuirea valorilor functiei lui Laplace cu o serie de valori cu repartitie normala de medie si dispersie cunoscute. Media si dispersia se aleg in functie de valorile a caror distributie se normalizeaza. Prin aceasta operatiune se poate transforma distributia oricarui set de valori in raport cu o distributie de referinta (reprezentata printr-un alt set de valori) fara a se cunoaste modelul analitic al acestei distributii. 5. Comentati aplicatia A4 Sa se normalizeze, in spatiul valorilor normate, cele 124 de valori ale grosimii depozitelor daciene (determinate in 124 de foraje; Fig.1.9) . Rezolvare : Consideram, intr-o prima aproximare, ca probabilitatile de aparitie pentru fiecare din cele 124 de grosimi determinate in cele 124 de foraje (tabelul 1.8) sunt egale intre ele si egale cu p= 1/124.
Fig.1.Distributia celor 124 de foraje in care a fost masurata grosimea Dacianului. Histograma si curba cumulativa a frecventelor (Fig.1.10) pentru grosimile Dacianului indica o repartitie asimetrica cu un coeficient de asimetrie β1 = 1.09. Din cauza asimetriei de stanga, prelucrarea acestor valori cu modelele topo-probabiliste de tipul kriging-ului va conduce la supraestimari in evaluarea distributiei spatiale a grosimii Dacianului din Bazinul Dacic
Pentru realizarea normalizarii distributiei grosimilor se utilizeaza inversa integralei lui Gauss (G-1) obtinuta prin aproximarea numerica Kennedy and Gentle (1980). Un program comod de utilizat este disponibil in biblioteca GSLIB (nscore.f). Trebuie precizat ca programul: utilizeaza ca date de intrare: un fisier cu date de tip Geo-EAS (Fig.1.11a) si un fisier cu parametrii de prelucrare (Fig.1.11b); scrie rezultatele in doua fisiere: un fisier cu toate datele (Fig.1.12a) si un fisier cu valorile masurate si transformate (Fig.1.12b) utilizat la transformarea inversa, de la valorile reduse cu distributie normala (u) la cele masurate (v). In cazul aplicatiei, fisierul cu date de tip Geo-EAS contine 4 coloane pe care sunt inserate: numarul curent al forajului, abscisa forajului, ordonata forajului si valoarea grosimii Dacianului (Fig.1.11a) Fisierul cu parametrii de transformare (Fig.1.11b), in cazul aplicatiei, contine: numele fisierului cu date (ex.: dacian.dat); numarul coloanelor pe care se afla: valoarea variabilei, adica 4, deoarece grosimea Dacianului se afla in fisierul de date pe coloana a patra; ponderile acordate acestor valori, adica 0 (zero), deoarece am plecat de la ipoteza ca fiecare valoare are probabilitatea 1/124 si in tabelul cu date nu exista o coloana cu valorile acestor ponderi. valoarea maxima si cea minima luate in considerare pentru transformare: grosimea
minima = grosimea
maxima =
Fig.1.11.Structura fisierelor de intrare pentru programul de transformare: a) fisierul de date; b) fisierul cu parametrii de transformare.
Fig.1.12.Fisierele cu rezultatele transformarii (normalizarii) a) fisierul cu rezultatele normalizarii (ndacian.dat); b) fisierul cu tabelul utilizat la transformarea inversa (ndacian.trn). numele fisierului cu rezultatele transformarii (ex.: ndacian.dat); acest fisier, pe langa datele din fisierul de intrare (dacian.dat) contine si coloana valorilor transformate (Fig.1.12a); -numele fisierului cu tabelul de valori utilizat la transformarea inversa care se realizeaza dupa prelucrarea valorilor transformate: ndacian.trn (Fig.1.12b). Valorile transformate (normalizate), cele din coloana a 5-a din fisierul ndacian.dat, au o repartitie perfect simetrica (Fig.1.13), media zero si dispersia unitara. Aceste valori se utilizeaza in etapa de interpolare cu ajutorul kriging-ului.
Fig.1.13.Histograma si curba frecventelor cumulate pentru grosimile transformate ale Dacianului, obtinute prin normalizare redusa Dupa realizarea operatiunii de interpolare, pe baza valorilor transformate, rezultatele finale se proiecteaza in campul valorilor reale prin intermediul corelatiei dintre valorile masurate si cele transformate (Fig.1.14), continute in fisierul ndacian.trn sau pe coloanele 4 si 5 din fisierul ndacian.dat. Aspectul grafic al corelatiei dintre cele doua siruri de valori arata gradul de abatere al valorilor masurate (grosimile Dacianului) de la repartitia normala. Daca valorile masurate ale grosimilor ar fi avut o repartitie normala punctele din Fig.1.14. s-ar fi aliniat dupa o dreapta.
Fig.1.14..Corelatia dintre grosimile masurate (v) si cele transformate (u, normate si normalizate). Comentariu Din analiza histogramelor rezulta o asimetrie de stanga lucru care face ca datele studiate sa nu poata fi folosite pentru a se determina diversele caracteristici decat dupa realizarea normalizari distributiei , in caz contrar folosirea valorilor din esantioane conduce la o supraestimare a distributiei spatiale . Pentru a se evita acest lucru se procedeaza la normalizarea datelor valorile urmand a fii transformate pentru a se obtine o distributie normala . Folosindu-se histogramele si diagramele de probabilitate se determina necesitatea normalizari distributiei datelor , aceste instrumente sunt folosite pentru verificarea rapida a eficientei operatiilor de normalizare . Daca dupa operatia de normalizare histograma valorilor este simetrica iar in diagrama de probabilitate punctele sunt colineare operatiunea a reusit . Operatia de normalizare fiind reusita cu datele obtinute se poate lucra normal putandu-se reveni si la datele initiale prin diverse procedee . Operatia de normalizare se poate considera , in cazul de fata , ca reusita putandu-se trece la calculul celorlalti parametri statistici . Bibliografie Scradeanu Daniel - Geostatistica aplicata estimarea structurilor spatiale Chitea Gh. Biostatistica . 2001 Andrews, D.J.& Hanks, T.C., Scarp degraded by linear diffusion : inverse solution for age, J.Geophys.Res.90, 10193-208, 1985. Bailey, N.T.J., The elements of stochastic processes with applications to the natural sciences, John Wiley & Sons, Inc., New York, 1964. Bergι, P., Poneau, Y.& Vidal, C., Order within chaos, John Wiley and sons, New York, 1986. Bomboe, P., Geologie matematica (vol. I, Analiza statistica a datelor geologice), Editura Universitatii din Bucuresti, 1979. Brown, S.R., A note on the description of surface roughness using fractal dimension, Geophys. Res. Lett. 14, 1095-8, 1987. Cennini, C., Tratatul de pictura, Ed.Meridiane, 1977. Chauvet, P., Aide memoire de Geostatistique Lineare, Fascicule 2, Cahiers de Geostatistique, Centre de Geostatistique, Ecole de Mines de Paris, 1991. Cheeney, R.F., Statistical methods in geology, George Allen & Unwin (publishers) Ltd, London, 1983. Clarke, G.P.Y. and Dane, J.H., A simplified theory of point kriging and its extension to cokriging and sampling optimization, Bulletin 609, Alabama Agricultural Experiment Station, Auburn University, Alabama, february 1991. Craiu, V., Enache, R., Basca, O., Teste de concordanta cu programe in Fortran, Editura stiintifica si enciclopedica, Bucuresti, 1986. Daccord, G. & Lenormand, R., Fractal patterns from chemical dissolution, Nature 325, 41-3, 1987.
|