Home - qdidactic.com
Didactica si proiecte didacticeBani si dezvoltarea cariereiStiinta  si proiecte tehniceIstorie si biografiiSanatate si medicinaDezvoltare personala
referate baniLucreaza pentru ceea ce vei deveni, nu pentru ceea ce vei aduna - Elbert Hubbard





Afaceri Agricultura Comunicare Constructii Contabilitate Contracte
Economie Finante Management Marketing Transporturi


Marketing


Qdidactic » bani & cariera » marketing
Analiza univariata a datelor in cercetarile de marketing



Analiza univariata a datelor in cercetarile de marketing


ANALIZA UNIVARIATA A DATELOR IN CERCETARILE DE MARKETING



In strategia unei cercetari de marketing, o atentie deosebita trebuie acordata deciziei privitoare la modalitatea de analiza a datelor culese.

Analiza reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico-matematice, in scopul extragerii din baza de date constituita a tuturor informatiilor necesare procesului decizional.


Metodologia de analiza a fenomenelor de marketing a cunoscut in ultimele trei decenii, pe plan international, o adevarata revolutie, paralel cu dezvoltarea tehnologiei de masurare, culegere si prelucrare a informatiilor. Aceasta s-a datorat, in mare masura si progreselor inregistrate in folosirea pe scara tot mai larga a calculatoarelor electronice.

Numeroasele metode de analiza care constituie bogatul arsenal metodologic pot fi grupate dupa criterii foarte diferite, cum sunt:

tipul de scala utilizat (nominala, ordinala, interval sau proportionala);

numarul esantioanelor cercetate (unul, doua sau mai mult de doua);

natura relatiei dintre aceste esantioane (independente sau dependente);



numarul variabilelor considerate o data (una, doua sau mai mult de doua).


Printre obiectivele urmarite in procesul de analiza a datelor se inscriu, de obicei, urmatoarele:

determinarea tendintei centrale a variabilelor considerate;

caracterizarea variatiei si a repartitiei acestora;

masurarea gradului de asociere dintre ele;

realizarea unor estimari si previziuni;

evaluarea diferentelor dintre variabile sau grupuri de variabile;

evidentierea legaturilor cauzale dintre ele.



Modalitati de determinare a tendintei centrale


Pentru determinarea tendintei centrale a variabilelor considerate, punctul de plecare il constituie considerarea tipului de scala utilizat pentru masurarea acestora. Dupa cum s-a evidentiat intr-un capitol anterior, tendinta centrala se caracterizeaza diferit, functie de nivelul la care s-a realizat masurarea (vezi tabelul nr.1.).

Tabelul 1. Modul de caracterizare a tendintei centrale functie
de tipul de scala utilizat



Tipuri de scale

Indicatori ai tendintei centrale

Grupul modal

(valoarea modala)

Mediana

Media aritmetica

Media geometrica

Nominala

x




Ordinala

x

x



Interval

x

x

x


Proportionala

x

x

x

x


Daca datele sunt negrupate, valoarea modala, primul indicator al tendintei centrale, este cea care prezinta cea mai mare frecventa de aparitie. Sa presupunem ca intr-o cercetare directa a preferintelor populatiei capitalei pentru turismul de sfarsit de saptamana, esantionul investigat cuprinde 400 persoane care practica frecvent aceasta forma de turism, distribuite dupa statutul socio-profesional astfel (vezi tabelul nr.2):


Tabelul 2. Repartizarea pe categorii socio-profesionale a persoanelor care practica frecvent turismul de sfarsit de saptamana


Categoria socio-profesionala

Numar de persoane

Muncitori


Maistri-tehnicieni


Liber intreprinzatori


Functionari


Cadre cu studii superioare


Elevi-studenti


Casnice


Pensionari


Alte categorii



Se observa cu usurinta ca valoarea modala este 120, ea corespunzand categoriei muncitori si categoriei elevi-studenti.

Dupa cum se cunoaste, in cazul distributiilor de frecvente specifice datelor grupate, grupul modal este constituit din grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri..

Sa presupunem ca acelasi esantion format din cele 400 persoane se distribuie, pe grupe de varsta, dupa cum urmeaza (vezi tabelul nr.3.):


Tabelul 3.  Repartizarea pe grupe de varsta a persoanelor care practica frecvent turismul de sfarsit de saptamana

Grupe de varsta (ani)

Numar de persoane

sub 14















61 si peste



Rezulta clar ca grupul modal este reprezentat de grupul care cuprinde persoanele in varsta de 19-24 ani. Acest grup cuprinde 27,5 % din persoanele care practica frecvent turismul de sfarsit de saptamana. Valoarea modala se situeaza undeva in jurul varstei de 22 ani.

Mediana, un alt indicator al tendintei centrale, reprezinta dupa cum se cunoaste valoarea deasupra si dedesubtul careia se situeaza cate o jumatate din observatii.

Daca datele sunt negrupate, daca sunt aranjate in ordine, de la valoarea cea mai mica la valoarea cea mai mare, sau invers si daca numarul de observatii este fara sot, valoarea mediana se stabileste fara nici o dificultate (vezi tabelul nr.4.):


Tabelul 4. Numarul de portii dintr-un preparat culinar vandute intr-o zi in sapte restaurante

Restaurantul

Numarul de portii

R1


R2


R3


R4

120 Mediana

R5


R6


R7



In situatia in care exista un numar de observatii cu sot, mediana se considera in mod conventional ca este situata la jumatate, intre cele doua valori centrale.

Daca datele sunt grupate, mediana se calculeaza astfel: numarul total de observatii (frecvente) se imparte la 2 si astfel rezulta cate observatii trebuie sa fie deasupra si cate dedesubtul medianei; dupa aceasta se determina frecventele cumulate pentru a stabili in care grupa se situeaza mediana; in final, se calculeaza valoarea medianei.

Considerand datele din tabelul cu repartitia pe grupe de varsta rezulta ca valoarea medianei se situeaza undeva in grupa de varsta de 25-30 ani. Pentru a ne situa la jumatatea numarului observatiilor (200), se pondereaza marimea intervalului acestei grupe (5), cu numarul de observatii aditionale necesare (110/260) iar valoarea obtinuta se adauga la 25. Rezulta ca mediana este situata la categoria de varsta de 27 ani.

Asa cum s-a aratat, datelor masurate in scala metrica li se poate calcula tendinta centrala si sub forma mediei aritmetice (incepand cu scala interval) sau chiar sub forma mediei geometrice (in cazul scalei proportionale).

Media aritmetica, , a unei variabile x despre care se cunosc n observatii intr-un esantion investigat, se calculeaza astfel:

Daca vanzarile a cinci puncte de desfacere situate pe plaja au fost intr-o anumita zi de: 170; 220; 270; 320 si respectiv 370 mil. lei, rezulta ca media desfacerilor in ziua respectiva este:


Deseori, in calculul mediei aritmetice, apare necesitatea unei ponderari.

Sa presupunem ca intr-o cercetare a imaginii unui grup de 200 turisti, amplasamentul unui camping a fost apreciat pe o diferentiala semantica cu 5 trepte, astfel:


foarte favorabil    70 45 35 30 20 foarte nefavorabil


Pentru o evaluare sintetica a acestor aprecieri se calculeaza o medie a lor, pornind de la nota 5 atribuita, pe scara respectiva, aprecierilor foarte favorabile, descrescand pana la nota 1 pentru aprecierile foarte nefavorabile. Aprecierea medie se calculeaza astfel:

Daca datele sunt grupate, pentru calculul mediei aritmetice se foloseste urmatoarea relatie:

unde:              fi - reprezinta frecventa grupului i;

mi - punctul de mijloc al intervalului unui grup;

n - numarul total de observatii cuprinse in esantion.

In tabelul nr.5 se ilustreaza, printr-un exemplu, modul de calcul al mediei aritmetice in acest caz.

Tabelul 5. Desfacerile zilnice ale unor cabane, situate pe trasee turistice montane (calculul mediei aritmetice)

Desfaceri

(mil. lei)

Numar de unitati

(fi)

Mijlocul intervalului

(mi)

fi  mi





















TOTAL






Atunci cand pentru masurare s-a folosit o scala proportionala, pentru caracterizarea tendintei centrale, se poate calcula chiar si media geometrica  (aceasta este totusi destul de rar utilizata in cercetarile de marketing). Formula de calcul este urmatoarea:

sau in forma logaritmica


Modalitati de caracterizare a variatiei si repartitiei variabilelor


Caracterizarea variatiei, un alt obiectiv obisnuit al analizei datelor culese prin cercetarile de marketing, se poate face in mod diferentiat, in functie de nivelul de masurare realizat printr-un tip de scala sau altul (vezi tabelul nr.6.)

Foarte adesea, datele, indiferent de tipul de scala utilizat, sunt caracterizate prin prezentarea distributiei de frecvente atat in forma tabelara (frecventele se pot prezenta in valori absolute, simple sau cumulate, sau prin folosirea procentelor1), cat si in forma grafica (poligoane de frecvente, histograme, ogive etc.).

Tabelul 6. Caracterizarea variatiei functie de nivelul de masurare realizat

Indicatori ai

Tipuri de scale

variatiei

Nominale

Ordinale

Interval

Proportionale

Distributia de frecvente

x

x

x

x

Procente

x

x

x

x

Decile


x

x

x

Centile


x

x

x

Cuartile


x

x

x

Amplitudinea variatiei



x

x

Abaterea medie



x

x

Varianta



x

x

Abaterea standard



x

x


Mai rar, in procesul analizei datelor se calculeaza si cuartilele, decilele sau centilele. Cuartilele reprezinta doua valori stabilite astfel ca o patrime din observatii sa se afle sub prima cuartila, denumita si cuartila inferioara si o patrime din observatii sa se afle deasupra celei de-a doua cuartile, denumita si cuartila superioara. Celelalte doua patrimi din observatii se afla intre valorile celor doua cuartile si mediana. In mod similar, numarul de observatii se poate imparti la 10 sau 100 cu ajutorul decilelor si respectiv centilelor.

Destul de frecvent, in caracterizarea datelor se foloseste amplitudinea variatiei, care se poate calcula in forma absoluta (diferenta dintre observatia cu valoarea cea mai mare si cea cu valoarea cea mai mica) sau in forma relativa (raportul dintre amplitudinea absoluta si medie).

De cate ori nivelul de masurare conduce la date de natura metrica, pentru caracterizarea variatiei acestora se pot folosi, alaturi de amplitudinea variatiei si trei indicatori ai variatiei, respectiv, abaterea medie (media aritmetica a valorilor absolute ale abaterilor termenilor esantionului de la media lor), varianta (media aritmetica a patratelor abaterilor individuale ale termenilor esantionului de la medie) precum si abaterea standard (radical cu semnul plus din varianta).

Pentru caracterizarea variatiei si a repartitiei unei singure variabile, deosebit de utile sunt si metodele bazate pe cunoscutele tipuri de repartitii normale, Poisson, binomiale etc., precum si cele care presupun abordarea bayesiana aplicata unei singure variabile.



Cap. 20. MODALITATI DE ANALIZA BIVARIATA.
ANALIZA GRADULUI DE ASOCIERE



In cercetarile de marketing, de obicei, analiza univariata prin considerarea separata a variabilelor, ca cea prezentata mai sus, reprezinta doar inceputul.

Un obiectiv important in procesul de analiza il reprezinta in continuare analiza bivariata, care presupune  masurarea gradului de asociere a doua variabile sub aspectul:

directiei (naturii);

intensitatii ;

semnificatiei statistice.


Acest obiectiv se realizeaza cu ajutorul a diferite metode, functie de tipul de scala utilizat pentru masurarea datelor.



20.1. Variabilele nominale



Considerand primul caz, cel al variabilelor nominale, procesul de masurare a gradului de asociere incepe prin construirea de tabele de contingenta. Un astfel de tabel cuprinde distributia de frecvente considerata simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion.

Sa presupunem, spre exemplu, ca vrem sa vedem daca preferintele barbatilor pentru un anumit fastfood, in care fumatul este interzis, difera semnificativ de preferintele femeilor. Cu datele culese printr-o cercetare de marketing de la un esantion de 500 persoane, din care 300 barbati si 200 femei, se poate alcatui urmatorul tabel de contingenta:


Tabelul 20.1. Distributia preferintelor pe sexe pentru un fastfood


Sexul

Prefera unitatea

Nu prefera unitatea

TOTAL

Barbati




Femei




TOTAL






Examinarea acestui tabel de contingenta este ingreunata de faptul ca numarul barbatilor din esantion difera de cel al femeilor. Pentru a usura interpretarea se construieste un alt tabel in care frecventele sunt transformate in procente (vezi tabelul nr.20.2).



Tabelul 20.2. Distributia preferintelor pe sexe pentru un fastfood


Sexul

Prefera unitatea


Nu prefera unitatea


TOTAL

Barbati




Femei





Pe baza acestor informatii se poate afirma ca probabilitatea ca un barbat sa prefere fastfood-ul aflat in studiu este de cca. 65 %, in timp ce probabilitatea ca o femeie sa nu il prefere este de 71 %.

O modalitate prin care se poate exprima gradul de asociere intre cele doua variabile sex si preferinta, fiecare in stare dihotomica o reprezinta corelatia phi. Coeficientul de corelatie (rphi) se calculeaza astfel:


unde a, b, c, d reprezinta frecventele tabelului de contingenta de tipul 2x2 dupa cum urmeaza:

a

b

c

d


In exemplul considerat


a=196

b= 104

c=58

b =142

si

Coeficientul de corelatie rphi poate lua valori intre -1,0 si +1,0. Cele doua extreme indica o asociere perfecta intre variabile, in timp ce valoarea zero indica lipsa corelatiei.

Pentru a determina in ce proportie preferintele pentru fastfoodul investigat sunt explicate de variabila sex coeficientul rphi se ridica la patrat.

Deci:


Aceasta indica faptul ca 12,67 % din variatia preferintelor este explicata de variabila sex. Concluzia este ca intensitatea asocierii intre cele doua variabile este foarte slaba. Semnul coeficientului de corelatie rphi caracterizeaza directia asocierii celor doua variabile, dar intr-un mod specific deoarece datele sunt de natura nominala. Astfel, semnul +rphi indica o corelatie pozitiva, in sensul ca exista, in ansamblu, o asociere intre sexul masculin si preferinta pentru fastfoodul  in studiu.


Pentru testarea gradului de semnificatie a asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente (barbati si femei) si preferinta pentru fastfoodul cercetat se poate utiliza testul neparametric. Mai exact, prin acest test se urmareste sa se stabileasca daca preferintele barbatilor difera semnificativ de preferintele femeilor.

Realizarea testului  are ca punct de plecare ipoteza nula ca valoarea coeficientului de corelatie rphi nu difera semnificativ de zero, cu alte cuvinte, preferintele barbatilor nu difera semnificativ de preferintele femeilor. Simbolic aceasta se exprima astfel:

H0: pentru populatia statistica cercetata rphi =0,

spre deosebire de ipoteza alternativa,

H1: pentru populatia statistica cercetata .

In continuare, se determina - valoarea calculata a lui , cu ajutorul urmatoarei formule:

unde:

r si k - reprezinta numarul de randuri si respectiv de coloane ale tabelului de

contingenta;

Oij       - frecventele randului i si ale coloanei j care rezulta din observare;

Aij - frecventele randului i si ale coloanei j care se asteapta sa rezulte conform ipotezei nule; ele se determina prin inmultirea frecventei marginale a randului i cu cea a coloanei j si impartirea produsului la numarul total al cazurilor (marimea esantionului).


Valorile rezultate prin utilizarea formulei de mai sus au o repartitie de esantionare care poate fi aproximata de o repartitie cu (r-1)(k-1) grade de libertate. Daca valoarea calculata a lui este egala sau mai mica decat valoarea teoretica (tabelata), corespunzatoare unui numar de grade de libertate si unui anumit grad de semnificatie, atunci ipoteza nula se accepta.


In exemplul considerat, valoarea calculata a lui este urmatoarea:


Valoarea teoretica corespunzatoare pentru (2-1)(2-1)=1 grade de libertate este . Deoarece  se poate afirma ca la un nivel de semnificatie de 0,05 ipoteza nula nu se accepta (se accepta ipoteza H1), adica rphi difera semnificativ de zero, deci preferintele barbatilor difera semnificativ de preferintele femeilor.

Ori de cate ori tabelul de contingenta este de tipul 2x2, pentru determinarea valorii lui se poate utiliza si urmatoarea formula de calcul:


unde: a, b, c, d au aceeasi semnificatie ca mai sus, iar N= a + b + c + d.


Deseori apare necesara testarea gradului de semnificatie a asocierii dintre variabile provenind de la mai mult de doua subesantioane independente.


Sa presupunem ca dorim sa stabilim daca imaginea populatiei despre un parc de distractii existent intr-o statiune turistica, difera in functie de varsta. In acest caz, tabelul de contingenta va avea patru randuri (persoane pana la 18 ani, intre 18 si 30 ani, intre 30 si 50 ani si peste 50 de ani) si trei coloane (persoane cu imagine favorabila, persoane cu imagine nefavorabila si persoane cu imagine neformata).

Testul se poate folosi cu succes si in astfel de situatii, procedura fiind identica cu cea in cazul celor doua subesantioane independente.

O cerinta importanta a testului se refera la marimea frecventelor care trebuie sa rezulte din observare. Statisticianul W. Cochran sustine ca pentru reusita testului nici o frecventa Oij nu trebuie sa aiba valoarea mai mica decat 1, iar frecventele Oij mai mici de 5 nu trebuie sa depaseasca 20% din numarul total al frecventelor. Daca aceste conditii nu sunt indeplinite, se recomanda combinarea unor randuri sau coloane, in limita posibilitatilor existente sau marirea esantionului.


Pentru masurarea gradului de asociere intre variabilele unui tabel de contingenta cu orice numar de randuri sau coloane se poate utiliza coeficientul de contingenta C, care se calculeaza dupa formula:

Acest coeficient poate fi calculat independent de natura variabilelor (continue sau discrete) si indiferent de natura repartitiei acestora (normala sau nu) in cadrul populatiei supuse cercetarii.

In ciuda faptului ca un coeficient de contingenta se dovedeste, deseori, a fi deosebit de util pentru a intregi analiza completa a datelor masurate printr-o scala nominala, acesta are si anumite limite:

in primul rand, daca teoretic valoarea minima a coeficientului poate fi zero (cand variabilele studiate nu sunt deloc corelate), in schimb, valoarea maxima nu ajunge niciodata sa fie egala cu 1, asa cum se intampla in cazul coeficientilor de corelatie Pearson, Spearman sau Kendall (atunci cand k = r, limita superioara a lui C, indicand o corelatie perfecta intre variabile, este data de relatia );

in al doilea rand, datorita faptului ca valoarea maxima a lui C depinde de marimea lui k si r, rezulta ca doi coeficienti de contingenta nu pot fi comparati decat daca provin din tabele de contingenta de aceeasi marime;

in al treilea rand, este evident ca C poate fi calculat numai in acele cazuri in care se poate utiliza;

in sfarsit, merita mentionat si faptul ca C nu poate fi comparat direct cu nici un alt tip de coeficient de corelatie, cum ar fi cel al lui Pearson, al lui Spearman sau al lui Kendall.





Pentru calculul procentelor cumulate sunt necesare date cel putin de natura ordinala.



Contact |- ia legatura cu noi -| contact
Adauga document |- pune-ti documente online -| adauga-document
Termeni & conditii de utilizare |- politica de cookies si de confidentialitate -| termeni
Copyright © |- 2024 - Toate drepturile rezervate -| copyright