Medicina
Scorul calitatii evaluarii euristice (HEQS): o unitate de masura a competentelor de evaluare euristicaREZUMAT Evaluarea euristica (HE) este o discount usability engineering method care implica 3 sau mai multi evaluatori ce evalueaza maleabilitatea unei interfate, bazandu-se pe un set de cercetari practice. Deoarece calitatea evaluarii depinde foarte mult de abilitatile lor, este absolut necesar ca aceste aptitudini sa fie masurate pentru a garanta un anumit standard al evaluarilor efectuate. Acest studiu ofera un schelet / cadru pentru cuantificarea abilitatilor de evaluare euristica. Cuantificarea e bazata pe numarul de probleme unice identificate de evaluatori, dar si pe gravitatea acestor probleme. Problemele unice (punctuale) sunt categorizate in 8 parametri ai interfatei cu utilizatorul, iar Gravitatea lor e categorizata in 3 parametri. Standardul estimat din combinarea evaluarilor este folosit pentru a compara aptitudinile de evaluare atat inter - aplicatii, cat si in interiorul aplicatiilor. Rezultatul acestei masuratori a aptitudinilor ii separa pe evaluatori pe nivele de expertiza. Doua studii de caz ilustreaza procesul, precum si aplicabilitatea lui. Viitoarele studii vor ajuta la definirea unui profil al expertului in evaluare euristica. CUVINTE CHEIE Evaluare euristica, Design-ul interactiunii, Arhitectura Informatiei, Design vizual, Navigare, Denumire, Continut, Functionalitate, Showstopper, Major Issue, Irritant, Scorul calitatii evaluarii euristice (HEQS), Procentajul HEQS (HEQS%). INTRODUCERE Evaluarea euristica (HE) propusa initial de Nielsen si Molich in 1990 este o discount usability engineering method aplicata de un grup de 3 - 5 experti. Calitatea evaluarii depinde in mare masura de abilitatile acestor experti (Kantner si Rosenbaum, 1997). Aceasta cercetare identifica parametrii si propune o metoda de masurare a abilitatilor evaluatorilor euristici. Eficienta HE creste semnificativ prin implicarea mai multor evaluatori, dar cresc si costurile direct proportional. Un singur evaluator descopera intre 19 si 51 % din problemele interfatei (media este de 34%) (Nielsen and Landauer, 1993). Conform celor sase studii efectuate de Nielsen si Landauer (1993), numarul optim de evaluatori este de 4 (tinand cont de raportul beneficii vs. costuri). Se sugereaza ca este ideal sa fie 3-5 evaluatori, dar nu se precizeaza nivelul de expertiza al acestora. O serie de evaluari comparative ale uzabilitatii (CUE), coordonate de Rolf Molich (Molich, 2006), compara abordarile uzabilitatii si ofera sugestii practice pentru imbunatatirea eficientei abordarii. In CUE-4 17, echipe de evaluatori experimentati au analizat acelasi website; 9 echipe au ales testarea uzabilitatii si 8 au ales expert reviews. Studiul a demonstrat ca nu exista diferente de rezultate intre cele doua abordari. In CUE-3 11, expertii euristici au inspectat individual un website, si apoi au format 4 grupe pentru a realiza cate un raport comun, ce combina descoperirile fiecaruia dintre ei. In medie, doar 9% dintre problemele identificate coincideau de la un evaluator la altul. Evaluatorii au perceput neconcordantele ca fiind surse multiple ce demonstrau aceeasi problema, si nu drept contradictii. Increderea in evaluarile lor, desi aveau rezultate total diferite, a crescut dupa discutia de grup. Autorii studiului sugereaza ca astfel s-a intarit concluzia ca nu era vorba despre un esec, ci de distingerea anumitor probleme in categorii de probleme. Unul dintre motivele acestei distingeri nereusite ar putea fi nivelul de expertiza euristica. Evaluarea euristica, realizata in mod ideal de experti euristici, poate fi facuta si de dezvoltatorii de soft (software developers) sau de non experti. De aceea, e important sa se studieze calitatea randamentului evaluatorului. Un studiu realizat de Desurvire, 1994 a demonstrat ca expertii identifica 29% din problemele critice intr-o interfata, comparativ cu 12% -dezvoltatorii de soft si 6% - nonexpertii. Asadar expertiza e importanta pentru evaluare, si cuantificarea ei poate inlatura ambiguitatea. Acest lucru reiese clar si din studiul facut de Athanasis si Andreas (2001). Au fost comparati specialisti obisnuiti, dublu specialisti si incepatori. Specialistii obisnuiti sunt experti euristici familiarizati cu euristica, dar nu si cu domeniul de evaluat. Dublu specialistii sunt experti euristici familiarizati cu ambele. Rezultatele studiului au indicat ca e nevoie de 15 incepatori, de 3-5 specialisti obisnuiti sau de 2-3 dublu specialisti pentru a identifica 75% din probleme in cadrul unei evaluari. Un studiu efectuat de Jacobsen et al. (1998) evidentiaza ca atat detectarea problemelor de uzabilitate, cat si selectarea celor mai grave din ele sunt supuse unei mari variabilitati individuale. O posibila solutie ar fi selectarea unor evaluatori cu nivel similar de aptitudini. Doua dintre limitarile HE sunt subiectivismul evaluatorilor si faptul ca problemele identificate de ei le reflecta inclinatiile sau viziunea (perspectiva). Un studiu de Law si Hvannberg, 2002 a incercat sa solutioneze problema, folosind un test de uzabilitate pentru a intari metodologia. Nu este insa o solutie permanenta, deci clar trebuie imbunatatita evaluarea euristica, posibil prin implicarea unor evaluatori ce depasesc un anumit nivel de abilitati. Cand evaluarea se face intr-un mediu de productie la scara larga (de exemplu: in ultimii 2 ani, in companie, cate 3-5 evaluatori au analizat pe rand peste 200 de aplicatii), este nevoie sa se identifice atat punctele tari / slabe individuale ale evaluatorului, cat si calitatea generala a aptitudinilor sale. De aici se pot deduce si domeniile de training necesare pentru ca aptitudinile evaluatorului sa fie imbunatatite in timp. Ca rezultat util al acestui proces, se va putea desemna de fiecare data evaluatorul potrivit pentru un anumit proiect. HE este cea mai populara tehnica folosita de 76% din comunitatea uzabilitatii (UPA Survey, 2005), de aceea este absolut necesara atestarea. Niciunul dintre studiile mai sus mentionate nu a analizat profilul sau pregatirea (expertiza) evaluatorului. Nicio cercetare nu s-a axat pe acest subiect. In acest studiu, noi incercam sa punem urmatoarele intrebari: Se pot masura competentele expertilor euristici? Daca da, cum le masuram? Cum se poate pune in practica o astfel de masuratoare? Care e aplicabilitatea ei? Tabelul 1: Pasi pentru masurarea competentelor de HE
METODA Pasi pentru masurarea competentelor de evaluare euristica Pasii din tabelul 1 sunt o modalitate eficienta pentru masurarea competentelor de evaluare. Acesti pasi creati de autori s-au dezvoltat dupa mai mult de 1 an si 4 programe de evaluare a competentelor. Identificarea aplicatiei, a parametrilor UI si a gradelor de gravitate - Cei 8 parametri ai interfatei cu utilizatorul (UI) sau aspectele care definesc interfata (vezi Tabelul 2) sunt competente importante pentru evaluare. Trebuie aleasa o aplicatie care contine toti cei 8 parametri UI. Gradele de gravitate definesc starea critica in termeni de efort necesar pentru a corecta / solutiona problema. Poate fi o scara cu 3 sau 5 grade. Trebuie sa li se dea evaluatorilor descrierea corecta a parametrilor UI si a gradelor de gravitate pentru a se evita ambiguitatea. Standardizarea orizontului evaluarii
- Orizontul sau proportiile evaluarii sunt importante in aplicatiile care sunt
imense sau fac parte dintr-o Furnizarea / oferirea unui transfer de cunostinte / informatii (optional) - daca evaluatorii sunt familiarizati cu aplicatia, sariti acest pas, sau daca nu o faceti, puneti-le la dispozitie un transfer de informatii impreuna cu o trecere in revista a scenariilor cheie identificate la pasul anterior. Trebuie sa le dati timp sa parcurga independent aplicatia pentru a o intelege complet (fluxul de lucru si interactiunile). Standardizarea duratei evaluarii - Timpul acordat evaluarii aplicatiei trebuie sa fie egal la toti evaluatorii. Tabelul 2 Parametrii UI care definesc interfata
Standardizarea formatului evaluarii - Un astfel de format ar garanta consecventa evaluarii la toti participantii, usurand estimarea competentei lor. De exemplu, formatul standard poate cuprinde prametrul UI, gravitatea si the heuristic violated. Tabelul 3: Formatul evaluarii
Inceperea evaluarii - Evaluatorilor li se cere sa lucreze cat mai performant intr-un mediucare nu le distrage atentia. Folosirea evaluarilor individuale pentru extragerea unui standard - Confruntarea problemelor individual identificate de fiecare evaluator si eliminarea celor care se repeta. Un grup de 3 sau mai multi experti euristici vor elimina falsele probleme identificate si vor ajunge la un consens legat de gradul de gravitate al fiecarei probleme. Folosirea acestui standard pt. masurarea competentei fiecarui evaluator - Pe baza acestui standard se calculeaza clasamentul individual. Derive insights - Analiza competentelor de evaluare euristica de-a lungul timpului va oferi o buna cunoastere a performantei evaluatorilor. Aplicabilitatea acestei tehnici intr-o serie de alte zone va fi discutata mai tarziu. O evaluare pilot ar ajuta la consolidarea procesului de estimare a competentei. De exemplu, un pilot poate arata daca timpul alocat, alegerea parametrilor UI si orizontul evaluarii sunt adecvate. Descrierea gradelor de severitate Acestea ajuta la separarea problemelor minore de cele catastrofale, cu scopul de a stima efortul si resursele necesare ajustarii problemei. Calitatea interfatei poate fi masurata prin numarul de probleme grave identificate. Plecand de la cercetarea lui Nielsen (Nielsen, 1994), am identificat 3 categorii: Showstopper: o problema catastrofala care impiedica utilizatorii sa foloseasca eficient site-ul si le obstructioneaza indeplinirea obectivelor. Major Issue: o problema ce cauzeaza pierdere de timp si increases the learning or error rates Irritant: o problema minora de aspect sau consistenta care incetineste putin utilizatorii. Violeaza minim directivele uzabilitatii (the usability guidelines). Factorii de greutate Unui showstopper i s-a dat o greutate de 5 puncte (vezi Tabelul 4), unui major issue o greutate de 3 puncte si unui irritant una de 1 punct. Am folosit acest sistem din doua motive. Primul pentru a stimula evaluatorii sa gaseasca mai multe showstoppers, marindu-si astfel scorul total. Al doilea a fost acordarea unei importante mai mari problemelor catastrofale decat celorlate doua. S-a dat unui numar de 4 experti euristici o scara Likert de 5 puncte, mergand de la not critical to very critical. Li s-au dat si definitiile gradelor de gravitate si li s-a cerut sa noteze starea critica a severity rating. An average of the ratings for each severity rating formed the basis for assigning the weight factors. Tabelul 4: Formula HEQS
Evaluarea individuala Indivizii au fost evaluati prin calcularea frecventei problemelor unice identificate de ei in cadrul fiecarui parametru UI (Tabelul 5) si in cadrul fiecarui grad de gravitate (Tabelul 6). Tabelul 5: probleme bazate pe parametrii UI
Tabelul 6: probleme bazate pe gradele de gravitate
Suma problemelor bazate pe parametrii UI a fost egala cu suma celor bazate pe gradele de gravitate. Scorul numit HEQS a fost calculat inmultind frecventa fiecarei probleme de un anumit grad de severitate cu factorul de greutate corespunzator (daca un evaluator a identificat 10 showstoppers, 20 major issues si 5 irritants, Scorul Individual HEQS = (10*5) + (20*3) + (5*1) =115). Problemele bazate pe grade de severitate pot fi folosite la calcularea HEQS, iar cele bazate pe parametrii UI la evaluarea punctelor tari si slabe ale evaluatorului. Standardul Standardul este folosit pentru a compara evaluatorii euristici fie in cadrul aceleiasi aplicatii, fie intre mai multe aplicatii. Se confrunta toate problemele unice si valide identificate de toti evaluatorii, apoi 3 sau mai multi experti le analizeaza acestora toate comentariile si daca decid ca sunt probleme reale, le acorda un grad de severitate. Expertii discuta impreuna aceste lucruri, si daca intervin diferente de opinie, se discuta pana se ajunge la un consens. O problema poate fi incadrata doar la o categorie UI si la un grad de gravitate, insa aceasta incadrare nu a fost in toate cazurile una omogena. Mai putin de 15% din problemele identificate in cele 2 studii de caz de mai jos au fost incadrate la parametrul UI gresit. Procentul redus s-a datorat faptului ca evaluatorii erau extrem de familiarizati cu aceste categorii. Daca problemele au fost incadrate gresit, expertii au facut rectificarea atunci cand analizau munca evaluatorilor. Neconcordantele au fost discutate ulterior, calculand the inter-rater reliability (procentul de acord intre expertii euristici). Un scor inalt in acest sens asigura intelegerea si comunicarea clare ale tutror parametrilor. Este simplu sa compari evaluatorii in cadrul unei aplicatii (folosind formula din tabelul 4). Cu cat mai mare este procentajul HEQS%, cu atat mai mare este performanta evaluatorului raportat la standard. In schimb, trebuie luate anumite precautii cand se compara evaluatorii incrucisat, pe baza mai multor aplicatii. In primul rand, numarul evaluatorilor si nivelul lor de expertiza trebuie sa fie similar in ambele grupuri. E mai usor astfel sa se stabileasca un standard ca baza pentru comparatie. In al doilea rand, conditiile in care se realizeaza testarea trebuie sa fie similare (acelasi timp alocat, aceiasi parametri si grade de gravitate alese). Niveluri de expertiza Au fost identificate patru niveluri (1, 2, 3 si 4), separate la intervaluri de 25%, aranjate de la nivelul minim de expertiza / competenta la cel maxim. Incadrarea intr-un nivel de expertiza se face pe baza procentajului HEQS%. (daca un evaluator are 51% HEQS%, intra la nivelul 3 de expertiza). Desi in acest studiu nivelurile sunt separate la intervaluri egale, cercetarile viitoare pot rafina impartirea, explorand o distributie nonlineara. Studii de caz Pentru a valida metoda descrisa mai sus, au fost realizate doua studii de caz, la un interval de 3 luni. La primul studiu (evaluarea unui website - aplicatia 1) au participat 18 voluntari. Al doilea studiu a fost facut pe o aplicatie web - aplicatia 2 - si a folosit aceiasi 18 voluntari. Toti evaluatorii aveau experienta, dar la nivele diferite de expertiza (45% nivel 1, 55% nivel 2), dupa cum se stabilise intr-o evaluare anterioara folosind metodologia HEQS. Toti erau familiarizati cu parametrii Ui si gradele de gravitate. Studiile de caz au fost alese fiind usor accesibile si nefiind necesar un transfer de informatie, pentru ca toti evaluatorii erau familiarizati cu ele. Li s-a acordat acestora acces deplin atat la aplicatii cat si la the screenshots of the key screens. Scopul/orizontul evaluarii primei aplicatii (corporate website) a fost evaluarea home page and the landing page of each of the items in the main menu. This corporate website had sections common to corporate websites, such as the 'About Us' and 'Services' section. Twenty-one screenshots were given to the evaluators. The scope of the second application was to evaluate only the map section from the many applications that the company offered. The map section of the application helps users to find the route between two or more locations. Twenty-six screenshots were given to the evaluators. Each case study was evaluated in two hours in the standardized format based on the eight UI parameters and the three severity ratings defined previously. The inter-rater reliability is shown in Table 7 for both the applications. Issue consensus refers to the percentage of times all three heuristic experts agree on whether the evaluators comments were issues. Severity Consensus refers to the percentage of times all three heuristic experts assigned the same severity rating to the issue. If there was a disagreement, the heuristic experts would mutually discuss and agree for both the issues and the severity ratings. Disagreements centered mostly between Showstoppers and Major Issues, accounting for 23% and 19% of the issues for Application 1 and 2, respectively. This result is discussed later in this paper. Table 7: Inter-rater reliability of issue and severity consensus
REZULTATE SI DISCUTII Tabelul 8: Standardul pentru aplicatiile 1 si 2
Studiul de caz 1 Grupul a gasit un procentaj mediu HEQS% de 24%, iar cel mai bun evaluator de 38%. Punctele tari ale grupului de studiu au fost la design vizual si la arhitectura informatiei, identificand in medie 24%, respectiv 20% din problemele standard ale acestor parametri. Functionalitatea a fost un punct slab, insumand doar 8% din problemele standard. 67% din membrii grupului au primit nivelul 1 de expertiza, iar 33% nivelul 2. Studiul de caz 2 Grupul a gasit un procentaj mediu HEQS% de 25%, iar cel mai bun evaluator de 38%. Punctele tari ale grupului de studiu au fost la continut si navigare, insumand 27%, respectiv 20% din problemele standard ale acestor parametri. Punctele slabe au fost la parametrul functionalitate, unde au identificat doar 7% din standard. Jumatate din grup a obtinut nivelul 1 de expertiza, si jumatate nivelul 2. Compararea incrucisata a competentelor de evaluare euristica bazata pe mai multe aplicatii Din cei opt evaluatori care au participat la cele doua studii de caz, 50% nu si-au schimbat nivelul, 28% au crescut de la nivelul 1 la 2 si 22% au scazut de la nivelul 2 la 1. Pe baza rezultatelor, se pot face diferite analize comparative (Este participantul 5 mai performant decat ceilalti la aplicatia1? Este el mai bun comparativ cu participantii la aplicatia 2? - v. figura 1). Beneficiul practic al acestor analize este faptul ca managerul poate identifica un evaluator dupa o anumita abilitate / competenta (La problemele de design al interactiunii este bun participantul 5 -v. figurile 2 si 3; competenta de ansamblu cea mai ridicata insa o are participantul 8 - v. figura 1). In egala masura, programele de training pot fi targetate plecand de la punctele slabe ale evaluatorului (Participantul 11 nu a gasit deloc probleme de arhitectura informatiei - v. figura 2, deci poate fi subiectul unui training). De asemenea managerii pot identifica cea mai buna metoda de evaluare euristica folosind studiul HEQS. De exemplu, se pot compara doua metode, evaluarea traditionala (HE) si evaluarea HE Plus (Chattratichart, and Brodie, 2002), si scorurile HEQS o vor desemna pe cea mai buna. Lindgaard et al. (2004) a facut aceasta comparatie, fara a lua insa in considerare gravitatea problemelor, lucru posibil prin folosirea metodologiei HEQS. Managerii mai pot sa identifice calitatea evaluatorilorr proprii si la nivel international. De exemplu, procentajul mediu HEQS% e de 25% la evaluatorii unei companii si de 35% la cei mai performanti evaluatori din domeniu. Improving the Inter-rater reliability for Severity Consensus Expertii nu cad de acord cand impart problemele pe categorii de gravitate (Hertzum et al., 2002; Jacobsen et al., 1998; Molich, 2006). Bailey (2005) sugereaza intr-un articol ca problemele bazate pe gravitate ar trebui cercetate de dezvoltatori, nu de expertii euristici. Punctele tari ale celor din urma sunt viziunile diferite pe care le aduc in evaluare, insa acestea sunt in acelasi timp o limitare a cercetarii. Viziunile lor difera in privinta contextului evaluarii. O problema care pierde timpul, necesita mult studiu si creste rata de erori este un Major Issue. In functie de context insa, aceeasi problema se poate incadra in diferite categorii de gravitate. (De exemplu: faptul ca anunturile publicitare au o importanta mai mare decat scopul de baza al site-ului, este o problema catalogata de experti ca fiind un Showstopper; daca se tine insa cont de actionari, aceste anunturi fiind o cerinta, simpla problema a amplasarii lor deficitare le incadreaza ca Major Issue. Un alt exemplu: problema prescurtarii numelor medicamentelor pe site a fost catalogata drept, dar farmacistii au preferat prescurtarle pemtru ca erau mai usor de retinut.) Cateva sugestii: Discutati gradele de gravitate cu o echipa multi-disciplinara, ce include utilizatori finali si actionari. Urmariti tendintele si oferiti evaluatorilor o lista de bifat la fiecare caz exceptie de la regula gravitatii. In timp, perfectionati / cizelati definirea gradelor/ rating-urilor, observand pattern-urile de clasificare. Applications and Future Work O aplicatie importanta a metodologiei HEQS este identificarea nivelului per ansamblu al competentelor evaluatorului, precum si identificarea punctelor tari / slabe ale acestuia. Datele din acest studiu pot fi folosite pentru training-ul targetat al evaluatorilor, in cele din urma putand conduce la un program de atestare (certificare). Un exercitiu de training efectuat a demonstrat imbunatatirea in medie cu 48.5 a HEQS (Figura 4). Figure 4: Compararea aptitudinilor inainte si dupa training 26 de evaluatori au fost pusi sa evalueze un site care oferea informatii gen situatia rezervarii locurilor din trenuri. Li s-au dat spre evaluare 22 screen shots si 8 scenarii, in 2 ore si folosind cei 8 parametri UI si cele 3 ratinguri ale gravitatii. Li s-au analizat aptitudinile si la un HEQS standard de 221, au fost identificate 10 Showstoppers, 49 Major Issues, si 24 Irritants. HEQS-ul mediu pentru grup a fost de 73, si procentajul HEQS% a fost 33%. Apoi a urmat un program de training, unde s-a discutat lista problemelor site-ului si ratingurile de gravitate corespunzatoare pentru fiecare parametru UI. De asemenea s-au discutat probleme obisnuite legate de Navigare, Design Vizual si Denumire, fiind folosite ca referinta la urmatoarea evaluare. Pornind de la feed-back-ul individual si dupa ce au fost confruntate (rezumate) 200 de evaluari realizate in companie, s-a realizat lista cu problemele standard/ comune / obisnuite. A doua evaluare s-a facut pe acelasi site, dar pe o sectiune diferita care se ocupa de informatii generale despre tipuri de trenuri, departamente ale cailor ferate samd. Celor 26 de evaluatori li s-au dat sa analizeze 20 de screenshots. In conditii de lucru similare primei evaluari, Standardul grupului la acest exercitiu post-training a continut 12 Showstoppers, 55 Major Issues si 26 Irritants, comparativ cu Scorul Standard HEQS de 251. HEQS-ul mediu pentru grup a fost de 124, si procentajul HEQS% de 49%. Deci o imbunatatire medie de 48.4%. CONCLUZII Pe baza observarii pattern-urilor de categorizare, trebuie realizate cercetari avansate avand drept obiectiv clarificarea/standardizarea gradelor de gravitate. Modelul HEQS poate fi cizelat cu ajutorul acestor cercetari, devenind astfel posibila definirea mai precisa a unui profil al expertului euristic. In prezent, autorii lucreaza la aplicarea in training a experientei dobandite prin metodologia HEQS. Practitioner's Takeaways Aceasta lucrare ofera o metodologie pentru stabilirea competenetelor de evaluare euristica. Practicantii o pot folosi pentru a identifica evaluatorul potrivit in contextul evaluarii respective. Masurarea si evaluarea competentelor folosind metodologia HEQS poate fi personalizata, adaptata la nevoile proprii, in functie de importanta acordata anumitor parametri UI intr-o organizatie. Programele de training pot fi targetate, plecand de la punctele slabe ale evaluatorului identificate prin metoda HEQS. Aceste programe pot conduce intr-un final la un program general de acreditare.
|