Programos efektyvumo testavimas ir įvertinimas. Didžiojo penketo testo efektyvumo įvertinimas ir praktinio panaudojimo pavyzdys

Klaidos, dėl kurių sumažėja tyrimo efektyvumas, atsiranda, jei:

  • Testas parašytas neteisingai
  • Testas nėra tinkamai standartizuotas
  • Netinkamai panaudotas testas

Bandomoji konstrukcija

Visų pirma, jūs turite aiškiai suprasti psichologinę savybę, kurią išmatuos būsimas testas. Ne vienas testas kuriamas „nuo nulio“, jo kūrimas grindžiamas ilgalaikiu moksliniu darbu tiriant teminę medžiagą.

Prieš psichologinio testo kūrėją Yra sudėtinga užduotis - kuo geriau atspindėti visus išmatuotos psichologinės savybės aspektus atliekant minimalų užduočių skaičių. Paskutinė sąlyga yra vienas iš testo efektyvumo kriterijų. Tai nereiškia, kad Cattell asmenybės anketa, kurioje yra pusė tūkstančio klausimų, gali būti laikoma neveiksminga. Matuojant tokį didelį asmenybės faktorių skaičių (16), toks klausimų skaičius yra optimalus. Tas pats pasakytina apie intelekto, motyvacijos ir kitų plačių psichinių sričių testus. Turėtumėte saugotis klausimyno, tarkime, apie rizikavimą, kuriame yra 250 klausimų.

Be šių reikalavimų, bandymas turi atitikti tikslinę grupę, į kurią jis nukreiptas. Užduotys rengiamos tinkamo sudėtingumo ir prieinamumo įvairiems amžiaus grupėse, įvairių psichikos sutrikimų turintiems žmonėms, skirtingų tautinių ir kalbinių grupių atstovams. Jei testas siūlomas naudoti kitoje kalbų grupėje ar šalyje, jis turi būti pritaikytas.

Į prisitaikymą apima ne tik užduočių vertimą, bet ir frazių, sąvokų pertvarkymą, frazeologinių vienetų, patarlių ir posakių pakeitimą panašiais tam tikra kalba. Klausimų prasmė turėtų būti perteikta atsižvelgiant į grupės religines pažiūras.

Taip pat būtina atsižvelgti į kai kuriuos poveikius, pastebėtus, kai žmonės pildo bandomuosius elementus. Vadinamasis socialinio geidžiamumo efektas veikia tada, kai žmogus savo atsakymuose nori pateikti save geriausioje šviesoje. Daugelis bandymų yra ginkluoti iki dantų“ melo svarstyklės“, spąstų klausimai ir pan. Bet tai ne visada padeda – žmogus suranda tuos pačius klausimus, išsaugo atsakymus atmintyje.

Yra dar vienas triukas - bandymo tikslo pakeitimas instrukcijose, jei šis tikslas apskritai tiriamajam atskleidžiamas. Tada žmogus, atsakydamas į klausimus, gerai parodo save iš vienos pusės (klaidingas tikslas) ir pateikia daugiau ar mažiau patikimą informaciją apie kitą pusę (tikrasis tikslas), kuri iš tikrųjų yra matuojama šiuo testu.

Taip pat keliami klausimų formuluotės ir testo pateikimo tvarka. Jie vėlgi priklauso nuo tikslinės grupės, kuriai skirtas testas.

Teisingai sudaryto testo dar negalima vadinti sukurtu. Norėdami tai padaryti, jis turi būti standartizuotas.

Standartizavimas

Testo standartizavimas leidžia palyginti jo pagalba gautus duomenis iš skirtingi žmonės. Norint tai padaryti, būtina, kad visi šie žmonės būtų vienodomis sąlygomis. Psichologinėje kalboje tai vadinama „visų priklausomų kintamųjų valdymu“. Idealiu atveju vienintelis nepriklausomas testo kintamasis būtų testo gavėjo asmenybė. Siekiant užtikrinti vienodos sąlygos testo kūrėjas pateikia konkrečias testo administravimo instrukcijas. Jie apima:

  • Stimuliuojančios medžiagos specifika
  • Laiko limitai
  • Nurodymai tiriamiesiems
  • Užduočių pavyzdžiai
  • Priimtini atsakymai į klausimus (jei tokie apribojimai būtini)

Be šių nurodymų, testo priede pateikiamos specialiai nustatytos atsakymų normos („žaliavose“) ir jų interpretacijos.

Be standartizavimo, testo veiksmingumas turi būti patikrintas pagal patikimumo ir pagrįstumo kriterijus. Labai dažnai šios sąvokos vartojamos pakaitomis, todėl pažvelkime į kiekvienos iš jų reikšmę.

Patikimumas

Patikimumas suprantamas kaip rezultatų, gautų kiekvieną kartą, kai testą kartoja tas pats tiriamasis, nuoseklumas su savo pirmojo testo rezultatais. Nėra absoliutaus testo patikimumo, tačiau kuo jos didesnės, tuo mažesnis testo efektyvumas. Patikimumą galima patikrinti naudojant šiuos metodus:

  • bandymo-pakartotinio patikrinimo patikimumas apima pakartotinį vieno testo atlikimą ir gautų rezultatų koreliacinį palyginimą.
  • bendras patikimumas nustatomas padalijus testą į dvi dalis ir palyginus abiejų dalių vykdymo rezultatus atskirai.
  • lygiavertis patikimumas atskleidžiama pristatant tiriamąjį ir jo alternatyvus variantas. Gauti rezultatai taip pat lyginami tarpusavyje.

Galiojimas

Psichologiniai žodynai atskleidžia pagrįstumo sampratą kaip laipsnį, kuriuo testas atitinka savo tikslą – matuoti tai, kam jis buvo sukurtas; faktinis testo gebėjimas išmatuoti psichologinę charakteristiką, kuriai nurodyta diagnozuoti. Kiekybiškai testo pagrįstumas gali būti išreikštas jo pagalba gautų rezultatų koreliacijomis su kitais rodikliais, pavyzdžiui, su atitinkamos veiklos sėkme.

Be to, testo pagrįstumą galima nustatyti lyginant jo rezultatus su panašiais metodais gautais rezultatais. Pavyzdžiui, sukurtas verbalinio intelekto testas gali būti atliekamas kartu su gerai žinomu Amthauerio testu, tada lyginant jų rezultatus. Didelė rezultatų koreliacija reikš didelį pagrįstumą – tai reiškia naujas testas tikrai matuoja verbalinį intelektą, o ne žodinius gebėjimus, atmintį, dėmesį ir pan.

Aukščiau buvo pasakyta apie klaidas testo naudojimo etape. Pažeidus paraiškose rekomenduojamas jo įgyvendinimo sąlygas, galiojimas gali sumažėti. Tarkime, atliekame žodžių įsiminimo testą ir, matydami, kad subjektas yra gana pajėgus, padidiname žodžių sąrašo skaitymo greitį. Tokiu atveju greičio padidėjimas bus papildomas nepriklausomas kintamasis, kitaip tariant, trikdymas. Dėl to vietoj įsiminimo greičio matuosime žmogaus atsparumą stresui.

Testo pagrįstumo įvertinimas apima šiuos veiksmus:

  • tariamo pagrįstumo apibrėžimas(veido galiojimas). Toks pagrįstumas matomas, kaip sakoma, „plika akimi“ – įvertinama bendra testo atitiktis jo tikslui.
  • konceptualaus pagrįstumo apibrėžimas(konstrukto galiojimas). Savybės matavimo testo atitikties visuotinai priimtoms teorinėms idėjoms apie šią savybę laipsnis. Paprastai šį pagrįstumą vertina ekspertai.
  • empirinio pagrįstumo apibrėžimas(empirinis pagrįstumas). Parenkamas kriterijus (nepriklausomas kintamasis), su kuriuo siejami testo rezultatai. Pavyzdžiui, pasirengimo mokyklai testo kriterijus gali būti bendras pirmoko pasiekimų įvertinimas.
  • turinio galiojimo apibrėžimas(turinio galiojimas). Parengtame teste turėtų būti klausimai, skirti įvertinti maksimalų galimą savybių parametrų skaičių, kurį matuoja šis testas (pirmoji testo projektavimo taisyklė buvo paminėta aukščiau – maksimalus savybių parametrų skaičius per minimalų užduočių skaičių). Šis pagrįstumas taip pat vertinamas atliekant ekspertų vertinimus.

Beje, tokį egzaminą išlaiko ne tik nauji testai. Šiuo metu daugelis mokslininkų yra užsiėmę jau žinomų testų efektyvumo analize. Pastaruoju metu psichologinio žurnalo „Psychological Science in the Public Interest“ puslapiuose kilęs ginčas suabejojo ​​tokių psichodiagnostikos priemonių „meistrų“, kaip Rorschach rašalo dėmių testas, TAT (teminis apercepcijos testas) ir projekcinis žmogaus figūros piešimo testas, veiksmingumu. Paaiškėjo, kad šie psichodiagnostikos metodai turi mažą empirinį pagrįstumą, žemą testo-pakartotinio testo patikimumą ir neteisingai sudarytus norminius rodiklius.

Minėti testo efektyvumo vertinimo metodai padeda psichologui ne tik sukonstruoti tam tikrų asmenybės bruožų matavimo instrumentus, bet ir atrinkti kokybiškiausius bei patikimiausius testus iš jau sukurtų.

Psichologinis kompleksas Effecton Studio

Pagrindinis prioritetas kuriant „Effecton Studio“ kompleksą buvo įtraukti tik moksliškai pagrįstas ir informatyvias technikas. Be to, savo vartotojams, taip pat svetainės lankytojams ir naujienlaiškių skaitytojams teikiame psichologinių metodų pagalbą. Ypatingą dėmesį skiriame darbo efektyvumui ir ergonomikai – išlaikius psichologinius Effecton Studio testus, vartotojui pateikiami ne tik neapdoroti rezultatai, bet ir jų interpretacija, patogūs grupinio testavimo ir statistinės analizės metodai.

Taip pat buvo sukurta daug kitų funkcijų, su kuriomis rekomenduojame susipažinti atsisiuntę demonstracinę versiją iš mūsų svetainės ir užsisakę kompleksą naudoti savo organizacijoje. Taip pat apie kompleksą galite informuoti kitus suinteresuotus vartotojus, tokiu atveju gausite 25% nuo sandorio vertės.

Olga Danilova.

Išskirtinė medžiaga iš svetainės "www.. Teksto ir/ar susijusios medžiagos skolinimasis galimas tik esant tiesioginei ir aiškiai matomai nuorodai į originalą. Visos teisės saugomos.

Demonstracinė komplekso versija

V. V. Odintsova

Naudodami daugybę psichodiagnostikos metodų, retai susimąstome apie šių darbo priemonių kokybę. Ir veltui. Juk bet kuris praktikuojantis psichologas žino, kad joks psichologinis tyrimas neįmanomas be gerų diagnostikos priemonių.

Tuo pačiu metu populiarios psichologinių testų kolekcijos, plačiai išleistos m pastaruoju metu, deja, negali patenkinti tikro profesionalo reikalavimų, kuris turi pasitikėti savo darbe naudojamo instrumento diagnostinėmis galimybėmis. Štai kodėl, gerai išvystytos ir patikimos diagnostikos technikos radimo problema išlieka aktuali.

Pagrindinis Human Technologies HR Laboratory uždavinys – sukurti kokybiškus produktus. Viena iš tokių gaminių kūrimo sąlygų yra periodiškas bandymo metodų tikrinimas, ar jie atitinka daugybę psichometrinių reikalavimų (galiojimo, patikimumo, reprezentatyvumo, patikimumo). Tam surinkus pakankamą skaičių protokolų, atliekama statistinė tyrimo metodų analizė.

Panagrinėkime psichometrinę analizę (kurios bendra imtis buvo 660 žmonių).

Šis testas, sukurtas devintajame dešimtmetyje, skirtas penkių vadinamųjų „didžiųjų“ temperamento ir charakterio veiksnių išraiškos lygio ekspresinei diagnostikai ir naudojamas suaugusiųjų asmenybei tirti profesinės atrankos, profesinės konsultacijos, psichologinės pagalbos krypčių nustatymas, komplektavimas į grupes, savęs pažinimas ir kt.

„Didžiojo penketo faktorių“ universalumo pagrindas yra jų tarpsituacinis pobūdis: visuotinio žmogaus funkcinio aktyvumo vertinimo veiksniai pritaikomi beveik bet kurioje situacijoje. socialinis elgesys ir objektyvią veiklą, kurioje randami stabilūs skirtumai tarp žmonių.

Anketoje yra 75 punktai su trimis atsakymų variantais.

SVARSTYKLĖS Testai yra tiksli Didžiojo penketo faktorių kopija jų tarptautinėje versijoje (išskyrus penktąjį faktorių, kuris daugelyje vakarietiškų B5 versijų vadinamas „atvirumas naujai patirčiai – ribotas praktiškumas“):

  • ekstraversija – intraversija
  • sutikimas – nepriklausomybė
  • organizuotumas – impulsyvumas
  • emocinis stabilumas – nerimas
  • mokymosi gebėjimas – inercija

1. Galiojimo patikrinimas

Tikrinant esamas svarstykles tradiciniu būdu- skaičiuodami koreliacijas tarp atsakymų į klausimus ir bendro balo skalėje - nustatėme, kad beveik visi punktai reikšmingai koreliuoja su „jų“ skalėmis, kurių vidutinis koreliacijos koeficientas yra 0,35.

Kai tikrinama prasmingas Testo pagrįstumui nustatyti buvo išanalizuotas testo elementų formuluotės, prasmingai atspindinčios atitinkamą dalykinę sritį (elgesio sritį) ir turinčios reikšmingą (teigiamą ar neigiamą) koreliaciją su bendru balu:

Skalė Bandomųjų elementų pavyzdžiai Koreliacijos koeficientas
EKSTRAVERSIJA Man svarbu išsakyti savo nuomonę kitiems (0,31)
Mėgstu dalyvauti visokiuose konkursuose, konkursuose ir pan. (0,41)
Mėgstu lankytis ir susipažinti su naujais žmonėmis (0,5)
SUTARTIS Daugeliu žmonių negalima pasitikėti (-0,23)
Mano interesai man pirmoje vietoje (-0,22)
„Kas padeda žmonėms, švaisto laiką, gerus darbus tu negali tapti žinomas" (-0,3)
„Kiekvienas už save“ yra principas, kuris jūsų nenuvils (-0,4)
SAVIKONTROLĖ Kai einu miegoti, jau tikrai žinau, ką veiksiu rytoj (0,37)
Kai paimu knygą, visada padedu ją atgal į savo vietą (0,35)
Prieš atsakingas užduotis visada susidarau jų įgyvendinimo planą (0,37)
STABILUMAS Lengvai paraustau (-0,28)
Jei pajuntu, kad darbe atsirado nepageidautina situacija, tai man visada sukelia skaudžių abejonių, kol situacija tampa aiškesnė (-0,3)
Dienos pabaigoje paprastai būnu toks pavargęs, kad kiekviena smulkmena ima erzinti. (-0,32)
Man labai lengva sugadinti nuotaiką (-0,42)

Aukščiau pateiktų formulių analizė rodo gana didelį testo pagrįstumą.

2. Patikimumo patikrinimas

Testo, kaip matavimo priemonės, patikimumą lemia maža testo balų matavimo klaidų tikimybė ir matavimo rezultatų atkūrimo mastas, kai testas naudojamas pakartotinai tam tikros tiriamųjų grupės atžvilgiu. Norint įvertinti įvairių šaltinių indėlį į matavimo paklaidą, būtina naudoti skirtingais būdais patikimumo vertinimai. Ypač įdomus yra vidinio testo nuoseklumo įvertinimas, kuris nustato tą klaidos dalį, kuri yra susijusi su elementų atranka.

Vidinis testo nuoseklumas buvo įvertintas skaičiuojant Cronbacho alfa koeficientą. Šis koeficientas yra patikimumo įvertinimas, pagrįstas skalės homogeniškumu arba koreliacijų tarp testo dalyvių atsakymų į klausimus toje pačioje testo formoje suma.

Mūsų atveju kiekvienai skalei apskaičiuotas Cronbacho alfa patikimumo koeficientas apskritai parodė gana padorų vidinės nuoseklumo lygį, tradicinį išreikštiems asmenybės klausimynams, kurių subskalėse yra ribotas elementų skaičius (mažiau nei 20):

Prisiminkime, kad griežti psichometriniai reikalavimai efektyviai veikiančiam asmenybės testui atitinka alfa koeficientus, viršijančius 0,8.

Mūsų atveju santykinai žemas lygis Cronbacho patikimumo koeficientų reikšmes galima paaiškinti esminiu šių skalių tūriu: kiekviena skalė turi 15 skirtingų klausimų, o tai leidžia išplėsti tiriamų faktorių apimtį, tuo pačiu aukojant aukštą vidinį nuoseklumą. .

Tai ypač stipriai paveikė faktorių skales „SUTIKIMAS“ ir „MOKYMOSI GEBĖJIMAS“, kurių alfa koeficientas buvo mažesnis nei 0,6.

3. Reprezentatyvumo patikrinimas

Pereinant nuo standartizacinės imties (1 pav. - 300 žmonių) prie populiacinės imties (2 pav. - 660 žmonių), atsiranda testų balų pasiskirstymo konfigūracijos stabilumas, rodantis tyrimo metodikos reprezentatyvumą:

1 pav. Standartizacijos pavyzdys (300 žmonių)

2 pav. Gyventojų pavyzdys (660 žmonių)

Be vizualinio šių skirstinių panašumo, mūsų naudojamas Pearsono statistinis chi kvadrato testas parodė tokį skirstinių panašumo laipsnį:

Šios chi kvadrato reikšmės patenka į neapibrėžtumo diapazoną: kai neįmanoma vienareikšmiškai priimti arba vienareikšmiškai atmesti pasiskirstymo nuoseklumo hipotezę.

Tokį rezultatą gali lemti pagrindinė greitojo testo savybė, ty nedidelis klausimų skaičius, apimantis kiekvieną skalę. Atsižvelgiant į tai, reprezentatyvumo testo rezultatai gali būti laikomi patenkinamais.

4. Galiojimo patikrinimas

Kadangi tiriamieji, kurie buvo tikrinami svetainėje, buvo kliento situacijoje (jie domėjosi patikimais rezultatais), tada su didele tikimybe gauti rezultatai gali būti laikomi patikimais.

Tačiau tyrimo situacijoje (kai testo rezultatais domisi trečioji šalis) duomenys gali būti iškraipyti dėl sąmoningų falsifikacijų (melo, tiriamojo nenuoširdumo) ar nesąmoningų trukdžių. motyvacinius veiksnius. Siekiant to išvengti, prie tokiems atvejams skirtos versijos (B5splus) buvo pridėta melo skalė (in šiuo metuši versija yra bandoma mūsų svetainėje).

Gauti rezultatai liudija aukštą technikos kokybę ir efektyvumą, o tai svarbu, nes specialisto profesionalumą dažnai lemia jo naudojamas instrumentas.

Tačiau reikia atsiminti, kad net galingas modernus įrankis negarantuoja visiško klaidų nebuvimo. Norint jų išvengti, neužtenka turėti kompiuterį ir jam skirtą testavimo programą. Testą prižiūrėti taip pat būtinas patyręs psichologas. Taigi testų, kuriems buvo atlikta rimta psichometrinė adaptacija, buvimas visiškai nepaneigia psichologo, kuris buvo kviečiamas tikrinti testo rezultatų patikimumą naudojant lygiagrečius informacijos šaltinius (įskaitant savo stebėjimą, pokalbį ir pan.), profesionalumo ir patirties.

Veiklos vertinimo, kurį kai kas jau vadino „nelaimės formule“, tikslas yra būtent nudžiuginti testuotoją, kad būtų galima skaičiais parodyti, jog veikia gerai ir už tai reikia paglostyti galvą, o kitas yra blogas ir reikia plakti... Vertinimas tik pagal šį kriterijų negali būti vienintelis, todėl turi būti vertinamas kartu su kitais rodikliais, tokiais kaip plano įgyvendinimas, testų automatizavimas ir kt.

Testuotojo, kaip ir bet kurio kito darbuotojo, darbas turi būti vertinamas kiekybiškai, t.y. išmatuojamais rodikliais. Bet kokius rodiklius turėtumėte pasirinkti?

Pirmas dalykas, kuris ateina į galvą, yra rastų defektų skaičius. Ir būtent šį rodiklį iš karto pabandžiau įvesti į Inreko LAN. Tačiau iš karto kilo karšta diskusija, kuri ir paskatino paanalizuoti šį kriterijų. Šiame straipsnyje noriu aptarti šią temą.

Rastų defektų skaičius yra itin slidus rodiklis. Visi tinklo ištekliai, kuriuose aptariama ši problema, sako tą patį (http://www.software-testing.ru/, blogs.msdn.com/imtesty, it4business.ru, sqadotby.blogspot.com, blogs.msdn. com /larryosterman, sql.ru, http://www.testingperspective.com/ ir daugelis kitų). Išanalizavęs savo patirtį ir šiuos išteklius, radau tokį problemų medį:

Pirma, trūkumas prie defekto yra nesantaika. Vienas testuotojas gali ieškoti programoje esančių mygtukų išdėstymo defektų, kitas – įsigilinti į logiką ir sugalvoti sudėtingas testavimo situacijas. Daugeliu atvejų pirmasis testuotojas ras daugiau defektų, nes jam net paruošti testą prireiks daug mažiau laiko, tačiau tokių defektų vertė yra daug mažesnė. Šią problemą nesunku išspręsti įvedus defektų kritiškumą. Galite įvertinti kiekvienoje kategorijoje rastų defektų skaičių. Pavyzdžiui, turime 4 iš jų: kritinį, reikšmingą, vidutinį ir nereikšmingą. Bet kadangi kritiškumo apibrėžimo riba nėra visiškai aiški, nors mes turime formalūs ženklai kritiškumo, tuomet galite rinktis dviem patikimesniais būdais. Pirma, tam tikra per paskirtą laikotarpį nustatytų defektų dalis neturėtų būti mažos kritinės reikšmės defektai. Antrasis – vertinant neatsižvelgti į smulkius defektus. Taigi mes kovojame su testuotojo noru surinkti kuo daugiau defektų aprašydami smulkius trūkumus, verčiame jį (ar dažniau ją) pasigilinti ir rasti rimtų defektų. Ir jie visada egzistuoja, patikėkite mano patirtimi. Pasirinkau antrą variantą – smulkius defektus išmesti.

Antroji tokio kriterijaus „slidumo“ priežastis yra pakankamas sistemos defektų skaičius, kad testeris galėtų juos rasti. Čia yra trys veiksniai. Pirmasis yra sistemos logikos ir technologijos sudėtingumas. Antrasis yra kodavimo kokybė. Ir trečia – projekto etapas. Pažvelkime į šiuos tris veiksnius eilės tvarka. Logikos ir technologijos, kuria remiantis sukurta sistema, sudėtingumas turi įtakos galimiems trūkumams. Be to, priklausomybė čia toli gražu nėra tiesioginė. Jei įdiegsite paprastą logiką sudėtingoje ar nepažįstamoje platformoje, klaidos daugiausia bus susijusios su netinkamu diegimo technologijos naudojimu. Jei įdiegsite sudėtingą logiką primityvioje platformoje, greičiausiai klaidos bus susijusios ir su pačia logika, ir su tokios logikos įgyvendinimo primityvioje kalboje sudėtingumu. Tai yra, renkantis sistemos diegimo technologiją reikalinga pusiausvyra. Tačiau dažnai technologijas diktuoja klientas ar rinka, todėl vargu ar galėsime jai daryti įtaką. Tai reiškia, kad belieka atsižvelgti į šį veiksnį kaip į tam tikrą galimo defektų skaičiaus koeficientą. Be to, greičiausiai šio koeficiento reikšmę reikia nustatyti ekspertiškai.

Kodavimo kokybė. Čia tikrai negalime niekaip paveikti kūrėjo. Bet mes galime: a) dar kartą ekspertiškai įvertinti kūrėjo lygį ir įtraukti jį kaip kitą veiksnį ir b) bandyti išvengti kodo klaidų per vienetinius testus privalomas reikalavimas 100% kodo aprėptis su vienetų testais.

Projekto etapas. Seniai žinoma, kad neįmanoma rasti visų defektų, išskyrus nereikšmingą programą ar atsitiktinai, nes tobulumui ribų nėra, o bet koks neatitikimas tobulumui gali būti laikomas defektu. Tačiau vienas dalykas, kai projektas yra aktyvaus vystymo stadijoje, ir visai kitas dalykas, kai jis yra paramos etape. Ir jei dar atsižvelgsime į sistemos ir technologijos sudėtingumo bei kodavimo kokybės veiksnius, akivaizdu, kad visa tai radikaliai paveikia testuotojo galimų rasti defektų skaičių. Artėjant projekto pabaigai arba palaikymo fazei (visa tai vadiname sąlyginai, o dabar apibrėžiame intuityviai), sistemoje mažėja defektų, todėl mažėja ir randamų defektų. Ir čia reikia nustatyti momentą, kada tampa neprotinga reikalauti, kad testeris surastų tam tikrą skaičių defektų. Norint nustatyti tokį momentą, būtų malonu žinoti, kokią dalį iš viso defektų galime rasti ir kiek sistemoje dar liko defektų. Tai atskiros diskusijos tema, tačiau galima pritaikyti gana paprastą ir efektyvų statistinį metodą.

Remiantis ankstesnių projektų statistika, su tam tikra paklaida galima suprasti, kiek sistemoje buvo defektų ir kiek jų rado testavimo komanda skirtingais projekto laikotarpiais. Taigi galima gauti tam tikrą vidutinį testavimo komandos efektyvumo rodiklį. Jis gali būti išskaidytas kiekvienam atskiram testuotojui ir gauti asmeninį įvertinimą. Kuo daugiau patirties ir statistikos, tuo mažesnė bus klaida. Taip pat galime naudoti „klaidų sėjimo“ metodą, kai tiksliai žinome, kiek klaidų yra sistemoje. Žinoma, reikia atsižvelgti į papildomus veiksnius, tokius kaip sistemos tipas, loginis sudėtingumas, platforma ir kt. Taigi gauname ryšį tarp projekto etapo ir rastų defektų procento. Dabar šį ryšį galime pritaikyti priešinga kryptimi: žinodami rastų defektų skaičių ir esamą projekto fazę, galime nustatyti bendrą mūsų sistemos defektų skaičių (žinoma, su tam tikra klaida). Tada pagal asmeninius ar bendrus vertinimo rodiklius galima nustatyti, kiek defektų bandytojas ar komanda sugeba rasti per likusį laikotarpį. Remiantis šiuo vertinimu, jau galima nustatyti testuotojo darbo efektyvumo kriterijų.

Testerio našumo indikatoriaus funkcija gali atrodyti taip:

Defektai– rastų defektų skaičius,

Sunkumas– nustatytų defektų kritiškumas,

Sudėtingumas– sistemos logikos sudėtingumas,

Platforma– sistemos diegimo platforma,

Fazė- projekto etapas,

Laikotarpis– nagrinėjamas laikotarpis.

Bet konkretus kriterijus, kurį turi atitikti testuotojas, turi būti parinktas empiriškai ir atsižvelgiant į konkrečios organizacijos specifiką.

Šiuo metu dar neįmanoma atsižvelgti į visus veiksnius, tačiau kartu su pagrindiniu kūrėju Ivanu Astafjevu ir projekto vadove Irina Lager priėjome prie tokios formulės, kurioje atsižvelgiama į defektų skaičių ir jų kritiškumą:

, Kur

E– efektyvumas, nustatomas pagal nustatytų defektų skaičių,

D Klientas– užsakovo nustatytų defektų, kuriuos turėjo rasti įvertintas testuotojas, skaičius,

D testeris– testuotojo nustatytų defektų skaičius,

k Ir d– pataisos koeficientai bendras kiekis defektai.

Iš karto noriu pastebėti, kad vertinant pagal šią formulę reikia atsižvelgti tik į tuos defektus, kurie patenka į vertinamo testuotojo atsakomybės sritį. Jei keli testuotojai dalijasi atsakomybe už praleistą defektą, vertinant kiekvieną testuotoją reikia atsižvelgti į šį defektą. Be to, skaičiuojant neatsižvelgiama į žemos kritinės reikšmės defektus.

Taigi turime trečiojo laipsnio parabolę, atspindinčią defektų nustatymo intensyvumo kriterijų, kurį turi atitikti testeris. Apskritai, jei testuotojo balas yra aukščiau parabolės, tai reiškia, kad jis dirba geriau, nei tikėtasi, jei jis yra mažesnis, tada atitinkamai blogiau.

Čia yra niuansas, susijęs su bendru analizuojamų defektų skaičiumi. Natūralu, kad kuo daugiau statistikos, tuo geriau, tačiau kartais reikia išanalizuoti skirtingus projekto etapus, kartais tereikia įvertinti kiekvieną laikotarpį. Ir vienas dalykas, kai per laikotarpį nustatomi 4 defektai ir 2 iš jų yra kliento, o visai kas kita, kai randama 100 defektų, iš kurių 50 yra kliento. Abiem atvejais užsakovo ir testuotojo rastų defektų skaičiaus santykis bus lygus 0,5, tačiau suprantame, kad pirmuoju atveju ne viskas taip blogai, o antruoju jau laikas skambėti.

Nesėkmingai pabandę nustatyti griežtą matematinį ryšį su bendru defektų skaičiumi, prie šios formulės, tos pačios Irinos Lager žodžiais tariant, pridėjome „ramentus“ intervalų pavidalu, kurių kiekvienam nustatėme savo. koeficientai. Buvo trys intervalai: statistikai nuo 1 iki 20 defektų, nuo 21 iki 60 defektų ir statistikai apie daugiau nei 60 defektų.

Defektų skaičius

k

d

Numatoma priimtina kliento rastų defektų dalis iš visų rastų defektų

Paskutinis lentelės stulpelis įtrauktas siekiant paaiškinti, kiek defektų klientui leidžiama rasti duotame pavyzdyje. Atitinkamai, kuo mažesnė imtis, tuo didesnė gali būti klaida ir tuo daugiau defektų gali rasti klientas. Funkcijos požiūriu tai reiškia maksimalią minimalią kliento ir testuotojo rastų defektų skaičiaus santykio reikšmę, po kurios efektyvumas tampa neigiamas, arba tašką, kuriame grafikas susikerta su X ašimi. Tai yra kuo mažesnė imtis, tuo toliau į dešinę turi būti sankirta su ašimi. Vadybine prasme tai reiškia, kad kuo mažesnė imtis, tuo toks vertinimas yra netikslesnis, todėl vadovaujamės principu, kad su mažesne imtimi testuotojus reikia vertinti ne taip griežtai.

Turime šiuos grafikus:

Juodas grafikas atspindi daugiau nei 60 defektų mėginio kriterijų, geltona - 21-60 defektų, žalia - mažiau nei 20 defektų. Matyti, kad kuo didesnė imtis, tuo toliau į kairę grafikas kerta X ašį Kaip jau minėta, vertinančiam darbuotojui tai reiškia, kad kuo didesnė imtis, tuo labiau galite pasitikėti šiuo skaičiumi.

Vertinimo metodas susideda iš testuotojo veiklos apskaičiavimo naudojant (2) formulę, atsižvelgiant į pataisos koeficientus ir šio įvertinimo palyginimą su reikiama verte grafike. Jei rezultatas viršija grafiką, testeris atitinka lūkesčius, jei jis yra mažesnis, testeris dirba žemiau reikalaujamos „juostelės“. Taip pat noriu pastebėti, kad visi šie skaičiai buvo atrinkti empiriškai ir kiekvienai organizacijai bėgant laikui juos galima keisti ir parinkti tiksliau. Todėl laukiu bet kokių komentarų (čia arba mano asmeniniame tinklaraštyje) ir patobulinimų.

Šis vertinimo metodas, pagrįstas testavimo komandos ir kliento/vartotojo/kliento nustatytų defektų skaičiaus santykiu, man atrodo pagrįstas ir daugiau ar mažiau objektyvus. Tiesa, toks vertinimas gali būti atliktas tik baigus projektą arba bent jau esant aktyviems išoriniams sistemos naudotojams. Bet ką daryti, jei produktas dar nepanaudotas? Kaip tokiu atveju įvertinti testuotojo darbą?

Be to, šis testerio efektyvumo įvertinimo metodas sukelia keletą papildomų problemų:

1. Vienas defektas pradeda dalytis į keletą mažesnių.

· Testavimo vadovas, pastebėjęs tokią situaciją, privalo ją sustabdyti naudodamas neformalius metodus.

2. Defektų valdymas tampa sudėtingesnis dėl didėjančio pasikartojančių įrašų skaičiaus.

· Šią problemą gali padėti išspręsti klaidų sekimo sistemos defektų registravimo taisyklės, įskaitant privalomą panašių defektų buvimo patikrinimą.

3. Rastų defektų kokybės neįvertinimas, nes vienintelis testuotojo tikslas yra defektų skaičius, todėl testuotojui trūksta motyvacijos ieškoti „kokybės“ defektų. Vis dėlto negalima sutapatinti defekto kritiškumo ir „kokybės“, antrasis yra mažiau formalizuota sąvoka.

· Čia lemiamą vaidmenį turėtų atlikti tiek testuotojo, tiek vadovo „nuotaika“. Tik bendras teisingas (!) tokios prasmės supratimas kiekybinis įvertinimas gali išspręsti šią problemą.

Apibendrinant visa tai, kas išdėstyta, prieiname prie išvados, kad vertinti testuotojo darbą tik pagal rastų defektų skaičių yra ne tik sunku, bet ir ne visai teisinga. Todėl rastų defektų skaičius turėtų būti tik vienas iš testuotojo darbo kompleksinio vertinimo rodiklių ir ne gryna forma, o atsižvelgiant į mano išvardintus veiksnius.

Testavimo procesas turi būti efektyvus, visų pirma, įmonės, kurioje jis vyksta, požiūriu. Įmonė gali būti suinteresuota šiais testavimo proceso parametrais:

  • · Testams parengti reikalingas laikas
  • · Vieno bandymo ciklo laikas
  • · Personalo kvalifikacija, reikalinga testams rengti ir atlikti

Pakeitusi bet kurį iš šių parametrų, įmonė gali turėti įtakos testavimo kokybei. Tačiau svarbu suprasti, kad bet koks šių parametrų derinys gali būti išreikštas pinigine išraiška ir, kaip taisyklė, bet koks specifinis procesas testavimas yra optimalus derinys, kurio dėka minimaliomis sąnaudomis pasiekiamas pakankamas testavimo kokybės lygis.

Automatizuodami testavimo procesą, mes, žinoma, keičiame testavimo procesą, o kartu su juo keisis ir optimalus aukščiau išvardintų parametrų derinys. Pavyzdžiui, galime tikėtis, kad pailgės testams parengti reikalingas laikas ir padidės reikalavimai personalo kvalifikacijai, o vieno testavimo ciklo laikas ženkliai sumažės. Atsižvelgiant į tai, kad parametrų derinys tapo naujas, tikėtina, kad bandymų kokybė pasikeis kartu su jo kaina. Kad būtų galima pateikti skaitinį testavimo proceso efektyvumo atitikmenį, siūloma kokybės parametrą fiksuoti tam tikrame lygyje. Tuomet skaitinis tam tikro testavimo metodo efektyvumo įvertinimas bus investicijų suma, reikalinga tam, kad būtų užtikrintas tam tikras kokybės lygis.

Testavimo automatizavimo pagrįstumas vertinamas apskaičiuojant rankinio ir automatinio testavimo kaštus ir jas lyginant. Paprastai neįmanoma tiksliai apskaičiuoti finansinio testavimo automatizavimo pagrįstumo, nes tai priklauso nuo parametrų, kuriuos galima tik apytiksliai suprasti gaminio kūrimo proceso metu (pavyzdžiui, planuojamo ilgio). gyvavimo ciklas sistemas arba tikslų automatizuotų testų sąrašą).

Apskaičiuojant investicijas, reikalingas automatiniams testams įgyvendinti ir eksploatuoti per paskirtą laikotarpį (Ip), naudojama ši formulė:

I0 - Pradinių investicijų, kurias sudaro reikalingų licencijų sąnaudos, įvertinimas programinė įranga už autotestų kūrimą, papildomos techninės įrangos kainą ir kt.

C0 – automatinių testų bibliotekos kūrimo ir derinimo sąnaudų įvertinimas, kuris apskaičiuojamas kaip vidutinio laiko, kurio vienam testavimo kūrėjui reikia vienam automatiniam testui parašyti, sandauga (valandomis), padauginta iš jo darbo valandos kainos ir bendras automatizuojamų testų skaičius.

Ce – apskaičiuota vieno visų automatizuotų testų vykdymo kaina, kuri apskaičiuojama kaip laikas, reikalingas pasirengti bandymo vykdymui, pridedamas prie vidutinio laiko vienam testuotojui atlikti vieną testą, padaugintas iš darbo valandos kainos ir bendros sumos. testų skaičius. Mūsų atveju šis kintamasis yra 0, nes pasiruošimas testavimo ciklui nereikalingas, o pats testavimas nereikalauja papildomos darbuotojo kontrolės ir vyksta visiškai autonomiškai.

Ca – apskaičiuotos vienos automatinio testavimo ciklo iteracijos rezultatų analizės išlaidos, kurios apskaičiuojamos kaip neigiamų testų dalies įvertinimas, padaugintas iš testų skaičiaus, iš vidutinio laiko, reikalingo neigiamo vertinimo priežastims išanalizuoti. vieno testuotojo vienas testas ir vieno testuotojo darbo valandos kaina.

Cm – automatinių testų, veikiančių ir naujausios būklės, palaikymo sąnaudų įvertinimas. Jis apskaičiuojamas kaip poreikio keisti vieną testą tarp testavimo ciklų tikimybė, padauginta iš testų skaičiaus, iš vidutinio laiko, reikalingo vienam testui atnaujinti, ir iš vieno testuotojo darbo valandos kainos.

Numatoma rankinio testavimo kaina (Gp) pateikiama pagal šią formulę:

G0 – Rankinio testavimo testavimo atvejų duomenų bazės kūrimo išlaidų įvertinimas.

k – tai planuojamų bandomųjų važiavimų (bandymo ciklų) skaičius per visą likusį gaminio gyvavimo ciklo laiką.

Ge – apskaičiuota vienkartinio neautomatinio testavimo ciklo kaina, kuri apskaičiuojama kaip vidutinis laikas, praleistas pasirengimui bandymui, pridėjus vidutinį laiką, kurio vienam bandytojui reikia atlikti vienam bandomajam atvejui, padauginta iš bendro atvejų skaičiaus ir vieno bandymo kainos. testuotojo darbo valandos.

Ga – Numatomos vieno rankinio testavimo ciklo rezultatų analizės sąnaudos. Jis apskaičiuojamas kaip vidutinės neigiamų testų dalies per važiavimą įvertinimas, padaugintas iš testų skaičiaus, iš vidutinio laiko, kurio reikia vieno testuotojo neigiamo vieno testo vertinimo priežastims išanalizuoti, ir iš vieno testo kainos. testuotojo darbo laikas;

Gm – rankinių testų atnaujinimo išlaidų įvertinimas. Jis apskaičiuojamas kaip poreikio keisti vieną testą tarp testavimo ciklų tikimybė, padauginta iš testų skaičiaus, iš vidutinio laiko, reikalingo vienam testui atnaujinti, ir iš vieno testuotojo darbo valandos kainos.

Kai reikia: įvertinti santykius komandoje, darbuotojų susidomėjimą siekti rezultatų ir motyvaciją.

Woodcock testas

Instrukcijos

Perskaitykite teiginius, apibūdinančius jūsų komandą, ir apibraukite tuos, su kuriais sutinkate. Jei manote, kad teiginys nėra visiškai teisingas, palikite atsakymo lauką tuščią.

Negaiškite daug laiko galvodami apie kiekvieną teiginį: pakanka kelių sekundžių.

Atminkite, kad rezultatai bus prasmingi tik tuo atveju, jei būsite nuoširdūs.

Bandomoji užduotis

1. Mūsų komanda klesti dėl lyderystės.

2. Atrodo, kad sprendimai mums primesti.

3. Žmonės nedrįsta kalbėti.

4. Sunkioje situacijoje kiekvienas rūpinasi savo interesais.

5. Reikia tobulinti bendravimą.

6. Sprendimai priimami neadekvačiame hierarchijos lygyje.

7. Kai kurie vadovai nėra nuoširdūs su savimi.

8. Mes retai suabejojame savo susitikimų esme ar nauda.

9. Sukurtos nepakankamos plėtros galimybės.

10. Dažnai ginčijamės su kitais padaliniais.

11. Komandos nariai nepakankamai bendrauja tarpusavyje.

12. Aišku, ko organizacija tikisi iš mūsų komandos.

13. Priimtu užsakymu suabejojama retai.

14. Realiai niekam neaišku, kur einame.

15. Žmonės nesako to, ką iš tikrųjų galvoja.

16. Žmonės laikosi nuostatos „mano namas yra ant ribos“.

17. Komandoje konfliktas yra destruktyvus.

18. Sprendimai yra pagrįsti nepakankama informacija.

19. Kai kuriais vadovais nepasitiki.

20. Mes nesimokome iš savo klaidų.

21. Vadovai nepadeda savo pavaldiniams mokytis.

22. Santykiai su kitomis grupėmis šaunūs.

23. Mes gerai negalvojame apie savo poziciją organizacijoje.

24. Mūsų komanda yra „politiškai“ jautri.

25. Dažnai pastebime, kad mums trūksta reikiamos kvalifikacijos.

26. Visi esame labai užsiėmę, bet atrodo, kad ne visur turime laiko.

27. Prieštaringi klausimai pasislėpęs po kilimu.

28. Padėtų, jei žmonės būtų labiau linkę pripažinti savo klaidas.

29. Yra nepasitikėjimas ir priešiškumas.

30. Žmonėms neleidžiama priimti sprendimų.

31. Maža lojalumo komandai.

32. Išorės nuomonės nėra sveikintinos.

33. Turėtų būti didesnė darbų rotacija.

34. Retai efektyviai dirbame su kitomis komandomis.

35. Nepavyko užtikrinti bendradarbiavimo su kitomis komandomis ir skyriais.

36. Gebėjimas dirbti komandoje yra atrankos kriterijus stojant į šią organizaciją.

37. Niekas neužmezga reikiamų ryšių su kitomis grupėmis.

38. Mes neskiriame reikiamo laiko planuodami ateitį.

39. Vengiama subtilių klausimų.

40. Pasitaiko, kad kas nors „įduriamas į nugarą“.

41. Mes tikrai nedirbame kartu.

42. Netinkami žmonės priima sprendimus.

43. Vadovai yra silpni ir nepasirengę kovoti ir reikalauti dėmesio į savo požiūrį.

44. Negaunu pakankamai atsiliepimų.

45. Ugdomi netinkami įgūdžių tipai.

46. ​​Pagalba nebus teikiama iš kitų organizacijos dalių.

47. Tarp mūsų komandos ir mums spaudimą darančių profsąjungų yra didelis nesusipratimas.

48. Ši organizacija apdovanoja komandinį darbą.

49. Santykiams neskiriame pakankamai dėmesio.

50. Mes neturime aiškaus supratimo, ko iš mūsų tikimasi.

51. Sąžiningumas nėra būdingas bruožas mūsų komanda.

52. Aš nesijaučiu palaikomas savo kolegų.

53. Kvalifikacijos ir informacija nėra gerai paskirstyta.

54. Yra stiprių asmenybių, kurios eina savo keliu.

55. Savigarba yra nusižiūrėta.

56. Turėtume daugiau laiko skirti darbo metodų aptarimui.

57. Vadovai į asmeninį tobulėjimą nežiūri rimtai.

58. Kitos organizacijos dalys mūsų nesupranta.

59. Mes nesugebame perduoti savo žinutės išoriniam pasauliui.

60. Komandoje esantys žmonės turi gerus ryšius su kitais organizacijos nariais.

61. Mes dažnai priimame sprendimus per greitai.

62. Veiksmų kryptis, pagal kurią individas vertinamas, turi mažai ką bendro su tuo, kas pasiekta.

63. Per daug paslapčių.

64. Konfliktų išvengiama.

65. Nesutarimai korumpuoja.

66. Įsipareigojimas sprendimams yra žemas.

67. Mūsų vadovai mano, kad griežtesnė priežiūra gerina rezultatus.

68. Mūsų komandoje per daug draudimų.

69. Akivaizdu, kad kitame skyriuje yra geresnės galimybės.

70. Mes išleidžiame daug energijos gindami savo sienas.

71. Komandos nariai nesupranta, ko iš jų tikimasi.

72. Organizacijos kultūra skatina komandinį darbą.

73. Mes nekreipiame pakankamai dėmesio į naujas idėjas.

74. Neaiškūs prioritetai.

75. Žmonės nepakankamai įtraukiami į sprendimų priėmimą.

76. Per daug abipusių kaltinimų ir priekaištų.

77. Jie ne visada klauso.

78. Mes nevisiškai išnaudojame turimus įgūdžius.

79. Vadovai mano, kad žmonės iš prigimties yra tingūs.

80. Mes praleidžiame daug laiko darydami ir nepakankamai laiko mąstydami.

81. Asmens augimo troškimas nėra skatinamas.

82. Mes nesistengiame suprasti kitų komandų požiūrio.

83. Mes nesugebame išklausyti savo klientų.

84. Komanda dirba pagal organizacijos tikslus.

Ačiū už atsakymus!

„Woodcock“ testo, skirto komandos efektyvumui įvertinti, raktas

Aprašymas

Woodcock testas skirtas įvertinti komandos veiklą. Leidžia įvertinti santykius komandoje, darbuotojų susidomėjimą siekti rezultatų ir motyvaciją. Taip pat atsižvelgiama į įmonės lojalumą ir organizacijos padalinių sąveikos lygį.

Testavimo principas yra paprastas. Kiekvienas komandos narys, nepriklausomai nuo pareigų, užpildo anketą, kurioje yra 84 teiginiai. Tada, naudojant specialią lentelę, apskaičiuojami ir analizuojami rezultatai.

Jei abejojate, ar komandos nariai sąžiningai atsakys į klausimus, pabandykite užtikrinti, kad testavimas būtų anonimiškas. Apskritai tai jau yra santykių komandoje rodiklis. Nepaisant to, vis tiek naudinga atlikti testavimą, nes jo rezultatai gali tiksliau nustatyti komandos darbo trūkumus.

Be to, labai naudinga palyginti vadovų ir jiems pavaldinių testų rezultatus. Tai leidžia įvertinti atmosferą komandoje ir nustatyti pavaldinių pasitikėjimo vadovybe laipsnį.

Raktas į testą

Perkelkite pasirinktus atsakymus iš anketos į rezultatų lentelę. Suskaičiuokite ženklų skaičių kiekviename stulpelyje. Įrašykite kiekį eilutėje „Iš viso“.

Rezultatų lentelė

A IN SU D E F G N J KAM L
1 2 3 4 5 6 7 8 9 10 11 12
13 14 15 16 17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32 33 34 35 36
37 38 39 40 41 42 43 44 45 46 47 48
49 50 51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70 71 72
73 74 75 76 77 78 79 70 81 82 83 84
Iš viso

Perkelkite stulpelių skaičių iš eilutės Iš viso į lentelę.