Innvikling: Hvor jeg tror vi er enige om evaluering, Wig

Etter Tore Wigs svar 16. mai holder jeg fast på tittelen til mitt innlegg i Morgenbladet 10.mai, denne gangen med utheving av det viktigste: Bistandsevaluering trenger forskere som forsøker å forstå. Mye av Wigs tekst 16.mai gir isolert sett mening, men svarer på veldig lite.

Det er vanskelig å forestille seg hvordan Wig forestiller seg at evaluering foregår, og det gjør det litt vanskelig å diskutere. Men når han tillegger meg utsagn og meninger som jeg ikke har og blir litt fornærmet over, er det vanskelig å la være.

Vi bør uansett være ferdig snakka nå. Derfor legger jeg denne teksten på egen blogg framfor å sende til Morgenbladet, og jeg vil legge vekt på hva jeg er ganske sikker på at vi er enige om, og forsøker å la (det meste av) det andre ligge.

Enig: Evaluering er (også) anvendt forskning. Wig insisterer på dette (to ganger) og synes å bruke det som et bevis for at det ikke er eget fagfelt. Hva er galt med begge deler? I American Evaluation Association diskuteres om evaluering, med sine masterprogrammer, doktorgradsutdanninger og akademiske journaler, bør regnes som en akademisk disiplin, altså grunnforskning. De om det, men vi kan vel være rause nok til å akseptere at deres 7000 medlemmer, og tusenvis i andre land, har sitt eget fagfelt. Det er mye å kritisere i dette fagfeltet, men kritikken blir bedre hvis man først forsøker å forstå feltet. Wig kunne for eksempel ha sjekket Wikipedia eller en hvilken som helst annen kilde på nettet før han selv skrev som om evaluering er lik studiet av (kausal) effekt, noe det ikke er.

Enig: Studiet av (kausal) effekt står sentralt i nesten all bistandsevaluering. Det har vært hovedspørsmålet gjennom 50+ år, studert med hele samfunnsforskningens metodeapparat, oftest av samfunnsforskere (i gode, gamle dager ble det doktorgrader av slikt). Om vi skal forholde oss strengt til det fagfeltet som Wig fornekter, er selve studiet av effekt ("effektmålingen") ikke en evaluering i seg selv. En evaluering er en valuering, der effekt (dokumentert, estimert eller målt) inngår som en slags inngangsvariabel. Dette er definitorisk flisespikkeri, men er verdt å nevne hvis noen tror at de to er synonyme. Vi er nok enige her også, for Wig sier selv at studiet av kausal effekt er "verken mer eller mindre enn oppdragsforskning". Studiet av effekt inngår likevel i mange evalueringsoppdrag fordi det er en forutsetning for å kunne evakuere (og vi kan ofte ikke stole på rapportert effekt). Selvsagt er vi enige om at effektstudier må delegeres til folk med forskningskompetanse. De må selvsagt ha ekspertise på de metodene som er best egnet til akkurat de effektene man er interessert i å vurdere. Lite er mer bortkastet enn å bruke gode verktøy til noe de ikke er egnet til.

PS. Jeg skriver (kausal) i parentes fordi "kausal effekt" er et dialektuttrykk i akademia. Mye av samfunnsvitenskapen er i bunn og grunn studiet av kausal effekt (selv om de har ulik tenking om kausalitet), men uttrykket brukes mest i en gren. Det er for dumt hvis samfunnsforskere, kjent for å være kresen på begreper, snakker forbi hverandre fordi de velger ord som ikke presist beskriver forskjellen mellom dem. Dessuten går vi glipp av en muligheten til å kommunisere noen mer interessante forskjeller. De som oftest bruker ordet "kausal effekt") er nemlig mye bedre enn noen andre til å jobbe kontrafaktisk med effekt, og her bør andre disipliner ta lærdom. Det er kjempeviktig i bistand: et bistandstiltak kan "virke" og levere de aller beste "resultater", bevist utover enhver rimelig tvil med RCT, samtidig som bistandsfinansiering av tiltaket gjør ingen eller negativ forskjell: Det samme tiltak kunne kanskje bli finansiert på andre måter (staten, filantroper, lokalsamfunnet), og de kan ofte ikke oppskaleres eller replikeres med samme effekt. Verre: bistandsfinansiering kan ofte stå i veien for andre og mer bærekraftige måter å finansiere tiltaket på, eller andre og bedre måter å løse problemet på. Randomiserte studier av tiltak (det utgjør nesten alle slike studier) er egentlig ikke et studie av effekten av bistand, men av en intervensjon. De forteller veldig lite om (kontrafaktisk) effekt av bistandsfinansiering, bare om isolert effekt av de enkelte tiltak. Kvalitative studier stiller slike spørsmål (særlig de som er inspirert av sosialantropologer), men har ikke metodeapparat som kan brukes til å "dokumentere" slike påstander overfor folk som synes det er ubehagelig å tenke at man kanskje kan skape masse "resultater", bevist med de beste metoder (RCT) uten å skape positiv forskjell. Her må hele verktøykassen tas i bruk. En eventuell RCT må da studere effekt av finansieringen av et tiltak, ikke selve tiltaket. Det er nok vanskelig å randomisere, for dette kan ikke studeres på tvers av land og innenfor samme land vil de to gruppene påvirke hverandre, men jeg skulle tro at kvasi-eksperimentelle metoder kan brukes. (makrostudier kan også brukes, den lange litteraturen om "fungibility" er jo i samme gate). Her er mye interessant forskning og/eller evaluering, og det har ikke bare teoretisk interesse, men er en helt reell problemstilling i mye bistand. Og når Wig sier at det viktigste spørsmålet (i evaluering) oftest er "om det fungerer" så hater jeg å måtte være blant de som sier at "det er ikke så enkelt".

Enig: De fleste bistandsevalueringer er alt for dårlige. Det har både jeg og Lindkvist/Sagmo sagt i mange år. Derfor er det litt leit at vi skulle havne i denne litt kleine diskusjonen når vi alle er helt enige i problembeskrivelsen (for å bruke Wigs eget uttrykk: Mon tro hvorfor). Litt flere nyanser kan likevel passe: Det finnes (få) gode og (mange) dårlige bistandsevalueringer. Etter å ha vært i kontakt med hundrevis av slike (som forsker, fagdirektør og evaluator), mener jeg å ha sett et tydelig mønster: De dårlige bestilles av folk som ikke kan «evalueringsfaget» (her med Wigs hermetegn), og oftest uten forskningskompetanse. De gode bestilles av byråkrater som kan «evalueringsfaget» og oftest også har god forskerkompetanse, som i Norads evalueringsavdeling. Det finnes unntak, for eksempel når anskaffelser har gått skeis og feil folk får jobben (både med og uten forskerkompetanse). Og når forskere med smal metodekompetanse blir satt til å studere spørsmål om effekt som de ikke er godt utstyrt til å vurdere (jeg kjenner til konkrete erfaringer med "syndere" i alle disipliner, som har kostet millionbeløp).

Enig: Evalueringer bør helst gjennomføres av forskere. Når Wig implisitt sier at jeg «hevder» noe annet, er det ren fantasi, og lett injurierende (det er ikke god debatt-kultur å tillegge en meningsmotstander en mening som ikke kan leses ut av teksten, og så stemple denne som "absurd"). Wig tror visst at byråkrater selv gjennomfører evalueringer: «man gir forskningsoppgaver til byråkrater», sier han. Det skjer riktignok, for eksempel har FHI byråkrater som gjør evalueringsarbeid (med høy forskningskompetanse), men sjelden i bistanden. Evalueringer bestilles av byråkrater (hvis ikke, er det vel grunnforskning), gjennom en anskaffelse som inviterer alle verdens forskere (eller iallfall i EU) til å påta seg oppgaven. Det er altså byråkrater som gir fra seg forskningsoppgaver. (men for ordens skyld, det finnes evalueringer der både byråkrater, brukere, interessegrupper, politikere og nær sagt hvilken som helst relevant yrkesgruppe kan og bør delta, men aldri for å gjøre forskningsoppgavene).

Til sist et punkt der jeg er uenig. Wig sier at bistandsevaluering «henger etter» på randomiserte studier. Jeg er enig i at bistanden ikke er god nok (jeg har ofte tatt til orde for flere), men at den «henger etter» er en relativ påstand som jeg mener er faktisk feil. Bistanden henger ikke etter andre sektorer i samfunnet – om vi ser bort fra biomedisinske studier som er en helt annen greie (siden kropper, i motsetning til mennesker og samfunn, er ganske like). Om vi inkluderer kvasi-eksperimentelle metoder, er bistanden kanskje best i klassen (iallfall på pallplass) i konkurransen om å bruke størst andel av sine samlede budsjetter på slike studier. Tusenvis av slike studier (13350 er registrert hos 3ie) er finansiert med bistandsbudsjetter som samlet utgjør en liten brøkdel av budsjettene for utdanning, sosial sektor eller andre relevante sektorer i rike land. Sammenligner vi med privat sektor, ligger bistanden mange divisjoner over når vi ser på andel av totalbudsjett som brukes til randomiserte studier, selv der disse er mye enklere både å gjennomføre og generalisere i privat sektor, for eksempel innen markedsføringskampanjer, kundeadferd eller noen typer investeringer.

Innvikling

lørdag 18. mai 2024

Hvor jeg tror vi er enige om evaluering, Wig

Ingen kommentarer:

Legg inn en kommentar