3. Teste og evaluere

Analyser resultatene

Dokumenter funnene enkelt, for eksempel ved å angi andel korrekte svar, andel hallusinasjoner, grad av konsistens og kvalitet på begrunnelser.

Når testen er gjennomført, bør resultatene analyseres opp mot en definert fasit. Vurder også om krav til informasjonssikkerhet og personvern er ivaretatt, herunder hvor data behandles, og om det er risiko for uønsket deling av sensitiv informasjon.

Basert på dette må virksomheten ta stilling til om de vil gå videre med løsningen eller ikke.

Kriterier for veien videre

Virksomheten kan bruke følgende kriterier for å avgjøre om den skal gå videre eller stoppe prosessen.

Ja, vi går videre hvis

nøyaktigheten er over den aksepterte terskelen
hallusinasjonsraten er minimal eller håndterbar med for eksempel menneskelig sjekk
brukerne, for eksempel saksbehandlere, opplever at de sparer tid eller øker kvalitet
sikkerhetsvurderingen er godkjent, for eksempel ingen datalekkasje og korrekt valg av kjøremiljø

Nei, vi stopper prosessen hvis

modellen gjør systematiske feil i kritiske deler, for eksempel feil lover, feil tall
den er for ustabil og svarer ulikt på samme spørsmål
den krever mer tid å kontrollere enn å gjøre oppgaven manuelt
krav til personvern og sikkerhet er ikke oppfylt

For de fleste oppgaver i offentlig sektor bør KI-modellen fungere som en assistent, ikke som en autonom beslutningstaker. Derfor er det nødvendig med menneskelig overblikk og tilsyn, ofte kalt human-in-the-loop. For eksempel må en saksbehandler gjennomgå og godkjenne resultatet før det sendes til innbyggeren eller inngår i saksbehandlingen.

Saksbehandlerne må ha tilstrekkelig kompetanse, tid og støtte til å vurdere modellens forslag kritisk. Det bør være tydelig hva de skal kontrollere, og hvordan de skal vurdere forslaget fra modellen. Uten slike rammer er det en risiko for at godkjenningen blir en formalitet, snarere enn en reell og aktiv kvalitetssikring.

Menneskelig overblikk og tilsyn er viktig, men det bør ikke være den eneste formen for kvalitetssikring. Andre tiltak er å velge egnede KI-modeller for formålet, etablere tydelige rutiner for bruk, og sikre at løsningen er testet og evaluert på forhånd. Menneskelig kontroll kan ikke kompensere for en modell med lav kvalitet eller feil anvendelse.

Neste steg

Koble data til KI?