3. Forberede data til bruk
Velge ut data
Noen ganger trenger du bare en del av datasettet. Det kan for eksempel være når du vil teste KI-systemet raskt eller når du skal dele data i treningssett, valideringssett og testsett.
Et mindre datasett kan også være nyttig for å teste hypoteser uten å bruke unødvendig kapasitet.
Når du velger ut data er det viktig å gjøre det på en måte som gir et representativt utvalg.
Velg metode for å velge ut data
Det finnes ulike metoder:
Tilfeldig utvalg: Bruk når du vil ha et representativt utvalg av hele datasettet uten å vektlegge bestemte grupper.
Stratifisert utvalg: Bruk når du vi ha et balansert utvalg som gjenspeiler viktige forskjeller i dataene.
Hva er forskjellen på tilfeldig og stratifisert utvalg?
Forskjellen er at ved tilfeldig utvalg har alle datapunkter like stor sjanse for å bli valgt, mens ved stratifisert utvalg deler du først dataene i undergrupper og velger deretter fra hver gruppe for å sikre at alle grupper er representert.
Eksempel
Et vanningssystem samler inn store mengder data fra sensorer som måler jordfuktighet, temperatur og værforhold.
Hvis du skal teste en ny KI-modell kan du velge ut et mindre datasett i stedet for å bruke alle dataene.
Tilfeldig utvalg: Du velger tilfeldig målinger fra hele datasettet. Dette kan fungere hvis forholdene er ganske like i hele området.
Stratifisert utvalg: Du deler først dataene inn i grupper, for eksempel etter område (solrikt vs. skyggefullt), plantetype eller jordtype. Deretter velger du data fra hver gruppe.
Hvis du bare velger data tilfeldig kan du risikere å få mest data fra områder med høy fuktighet. Ved stratifisert utvalg sikrer du at både tørre og fuktige områder er representert. Et godt utvalg av data gjør at KI-systemet lærer et mer riktig bilde av virkeligheten.
Neste steg
Lage og velge relevante egenskaper