Data ja datanhallinta
Mallin koulutus- ja testidatan on oltava relevanttia ja edustavaa ja vinoumat on tunnistettava ja käsiteltävä.
Mistä tässä on kyse
Syrjivä tekoäly syntyy harvoin pahasta koodista, se syntyy vinosta datasta. Siksi Art. 10 tekee datan laadusta lakisääteisen velvoitteen: koulutus-, validointi- ja testiaineiston on oltava relevanttia, edustavaa ja mahdollisimman virheetöntä juuri sinun käyttötarkoitukseesi, ja vinoumat on tunnistettava ja käsiteltävä dokumentoidusti. Et voi vedota siihen, ettet tiennyt mitä datassasi oli.
Tekoälymalli on niin hyvä kuin sen data, ja 10. artikla tekee datan laadusta lakisääteisen velvoitteen. Korkean riskin järjestelmän koulutus-, validointi- ja testiaineistojen on oltava relevantteja, riittävän edustavia ja mahdollisimman virheettömiä suhteessa käyttötarkoitukseen.
Käytännössä sinun on tiedettävä ja dokumentoitava, mistä datasi tulee, miten se on kerätty ja käsitelty, ja millaisia oletuksia siihen liittyy. Erityisen tärkeää on tunnistaa ja käsitellä vinoumat, jotka voivat johtaa ihmisryhmien syrjintään. Jos käsittelet erityisiä henkilötietoryhmiä nimenomaan vinoumien havaitsemiseksi, laki sallii sen tiukoin suojatoimin.
Mitä laki vaatii, kohta kohdalta
Dokumentoi mistä datasi tulee, miten se on kerätty, miten varmistat laadun ja miten käsittelet vinoumat eri ihmisryhmien välillä.
- §1Koulutus-, validointi- ja testidatasetit täyttävät laatukriteerit (kohdat 2-5)
- §2Datanhallinta- ja hallintokäytännöt (mukaan lukien suunnittelu, datankeruu, esikäsittely, tarkastus)
- §3Datasetit ovat relevantteja, riittävän edustavia ja mahdollisuuksien mukaan (parhaalla mahdollisella tavalla) virheettömiä ja täydellisiä käyttötarkoituksensa kannalta. HUOM: asetus ei vaadi absoluuttista virheettömyyttä/täydellisyyttä vaan 'mahdollisuuksien mukaan käyttötarkoituksen kannalta' (lawyer 2026-06-03).
- §5Datan käsittely erityisin tietoryhmin (GDPR Art. 9): vain ehdoin, joissa erityishuomio bias-monitorointiin
- §2.aMerkitykselliset suunnitteluvalinnat
- §2.bDatankeruuprosessit ja datan alkuperä; henkilötietojen osalta alkuperäinen keruutarkoitus
- §2.cDatan valmistelutoimet: annotointi, merkitseminen, puhdistus, päivitys, rikastus ja aggregointi
- §2.dOletusten muodostaminen erityisesti siitä, mitä datan on tarkoitus mitata ja edustaa
- §2.eTarvittavien datajoukkojen saatavuuden, määrän ja soveltuvuuden arviointi
- §2.fMahdollisten vinoumien tarkastelu, jotka voivat vaikuttaa terveyteen ja turvallisuuteen, loukata perusoikeuksia tai aiheuttaa syrjintää
- §2.gAsianmukaiset toimenpiteet (f)-kohdassa tunnistettujen vinoumien havaitsemiseksi, ehkäisemiseksi ja lieventämiseksi
- §2.hAsetuksen noudattamista estävien datapuutteiden tunnistaminen ja korjaaminen
Usein kysytyt kysymykset
pkai tuottaa tämän artiklan vaatimat asiakirjat (Tekninen dokumentaatio (Annex IV), Riskienhallintasuunnitelma, Vaatimustenmukaisuuden tarkistuslista, Datanhallinnan kuvaus) yrityksesi tiedoilla, noin 20 minuutissa.
Näytä artiklan tarkka rakenneteksti
Korkean riskin järjestelmät, jotka hyödyntävät mallien kouluttamista datalla, on kehitettävä koulutus-, validointi- ja testausdatajoukoilla, jotka täyttävät 2–5 kohdan vaatimukset (1 kohta). Datajoukkoihin sovelletaan datanhallinta- ja hallinnointikäytäntöjä, jotka koskevat erityisesti (2 kohta): (a) suunnitteluvalintoja; (b) keruuprosesseja ja datan alkuperää sekä henkilötietojen alkuperäistä keruutarkoitusta; (c) valmistelutoimia (annotointi, merkitseminen, puhdistus, päivitys, rikastaminen, yhdistäminen); (d) oletusten muotoilua; (e) saatavuuden, määrän ja soveltuvuuden arviointia; (f) vinoumien tarkastelua (terveys, turvallisuus, perusoikeudet, syrjintä); (g) toimenpiteitä vinoumien havaitsemiseksi, ehkäisemiseksi ja lieventämiseksi; (h) datapuutteiden tunnistamista ja korjaamista. Datajoukkojen on oltava merkityksellisiä, riittävän edustavia ja parhaan mukaan virheettömiä ja täydellisiä käyttötarkoituksen kannalta, asianmukaisin tilastollisin ominaisuuksin (3 kohta), ja niissä on otettava huomioon käyttöympäristön maantieteelliset, kontekstuaaliset, käyttäytymiseen liittyvät ja toiminnalliset erityispiirteet (4 kohta). Erityisten henkilötietoryhmien käsittely vinoumien havaitsemiseksi ja korjaamiseksi on sallittu vain tiukoin edellytyksin (5 kohta: välttämättömyys, suojatoimet, ei siirtoa, poistaminen, dokumentointi). Järjestelmiin, jotka eivät käytä mallien kouluttamista, 2–5 kohtaa sovelletaan vain testausdatajoukkoihin (6 kohta).