EU AI Act · Art. 10

Data ja datanhallinta

Mallin koulutus- ja testidatan on oltava relevanttia ja edustavaa ja vinoumat on tunnistettava ja käsiteltävä.

Sisältö tarkistettu2 min lukuaikaVoimaan 2.12.2027 (Digital Omnibus; 2.8.2026 voimassa kunnes julkaistu EU:n virallisessa lehdessä)Asetus (EU) 2024/1689Tarkistettu 30.5.2026

Mistä tässä on kyse

Syrjivä tekoäly syntyy harvoin pahasta koodista, se syntyy vinosta datasta. Siksi Art. 10 tekee datan laadusta lakisääteisen velvoitteen: koulutus-, validointi- ja testiaineiston on oltava relevanttia, edustavaa ja mahdollisimman virheetöntä juuri sinun käyttötarkoitukseesi, ja vinoumat on tunnistettava ja käsiteltävä dokumentoidusti. Et voi vedota siihen, ettet tiennyt mitä datassasi oli.

Tekoälymalli on niin hyvä kuin sen data, ja 10. artikla tekee datan laadusta lakisääteisen velvoitteen. Korkean riskin järjestelmän koulutus-, validointi- ja testiaineistojen on oltava relevantteja, riittävän edustavia ja mahdollisimman virheettömiä suhteessa käyttötarkoitukseen.

Käytännössä sinun on tiedettävä ja dokumentoitava, mistä datasi tulee, miten se on kerätty ja käsitelty, ja millaisia oletuksia siihen liittyy. Erityisen tärkeää on tunnistaa ja käsitellä vinoumat, jotka voivat johtaa ihmisryhmien syrjintään. Jos käsittelet erityisiä henkilötietoryhmiä nimenomaan vinoumien havaitsemiseksi, laki sallii sen tiukoin suojatoimin.

Datan laadun ulottuvuudet
RelevanssiSopii käyttötarkoitukseen
EdustavuusKattaa kohderyhmät
Mahdollisimman virheetönTarkistettu laatu
Vinoumien käsittelyTunnistus ja korjaus

Mitä laki vaatii, kohta kohdalta

Dokumentoi mistä datasi tulee, miten se on kerätty, miten varmistat laadun ja miten käsittelet vinoumat eri ihmisryhmien välillä.

  1. §1Koulutus-, validointi- ja testidatasetit täyttävät laatukriteerit (kohdat 2-5)
  2. §2Datanhallinta- ja hallintokäytännöt (mukaan lukien suunnittelu, datankeruu, esikäsittely, tarkastus)
  3. §3Datasetit ovat relevantteja, riittävän edustavia ja mahdollisuuksien mukaan (parhaalla mahdollisella tavalla) virheettömiä ja täydellisiä käyttötarkoituksensa kannalta. HUOM: asetus ei vaadi absoluuttista virheettömyyttä/täydellisyyttä vaan 'mahdollisuuksien mukaan käyttötarkoituksen kannalta' (lawyer 2026-06-03).
  4. §5Datan käsittely erityisin tietoryhmin (GDPR Art. 9): vain ehdoin, joissa erityishuomio bias-monitorointiin
  5. §2.aMerkitykselliset suunnitteluvalinnat
  6. §2.bDatankeruuprosessit ja datan alkuperä; henkilötietojen osalta alkuperäinen keruutarkoitus
  7. §2.cDatan valmistelutoimet: annotointi, merkitseminen, puhdistus, päivitys, rikastus ja aggregointi
  8. §2.dOletusten muodostaminen erityisesti siitä, mitä datan on tarkoitus mitata ja edustaa
  9. §2.eTarvittavien datajoukkojen saatavuuden, määrän ja soveltuvuuden arviointi
  10. §2.fMahdollisten vinoumien tarkastelu, jotka voivat vaikuttaa terveyteen ja turvallisuuteen, loukata perusoikeuksia tai aiheuttaa syrjintää
  11. §2.gAsianmukaiset toimenpiteet (f)-kohdassa tunnistettujen vinoumien havaitsemiseksi, ehkäisemiseksi ja lieventämiseksi
  12. §2.hAsetuksen noudattamista estävien datapuutteiden tunnistaminen ja korjaaminen
Velvoitteita sovelletaan 2.12.2027 (Digital Omnibus; 2.8.2026 voimassa kunnes julkaistu EU:n virallisessa lehdessä).

Usein kysytyt kysymykset

Mistä tiedän, onko datani 'riittävän edustavaa'?
Vertaa aineistoa todelliseen käyttäjäjoukkoon: kattaako se ryhmät, joihin päätökset kohdistuvat (ikä, sukupuoli, kieli, asema)? Laki ei vaadi täydellisyyttä vaan käyttötarkoituksen kannalta riittävää edustavuutta, ja sen dokumentointia.
Saanko käsitellä arkaluonteisia tietoja vinoumien havaitsemiseksi?
Saat tiukoin ehdoin: Art. 10(5) sallii erityisten henkilötietoryhmien käsittelyn nimenomaan vinouman tunnistamiseen ja korjaamiseen, kun suojatoimet ovat kunnossa ja muu keino ei riitä.
Koskeeko tämä myös ostettua mallia?
Tarjoajan velvoite kohdistuu kehittäjään, mutta käyttöönottajana sinun on syytä kysyä toimittajalta datan edustavuudesta, Art. 13:n käyttöohjeista sen pitäisi ilmetä, ja vastauksen puute on hankintavaiheen varoitusmerkki.
Älä kirjoita näitä papereita käsin viikkokausia.

pkai tuottaa tämän artiklan vaatimat asiakirjat (Tekninen dokumentaatio (Annex IV), Riskienhallintasuunnitelma, Vaatimustenmukaisuuden tarkistuslista, Datanhallinnan kuvaus) yrityksesi tiedoilla, noin 20 minuutissa.

Aloita 590 € →
Eemil Vanhanenpkai:n perustaja. Kirjoittaa nämä oppaat ja päivittää ne lain muuttuessa, tarkistussykli 3 kuukautta.
Lähde & tarkistus. Artiklan sisältö ja sanamuoto on käyty erikseen läpi EU:n virallista tekstiä vasten. Selitys on tiedoksi eikä korvaa oikeudellista arviota. Lue virallinen teksti EUR-Lexissä →
Näytä artiklan tarkka rakenneteksti

Korkean riskin järjestelmät, jotka hyödyntävät mallien kouluttamista datalla, on kehitettävä koulutus-, validointi- ja testausdatajoukoilla, jotka täyttävät 2–5 kohdan vaatimukset (1 kohta). Datajoukkoihin sovelletaan datanhallinta- ja hallinnointikäytäntöjä, jotka koskevat erityisesti (2 kohta): (a) suunnitteluvalintoja; (b) keruuprosesseja ja datan alkuperää sekä henkilötietojen alkuperäistä keruutarkoitusta; (c) valmistelutoimia (annotointi, merkitseminen, puhdistus, päivitys, rikastaminen, yhdistäminen); (d) oletusten muotoilua; (e) saatavuuden, määrän ja soveltuvuuden arviointia; (f) vinoumien tarkastelua (terveys, turvallisuus, perusoikeudet, syrjintä); (g) toimenpiteitä vinoumien havaitsemiseksi, ehkäisemiseksi ja lieventämiseksi; (h) datapuutteiden tunnistamista ja korjaamista. Datajoukkojen on oltava merkityksellisiä, riittävän edustavia ja parhaan mukaan virheettömiä ja täydellisiä käyttötarkoituksen kannalta, asianmukaisin tilastollisin ominaisuuksin (3 kohta), ja niissä on otettava huomioon käyttöympäristön maantieteelliset, kontekstuaaliset, käyttäytymiseen liittyvät ja toiminnalliset erityispiirteet (4 kohta). Erityisten henkilötietoryhmien käsittely vinoumien havaitsemiseksi ja korjaamiseksi on sallittu vain tiukoin edellytyksin (5 kohta: välttämättömyys, suojatoimet, ei siirtoa, poistaminen, dokumentointi). Järjestelmiin, jotka eivät käytä mallien kouluttamista, 2–5 kohtaa sovelletaan vain testausdatajoukkoihin (6 kohta).

Lue myös

← Kaikki oppaat