Artikkeli on yli 2 vuotta vanha

Tekoälyn tuottaman sisällön pelätään saastuttavan internetin – tutkijat ennustavat synteettisen sisällön horjuttavan tulevia kielimalleja

Kun tekoälymalleja koulutetaan aikaisempien tekoälymallien tuottamalla sisällöllä, ne alkavat tuottaa roskaa. Tutkijat kutsuvat tätä ilmiötä malliromahdukseksi.

Tekoälyn avulla luotu kuva tietokoneesta, josta nousee vihreää savua — Tekoälyjärjestelmien avulla kuka tahansa voi luoda tekstiä ja kuvia. Tämä kuva on luotu muutamalla lauseella Midjourney-ohjelmalla. Kuva: Midjourney

Teemu Hallamaa

4.7.2023 9:54

Chat GPT:n kaltaisten kielimallien avulla tuotettua sisältöä on viime kuukausina ilmestynyt internetiin valtavia määriä. Tekoälysovelluksilla tehdyt tekstit, kuvat ja videot ovat vielä pisaroita digitaalisessa valtameressä, mutta padot ovat murtuneet.

Tähän asti internetin tekstisisällöt ovat pääsääntöisesti olleet ihmisten tuottamia, minkä ansiosta verkosta löytyy koko elämän kirjo. Tekoälyllä tuotettu sisältö on sen sijaan yleistävää, mikä suurina määrinä annosteltuna voi laimentaa internetin moninaisuuden.

Tämä kehitys olisi myrkkyä uusille tekoälyjärjestelmille.

Kesäkuun alussa Oxfordin, Cambridgen, Imperial College Londonin ja Toronton yliopiston tutkijat julkaisivat tutkimuksen, jossa he osoittivat, että uusien tekoälyjärjestelmien kouluttaminen kielimallien luomalla materiaalilla aiheuttaa peruuttamattomia vaikutuksia.

Eli kun joskus tämän artikkelin kuvituskuvina olevat tekoälyn avulla luodut kuvat päätyvät tulevan kielimallin koulutusaineistoon, ne heikentävät mallin kykyä tuottaa toivotunlaisia kuvia.

Tutkijat kutsuvat ilmiötä malliromahdukseksi (model collapse).

Käytännössä se tarkoittaa sitä, että alkuperäisessä ihmisten tuottamassa sisällössä olleet poikkeukset ja varianssit hiljalleen katoavat koulutuskierros kerrallaan. Tätä voi verrata siihen, miten c-kasetilta toiselle kopioidun musiikin laatu heikkeni kopio kerrallaan.

Tutkijat rinnastavat digitaalisen ilmiön ilmansaasteisiin ja merten täyttymiseen mikromuovista.

Tekoälyohjelma Midjourneylla luotu kuva, jossa dokumentteja leijuu veden päällä. — Tekoälyohjelma Midjourneylla luotu kuva. Kuva: MIdjourney

Ei uusi havainto

Luonnollisen kielen käsittelyyn keskittyvän Turku NLP-tutkijaryhmän yksi vetäjistä, data-analytiikan professori Filip Ginter ei ole yllättynyt tutkimuksen päätelmistä. Ajatus siitä, että kielimallien tuottamaa tekstiä päätyy uusien kielimallien koulutusdataan, ei ole uusi.

– Periaate on yhtä vanha kuin koneoppiminen itse, Ginter sanoo.

Uusimpien kielimallien myötä uhka on kuitenkin konkretisoitunut, vaikka vielä on epäselvää, mikä lopulta on tekoälyjen avulla luotujen sisältöjen osuus kaikesta uudesta sisällöstä, jota internetiin tuotetaan.

Joka tapauksessa tutkijoiden ja tekoälyjärjestelmien kehittäjien on oltava jatkossa tarkempia sen suhteen, mistä dataa mallien koulutukseen haalitaan. Toisaalta tarkkuutta on pitänyt harjoittaa jo nyt, Ginter huomauttaa.

– Venäjällä on talot täynnä ihmisiä, jotka syöttävät tarkasti laadittua tekstiä eri paikkoihin, Ginter muistuttaa.

Kielimallien ja muiden koneoppimisjärjestelmien kehittäjät ovat tottuneet putsaamaan koulutusmateriaaleja disinformaatiosta ja muusta haitallisesta sisällöstä. Esimerkiksi Turku NLP:n kehittämä suomenkielinen Fin GPT -kielimalli koulutettiin datalla, josta oli poistettu vihapuhetta ja ihmisten henkilötietoja.

– Olemme aikaisemminkin poistaneet esimerkiksi konekäännöksiä tai muuta selkeästi koneella generoitua tekstiä, sillä sen tunnistaminen on ollut suhtkoht luotettavaa, Ginter toteaa.

Tekoälyä edeltävä data vanhenee kuin hyvä viini

Malliromahdus nostaa esiin orgaanisen sisällön arvon. Vedenjakajana voidaan pitää vuotta 2022. Jos tätä ennen julkaistu teksti näyttää sujuvalta, se on Ginterin mukaan erittäin todennäköisesti ihmisen laatima. Nämä vuosikerrat vanhenevat nyt kuin hyvä viini.

– Varmasti nyt ollaan vähän varovaisempia, että näitä datasettejä ei turhaan poisteta, Ginter sanoo.

Monet tällaisista data-aineistoista ovat julkisia, mikä tasoittaa voimasuhteita. Googlen ja Microsoftin kaltaisilla isoilla teknologiayhtiöillä on kuitenkin kerättynä valtavia aineistoja, jotka eivät ole julkisia. Toisaalta nämä aineistot hiljalleen vanhenevat faktuaalisesti. Niistä ei löydy viittauksia Suomen uuden hallituksen ensimmäisiin päiviin tai Wagner-kapinaan.

Todellisen kultakaivoksen päällä istuvat ne yhtiöt, jotka pystyvät houkuttelemaan ihmisiä tuottamaan sisältöjä omalle alustalleen. Pohjimmiltaan tästä on kyse Reddit-sivuston kiistassa, jossa yhtiö asetti korkean maksumuurin sisältöjensä ympärille.

– Redditin data-aineisto on todella arvokas. Mutta meidän ei tarvitse luovuttaa sitä arvoa maailman suurimmille yrityksille ilmaiseksi, Redditin toimitusjohtaja Steve Huffman totesi huhtikuussa New York Timesin haastattelussa.

Redditin tapa pyrkiä voitollisuuteen ei ole saanut ymmärrystä niiltä, jotka tuottavat sisältöjä sivustolle. Redditin käyttäjät ovat jo monta viikkoa kapinoineet eri tavoin yhtiön toimia vastaan.

Tämänkaltainen toiminta voi lisääntyä, kun ihmisten luoman sisällön arvo kasvaa. Samalla tekoälystä vapaiden saarekkeiden kysyntä kasvaa, Ginter ennustaa.

– Olisin hyvin yllättynyt, jos ihmiset eivät reagoisi tähän, hän sanoo.

Kuuntele Uutispodcastin jakso:

Kohistu Chat GPT on tehokas arvauskone, jonka uskotaan mullistavan asiantuntijatyön