AI KLAUSIAUSI ŽMONIŲ BALSŲ. TADA TAI SUKŪRĖ JŲ VEIDUS.

Send

Ar kada nors sukūrėte psichinį žmogaus, kurio jūs dar niekad nematėte, įvaizdį, remdamiesi tik jo balsu? Dirbtinis intelektas (AI) dabar tai gali padaryti, sukurdamas skaitmeninį asmens veido vaizdą, naudodamas tik trumpą garso įrašą.

Pavadintas „Speech2Face“, neuroninis tinklas - kompiuteris, kuris „mąsto“ panašiai kaip žmogaus smegenys - buvo apmokytas mokslininkų iš milijonų mokomųjų vaizdo įrašų iš interneto, kuriuose buvo parodyta daugiau nei 100 000 skirtingų žmonių.

Remdamiesi šiuo duomenų rinkiniu, „Speech2Face“ sužinojo ryšius tarp balso užuominų ir tam tikrų žmogaus veido fizinių ypatybių, rašė tyrėjai naujame tyrime. Tada AI panaudojo garso įrašą, kad modeliuotų fotorealistinį veidą, atitinkantį balsą.

Išvados buvo paskelbtos internete gegužės 23 d. Priešspausdinimo žurnale „ArXiv“ ir nebuvo vertinamos tarpusavyje.

Laimei, PG (dar) tiksliai nežino, kaip atrodo konkretus asmuo, remiantis vien jų balsu. Neuroninis tinklas atpažino tam tikrus žymenis kalboje, kurie atkreipė dėmesį į lytį, amžių ir etninę priklausomybę, bruožus, kuriais naudojasi daugelis žmonių, pranešė tyrimo autoriai.

„Iš esmės modelis pagamins tik vidutiniškai atrodančius veidus“, - rašė mokslininkai. "Tai neduos konkrečių asmenų vaizdų."

AI jau parodė, kad gali išgauti tiksliai neapsakomus žmonių veidus, nors kačių aiškinimas, tiesą sakant, yra šiek tiek bauginantis.

„Speech2Face“ sukurti veidai - visi nukreipti į priekį ir su neutralia išraiška - tiksliai neatitiko žmonių, esančių už balso. Tačiau, kaip teigiama tyrime, vaizdai paprastai užfiksuoja teisingus amžiaus tarpsnius, etnines grupes ir lytis.

Tačiau algoritmo interpretacijos toli gražu nebuvo tobulos. „Speech2Face“ demonstravo „mišrų pasirodymą“, kai susidūrė su kalbos variacijomis. Pavyzdžiui, kai AI klausėsi azijiečio, kalbančio kiniškai, garso įrašo, programa sukūrė azijietiško veido atvaizdą. Tačiau kai tas pats vyras kalbėjo angliškai skirtingame garso įraše, AI sukūrė baltojo vyro veidą, pranešė mokslininkai.

Algoritmas taip pat parodė neobjektyvią lytį, susiedamas žemus balsus su vyriškais veidais, o aukštus - su moteriškomis. Kadangi mokymo duomenų rinkinys vaizduoja tik edukacinius vaizdo įrašus iš „YouTube“, jis „vienodai neatspindi viso pasaulio gyventojų“, rašė tyrėjai.

Kitas susirūpinimas dėl šio vaizdo įrašų duomenų rinkinio kilo, kai „YouTube“ vaizdo įraše pasirodęs asmuo nustebo sužinojęs, kad jo panašumas buvo įtrauktas į tyrimą, pranešė Slate. Nickas Sullivanas, interneto saugumo bendrovės „Cloudflare“, esančios San Fransiske, kriptografijos vadovas, netikėtai pastebėjo savo veidą kaip vieną iš pavyzdžių, naudojamų mokyti „Speech2Face“ (kurį algoritmas atgamino gana apytiksliai).

Pasak „Slate“, „Sullivan“ nesutiko pasirodyti tyrime, tačiau laikoma, kad šiame duomenų rinkinyje esančius „YouTube“ vaizdo įrašus tyrinėtojai gali naudoti be papildomų leidimų.

Send