Eerste pogingen
Met mijn eerste AI-gegenereerde afbeeldingen heb ik vooral geprobeerd te achterhalen, wat het kende, en wat het kon. Weten dat de verschillende AI zijn getraind met afbeeldingen van het hele internet, geeft je hoge verwachtingen, maar eigenlijk weet je dan nog niets. Mijn traditioneel Noord-Nederlandse naam 'Harmanna' bleek gelijk al lastig, omdat het zelfs in Nederland weinig gegeven wordt, en daardoor op het internet nauwelijks bekend is. De AI dachten aan alles (gerechten, dorpjes, inscripties) maar niet aan een vrouwennaam, dus moest ik een beetje helpen.
Op Nightcafe Creator hebben ze een aantal presets om het beginners makkelijk te maken een goede tekstprompt te schrijven, waaronder 'Artistic Portrait' en 'Color portrait'. Onder die eerste preset gaan woorden schuil als 'head and shoulders portrait, 8k resolution concept art, dynamic lighting, hyperdetailed', en onder de tweede onder andere 'Close-up portrait, color portrait, Linkedin profile picture, professional portrait photography'. Kort gezegd: geschilderd en gefotografeerd. Proberen dus.
Geschilderd portret
Dit is de eerste poging: 'Harmanna' Artistic Portrait in Stable Diffusion versie 1.5. Realiseer je dat je bij iedere poging iets nieuws te zien zult krijgen, maar wel met afbeeldingen die in dezelfde categorie zullen vallen. Blijkbaar geeft deze set aan instructies, samengevat als 'artistic portrait', een grote voorkeur voor het maken van een vrouwelijk portret. Nu ga ik niet al mijn uitprobeersels laten zien, maar zou je hier een westerse naam zoals 'Anne' bij opgeven of een typisch Nederlandse naam als 'Femke', dan worden het alleen maar dames met een lichte huidskleur. Een exotische naam helpt dus om ook mensen met een donkere huidskleur af te beelden, maar 'licht' lijkt de voorkeur te hebben.
Zou je een overduidelijke jongensnaam opgeven, zoals 'Peter' of 'Tom', dan krijg je wel een man. Een jonge man. Met lichte huidskleur (want Europese naam). Die wat broeierig in de camera kijkt. Dit lijkt deels te wijten aan het begrip 'concept art', die in de prompt verwerkt zit, waarbij de kunstenaar zijn ideeën zo aantrekkelijk mogelijk weergeeft aan een opdrachtgever. Aantrekkelijk lijkt dan altijd te betekenen: jong volwassene, en als het even kan een beetje sensueel.
Gefotografeerd portret
Mijn tweede poging was een portret van 'Harmanna' als kleurenfoto, ook in Stable Diffusion versie 1.5. Zou hier ook een voorkeur voor vrouwen gelden? En voor wit? Warempel niet. Het voorbeeld toont een milde voorkeur voor mannen, een een grote voorkeur voor een donkere huidskleur. De personen op de gegenereerde portretten lijken uit India en omstreken te komen. De professionele portretfotografie lijkt daarnaast ook niet zo'n voorkeur te hebben voor jong en sensueel.
LinkedIn portretten zijn mede een bron voor de AI van portretfotografie. Of daarop juist veel of weinig mensen van kleur staan, is mij niet bekend. De naam 'Harmanna' lijkt voor de AI in ieder geval op een Aziatische connectie te duiden.
Wat me het meeste opvalt is dat geen van deze dames en heren op mij lijkt. Niet alleen qua uiterlijk niet - wat compleet logisch is - maar ook niet qua stijl. Ik loop niet in een sensuele concept-art kledingstijl en draag geen halsdoeken. Ook als ik kijk welke portretten anderen maken met de verschillende AI, kom ik een afbeelding die representatief is voor mezelf, niet tegen. Licht het dan vooral aan de gebruikers van de AI dat per default vrouwen jong worden afgebeeld - met een neiging zich of schaars of als een prinses te kleden?
Nieuwe versie
Ondertussen hebben verschillende aanbieders van deze AI disclaimers op hun website staan. Ze erkennen dat de vooroordelen die op het internet rondwaren, dientengevolge ook in hun eigen product is geslopen.
Google maakte een verbeterde versie van DALL-E en noemde deze Imagen. Imagen komt niet voor het grote publiek beschikbaar, onder andere omdat het vol vooroordelen zit.
Volgens de website ( https://imagen.research.google ):
...datasets van deze aard weerspiegelen vaak sociale stereotypen, onderdrukkende standpunten en denigrerende of anderszins schadelijke associaties met gemarginaliseerde identiteitsgroepen. Terwijl een subset van onze trainingsgegevens werd gefilterd om ruis en ongewenste inhoud, zoals pornografische afbeeldingen en giftige taal, te verwijderen, gebruikten we ook de LAION-400M-dataset waarvan bekend is dat deze een breed scala aan ongepaste inhoud bevat, waaronder pornografische afbeeldingen, racistische beledigingen en schadelijke sociale stereotypen. Imagen vertrouwt op tekst-coderingsprogramma's die zijn getraind op niet-gecureerde gegevens op webschaal en erft dus de sociale vooroordelen en beperkingen van grote taalmodellen. Als zodanig bestaat het risico dat Imagen schadelijke stereotypen en representaties heeft gecodeerd, wat onze beslissing leidt om Imagen niet vrij te geven voor openbaar gebruik zonder verdere waarborgen.
Ook Stability AI heeft nieuwe versies van Stable Diffusion opgeleverd, in korte successie versie 2.0 en 2.1. Naast het trainen met nog meer afbeeldingen, hebben ze hierin ook geprobeerd de AI minder naar de uitvoerende artiest te laten kijken, en meer naar de gespecificeerde technieken. Daarnaast ook minder spontaan bloot. Hieronder hun eigen commentaar via https://wandb.ai :
De release van Stable Diffusion 2.1 beantwoordt enkele kritieken die de release van 2.0 ontving, met name op het genereren van mensen.
De training van Stable Diffusion 2.0 maakte gebruik van een overdreven agressief NSFW-filter [=Not Safe For Work] om materiaal voor volwassenen uit de trainingsgegevens te verwijderen. Hoewel die beslissing zelf om vele redenen controversieel was, was het resultaat dat mensen minder vertegenwoordigd waren in de trainingsgegevens, wat resulteerde in slechtere menselijke weergave in het algemeen (NSFW of anderszins). Dat, plus de bredere focus op niet-menselijke onderwerpen in de trainingsgegevens, had veel gebruikers teleurgesteld.
Voor Stable Diffusion 2.1 werd het NSFW-filter afgezwakt, zodat het minder valse positieven opleverde. Het filter bestaat nog steeds, dus in vergelijking met eerdere Stable Diffusion-versies is het meer speelse einde van de menselijke weergave misschien nog steeds beperkt, maar over het algemeen kan Stable Diffusion 2.1 nu beter mensen genereren dan 2.0.
Natuurlijk heb ik ook in Stable Diffusion v2.1 getest hoe 'Harmanna' werd afgebeeld, en 'Artistic Portraits' werden weergegeven. Mijn naam is de AI nog steeds een raadsel, zoveel werd snel duidelijk. De artistieke portret weergave zal ik jullie besparen, want dat leek een plastic Barbiepop - het wegfilteren van NSFW-materiaal heeft hier nog steeds duidelijk zijn sporen nagelaten. Het fotografische kleurenportret (hiervoor afgebeeld) geeft nu net zoveel mannen als vrouwen, nog steeds met een totaal andere culturele achtergrond dan mijzelf door mijn ongewone naam.
De concept-art achter het artistiek portret blijft nog steeds gefocust op jong en verleidelijk, maar de portret fotografie is multicultureel en van vele leeftijden. Het is dus vooral een kwestie van de goede tekstprompt schrijven om positieve portretten van gevarieerde mensen tevoorschijn te halen. Persoonlijk ben ik in ieder geval niet geïnteresseerd in het maken van portretten van het zoveelste prinsesje.
Mezelf gerepresenteerd zien
Nu dus nog mensen die wel op mij lijken. Dat heb ik geprobeerd. Mijn leeftijdscategorie laat zich moeilijk uitbeelden in mijn favoriete stijl, de illustratie, dus ik ben voor iets ouder gegaan. Daarnaast ben ik een vrouw zonder jurk. In Stable Diffusion versie 1.5 was een paar maanden geleden nog geen negatieve prompt mogelijk, dus 'zonder jurk' moest anders geformuleerd worden.
Het was even zoeken, maar het is gelukt. De belangrijkste woorden voor deze tekstprompt waren 'tough grandma', wat zowel 'stoere' als 'taaie' oma betekent. Ze lijken zelfs een beetje op mijn moeder, dus ik ben helemaal tevreden. Dit is wat ik over een jaar of tien, twintig hoop te zijn - of dertig.
Reactie plaatsen
Reacties