AI & generativ ai

OpenAI släpper GPT-4o – kan beskriva bilder & video i realtid 

Möjliggör interaktion och översättning av rörligt material, ljud, text och bilder utan fördröjning.

OpenAI som är företaget bakom ChatGPT har nu presenterat en förbättrad version av sin AI och språkmodell: GPT-4o, där “o” står för “omni”). Genom GPT-4o kan modellen använda sig av all information i alla steg av analys, till skillnad från tidigare där olika undermodeller användes.

Resultatet blir mer naturligt och kan även kombinera indata i form av video, ljud, bilder och text för att även generera en kombination av text, ljud och bilder med en fördröjning så kort som 232 millisekunder och med ett genomsnitt av 320 millisekunder – alltså ungefär motsvarigheten till en människas reaktionstid när det gäller samtal.

sidan för GPT-4o går det att se mer av vad modellerna klarar av, med bland annat två GPT-4o som interagerar med varandra, beskriver omgivningen från en videoström via en mobiltelefon samt sjunger tillsammans.

OpenAI släppte i februari sin modell "Sora" med möjlighet att skapa hyperrealistisk AI-video från text. Läs mer om detta här.  Problematiken med att se skillnad mellan vad som är ett foto och en AI-bild ökar också, något som förslaget "AI Act" ska försöka råda bot på – där rn av flera regler är att AI-genererade bilder måste märkas när de skapas.