Afgelopen week verscheen ‘Humanity’s Last Exam’. Een onderzoeksproject met een dramatisch klinkende naam, maar zodra je de details van die test begrijpt, besef je al snel dat die naam allerminst overdreven is. De test is het resultaat van een samenwerking tussen academici wereldwijd om vragen te ontwikkelen waar de huidige AI-taalmodellen het antwoord op schuldig blijven.

Waarom zo’n test? Simpel. De bestaande benchmarks schieten tekort. We hebben nauwelijks nog tests waarop de taalmodellen niet nagenoeg perfecte scores halen. Bovendien is het lastig om zeker te weten of die modellen bestaande tests niet al ergens in hun trainingsproces hebben gezien. En dat is essentieel om eerlijk te kunnen beoor­delen hoe slim de bestaande AI-systemen werkelijk zijn.

Het initiatief kwam van Dan Hendrycks van het Center for AI Safety, in samenwerking met Scale AI. Academici werden uitgedaagd om vragen te bedenken die eenduidig, sluitend en uniek waren – vragen die geen enkel state-of-the-art model zou kunnen beantwoorden. Het ging om modellen van onder meer OpenAI, Google en Anthropic.

De onderwerpen mochten uiteenlopen: van wiskunde, natuurkunde, biologie en chemie, over ingenieurswetenschappen, geneeskunde en psychologie tot klassieke talen en filosofie. Die breedte was belangrijk om de verschillende sterke en zwakke punten van AI-systemen bloot te leggen.

De inzet was hoog. Goedgekeurde vragen konden aanzienlijke financiële beloningen opleveren, tot duizenden dollars per vraag. Toch bleek het proces allesbehalve eenvoudig. Ruim 70.000 pogingen tot vragen werden ingezonden, slechts 3.000 vol­deden aan de strenge eisen. Daaruit blijkt niet alleen hoe moeilijk het is om écht uitdagende vragen te bedenken, maar ook hoe scherp de selectiecriteria waren. De antwoorden mochten uiteraard niet te vinden zijn op het internet of in handboeken – typisch op het niveau van een doctoraatsstudent of daarboven.

Veel van die vragen waren zo complex dat we denken dat maar een handvol mensen in België het antwoord zou kennen, bij sommige vragen misschien wel niemand. Dat geeft aan hoe diep die test ging. Niet alle vragen zijn openbaar gemaakt; een deel blijft bewust achter gesloten deuren om te voor­komen dat ze als trainingsmateriaal worden gebruikt. Dat is essentieel om toekomstige tests relevant en eerlijk te houden.

Hieronder een voorbeeld van een vraag, weliswaar in het Engels om getrouw te blijven aan de nuances van de vraag.

Suppose the following four sentences to be true (ga ervan uit dat de volgende vier zinnen waar zijn)

  1. Cats eat mice (katten eten muizen).
  2. Dogs are strictly carnivore (honden zijn strikt carnivoor).
  3. Mice are actually vegetables (muizen zijn eigenlijk groenten)
  4. Dogs are actually cats (honden zijn eigenlijk katten)
  5. How many subsets of these four sentences are inconsistent? (Hoeveel deelverzamelingen van die vier zinnen zijn inconsistent?)

Wat dat experiment écht bijzonder maakt, is niet alleen de kwaliteit van de vragen of de lage scores van de modellen. Het is het proces zelf. Voor veel academici was dat een confronterende ervaring. Het bleek buitengewoon moeilijk om vragen te bedenken die AI niet aankan.

Dat doet denken aan het Lee Sedol-moment. Net zoals de Go-kampioen in 2016 moest erkennen dat een machine hem overtrof in zijn spel, realiseren we ons nu dat AI ons snel inhaalt in steeds meer domeinen, zelfs in specifieke academische disciplines.

Het is een moment van verwondering en duidelijkheid. In een tijd waarin sommige sceptici die AI-systemen nog altijd wegzetten als hallucinerende chatbots, biedt dit experiment een realitycheck, voorbij de anekdotes en intuïties.

Maar ook een moment van ongemak. Dit was niet alleen een test voor machines, maar ook een spiegel voor onszelf. Het confronteerde ons met fundamentele vragen: Hoe gaan we om met technologie die ons intellectueel voorbijstreeft? Met onze onderzoeksgroep hebben we meegewerkt aan dit onderzoek en hebben we vragen bijgedragen aan de dataset, en ook wij hebben meermaals recht in de spiegel gekeken.

"Het wordt stilaan onmogelijk om AI vragen te stellen die het niet kan beantwoorden"

‘Humanity’s Last Exam’ laat zien dat we aan de vooravond staan van een nieuw tijdperk. Het is nu een test voor AI, maar het is vooral ook een examen voor onszelf.

Niet alleen om te bepalen hoe we met die technologie omgaan, maar om te begrijpen wat het betekent om mens te zijn in een wereld waarin machines ons in steeds meer opzichten voorbijstreven. Zijn we nog de makers, of worden we de medespelers? Kunnen we onze intellectuele rol herdefiniëren, niet door machines te verslaan, maar door samen met hen te bouwen aan iets wat groter is dan wijzelf? Dat zijn géén vraagstukken voor een verre toekomst met nog krachtigere modellen, ze waren gisteren al relevant en zijn vandaag actueel.

Het is examentijd. Niet alleen voor AI, maar ook voor ons.

Vincent Ginis (Professor wiskunde, natuurkunde en artificiële intelligentie – Data Lab, VUB en Harvard University), Andres Algaba (FWO postdoctoraal onderzoeker en Lid Jonge Academie – Data Lab, VUB), Brecht Verbeken (Postdoctoroaal onderzoeker – Data Lab, VUB).