datacarriere.com

Nieuwe AI-testen tonen kloof tussen laboratoriumsucces en praktijk

Nieuws
15-06-2026
Tristan Tomilin
Onderzoekers van de TU Eindhoven hebben nieuwe testomgevingen ontwikkeld die blootleggen hoe kunstmatige intelligentie presteert buiten gecontroleerde laboratoriumsituaties. De resultaten laten zien dat veel AI-systemen aanzienlijk kwetsbaarder zijn dan hun indrukwekkende prestaties doen vermoeden.

Promovendus Tristan Tomilin ontwikkelde vijf nieuwe open-source benchmarkomgevingen waarmee AI-systemen worden getest op vaardigheden die in de praktijk cruciaal zijn, zoals aanpassingsvermogen, samenwerking, geheugen en veiligheid. Waar bestaande tests vaak één afgebakende taak meten, confronteren deze nieuwe simulaties AI met veranderende omstandigheden, onbekende partners en complexe risico-afwegingen. Daarbij werden onder meer omgevingen gebaseerd op de games Doom en Overcooked gebruikt om realistische scenario’s na te bootsen.

De uitkomsten zijn opvallend. AI-systemen die onder standaardomstandigheden uitstekend presteren, blijken vaak snel vast te lopen zodra de omgeving verandert. Ze vergeten eerder aangeleerde vaardigheden, nemen onveilige beslissingen of slagen er niet in effectief samen te werken met mensen of andere systemen. Tegelijkertijd ontwikkelde Tomilin een nieuwe technologie die deze tests tot honderd keer sneller uitvoert dan bestaande methoden. Daarmee wordt grootschalig AI-onderzoek toegankelijker en duurzamer. De studie onderstreept dat succesvolle laboratoriumresultaten nog geen garantie zijn voor betrouwbare toepassingen in sectoren als gezondheidszorg, robotica en autonoom vervoer. Juist het vermogen om AI onder realistische omstandigheden te testen, wordt daarmee een cruciale voorwaarde voor verdere adoptie.

Dit is een samenvatting van het volledige artikel op site TU Eindhoven.

Gerelateerde vacatures

Geïnteresseerd in een carrière bij organisaties in ditzelfde vakgebied? Bekijk hieronder de gerelateerde vacatures en vind de perfecte match voor jou!
BeFrank
4.665 - 6.665
Medior
Amsterdam
Als Data Engineer! bij BeFrank bouw en verrijk je het dataplatform: ontwikkel schaalbare Python/PySpark datapipelines (Delta Lake/medallion), ontsluit diverse bronnen, ontwerp datamodellen en borg datakwaliteit met geautomatiseerde tests en CI/CD...
NN
4.527 - 6.036
Medior
Rotterdam
Als Actuarieel Analist / Model Specialist bij Nationale-Nederlanden analyseer je actuariële berekeningen en modellogica, los je complexe klantvragen op, verbeter je rekenmodellen en borg je actuariële kwaliteit, parameters en audit...
YER
In overleg
Medior, Junior
Rotterdam
Als Consultant bij Kruger werk je in projectteams aan financiële modellen, analyses, waarderingen en rapportages, voer je quick scans uit en ondersteun je klantgesprekken en besluitvorming bij complexe herstructurerings- en...
Top vacature
Pensioenfonds Rail & OV
Max. 8.300
Medior, Senior
Utrecht
Als Business Analyst VB Data Landschap bij Pensioenfonds Rail & Openbaar Vervoer analyseer en map je end-to-end datastromen, signaleer je afwijkingen en technische schuld, definieer je verbeteringen en ben je...