‘Dokter internet’ blijkt vaak onbegrijpelijke, onvolledige of onjuiste medicijninformatie te geven

oktober 2024 Nieuws Willem van Altena

Oppassen voor ‘dokter internet’: wie zich tot zoekmachines en chatbots wendt om betrouwbare informatie over medicijnen te krijgen komt vaak bedrogen uit. Ofwel krijgt de zoeker informatie voorgeschoteld die amper te begrijpen is zonder academische opleiding. Maar het gebeurt ook vaak dat de AI-chatbot onjuiste informatie voorschotelt. Onderzoekers uit verschillende medische instituten waarschuwen in het tijdschrift BMJ Quality & Safety dan ook dat AI-chatbots en -zoekmachines geen betrouwbare bron zijn voor nauwkeurige en veilige medische informatie. Na een uitgebreide analyse bleek dat een aanzienlijk deel van de antwoorden onvolledig, onjuist of zelfs potentieel schadelijk is. Bovendien kunnen de complexe taal en medische termen in deze antwoorden vaak lastig te begrijpen zijn voor mensen zonder een universitair opleidingsniveau.

De introductie van AI-gestuurde chatbots in zoekmachines, zoals die van Bing in februari 2023, markeerde een nieuw tijdperk van zoekresultaten. Deze technologieën beloven gebruikers een interactieve ervaring door middel van uitgebreide antwoorden op uiteenlopende vragen, waaronder gezondheidsgerelateerde onderwerpen. AI-chatbots, getraind op enorme hoeveelheden online data, kunnen in theorie nauwkeurig en veelzijdig antwoorden, maar genereren soms ook misinformatie en gevaarlijke inhoud. Het onderzoek, dat werd geleid vanuit de Friedrich Alexander Universität in Erlangen-Neurenberg (Duitsland) , richtte zich specifiek op de gevolgen voor patiënten, die mogelijk steeds vaker medische vragen aan AI-systemen stellen in plaats van aan zorgverleners.

500 antwoorden

Om de betrouwbaarheid van AI-gegenereerde medicatie-informatie te onderzoeken, simuleerden de onderzoekers patiënten die AI gebruiken voor medicijnadvies. Er werden vragen opgesteld over de vijftig meest voorgeschreven geneesmiddelen in de Verenigde Staten in 2020, gebaseerd op een grondige analyse van databases en overleg met klinisch apothekers en specialisten in farmacologie. Deze vragen gingen onder meer over de werking, bijwerkingen, instructies voor gebruik en contra-indicaties van de medicijnen. Microsofts chatbot Bing Copilot werd vervolgens gebruikt om voor elk medicijn tien vragen te beantwoorden, wat resulteerde in 500 antwoorden die nader onderzocht werden op leesbaarheid, volledigheid en nauwkeurigheid.

Hoge leesdrempel

De leesbaarheid van de antwoorden werd beoordeeld met behulp van de Flesch Reading Ease Score, een internationaal erkende methode die bepaalt welk opleidingsniveau nodig is om een tekst te begrijpen. Op deze schaal, waarbij een score van 91 tot 100 aangeeft dat een tekst gemakkelijk te lezen is voor elfjarigen, scoorden de AI-gegenereerde antwoorden gemiddeld slechts iets boven de 37. Dit betekent dat een academisch opleidingsniveau nodig zou zijn om de teksten goed te kunnen begrijpen. Zelfs de meest toegankelijke antwoorden vereisten een secundair opleidingsniveau. Deze hoge leesdrempel kan een groot obstakel vormen voor patiënten met een lagere scholing, die daardoor belangrijke informatie over hun medicijnen wellicht niet goed begrijpen.

Incomplete antwoorden

De chatbot gaf in het beste geval antwoorden met een volledigheidsscore van 100%, wat betekende dat alle benodigde informatie aanwezig was. Het gemiddelde over alle antwoorden bedroeg echter slechts 77%, en vooral bij de vraag “Waar moet ik rekening mee houden bij het gebruik van dit medicijn?” scoorde de chatbot laag, met slechts 23% van de benodigde informatie. Deze incomplete antwoorden kunnen patiënten onduidelijkheid geven over hoe ze hun medicatie veilig moeten gebruiken, wat mogelijk tot misverstanden en fouten leidt.

Misleidende informatie

De onderzoekers vergeleken de antwoorden van de chatbot met de actuele medicatie-informatie van drugs.com, een betrouwbare bron voor zowel medische professionals als patiënten. Hieruit bleek dat 26% (126 van de 484) van de antwoorden niet overeenkwam met de referentiegegevens, en in 3% (16 antwoorden) van de gevallen was er sprake van volledige inconsistentie. Om de risico’s van deze onnauwkeurige informatie te evalueren, beoordeelden zeven experts op het gebied van medicatieveiligheid een steekproef van twintig antwoorden met een lage accuraatheid of volledigheid. Bij deze steekproef werd slechts 54% van de antwoorden beoordeeld als conform met de wetenschappelijke consensus, terwijl 39% tegen de gevestigde wetenschappelijke inzichten inging. Voor de overige 6% van de antwoorden ontbrak een duidelijke wetenschappelijke consensus.

De experts gebruikten een geharmoniseerde schaal van het Agency for Healthcare Research and Quality (AHRQ) om in te schatten wat het potentiële risico voor de patiënt zou zijn als deze de AI-adviezen zou opvolgen. In 3% van de antwoorden werd het risico op schade hoog ingeschat en in 29% matig. Hoewel een derde van de antwoorden geen waarschijnlijk risico vormde, kon 22% leiden tot ernstige schade of zelfs overlijden, terwijl 42% tot matige of milde schade kon leiden.

Onnodige risico’s

De onderzoekers concluderen dat, ondanks de potentie van AI-chatbots, het gebruik ervan in medische contexten problematisch kan zijn. De complexiteit van de antwoorden, gecombineerd met een hoge kans op fouten en misverstanden, kan patiënten blootstellen aan onnodige risico’s. Een belangrijk knelpunt is dat de chatbot vaak niet de onderliggende bedoeling van de patiëntenvraag begrijpt, wat leidt tot minder gerichte en soms foutieve informatie.

Volgens de onderzoekers doen patiënten er verstandig aan doen om bij vragen over hun medicatie altijd hun zorgverlener te raadplegen, totdat AI-systemen een aanzienlijk hogere mate van nauwkeurigheid en betrouwbaarheid bereiken.

Referentie

Andrikyan W, Sametinger SM, Kosfeld F, et alArtificial intelligence-powered chatbots in search engines: a cross-sectional study on the quality and risks of drug information for patientsBMJ Quality & Safety Published Online First: 01 October 2024. doi: 10.1136/bmjqs-2024-017476