Large Language Modellen hebben bijna oogheelkundige kennis en redeneringen op expertniveau bereikt

Large Language Modellen (LLM’s) hebben de potentie om de gezondheidszorg te verbeteren. Britse onderzoekers concluderen dat met name GPT 4 positief scoort op het gebied van oogheelkundige kennis en redeneervermogen, ook in vergelijking met ervaren oogartsen. De onderzoekers kijken vooral naar de impact op patiëntenzorg. Volgens mij hebben deze bevindingen ook gevolgen voor performance support.

DALL-E: Here is the image of an eye doctor consulting a large language model on a tablet in a modern clinic office.

Een groep Britse onderzoekers hebben onderzoek gedaan naar het klinische potentieel van veel gebruikte LLM’s op het gebied van oogheelkunde met behulp van een meer robuuste benchmark dan alleen ruwe examenscores. De onderzoekers testten GPT-3.5 en GPT-4 op 347 oogheelkundige vragen, voordat GPT-3.5, GPT-4, PaLM 2, LLaMA, oogheelkundige experts en artsen in opleiding werden getest op basis vaneen proefexamen met 87 vragen. De prestaties werden geanalyseerd met betrekking tot het onderwerp van de vraag en het type vraag (herinneren en redeneren).

Oogartsen, die niet wisten wiens scores ze analyseerden, beoordeelden de nauwkeurigheid, relevantie en algemene waardering van GPT-3.5 en GPT-4 antwoorden op dezelfde vragen. De prestaties van GPT-4 waren superieur aan GPT-3.5, LLaMA en PaLM 2. GPT-4 presteerde ook goed in vergelijking met volledig gekwalificeerde oogartsen en oogartsen in opleiding. Vergelijkingen met het vorige model, GPT-3.5, geven aan dat deze betere prestaties te danken zijn aan de verbeterde nauwkeurigheid en relevantie van de antwoorden van het model.

De onderzoekers concluderen dat LLM’s het niveau van oogheelkundige kennis en redenering van experts benaderen, en nuttig kunnen zijn voor het geven van ooggerelateerd advies als patiënten beperkte toegang hebben tot professionals in de gezondheidszorg. Zij stellen dat meer onderzoek nodig is om potentiële mogelijkheden voor klinische toepassing te verkennen.

Mijn opmerkingen

Het meer geavanceerde GPT-4 scoort op kennis en redeneervermogen goed in vergelijking met deskundigen, op het gebied van oogheelkunde. Het onderzoek laat ook zien dat er flinke progressie zit in de prestaties van LLM’s. Dat belooft wat voor de toekomst, aangezien deze taalmodellen alleen maar krachtiger worden. Als het gaat om de impact hebben de onderzoekers vooral oog voor de toegankelijkheid van patiëntenzorg. Volgens mij laat dit onderzoek echter ook zien dat geavanceerde LLM’s gebruikt kunnen worden voor performance support. Oogartsen kunnen geavanceerde LLM’s ook gebruiken voor het opfrissen van kennis en als gesprekspartner bij het diagnosticeren.

Bron: Thirunavukarasu AJ, Mahmood S, Malem A, Foster WP, Sanghera R, Hassan R, et al. (2024) Large language models approach expert-level clinical knowledge and reasoning in ophthalmology: A head-to-head cross-sectional study. PLOS Digit Health 3(4): e0000341. https://doi.org/10.1371/journal.pdig.0000341

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

Geef een reactie