Laden...

Zahed Ashkara
AI & Legal Expert
Klaar om te starten met AI in jouw juridische praktijk?
Bekijk ons aanbod van AI trainingen en start vandaag nog met het implementeren van AI in jouw dagelijkse werkzaamheden.
Bekijk onze AI trainingenLaden...
AI & Legal Expert
Bekijk ons aanbod van AI trainingen en start vandaag nog met het implementeren van AI in jouw dagelijkse werkzaamheden.
Bekijk onze AI trainingenDe opkomst van kunstmatige intelligentie (AI) heeft de juridische wereld in een stroomversnelling gebracht. Tegenwoordig worden grote taalmodellen zoals Lexis+ AI, Claude, Copilot, ChatGPT 3.5 en Gemini ingezet voor uiteenlopende taken. In de recente paper1 wordt uitvoerig onderzocht in hoeverre deze AI-systemen juridische redenering kunnen uitvoeren volgens de bekende IRAC-methodologie – een framework dat essentieel is in het juridische onderwijs en de praktijk.
Het IRAC-raamwerk (Issue, Rule, Application, Conclusion) vormt de kern van juridische analyses en is al jarenlang een standaardmethode binnen de advocatuur en het juridische onderwijs. De paper1 licht toe hoe advocaten en studenten door middel van IRAC eerst het juridische vraagstuk identificeren, daarna de relevante wet- en regelgeving benoemen, vervolgens de regel op de feiten toepassen en uiteindelijk een weloverwogen conclusie trekken. Dit model zorgt ervoor dat complexe juridische vraagstukken op een gestructureerde en systematische manier benaderd kunnen worden. Het onderzoek presenteert een reeks scenario's, variërend van eenvoudige regelanalyses tot complexe casussen waarbij zowel analoge als statutaire redenering centraal staan. Hiermee wordt nagegaan of de LLM's in staat zijn om de nuances van het juridische denken – en het daarbij horende kritische beoordelingsvermogen – adequaat te verwerken.
Een van de meest opvallende bevindingen uit de studie is dat alle geteste LLM's in staat zijn een basale IRAC-analyse uit te voeren. Echter, de kwaliteit en de diepgang van hun antwoorden varieerden aanzienlijk. In een uitgebreide vergelijking bleek dat de scores van de verschillende modellen op de IRAC-taken uiteenliepen, zoals te zien is in onderstaande tabel:
Criterium | Lexis+ AI | Claude | Copilot | GPT 3.5 | Gemini |
---|---|---|---|---|---|
Relied on Sources as Instructed | 10.500 | 12.600 | 12.000 | 11.900 | 11.200 |
Issue Identification | 11.200 | 13.300 | 12.600 | 11.900 | 11.200 |
Stating the Rule | 11.200 | 12.600 | 12.600 | 12.600 | 10.600 |
Applying the Rule | 7.900 | 12.600 | 9.200 | 8.500 | 8.500 |
Reaching Correct Conclusion | 10.600 | 12.000 | 12.000 | 10.000 | 11.300 |
Conclusion Stated with Certainty | 11.200 | 13.300 | 11.200 | 11.900 | 11.200 |
Chain of Thought Prompt | 3.429 | 6.858 | 6.858 | 4.572 | 5.715 |
Hallucination | 3.429 | 8.001 | 8.001 | 6.858 | 6.858 |
TOTAAL SCORE /100 | 69.46 | 91.26 | 84.46 | 78.23 | 76.57 |
Zo scoorde Claude met een indrukwekkende 91.26% de hoogste score, terwijl Lexis+ AI slechts op 69.46% eindigde. Dit verschil suggereert dat de niet-specifiek op juridische data getrainde modellen soms beter kunnen presteren dan modellen die specifiek voor juridische doeleinden zijn ontwikkeld.
De paper bespreekt uitvoerig dat de modellen niet alleen verschillen in de mate waarin zij de basisstructuur van een IRAC-analyse beheersen, maar ook in hoe ze belangrijke elementen als "Issue Identification", "Stating the Rule", "Applying the Rule" en "Reaching the Correct Conclusion" verwerken. Zo werd bijvoorbeeld vastgesteld dat sommige modellen, zoals ChatGPT en Gemini, een hallucinatiegraad van ongeveer 14% vertoonden; zij trokken conclusies die niet volledig in lijn waren met de gegeven feiten, zoals bij een oefening waarin werd geconcludeerd dat een ongetraind dier toch zou voldoen aan de ADA-vereisten. Dit staat in schril contrast met andere modellen zoals Claude en Copilot, die over het algemeen stabielere en consistentere antwoorden gaven.
Wat de studie verder benadrukt, is dat een belangrijk obstakel voor de juridische toepasbaarheid van LLM's ligt in hun inherente inconsistentie. Wanneer dezelfde vraag herhaaldelijk aan een model wordt voorgelegd, kunnen de antwoorden aanzienlijk variëren. Deze nondeterministische output vormt een serieus probleem in een rechtsstaat waar stabiliteit en herhaalbaarheid cruciaal zijn voor de betrouwbaarheid van juridische bronnen (zie paragraaf 91-94). Bovendien vertonen sommige modellen een opmerkelijke "false confidence", wat inhoudt dat zij met grote zekerheid een antwoord presenteren, ook al is dat antwoord op basis van de feiten onjuist. Dit fenomeen kan leiden tot misleiding, vooral wanneer een jurist of student vertrouwt op de schijnbare zekerheid van een AI-antwoordsysteem.
Een interessant aspect van het onderzoek is het gebruik van de "denk stap voor stap" (chain-of-thought) prompt. Deze techniek bleek bij sommige modellen, met name Claude, Copilot en Gemini, de output te verbeteren door extra details en een diepere analyse te bieden. Hoewel deze prompting-strategie minder effect had op ChatGPT en Lexis+ AI, benadrukt het wel dat er mogelijkheden zijn om de redeneringsprocessen van AI te optimaliseren. Toch blijft een fundamentele beperking bestaan: AI-modellen missen het vermogen om morele en ethische oordelen te vellen, een aspect dat cruciaal is in het juridische beroep.
De bevindingen van de studie hebben verstrekkende gevolgen voor zowel juridische opleidingen als de professionele praktijk. Enerzijds biedt AI enorme efficiëntievoordelen. Denk aan geautomatiseerde documentanalyse, het opzoeken van jurisprudentie en het samenstellen van concept-argumenten. Anderzijds waarschuwen de auteurs dat een te grote afhankelijkheid van AI het risico met zich meebrengt dat toekomstige juristen hun cruciale vaardigheden – zoals kritisch denken, logische redenering en ethisch oordeel – niet (volledig) ontwikkelen.
Samenvattend laat de studie duidelijk zien dat, hoewel LLM's in staat zijn om op een fundamenteel niveau juridische analyses uit te voeren via de IRAC-methode, zij nog lang niet het volledige spectrum van "denken als een advocaat" beheersen. De problemen rond hallucinaties, inconsistentie, false confidence en het ontbreken van morele en ethische redenering benadrukken dat menselijke advocaten – met hun vermogen tot diepgaand kritisch denken en morele overwegingen – voorlopig onvervangbaar blijven.
Voor wie dieper wil duiken in de methodologie, casuïstiek en uitgebreide analyses van de verschillende AI-modellen, wordt het lezen van de volledige paper ten zeerste aangeraden. Deze blog is gebaseerd op de paper "Artificial intelligence and legal analysis: Implications for legal education and the profession"1.