Hoe voorkom je dat een chatbot zich tegen je eigen bedrijf keert?
Afgelopen weekend was de chatbot van bezorgdienst DPD volop in de landelijke media. Een klant wist de chatbot namelijk zover te krijgen dat het zich keerde tegen het eigen bedrijf. ‘DPD is de slechtste bezorgdienst ter wereld’, schreef de robot onder andere. Hoe kan dit gebeuren? En nog belangrijker, hoe voorkom je als organisatie dat je eigen chatbot zich tegen je keert? Merijn Spelt (Conversation Designer bij Studio Winegum) geeft antwoord op onze prangende vragen.
Hoe werkt het?
Hoe kan een chatbot überhaupt negatief geladen opmerkingen maken over het eigen bedrijf, zoals bij DPD het geval was? Merijn Spelt ontwerpt als Conversation Designer de woorden, zinnen en interacties die chatbots hebben met klanten en weet dus als geen ander hoe de vork in de steel zit. “Een Gen-AI gebaseerde chatbot is (als je het goed doet) volledig gebaseerd op een vooraf aangeleverde knowledge-base. Dat is de content die jij geeft aan de Gen-AI om antwoorden uit te formuleren. Hierin geef je het Large Language Model (LLM), wat een knowledge-base chatbot in feite is, de kaders waarbinnen het zich kan bewegen. Oftewel: welke informatie geeft de chatbot en welke vragen kan het beantwoorden?”
“De gebruiker heeft in het geval van DPD alle vrijheid gehad om het LLM te beïnvloeden”, vervolgt Spelt. “Er zijn geen vooropgestelde regels meegegeven die ervoor zorgen dat de chatbot alleen antwoord geeft op de vragen waar het daadwerkelijk antwoord op heeft. Neem als voorbeeld het ontbreken van een (goed) herkenning-threshold, waardoor alle vragen worden beantwoord, ongeacht of de chatbot er een goed antwoord op weet of niet. En er is geen fallback-bericht ingeschakeld (zoals: ‘hiermee kan ik u niet helpen’).”
Hoe voorkom je het?
“De oplossing ligt in het trainen van de kaders van het LLM”, legt hij uit. “Door goed te trainen voorkom je kwetsbaarheden, waardoor de kans kleiner is dat het LLM gaat hallucineren. Het is als organisatie dus belangrijk dat je vooraf aangebrachte content zo waterdicht als mogelijk is en dat je gebruikmaakt van een threshold met bijpassende fallback (zoals escalatie naar livechat of doorverwijzing naar een contactformulier).”
“En schroom niet om voor kleinere use-cases een ander of kleiner model te kiezen. Maak gebruik van een rule-based chatbot die werkt met een NLP- of NLU-model, dat met behulp van intents en conversation design gepaste antwoorden weet te formuleren”, aldus Spelt.
Waar ligt de grens?
Zouden we de input die de chatbot krijgt moeten laten controleren en regisseren door de mens? En als we dat doen, waar eindigt het dan? Volgens Spelt is live controle niet de oplossing: “Wat er binnenkomt, komt er nou eenmaal binnen. Alle input live laten controleren, is geen beginnen aan en dat moet je ook helemaal niet willen. Je kunt uiteraard wel een tweede LLM dat werk laten doen. Deze modellen classificeren dan éérst de input, voordat het wordt doorzet naar de knowlegde-base. Het is vooral belangrijk dat je jouw bot eerst test en uitdaagt, nog voordat je live gaat. Ontdek dan de kwetsbaarheden en train daarop door. Vraag hiervoor niet alleen je interne medewerkers, maar denk ook aan een gebruikerspanel.”
Meer te weten komen over LLM’s en chatbots? Lees dan eens een van onderstaande artikelen!