
Halluzinationen – so nennt man KI-Antworten, die erfunden sind und nicht auf echten Begebenheiten oder Tatsachen beruhen – sind ein großes Problem bei der Verwendung von generativen Sprach-Modellen. Diese Halluzinationen kommen nicht nur in den Chats von privaten Nutzern vor, sondern können auch in kommerziellen Anwendungen zu Verwirrung und falschen Ergebnissen führen.
Gemeinsam mit der Firma Blumatix haben wir uns anhand des Beispiels von Rechnungsdaten-Extraktion eine Möglichkeit angesehen, wie LLMs sich selbst bewerten können, damit mögliche Fehler besser erkannt werden können.
Wenn LLMs in automatisierten Prozessen zum Einsatz kommen, besteht immer die oben genannte Gefahr, dass sich unerkannte Fehler in die Ergebnisse einschleichen. Bisher ist es nicht zuverlässig möglich, diese Fehler automatisch zu erkennen oder abzufangen.
Durch die von uns getestete Methode des sogenannten „Weighted Majority Voting“ (gewichtete Abstimmung) kann das LLM in inkonsistente Antworten selbst erkennen. Im Praxisbeispiel sehen wir uns dadurch an, wie Fehler in der Extraktion von Feldern wie „Nettobetrag“ oder „Umsatzsteuer-ID“ sichtbar gemacht werden können.
Für die Erstellung von Zuverlässigkeits-Werten gibt es zwei Möglichkeiten:
In unserer Kooperation haben wir uns auf den ersten Ansatz fokussiert.
Der Prozess ist in drei Schritten aufgebaut:
Die errechnete Lösung wird mit dem Zuverlässigkeits-Wert in eine gewichtete Stimme (Votes) umgewandelt.
Dieser Prozess wird für alle sogenannten Argumentationspfade (erneuter Durchlauf mit dem gleichen Dokument) wiederholt, und die Ausgaben gespeichert. Die Lösung, welche die meisten gewichteten Stimmen erhält, wird als korrekt angesehen.
Die Mischung aus häufiger Antwort und hoher selbst zugewiesener Zuverlässigkeit erhöht die Chance gegenüber einmaliger Nachfrage, dass die Antwort korrekt ist.
Untenstehend ein Beispiel: Die Kreise bilden die Antworten, die Beschriftungen der Verbindungen den Zuverlässigkeits-Wert. Der höchste summierte Zuverlässigkeits-Wert wird als Antwort ausgewählt.

Weighted majority voting konnte erfolgreich in zwei Teilbereichen angewendet werden. Durch die Zurverfügungstellung eines belastbaren und nachweisbaren Zuverlässigkeits-Werts an den Endkund:innen sich halten können, ist es möglich eine „Mindest-Qualität“ festzulegen. Wird zum Beispiel eine Zuverlässigkeit von >=98% gefordert (1 in 50 Antworten darf einen Fehler beinhalten), kann dies mit einer ausreichend großen Datenmenge nachweislich innerhalb einer Fehlertoleranz (Konfidenzintervall) erreicht werden.