Foren, die KI-Inhalte verbieten… Wie läuft das?

Ich würde gerne die Erfahrungen von Forenmitarbeitenden hören, die keine KI-/LLM-generierten Inhalte zulassen. Wie habt ihr das den Nutzern vermittelt? Wie erkennt ihr solche Beiträge? Und wie geht ihr mit Nutzern um, die sie trotzdem veröffentlichen?

Alle Gedanken sind willkommen.

1 „Gefällt mir“

Die meisten, wenn nicht sogar alle KI-Texte lassen sich leicht erkennen, indem man sie einfach liest. Googles SynthID ist eine coole Technologie zur Erkennung von KI-Bildern, und sie behauptet, sogar Texte erkennen zu können, die wahrscheinlich nur von Gemini geschrieben wurden. Allerdings unterstützt auch OpenAI den Standard. Die Fähigkeit, Texte persönlich zu erkennen, ist wahrscheinlich eine erlernte Fähigkeit, aber ich schätze die Arbeit, die geleistet wird, um auf die aktuelle Krise zu reagieren, in der wir uns befinden: wir können KI-Bilder oder -Texte nicht erkennen.

Stummschalten/Sperren sind meiner Meinung nach immer noch der richtige Weg, besonders wenn das Konto neu ist. Wenn ein zufälliges neues Konto deine Website betritt und sofort ein KI-generiertes Thema postet, sehe ich keinen Grund, warum du das Konto nicht einfach sperren und blockieren solltest.

Was das gesamte Scraping-Dilemma betrifft: Meine Website dient derzeit der internen Kommunikation und Dokumentation innerhalb eines kleinen Unternehmens, und ich plane, sie irgendwann als Backend für Blogging zu nutzen. Es war nicht schwer, eine Canytrap zu installieren, um die Crawler abzuhalten, die sich entscheiden, die robotstxt-Dateien auf meinen Domains zu ignorieren.

Nur diese eine Taktik hat im Laufe von zwei Wochen zu etwa 6 MILLIONEN Anfragen geführt (etwa 6 Anfragen/s an die Domain):

Wenn ein KI-Crawler diese Website besucht, wird er in ein endloses Labyrinth aus Spam geleitet, mit Hilfe des schönen iocaine Projekts, das selbst gehostet wird und einen Datensatz von etwa ~7000 erfundenen Wörtern, einigen Kauderwelsch-HTML, zufälligen Wörtern und gefälschten Nachrichten, die von 8B Llama erstellt wurden, enthält.

Offensichtlich ist dies eine nukleare „Geh weg“-Taktik und nicht für jeden geeignet, aber sie hat mir bei meinem Ziel, LLMs davon abzuhalten, meinen Code oder Textinhalt zu nehmen, sehr gut geholfen. Ich erinnere mich, eine Fallstudie gelesen zu haben, die Anthropic über LLM-Vergiftung gemacht hat, aber ich kann den Artikel nicht mehr finden, also wird er hier nicht angehängt, aber irgendwann müssen sie meine Domain blockieren, wenn sie erkennen, dass der Bot etwa 5 Millionen Anfragen an meine Domain gesendet hat, wie vor Kurzem.

2 „Gefällt mir“