Foren, die KI-Inhalte verbieten… Wie läuft das?

Ich würde gerne die Erfahrungen von Forenmitarbeitenden hören, die KI/LLM-generierte Inhalte nicht erlauben. Wie habt ihr das den Nutzern vermittelt? Wie erkennt ihr solche Beiträge? Wie geht ihr mit Nutzern um, die dennoch solche Inhalte posten?

Jede Meinung ist willkommen.

Hinweis: Mich persönlich interessiert ausschließlich die menschliche Seite der Interaktionen auf der Website. Ich gehe davon aus, dass das Blockieren von Crawlern aussichtslos ist.

Unser Forum ist ein spirituelles/religiöses Diskussionsforum. Wir sperren jegliche KI-generierten Inhalte.

6 „Gefällt mir“

Die meisten, wenn nicht sogar alle KI-Texte lassen sich leicht erkennen, indem man sie einfach liest. Googles SynthID ist eine coole Technologie zur Erkennung von KI-Bildern, und sie behauptet, sogar Texte erkennen zu können, die wahrscheinlich nur von Gemini geschrieben wurden. Allerdings unterstützt auch OpenAI den Standard. Die Fähigkeit, Texte persönlich zu erkennen, ist wahrscheinlich eine erlernte Fähigkeit, aber ich schätze die Arbeit, die geleistet wird, um auf die aktuelle Krise zu reagieren, in der wir uns befinden: wir können KI-Bilder oder -Texte nicht erkennen.

Stummschalten/Sperren sind meiner Meinung nach immer noch der richtige Weg, besonders wenn das Konto neu ist. Wenn ein zufälliges neues Konto deine Website betritt und sofort ein KI-generiertes Thema postet, sehe ich keinen Grund, warum du das Konto nicht einfach sperren und blockieren solltest.

Was das gesamte Scraping-Dilemma betrifft: Meine Website dient derzeit der internen Kommunikation und Dokumentation innerhalb eines kleinen Unternehmens, und ich plane, sie irgendwann als Backend für Blogging zu nutzen. Es war nicht schwer, eine Canytrap zu installieren, um die Crawler abzuhalten, die sich entscheiden, die robotstxt-Dateien auf meinen Domains zu ignorieren.

Nur diese eine Taktik hat im Laufe von zwei Wochen zu etwa 6 MILLIONEN Anfragen geführt (etwa 6 Anfragen/s an die Domain):

Wenn ein KI-Crawler diese Website besucht, wird er in ein endloses Labyrinth aus Spam geleitet, mit Hilfe des schönen iocaine Projekts, das selbst gehostet wird und einen Datensatz von etwa ~7000 erfundenen Wörtern, einigen Kauderwelsch-HTML, zufälligen Wörtern und gefälschten Nachrichten, die von 8B Llama erstellt wurden, enthält.

Offensichtlich ist dies eine nukleare „Geh weg“-Taktik und nicht für jeden geeignet, aber sie hat mir bei meinem Ziel, LLMs davon abzuhalten, meinen Code oder Textinhalt zu nehmen, sehr gut geholfen. Ich erinnere mich, eine Fallstudie gelesen zu haben, die Anthropic über LLM-Vergiftung gemacht hat, aber ich kann den Artikel nicht mehr finden, also wird er hier nicht angehängt, aber irgendwann müssen sie meine Domain blockieren, wenn sie erkennen, dass der Bot etwa 5 Millionen Anfragen an meine Domain gesendet hat, wie vor Kurzem.

4 „Gefällt mir“

(Ich merke, dass wir die Frage nach der Last durch Crawler, das Nutzen von Inhalten durch Crawler zum Training sowie die sozialen und wirtschaftlichen Folgen der aktuellen rasanten Entwicklungen beiseite lassen. Das ist gut.)

Für mich persönlich, auf einer Hobby-Seite mit geringer Frequenz:

  • Wir versuchen, eine schriftliche Richtlinie zu vereinbaren und zu formulieren.
  • Wir gehen mit den Problemen um, sobald sie auftauchen.
  • Die offensichtlichsten Fälle sind im Wesentlichen Spam, also löschen und sperren wir diese.
  • Andernfalls konfrontieren wir die Nutzer, vielleicht öffentlich, vielleicht privat, und wir können Beiträge löschen.

Eine vorgeschlagene Form der Anleitung könnte so aussehen:

  • Den Inhalt der von dir geposteten Nachrichten „eigen“ zu machen (d. h. sie zu lesen und zu verstehen und nicht blind Inhalte zu kopieren und einzufügen, unabhängig davon, woher sie stammen).
  • Zu versuchen, deine eigenen Fragen zunächst nach bestem Wissen und Gewissen zu beantworten (z. B. durch eine Suche im Forum), bevor du neue Threads erstellst.
  • Spezifische Informationen knapp und präzise zu kommunizieren, damit andere Nutzer sie lesen und verstehen und dir helfen können. Vermeide also lange Wände aus repetitiven oder irrelevanten Texten oder zu allgemeine Aussagen ohne ausreichende Informationen.
  • Diskussionen beim Thema zu halten und Meta-Diskussionen zu vermeiden (insbesondere rund um die Nutzung von KI – sei es „Best Practices“ oder „die Ethik dabei“).
  • Respektvolle Gespräche zu führen und daran zu denken, dass wir Nutzer mit unterschiedlichen Hintergründen, Ansichten und Meinungen haben.
  • Viel Spaß! Das soll ein Hobby sein.

(In unserer Hobby-Umgebung gibt es einen zusätzlichen Aspekt, nämlich die Nutzung von LLMs innerhalb des Hobbys, die ein Spektrum von Möglichkeiten abdeckt und sowohl Befürworter als auch Gegner hat.)

3 „Gefällt mir“