Migliori pratiche per affrontare utenti spam e post di risposta GPT

Contesto: Abbiamo avviato una community diversi anni fa, proprio all’inizio della pandemia, poi abbiamo dovuto dedicare tutte le risorse ad altre iniziative per diversi anni. Avevamo molta partecipazione e poi, quando abbiamo interrotto la programmazione e la gestione della community, i forum si sono fermati. Stiamo per investire più tempo nell’implementazione della nostra strategia e gestione della community, quindi questa domanda è la più pressante!



Al momento notiamo che molti degli utenti che si stanno unendo alla community in questo momento sono o:
  1. Si uniscono per pubblicare un link al loro sito web pieno di spam, focalizzato su parole chiave di affiliazione
  2. Si uniscono e pubblicano quella che sembra a tutti gli effetti una risposta/post generato da LLM / GPT

Ecco un esempio di post che è arrivato nella nostra coda di moderazione ieri:

Nota: l’utente ha creato il suo account lo stesso giorno.

Clicca per visualizzare uno screenshot del post moderato

Il nostro messaggio di sistema Discourse è stato inviato all’utente:

Clicca per visualizzare uno screenshot del messaggio di sistema predefinito

Questo post di un nuovo utente era in risposta a questo post di 3 anni fa di Chris Anderson.

Quando leggi il post moderato del nuovo utente, è abbastanza chiaro che questo messaggio è disingenuo e una risposta generata da GPT o qualcosa di simile.

Ci sono modi ottimali per impedire a questi tipi di utenti di apparire nella community?

Ci sono modi per impedire agli utenti di inserire risposte predefinite da LLM, per qualsiasi motivo egoistico o malevolo possano voler fare questo?

Qualsiasi input sarebbe eccezionale!

4 Mi Piace

Quanto spesso succede? Mi chiedo se il tuo sito sia preso di mira specificamente per qualche motivo.

Sto facendo un’ipotesi selvaggia che abbia a che fare con uno o entrambi questi siti: http://bestpickleballpaddle.com/, https://thepickleballpaddles.com/. (Nota, questi sono siti reali, ma non diamogli troppo traffico da qui.)

La motivazione più ovvia che mi viene in mente per generare un post come quello nel tuo screenshot è ottenere un po’ di fiducia sul sito per poter pubblicare link di spam in futuro. Se questo è il problema, potrebbe valere la pena cambiare il valore dell’impostazione del tuo sito min trust to post links dal valore predefinito del livello di fiducia 0 a trust level 1 o 2. Se ci sono domini che sei felice di consentire agli utenti di qualsiasi livello di fiducia di pubblicare, potresti aggiungere tali domini all’impostazione del sito allowed link domains.

Sto solo buttando lì idee, ma mi chiedo se invece di dedicare molti sforzi a cercare di individuare contenuti generati da LLM, non sarebbe meglio cercare di ridurre la motivazione per creare quel tipo di post in primo luogo. La mia preoccupazione è che i contenuti generati da LLM diventeranno più difficili da rilevare nel tempo. L’identificazione errata di contenuti come generati da un LLM potrebbe diventare un problema.

Un altro approccio che potrebbe essere utile in alcuni casi sarebbe utilizzare l’appartenenza a un’organizzazione, o l’attività su un’altra piattaforma come criterio per creare un account Discourse, o come criterio per ottenere un livello di fiducia che consenta la pubblicazione di link su un sito Discourse. Ad esempio, il tuo modulo di iscrizione ha un campo facoltativo che chiede il livello di valutazione USAPA dell’utente. Se l’appartenenza all’USAPA conferisce ai membri una pagina del profilo sul loro sito, potresti rendere l’appartenenza all’USAPA un requisito per l’iscrizione al tuo sito avendo “USAPA Profile Link” come campo obbligatorio nel tuo modulo di iscrizione. Potresti quindi abilitare l’impostazione del sito Discourse must approve users e approvare gli utenti solo dopo aver confermato la loro appartenenza all’USAPA. Un’altra possibilità sarebbe che Discourse potesse aggiungere una funzionalità che consentisse di limitare il livello di fiducia di un utente in base a criteri personalizzati. Ad esempio, non consentire a un utente di superare il trust level 1 finché la sua appartenenza all’USAPA non è stata confermata.

Sto usando l’appartenenza all’USAPA solo come esempio. Posso capire perché potresti non voler richiedere l’appartenenza all’USAPA per gli utenti del tuo sito. L’idea di stabilire la fiducia tramite l’appartenenza o l’attività su un altro sito è correlata al plugin di cui si sta discutendo qui: $10k Bounty: Gitcoin Passport plug-in for Discourse.

6 Mi Piace

Esattamente.

Ci deve quasi certamente essere un’agenda, anche se non è ancora ovvia.

Recentemente ho avuto un utente che è stato piuttosto convincente e ha raggiunto il Trust Level 2 prima di diventare palese riguardo alla promozione del suo prodotto, avendo solo accennato originariamente.

L’impostazione del link di livello di fiducia è utile e gli account loschi inizieranno a suggerire alle persone di cercare xyz tramite Google invece di poter pubblicare link: un’altra bandiera rossa.

A volte devi solo aspettare che la quantità di prove si accumuli per essere sufficientemente sicuro da bannare un account.

Sfortunatamente, ritardare l’azione significa che l’operazione di pulizia richiederà più lavoro in seguito.

4 Mi Piace

Esiste un controllo “digitato in modo sospettosamente veloce” copia e incolla? A meno che l’intera cosa non fosse un robot progettato per digitare lentamente per imitare un essere umano…

Quindi (se ho capito bene) la cosa positiva è che questa persona è stata individuata dall’infrastruttura esistente. Ha disturbato il personale, ma non gli utenti.

Penso che Simon abbia colto nel segno qui:

Sarei interessato a sapere quanto sta succedendo. Il fatto che questa persona abbia impostato un avatar pertinente, con un nome utente pertinente, su un forum pertinente… mi porta a supporre che si tratti in parte di un fattore umano.
Potrebbe essere solo uno stagista di marketing troppo zelante?

1 Mi Piace

Ho avuto un problema simile. La parte offensiva è attualmente sospesa. Ci sono siti web che possono aiutare a identificare testi generati dall’IA, il che è utile, ma non è una soluzione a lungo termine. – L’IA continuerà a migliorare finché non ci sarà più modo di distinguerla.

Tuttavia, Randall Munroe suggerisce che potrebbe essere un problema che si risolve da solo.

3 Mi Piace

Per tua informazione

Sono un moderatore di categoria sul forum Discourse di OpenAI (ref) (non un dipendente OpenAI) quindi vedo il feedback sul forum riguardante i cambiamenti di ChatGPT nel tempo (ref) e mentre in generale la tua affermazione è corretta, aggiungo solo un po’ di chiarezza riguardo a ChatGPT.

Dal momento in cui ChatGPT è diventato disponibile e per molti mesi le sue capacità sono migliorate, i completamenti erano

  • più coerenti
  • in accordo con il prompt
  • più concisi, di lunghezza ridotta

Poi è stata apportata una modifica che ha portato a completamenti

  • meno coerenti
  • meno in accordo con il prompt
  • meno concisi e più lunghi

Molti utenti sul forum hanno notato che era come se ChatGPT fosse stato ripristinato a una versione precedente di qualche mese fa. Coloro che utilizzano ChatGPT per creare codice, un caso d’uso che utilizzo anch’io con ChatGPT, lo hanno notato più pronunciato poiché con la modifica apparivano più errori di sintassi.

Quindi il pensiero da tenere a mente è che se stai cercando di identificare contenuti generati da ChatGPT, è un bersaglio mobile e non sta sempre migliorando. Come programmatore, se stessi cercando di identificare contenuti generati da ChatGPT, questo sarebbe di valore.

Inoltre, non ho alcuna conoscenza interna essendo un moderatore del sito poiché non sono un dipendente OpenAI, quindi se senti parlare di strumenti che incorporano informazioni per rendere identificabili tali contenuti generati da ChatGPT, non posso fornire informazioni a riguardo.



Per coloro che non utilizzano ChatGPT, ecco un semplice esempio utilizzando il testo sopra.

Esempio (Clicca sul triangolo per espandere)

ChatGPT Versione 21 Luglio
Prompt

Correggi, usa un tono gradevole, sii conciso.

FYI

Sono un moderatore di categoria sul forum Discourse di OpenAI (ref) quindi vedo il feedback sul forum riguardante i cambiamenti di ChatGPT nel tempo (ref) e mentre in generale la tua affermazione è corretta, aggiungo solo un po’ di chiarezza.

Dal momento in cui ChatGPT è diventato disponibile e per molti mesi le sue capacità sono migliorate, i completamenti erano

  • più coerenti
  • in accordo con il prompt
  • più concisi, di lunghezza ridotta

Poi è stata apportata una modifica che ha portato a completamenti

  • meno coerenti
  • meno in accordo con il prompt
  • meno concisi e più lunghi

Molti utenti sul forum hanno notato che era come se ChatGPT fosse stato ripristinato a una versione precedente di qualche mese fa. Coloro che utilizzano ChatGPT per creare codice, un caso d’uso che utilizzo anch’io con ChatGPT, lo hanno notato più pronunciato poiché con la modifica apparivano più errori di sintassi.

Quindi il pensiero da tenere a mente è che se stai cercando di identificare contenuti generati da ChatGPT, è un bersaglio mobile e non sta sempre migliorando. Come programmatore, se stessi cercando di identificare contenuti generati da ChatGPT, questo sarebbe di valore.

Inoltre, non ho alcuna conoscenza interna essendo un moderatore del sito poiché non sono un dipendente OpenAI, quindi se senti parlare di strumenti che incorporano informazioni per rendere identificabili tali contenuti generati da ChatGPT, non posso fornire informazioni a riguardo.


**Completamento**

FYI,

Desidero chiarire alcuni punti importanti riguardo ai cambiamenti di ChatGPT nel tempo. In qualità di moderatore di categoria sul forum Discourse di OpenAI, ho osservato attentamente il feedback della community riguardo allo sviluppo di ChatGPT ([ref](https://community.openai.com/about)).

Inizialmente, dopo il suo rilascio, ChatGPT ha mostrato un miglioramento costante nelle sue capacità per diversi mesi. I completamenti stavano diventando più coerenti, allineandosi meglio ai prompt forniti e diventando più concisi e succinti.

Tuttavia, c'è stato un aggiornamento successivo che ha portato ad alcuni passi indietro. Gli utenti hanno notato che i completamenti sono diventati meno coerenti, meno allineati ai prompt e più lunghi. Questo ha portato a paragoni con una versione precedente di ChatGPT, che sembrava essere un passo indietro. In particolare, coloro che utilizzano ChatGPT per la generazione di codice hanno riscontrato un impatto più pronunciato, poiché hanno notato un aumento degli errori di sintassi con il cambiamento.

È essenziale capire che l'identificazione dei contenuti generati da ChatGPT è diventata un bersaglio mobile. Sebbene stesse migliorando costantemente prima, ora non è sempre così. Come programmatore, trovo queste informazioni preziose, soprattutto quando cerco di distinguere tra contenuti generati da esseri umani e da IA.

Devo chiarire che, nonostante sia un moderatore del sito, non sono un dipendente OpenAI e non possiedo alcuna conoscenza interna. Pertanto, se ci sono strumenti o metodi sviluppati per identificare i contenuti di ChatGPT, non sono in grado di fornire informazioni al riguardo.

Grazie per la vostra attenzione e spero che questa chiarificazione aiuti a comprendere lo stato attuale dello sviluppo di ChatGPT.

Cordiali saluti,

[Il tuo nome]

2 Mi Piace

Per tua informazione

Ho appena visto questo OpenAI chiude silenziosamente il suo strumento di rilevamento dell’IA e l’ho confermato qui

A partire dal 20 luglio 2023, il classificatore di IA non è più disponibile a causa del suo basso tasso di accuratezza. Stiamo lavorando per incorporare il feedback e stiamo attualmente ricercando tecniche di provenienza più efficaci per il testo, e ci siamo impegnati a sviluppare e implementare meccanismi che consentano agli utenti di comprendere se contenuti audio o visivi sono generati dall’IA.

3 Mi Piace

@EricGT Ottimi punti! Sì, è decisamente un bersaglio mobile. Non sono preoccupato per ChatGPT in particolare. Il dado è tratto, per così dire, e penso che sia solo questione di tempo prima che qualcuno senza scrupoli utilizzi la tecnologia in modo deliberatamente dannoso. :cry:

2 Mi Piace

Sì, questo (incluso lo shilling astroturf senza URL) oltre che per gli URL e la pubblicità che possono aggiungere ai loro profili - sia per risposta diretta che per SEO. In altri casi, per coltivare account per lo spam via DM. Questi sono i casi principali, per quanto ne so.