Qualcuno può per favore spiegare le regole per la rigenerazione dei riassunti? C’è stata una discussione secondo cui lo staff può rigenerare i riassunti dopo un’ora, ma non è quello che sto vedendo. (Non sono sicuro di cosa sto vedendo, sembra incoerente.) Se c’è un nuovo post, dovrebbe offrire l’opzione di rigenerare? E a chiunque, o solo allo staff?
Dopo aver sperimentato, ecco cosa vedo:
- Per gli argomenti con meno di 100 post, il pulsante rigenera è abilitato immediatamente solo per lo staff
- Per gli argomenti con più di 100 post, il pulsante rigenera non è abilitato, anche dopo aver atteso un’ora
Anche se il pulsante rigenera si abilitasse, non è un flusso di lavoro praticabile per il nostro staff premere continuamente i pulsanti, quindi prevedo provvisoriamente di implementare un webhook in ascolto dei nuovi post che rigenera il riassunto utilizzando https://forum.example.com/discourse-ai/summarization/t/12345. Un rapido calcolo dice che costerebbe circa $500 all’anno per il nostro forum. Mi rendo conto che Discourse sta cercando di proteggere da un costo imprevisto elevato.
Ciao @markschmucker,
Stiamo attualmente lavorando a una strategia di backfill per i riassunti degli argomenti in DiscourseAI. Prevediamo di rilasciarla la prossima settimana e ti aggiornerò qui quando sarà disponibile.
Abbiamo la funzionalità ora @markschmucker, puoi regolarla tramite l’impostazione del sito ai summary backfill maximum topics per hour.
Ho impostato quello su 12 e sulla mia dashboard Anthropic vedo un evento ogni 5 minuti, come previsto. Ma non riesco a vedere il payload da quella dashboard. Come posso vedere quale riepilogo Discourse sta rigenerando?
È tutto memorizzato nella tabella ai_api_audit_logs. Se hai Data Explorer, puoi usare la seguente query:
SELECT
*
FROM
ai_api_audit_logs
ORDER BY
id DESC
LIMIT
100
Dopo averci giocato, sembra che il backfilling generi riassunti per alcuni degli argomenti più recenti (sembra circa 100 argomenti o argomenti aggiornati nelle ultime settimane?).
Durante o dopo il ciclo di backfill, se un argomento con un riassunto riceve un nuovo post, il suo riassunto non viene aggiornato automaticamente. (Se ha meno di 100 post, c’è un pulsante “Rigenera” che lo staff può premere manualmente.)
Quando dovrebbe essere aggiornato l’argomento con un nuovo post?
Dovrebbe essere aggiornato entro 5 minuti dalla pubblicazione di una risposta, almeno per gli argomenti normali con meno di 50 risposte.
La tua community è più orientata verso i mega-argomenti?
cc @Roman
Ora vedo che c’è stato un errore nel job SummariesBackfill: ho raggiunto un limite di frequenza giornaliero su Anthropic. Questo potrebbe essere il motivo per cui sembra essersi interrotto dopo circa 100 argomenti recenti, e anche perché l’argomento aggiornato non ha ricevuto un nuovo riassunto.
Se non avessi raggiunto un limite di frequenza, SummariesBackfill riassumerebbe tutti i nostri 60.000 argomenti? Anche quelli inattivi da anni?
La maggior parte degli argomenti ha più di 100 risposte. Abbiamo 8 argomenti con oltre 1000 risposte.
Sì, parte ogni 5 minuti per eseguire un batch, dando priorità ai più recenti attivi e saltando quelli che hanno già un riassunto aggiornato.
Se configuri il tuo limite massimo all’ora più alto del numero di argomenti con nuova attività che hai all’ora, in media, riempirà eventualmente tutti i tuoi argomenti.
Richiesta di funzionalità: qualcosa come ai summary backfill maximum age, in modo da non incorrere in costi elevati per riassumere argomenti vecchi senza attività negli ultimi sei mesi. Stimo che costerebbe 3.000 dollari riassumere tutti i 60.000, la maggior parte dei quali non ci interessano.
cc @Roman
Sto solo confermando, stai usando haiku 3.5, dovrebbe produrre buoni riassunti
Sto usando sonnet 3.5, senza un buon motivo. Haiku 3.5 dovrebbe ridurre notevolmente i costi. Penso che la richiesta di funzionalità valga comunque la pena di essere presa in considerazione.
Certamente.
Penso che potremmo creare un sofisticato algoritmo di backfilling nell’automazione, poiché ci sono molte opzioni che potresti voler modificare oltre all’età.
- Solo queste categorie
- Contenuti con più di X visualizzazioni
- Contenuti con più di N like
- Contenuti con risposte accettate
- Contenuti più recenti di X
Aggiungere 10 impostazioni del sito per questo sopraffarà gli utenti.
Sono d’accordo con Mark. Se dobbiamo implementarlo per il nostro forum, non vogliamo che i vecchi post vengano riassunti senza nuova attività. L’IA è troppo costosa al momento, considerando che i riassunti sono solo una piccola parte di tutti gli strumenti di IA.
Esiste già ai summary backfill topic max age days, e il valore predefinito è 30 giorni.
I vecchi argomenti non vengono “riassunti” a meno che non ci sia nuova attività.
Ho cancellato tutti i riassunti con rails c AiSummaries.destroy_all, e ho iniziato una nuova esecuzione con un LLM diverso, usando ai summary backfill topic max age days = 60. All’inizio avevo impostato ai summary backfill maximum topics per hour troppo alto, quindi molti degli argomenti più recenti sono falliti a causa dei limiti di velocità. È colpa mia, ma mi aspettavo che dopo aver eseguito il backfill fino a 60 giorni, avrebbe avviato un nuovo ciclo ed eseguito il backfill degli argomenti falliti. Tuttavia non lo sta facendo: ha eseguito il backfill fino a 60 giorni e poi si è fermato.
Il job viene eseguito correttamente ogni 5 minuti, ma richiede solo millisecondi, quindi ovviamente non trova nulla da eseguire il backfill.
Sto monitorando il progresso (o la mancanza di esso) con Data Explorer, usando le tabelle ai_summaries e ai_api_audit_logs.
Se clicco manualmente sul pulsante Riassumi su un argomento per cui non è stato eseguito il backfill, genera un nuovo riassunto, quindi sono correttamente connesso al provider AI e gli argomenti sono “riassumibili”.
Nessun errore in /logs.
Idee?
Trovato il problema. Sta confrontando ai summary backfill topic max age days con topic.created_at, non con updated_at. Penso che questo dovrebbe essere cambiato in updated_at - ho molti argomenti molto attivi creati due anni fa che ricevono ancora nuovi post ogni settimana, ma se uso un’età massima di 90 giorni o anche un anno, quegli argomenti non verranno riassunti.
Si prega di considerare di cambiare questo.
.where("topics.created_at > current_timestamp - INTERVAL '#{max_age_days.to_i} DAY'")
Abbiamo molti argomenti di post singoli che vengono modificati molto (documenti), possiamo aggiornare questi riepiloghi se un argomento viene aggiornato?
Suggerisci di modificare l’intervallo per il processo di backfill da 5 minuti a 1 minuto, se possibile. La maggior parte(?) dei provider AI ha limiti di frequenza al minuto, quindi se il processo venisse eseguito ogni minuto, si potrebbero ottenere 5 volte più riepiloghi senza superare i limiti di frequenza al minuto.