È possibile addestrare il bot sui dati della mia community, se lo desidero?
Per fare ciò, avresti prima bisogno del permesso di tutti i membri della community affinché i loro scritti vengano utilizzati a tale scopo, altrimenti correresti un rischio di responsabilità, poiché alcune aziende come Microsoft vengono citate in giudizio per aver fatto esattamente ciò senza permesso.
In generale, i proprietari di forum tentano di ottenere una licenza molto liberale sui contenuti degli utenti. Non sono un avvocato, ma questa è una situazione completamente diversa rispetto al “crawling di informazioni su Internet e training su di esse”.
Indipendentemente da ciò, ci sono sfide significative qui:
- Il fine-tuning è disponibile solo sui modelli 3.5 (all’interno dell’ecosistema OpenAI).
- Se si effettua il fine-tuning, il modello diventa significativamente più costoso per chiamata.
- Il fine-tuning per ottenere un valore reale è estremamente difficile e richiederebbe uno sforzo immane nella curatela. La mia sensazione è che non si avvicinerebbe alle prestazioni del RAG[1].
Quindi, sebbene sia possibile, non è raccomandato.
(GPT-4) “RAG” in questo contesto sta per Retrieval Augmented Generation (Generazione Aumentata dal Recupero). È una tecnica spesso utilizzata nell’apprendimento automatico, più specificamente, nell’addestramento di modelli di intelligenza artificiale come i chatbot.
RAG combina i vantaggi sia dei modelli basati sul recupero che dei modelli generativi. In altre parole, utilizza un database di risposte preesistenti (recupero) e li migliora con la capacità di generare nuove risposte da zero. Questa combinazione di solito si traduce in prestazioni migliorate poiché il sistema può attingere a fatti accurati dalla sua libreria e articolarli in frasi nuove e coerenti.
Nella conversazione, l’utente suggerisce che il fine-tuning di un modello di intelligenza artificiale su un set specifico di dati della community potrebbe non raggiungere lo stesso livello di prestazioni dell’utilizzo di un modello di Retrieval Augmented Generation, implicando che il modello RAG è più efficiente e produce risposte di qualità superiore. ↩︎
Il fine-tuning non è un modo efficace per aggiungere nuovi contenuti a un modello. È utile per addestrare i modelli a produrre output in formati diversi o per ottenere prestazioni migliori in compiti specifici (ad esempio, categorizzazione, estrazione di contenuti), ma non è possibile aggiungere contenuti.
Il modo migliore per pensarci è che puoi fare il fine-tuning per insegnare a un modello nuovi trucchi, ma non nuovi fatti. Se vuoi ridurre le allucinazioni o introdurre nuovi contenuti, allora RAG è la strada da percorrere.
Nessuno ha risposto alla domanda. Supponendo che tu abbia i diritti per utilizzare i dati della community, come addestreresti un bot AI con essi?
Definisci cosa intendi per “addestrare”?
Metti a punto un modello specifico (gpt 3.5 o llama) e poi ospita un modello personalizzato
Oppure intendi fare in modo che il bot sia a conoscenza dei contenuti del forum?
Se vuoi solo consapevolezza, allora questo è già disponibile ora
Se vuoi un modello messo a punto, devi assumere un team di IA
Quanto è stata una parte importante della risposta
- un esempio di allucinazione
- dipendente dall’IA/modello (un self-hosted molto costoso è molto diverso da un costoso modello OpenAI)
Posso dire al bot AI di utilizzare una specifica origine dati per RAG, oltre all’intero forum? Ho un database piatto (potrei renderlo csv) che sarebbe un buon punto di partenza per molte domande del bot AI, quindi potrebbe usare RAG sul resto del forum secondo necessità. Non voglio pubblicare il csv sul forum, però.
Forse potresti mettere i dati CSV in un posto in cui l’IA possa vederli, ma gli utenti normali no. (Questo potrebbe essere impossibile o una pessima idea, ma potrebbe funzionare).
Sì, puoi caricare il file direttamente in una persona.
Sembra perfetto, ma non vedo come caricare su una persona. O dovrei inserire un link al file nel prompt di sistema della persona?
Quando vai su Admin > Plugin > AI > Personas > Nuova persona, troverai Caricamenti alla fine:
Inoltre, a seconda della quantità di dati che hai in CSV, puoi anche incollarli direttamente nel prompt di sistema.
Sto attualmente utilizzando l’ultima versione e non vedo nemmeno quell’opzione.
È configurato l’embedding?
2 post sono stati divisi in un nuovo argomento: Gemini Embeddings non funzionano

