Funzione di didascalia immagine AI nel plugin Discourse AI

Abbiamo introdotto una funzionalità di didascalia di immagini AI nel plugin Discourse AI, che consente la generazione automatica di didascalie per le immagini nei post. Questa funzionalità mira a migliorare l’accessibilità dei contenuti e ad arricchire gli elementi visivi all’interno della tua community.

Funzionalità e Utilizzo

  • Didascalie AI automatiche: Al caricamento di un’immagine nell’editor, puoi generare automaticamente una didascalia utilizzando l’IA.
  • Didascalie modificabili: La didascalia generata può essere modificata per adattarsi meglio al contesto e al tono del tuo contenuto.
  • Accessibilità migliorata: La funzionalità supporta la creazione di contenuti più accessibili per gli utenti che si affidano agli screen reader.

Come Utilizzare

  1. Carica un’immagine nell’editor di Discourse.
  2. Fai clic sul pulsante “Didascalia con IA” vicino all’immagine.
  3. Apparirà una didascalia generata, che potrai modificare.
  4. Accetta la didascalia per includerla nel tuo post.

Feedback

Il tuo feedback è fondamentale per perfezionare questa funzionalità. È abilitata qui su Meta, quindi condividi le tue esperienze, problemi o suggerimenti qui in questo argomento.

Modello AI

Questa funzionalità supporta sia il modello open-source LLaVa 1.6 sia l’API OpenAI.

28 Mi Piace

Divertente, l’ho usato prima in questo post. Sono rimasto molto colpito. Poteva leggere l’immagine e dire di cosa si trattava in questo post

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 Mi Piace

Segnalato questo sul forum di OpenAI

5 Mi Piace

Non so come fare in modo che gli utenti mobili se ne ricordino, perché devono uscire dall’editor.

Questa didascalia viene utilizzata anche come testo alternativo?

4 Mi Piace

Sì.

Abbiamo in programma di aggiungere promemoria JIT nel prossimo futuro se l’accoglienza sarà positiva.

7 Mi Piace

2 post sono stati divisi in un nuovo argomento: Supporto per la personalizzazione dei prompt in DiscourseAI

Può vedere la camicia a quadri, ma non riesce a rilevare George Costanza. :rofl:

Scherzi a parte, questo è fantastico soprattutto per l’#accessibilità. Nei precedenti report A11Y, la mancanza di testo alternativo nelle immagini è uno degli elementi principali sollevati, e in precedenza abbiamo archiviato tutto ciò poiché le immagini sono contenuti caricati dall’utente. Questo ora apre la strada a un’accessibilità molto, molto migliore.

13 Mi Piace

In caso di messaggi di errore, c’è un modo per incoraggiarlo a sottotitolare la parte principale dell’errore in modo che il motore di ricerca lo rilevi?

Altri risultati

Identifica correttamente il terzo come strumento IBM EWM, ma non riconosce il 2 come Rhapsody e l’1 come Vector Davinci. Ciononostante, queste didascalie sono piuttosto ragionevoli.

5 Mi Piace

Questa è una funzionalità fantastica!

Ma è molto difficile da trovare. L’utente deve passare il mouse sopra l’immagine per vedere il pulsante e poi fare clic su di esso (e la maggior parte delle persone non lo saprà).
Anche se lo sapevo e stavo cercando la funzionalità, ho dovuto controllare il video per capire che devo passare il mouse sopra.
Secondo me dovrebbe essere “in faccia” per essere utilizzata all’inizio. La renderei persino in grado di creare le didascalie per impostazione predefinita, senza che l’utente debba fare clic su nulla :drevil:

7 Mi Piace

Alla fine renderemo questi prompt personalizzabili, quindi sarà possibile.

Come nuova funzionalità, la nostra idea è di introdurla in modo molto discreto per raccogliere feedback, e poi renderla più facile da trovare e persino automatica.

10 Mi Piace

6 messaggi sono stati divisi in un nuovo argomento: Problemi nella configurazione delle didascalie delle immagini AI

Invierà il link dell’immagine (Internet) al Servizio AI, caricherà il contenuto dell’immagine o eseguirà un “hashing” localmente in discourse? È lato server o javascript (cioè espone l’IP del client a un servizio esterno).

3 Mi Piace

Invia un link all’immagine al servizio selezionato per la didascalia. Avviene lato server, poiché sono coinvolte le credenziali.

Se desideri la funzionalità ma non vuoi coinvolgere terze parti, puoi sempre eseguire LLaVa sul tuo server.

3 Mi Piace

concordo, tuttavia la qualità potrebbe risentirne a causa delle limitazioni hardware. Forse potresti condividere alcuni consigli riguardo alle dimensioni dei modelli e alla quantizzazione o alla vram minima dalla tua esperienza. (non sono sicuro che abbiano modelli quantizzati, il loro “zoo” sembra avere solo modelli completi).

2 Mi Piace

Stiamo eseguendo il modello completo, ma la versione più piccola con Mistral 7B. Richiede 21 GB di VRAM sui nostri server A100 singoli, ed è eseguito tramite l’immagine container ghcr.io/xfalcox/llava:latest.

Purtroppo l’ecosistema per i modelli multimodali non è maturo come quelli text2text, quindi non possiamo ancora sfruttare server di inferenza come vLLM o TGI e siamo rimasti con quei microservizi monouso. Questo potrebbe cambiare quest’anno, il multimodale è nella roadmap di vLLM, ma nel frattempo possiamo almeno testare le acque con questi servizi.

5 Mi Piace

Ho alcuni piccoli feedback UX per questo. Su immagini piccole, il pulsante “Acquisisci con IA” blocca non solo l’immagine stessa ma anche altro testo nel post, rendendo difficile rivedere il post durante la modifica.

3 Mi Piace
4 Mi Piace

Sto vedendo tutte le didascalie generate (sia qui che sul mio sito) iniziare con “L’immagine contiene” o “Un’immagine di” o simili. Questo sembra non necessario e ridondante. Il prompt potrebbe essere aggiornato per indicare che non è necessario spiegare che l’immagine è un’immagine?

3 Mi Piace

È così difficile da perfezionare perché modelli diversi hanno tolleranze diverse, ma un piano che abbiamo è quello di consentire ai proprietari della community di controllare le richieste in modo che possano sperimentare.

5 Mi Piace

@mattdm Puoi ottenerlo semplicemente pre-compilando la risposta generata con “Un’immagine di”. In questo modo l’LLM penserà di aver già generato l’introduzione e genererà solo il resto.

2 Mi Piace