Funzione di didascalia immagine AI nel plugin Discourse AI

Falco · 20 Febbraio 2024, 5:53pm

Abbiamo introdotto una funzionalità di didascalia di immagini AI nel plugin Discourse AI, che consente la generazione automatica di didascalie per le immagini nei post. Questa funzionalità mira a migliorare l’accessibilità dei contenuti e ad arricchire gli elementi visivi all’interno della tua community.

Funzionalità e Utilizzo

Didascalie AI automatiche: Al caricamento di un’immagine nell’editor, puoi generare automaticamente una didascalia utilizzando l’IA.
Didascalie modificabili: La didascalia generata può essere modificata per adattarsi meglio al contesto e al tono del tuo contenuto.
Accessibilità migliorata: La funzionalità supporta la creazione di contenuti più accessibili per gli utenti che si affidano agli screen reader.

Come Utilizzare

Carica un’immagine nell’editor di Discourse.
Fai clic sul pulsante “Didascalia con IA” vicino all’immagine.
Apparirà una didascalia generata, che potrai modificare.
Accetta la didascalia per includerla nel tuo post.

Feedback

Il tuo feedback è fondamentale per perfezionare questa funzionalità. È abilitata qui su Meta, quindi condividi le tue esperienze, problemi o suggerimenti qui in questo argomento.

Modello AI

Questa funzionalità supporta sia il modello open-source LLaVa 1.6 sia l’API OpenAI.

frold · 20 Febbraio 2024, 5:56pm

Divertente, l’ho usato prima in questo post. Sono rimasto molto colpito. Poteva leggere l’immagine e dire di cosa si trattava in questo post

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · 20 Febbraio 2024, 6:10pm

Segnalato questo sul forum di OpenAI

Jagster · 20 Febbraio 2024, 6:18pm

Non so come fare in modo che gli utenti mobili se ne ricordino, perché devono uscire dall’editor.

Questa didascalia viene utilizzata anche come testo alternativo?

Falco · 20 Febbraio 2024, 6:21pm

Sì.

Abbiamo in programma di aggiungere promemoria JIT nel prossimo futuro se l’accoglienza sarà positiva.

Falco · 21 Febbraio 2024, 5:00pm

2 post sono stati divisi in un nuovo argomento: Supporto per la personalizzazione dei prompt in DiscourseAI

pmusaraj · 20 Febbraio 2024, 10:15pm

Può vedere la camicia a quadri, ma non riesce a rilevare George Costanza.

Scherzi a parte, questo è fantastico soprattutto per l’#accessibilità. Nei precedenti report A11Y, la mancanza di testo alternativo nelle immagini è uno degli elementi principali sollevati, e in precedenza abbiamo archiviato tutto ciò poiché le immagini sono contenuti caricati dall’utente. Questo ora apre la strada a un’accessibilità molto, molto migliore.

Tris20 · 21 Febbraio 2024, 8:23am

In caso di messaggi di errore, c’è un modo per incoraggiarlo a sottotitolare la parte principale dell’errore in modo che il motore di ricerca lo rilevi?

Altri risultati

Identifica correttamente il terzo come strumento IBM EWM, ma non riconosce il 2 come Rhapsody e l’1 come Vector Davinci. Ciononostante, queste didascalie sono piuttosto ragionevoli.

tpetrov · 21 Febbraio 2024, 9:55am

Questa è una funzionalità fantastica!

Ma è molto difficile da trovare. L’utente deve passare il mouse sopra l’immagine per vedere il pulsante e poi fare clic su di esso (e la maggior parte delle persone non lo saprà).
Anche se lo sapevo e stavo cercando la funzionalità, ho dovuto controllare il video per capire che devo passare il mouse sopra.
Secondo me dovrebbe essere “in faccia” per essere utilizzata all’inizio. La renderei persino in grado di creare le didascalie per impostazione predefinita, senza che l’utente debba fare clic su nulla

Falco · 21 Febbraio 2024, 5:04pm

Alla fine renderemo questi prompt personalizzabili, quindi sarà possibile.

Come nuova funzionalità, la nostra idea è di introdurla in modo molto discreto per raccogliere feedback, e poi renderla più facile da trovare e persino automatica.

JammyDodger · 12 Marzo 2024, 9:36am

6 messaggi sono stati divisi in un nuovo argomento: Problemi nella configurazione delle didascalie delle immagini AI

ecki · 15 Marzo 2024, 12:41pm

Invierà il link dell’immagine (Internet) al Servizio AI, caricherà il contenuto dell’immagine o eseguirà un “hashing” localmente in discourse? È lato server o javascript (cioè espone l’IP del client a un servizio esterno).

Falco · 15 Marzo 2024, 1:12pm

Invia un link all’immagine al servizio selezionato per la didascalia. Avviene lato server, poiché sono coinvolte le credenziali.

Se desideri la funzionalità ma non vuoi coinvolgere terze parti, puoi sempre eseguire LLaVa sul tuo server.

ecki · 15 Marzo 2024, 3:33pm

concordo, tuttavia la qualità potrebbe risentirne a causa delle limitazioni hardware. Forse potresti condividere alcuni consigli riguardo alle dimensioni dei modelli e alla quantizzazione o alla vram minima dalla tua esperienza. (non sono sicuro che abbiano modelli quantizzati, il loro “zoo” sembra avere solo modelli completi).

Falco · 15 Marzo 2024, 3:46pm

Stiamo eseguendo il modello completo, ma la versione più piccola con Mistral 7B. Richiede 21 GB di VRAM sui nostri server A100 singoli, ed è eseguito tramite l’immagine container ghcr.io/xfalcox/llava:latest.

Purtroppo l’ecosistema per i modelli multimodali non è maturo come quelli text2text, quindi non possiamo ancora sfruttare server di inferenza come vLLM o TGI e siamo rimasti con quei microservizi monouso. Questo potrebbe cambiare quest’anno, il multimodale è nella roadmap di vLLM, ma nel frattempo possiamo almeno testare le acque con questi servizi.

seanblue · 21 Marzo 2024, 10:34pm

Ho alcuni piccoli feedback UX per questo. Su immagini piccole, il pulsante “Acquisisci con IA” blocca non solo l’immagine stessa ma anche altro testo nel post, rendendo difficile rivedere il post durante la modifica.

Moin · 21 Marzo 2024, 10:55pm

mattdm · 12 Aprile 2024, 1:59pm

Sto vedendo tutte le didascalie generate (sia qui che sul mio sito) iniziare con “L’immagine contiene” o “Un’immagine di” o simili. Questo sembra non necessario e ridondante. Il prompt potrebbe essere aggiornato per indicare che non è necessario spiegare che l’immagine è un’immagine?

sam · 17 Aprile 2024, 3:20am

È così difficile da perfezionare perché modelli diversi hanno tolleranze diverse, ma un piano che abbiamo è quello di consentire ai proprietari della community di controllare le richieste in modo che possano sperimentare.

Isambard · 3 Giugno 2024, 5:11pm

@mattdm Puoi ottenerlo semplicemente pre-compilando la risposta generata con “Un’immagine di”. In questo modo l’LLM penserà di aver già generato l’introduzione e genererà solo il resto.

Argomento		Risposte	Visualizzazioni
Helper - captioning images Site Management how-to , ai , ai-captions	9	465	Settembre 2, 2025
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	5	293	Agosto 10, 2024
Support image captions - in addition to alt text Feature	9	396	Gennaio 17, 2026
Issues configuring AI image captions Support ai , ai-helper	20	918	Marzo 13, 2024
Non-AI method of captioning images Support	2	271	Giugno 21, 2024

Funzione di didascalia immagine AI nel plugin Discourse AI

Funzionalità e Utilizzo

Come Utilizzare

Feedback

Modello AI

Argomenti correlati