Fonctionnalité de légende d'image IA dans le plugin Discourse AI

Nous avons introduit une fonctionnalité de légendage d’images par IA dans le plugin Discourse AI, permettant la génération automatique de légendes pour les images dans les publications. Cette fonctionnalité vise à améliorer l’accessibilité du contenu et à enrichir les éléments visuels au sein de votre communauté.

Fonctionnalités et Utilisation

  • Légendes automatiques par IA : Lors du téléchargement d’une image dans l’éditeur, vous pouvez générer automatiquement une légende à l’aide de l’IA.
  • Légendes modifiables : La légende générée peut être modifiée pour mieux correspondre au contexte et au ton de votre contenu.
  • Accessibilité améliorée : La fonctionnalité permet de créer un contenu plus accessible pour les utilisateurs qui dépendent des lecteurs d’écran.

Comment l’utiliser

  1. Téléchargez une image dans l’éditeur Discourse.
  2. Cliquez sur le bouton « Légender avec l’IA » près de l’image.
  3. Une légende générée apparaîtra, que vous pourrez modifier.
  4. Acceptez la légende pour l’inclure dans votre publication.

Retour d’information

Vos commentaires sont essentiels pour affiner cette fonctionnalité. Elle est activée ici sur Meta, alors n’hésitez pas à partager vos expériences, problèmes ou suggestions ici, dans ce sujet.

Modèle d’IA

Cette fonctionnalité prend en charge le modèle open-source LLaVa 1.6 ou l’API OpenAI.

28 « J'aime »

Drôle, je l’ai utilisé plus tôt dans ce post. J’ai été très impressionné. Il pouvait lire l’image et dire de quoi il s’agissait dans ce post

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 « J'aime »

Noté ceci sur le forum OpenAI

5 « J'aime »

Je ne sais pas comment nous faisons pour que les utilisateurs mobiles s’en souviennent, car ils doivent quitter l’éditeur.

Cette légende est-elle également utilisée comme texte alternatif ?

4 « J'aime »

Oui.

Nous prévoyons d’ajouter des rappels JIT dans un avenir proche si l’accueil est favorable.

7 « J'aime »

2 messages ont été divisées dans un nouveau sujet : Prise en charge de la personnalisation des invites dans DiscourseAI

Il peut voir la chemise à carreaux, mais il ne peut pas détecter George Costanza. :rofl:

Blague à part, c’est génial, surtout pour l’#accessibilité. Dans les précédents rapports A11Y, l’absence de texte alternatif sur les images est l’un des principaux points soulevés, et nous avions précédemment mis cela de côté car les images sont du contenu téléchargé par l’utilisateur. Ceci ouvre maintenant la voie à une bien meilleure accessibilité.

13 « J'aime »

En cas de messages d’erreur, existe-t-il un moyen de l’inciter à légender la partie principale de l’erreur afin que le moteur de recherche la prenne en compte ?

Quelques autres résultats

Il identifie correctement le troisième comme l’outil IBM EWM, mais ne reconnaît pas le 2 comme étant Rhapsody, et le 1 comme étant Vector Davinci. Néanmoins, ces légendes sont assez raisonnables.

5 « J'aime »

C’est une fonctionnalité géniale !

Mais elle est très difficile à trouver. L’utilisateur doit survoler l’image pour voir le bouton, puis cliquer dessus (et la plupart des gens ne le sauront pas). Même si je le savais et que je cherchais la fonctionnalité, j’ai dû regarder la vidéo pour comprendre qu’il fallait survoler. À mon avis, elle devrait être “bien en évidence” pour être utilisée au début. Je la ferais même créer les légendes par défaut, sans que l’utilisateur ait à cliquer sur quoi que ce soit :drevil:

7 « J'aime »

Nous rendrons éventuellement ces invites personnalisables, ce qui sera alors possible.

En tant que nouvelle fonctionnalité, notre idée est de l’introduire de manière très discrète pour recueillir des commentaires, puis de la rendre plus facile à trouver et même automatique.

10 « J'aime »

6 messages ont été déplacées vers un nouveau sujet : Problèmes de configuration des légendes d’images IA

Cela enverra le lien de l’image (Internet) au service d’IA, téléchargera le contenu de l’image ou exécutera un « hachage » localement dans Discourse ? Est-ce côté serveur ou JavaScript (c’est-à-dire exposer l’IP du client à un service externe).

3 « J'aime »

Il envoie un lien vers l’image au service que vous avez sélectionné pour la génération de légendes. Cela se produit côté serveur, car des informations d’identification sont impliquées.

Si vous souhaitez cette fonctionnalité mais ne voulez pas impliquer de tiers, vous pouvez toujours exécuter LLaVa sur votre propre serveur.

3 « J'aime »

D’accord, cependant la qualité pourrait en souffrir à cause des limitations matérielles. Peut-être pourriez-vous partager quelques recommandations concernant les tailles de modèles et la quantification ou la VRAM minimale d’après votre expérience. (pas sûr qu’ils aient des modèles quantifiés du tout, leur « zoo » semble n’avoir que des modèles complets).

2 « J'aime »

Nous exécutons le modèle complet, mais la plus petite version avec Mistral 7B. Il utilise 21 Go de VRAM sur nos serveurs A100 uniques et est exécuté via l’image de conteneur ghcr.io/xfalcox/llava:latest.

Malheureusement, l’écosystème des modèles multimodaux n’est pas aussi mature que celui des modèles text2text, nous ne pouvons donc pas encore exploiter les serveurs d’inférence comme vLLM ou TGI et devons nous contenter de ces microservices ponctuels. Cela pourrait changer cette année, le multimodal est sur la feuille de route de vLLM, mais d’ici là, nous pouvons au moins tester les eaux avec ces services.

5 « J'aime »

J’ai quelques petits commentaires UX à faire à ce sujet. Sur les petites images, le bouton « Capturer avec l’IA » bloque non seulement l’image elle-même, mais aussi d’autres textes dans la publication, ce qui rend difficile la révision de la publication lors de la modification.

3 « J'aime »
4 « J'aime »

Je vois que toutes les légendes générées (ici et sur mon site) commencent par « L’image contient » ou « Une image de » ou quelque chose de similaire. Cela semble inutile et redondant. Le prompt pourrait-il être mis à jour pour lui dire qu’il n’a pas besoin d’expliquer que l’image est une image ?

3 « J'aime »

C’est tellement difficile à affiner car différents modèles ont des tolérances différentes, mais un plan que nous avons est de permettre aux propriétaires de communautés de contrôler les consignes afin qu’ils puissent expérimenter.

5 « J'aime »

@mattdm Vous pouvez y parvenir simplement en pré-amorçant la réponse générée avec « Une image de ». De cette façon, le LLM pense qu’il a déjà généré l’introduction et ne générera que le reste.

2 « J'aime »