Recurso de Legenda de Imagem AI no Plugin Discourse AI

Introduzimos um recurso de Legendas de Imagem por IA no plugin Discourse AI, permitindo a geração automática de legendas para imagens em postagens. Essa funcionalidade visa melhorar a acessibilidade do conteúdo e enriquecer os elementos visuais em sua comunidade.

Recursos e Uso

  • Legendas Automáticas por IA: Ao fazer upload de uma imagem no editor, você pode gerar uma legenda automaticamente usando IA.
  • Legendas Editáveis: A legenda gerada pode ser editada para se adequar melhor ao contexto e tom do seu conteúdo.
  • Acessibilidade Aprimorada: O recurso suporta a criação de conteúdo mais acessível para usuários que dependem de leitores de tela.

Como Usar

  1. Faça o upload de uma imagem no editor do Discourse.
  2. Clique no botão “Legendar com IA” próximo à imagem.
  3. Uma legenda gerada aparecerá, que você pode modificar.
  4. Aceite a legenda para incluí-la em sua postagem.

Feedback

Seu feedback é crucial para refinar este recurso. Ele está habilitado aqui no Meta, então, por favor, compartilhe suas experiências, problemas ou sugestões neste tópico.

Modelo de IA

Este recurso suporta o modelo de código aberto LLaVa 1.6 ou a API da OpenAI.

28 curtidas

Engraçado, eu usei mais cedo neste post. Fiquei muito impressionado. Ele conseguiu ler a imagem e dizer sobre o que era neste post

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 curtidas

Anotado isto no fórum da OpenAI

5 curtidas

Não sei como fazer com que os usuários de dispositivos móveis se lembrem de usá-lo, pois eles precisam sair do editor.

Essa legenda também é usada como texto alternativo?

4 curtidas

Sim.

Planejamos adicionar lembretes JIT em um futuro próximo, se a recepção for boa.

7 curtidas

2 posts foram divididos em um novo tópico: Suporte para personalização de prompts no DiscourseAI

Ele consegue ver a camisa xadrez, mas não consegue detectar o George Costanza. :rofl:

Brincadeiras à parte, isso é ótimo, especialmente para #acessibilidade. Em relatórios anteriores de A11Y (acessibilidade), a falta de texto alternativo em imagens é um dos principais itens levantados, e anteriormente descartamos tudo isso, já que imagens são conteúdo carregado pelo usuário. Isso agora abre um caminho para uma acessibilidade muito, muito melhor.

13 curtidas

Em caso de mensagens de erro, existe alguma maneira de incentivar a legenda da parte principal do erro para que o mecanismo de busca a capte?

Alguns outros resultados

Ele identifica corretamente o terceiro como a ferramenta IBM EWM, mas não reconhece o 2 como Rhapsody e o 1 como Vector Davinci. Mesmo assim, essas legendas são bastante razoáveis.

5 curtidas

Esta é uma funcionalidade incrível!

Mas é muito difícil de encontrar. O usuário precisa passar o mouse sobre a imagem para ver o botão e então clicar nele (e a maioria das pessoas não saberá disso).
Mesmo sabendo e procurando a funcionalidade, tive que verificar o vídeo para entender que preciso passar o mouse.
Na minha opinião, deveria estar “na cara” para ser usada no início. Eu até a faria criar as legendas por padrão, sem que o usuário precise clicar em nada :drevil:

7 curtidas

Eventualmente, tornaremos esses prompts personalizáveis, então isso será possível.

Como um novo recurso, nossa ideia é introduzi-lo de uma forma muito discreta para coletar feedback e, em seguida, torná-lo mais fácil de encontrar e até mesmo automático.

10 curtidas

6 posts foram divididos em um novo tópico: Problemas na configuração de legendas de imagens de IA

Isso enviará o link da imagem (da Internet) para o Serviço de IA, fará o upload do conteúdo da imagem ou executará algum “hashing” localmente no discourse? É do lado do servidor ou javascript (ou seja, expondo o IP do cliente a um serviço externo).

3 curtidas

Ele envia um link para a imagem para o serviço que você selecionou para a legendagem. Isso acontece no lado do servidor, pois há credenciais envolvidas.

Se você quiser o recurso, mas não quiser envolver terceiros, você sempre pode executar o LLaVa em seu próprio servidor.

3 curtidas

concordo, no entanto a qualidade pode sofrer com limitações de hardware. Talvez você possa compartilhar algumas recomendações em relação a tamanhos de modelo e quantização ou vram mínima de sua experiência. (não tenho certeza se eles têm modelos quantizados, o “zoo” deles parece ter apenas modelos completos).

2 curtidas

Estamos executando o modelo completo, mas a menor versão dele com Mistral 7B. Ele está consumindo 21 GB de VRAM em nossos servidores A100 únicos e é executado através da imagem de contêiner ghcr.io/xfalcox/llava:latest.

Infelizmente, o ecossistema para modelos multimodais não é tão maduro quanto os de texto para texto, então ainda não podemos aproveitar servidores de inferência como vLLM ou TGI e ficamos com esses microsserviços pontuais. Isso pode mudar este ano, o multimodal está no roteiro do vLLM, mas até lá podemos pelo menos testar as águas com esses serviços.

5 curtidas

Tenho um pequeno feedback de UX para isso. Em imagens pequenas, o botão “Capturar com IA” bloqueia não apenas a imagem em si, mas também outro texto na postagem, dificultando a revisão da postagem ao editar.

3 curtidas
4 curtidas

Estou vendo todas as legendas geradas (tanto aqui quanto no meu site) começarem com “A imagem contém” ou “Uma imagem de” ou algo semelhante. Isso parece desnecessário e redundante. O prompt poderia ser atualizado para dizer que não precisa explicar que a imagem é uma imagem?

3 curtidas

É muito complicado refinar porque modelos diferentes têm tolerâncias diferentes, mas um plano que temos é permitir que os proprietários da comunidade controlem os prompts para que possam experimentar.

5 curtidas

@mattdm Você pode conseguir isso simplesmente pré-semeando a resposta gerada com “Uma imagem de”. Desta forma, o LLM pensa que já gerou a introdução e gerará apenas o restante.

2 curtidas