Introduzimos um recurso de Legendas de Imagem por IA no plugin Discourse AI, permitindo a geração automática de legendas para imagens em postagens. Essa funcionalidade visa melhorar a acessibilidade do conteúdo e enriquecer os elementos visuais em sua comunidade.
Recursos e Uso
Legendas Automáticas por IA: Ao fazer upload de uma imagem no editor, você pode gerar uma legenda automaticamente usando IA.
Legendas Editáveis: A legenda gerada pode ser editada para se adequar melhor ao contexto e tom do seu conteúdo.
Acessibilidade Aprimorada: O recurso suporta a criação de conteúdo mais acessível para usuários que dependem de leitores de tela.
Como Usar
Faça o upload de uma imagem no editor do Discourse.
Clique no botão “Legendar com IA” próximo à imagem.
Uma legenda gerada aparecerá, que você pode modificar.
Aceite a legenda para incluí-la em sua postagem.
Feedback
Seu feedback é crucial para refinar este recurso. Ele está habilitado aqui no Meta, então, por favor, compartilhe suas experiências, problemas ou sugestões neste tópico.
Modelo de IA
Este recurso suporta o modelo de código aberto LLaVa 1.6 ou a API da OpenAI.
Ele consegue ver a camisa xadrez, mas não consegue detectar o George Costanza.
Brincadeiras à parte, isso é ótimo, especialmente para #acessibilidade. Em relatórios anteriores de A11Y (acessibilidade), a falta de texto alternativo em imagens é um dos principais itens levantados, e anteriormente descartamos tudo isso, já que imagens são conteúdo carregado pelo usuário. Isso agora abre um caminho para uma acessibilidade muito, muito melhor.
Em caso de mensagens de erro, existe alguma maneira de incentivar a legenda da parte principal do erro para que o mecanismo de busca a capte?
Alguns outros resultados
Ele identifica corretamente o terceiro como a ferramenta IBM EWM, mas não reconhece o 2 como Rhapsody e o 1 como Vector Davinci. Mesmo assim, essas legendas são bastante razoáveis.
Mas é muito difícil de encontrar. O usuário precisa passar o mouse sobre a imagem para ver o botão e então clicar nele (e a maioria das pessoas não saberá disso).
Mesmo sabendo e procurando a funcionalidade, tive que verificar o vídeo para entender que preciso passar o mouse.
Na minha opinião, deveria estar “na cara” para ser usada no início. Eu até a faria criar as legendas por padrão, sem que o usuário precise clicar em nada
Eventualmente, tornaremos esses prompts personalizáveis, então isso será possível.
Como um novo recurso, nossa ideia é introduzi-lo de uma forma muito discreta para coletar feedback e, em seguida, torná-lo mais fácil de encontrar e até mesmo automático.
Isso enviará o link da imagem (da Internet) para o Serviço de IA, fará o upload do conteúdo da imagem ou executará algum “hashing” localmente no discourse? É do lado do servidor ou javascript (ou seja, expondo o IP do cliente a um serviço externo).
Ele envia um link para a imagem para o serviço que você selecionou para a legendagem. Isso acontece no lado do servidor, pois há credenciais envolvidas.
Se você quiser o recurso, mas não quiser envolver terceiros, você sempre pode executar o LLaVa em seu próprio servidor.
concordo, no entanto a qualidade pode sofrer com limitações de hardware. Talvez você possa compartilhar algumas recomendações em relação a tamanhos de modelo e quantização ou vram mínima de sua experiência. (não tenho certeza se eles têm modelos quantizados, o “zoo” deles parece ter apenas modelos completos).
Estamos executando o modelo completo, mas a menor versão dele com Mistral 7B. Ele está consumindo 21 GB de VRAM em nossos servidores A100 únicos e é executado através da imagem de contêiner ghcr.io/xfalcox/llava:latest.
Infelizmente, o ecossistema para modelos multimodais não é tão maduro quanto os de texto para texto, então ainda não podemos aproveitar servidores de inferência como vLLM ou TGI e ficamos com esses microsserviços pontuais. Isso pode mudar este ano, o multimodal está no roteiro do vLLM, mas até lá podemos pelo menos testar as águas com esses serviços.
Tenho um pequeno feedback de UX para isso. Em imagens pequenas, o botão “Capturar com IA” bloqueia não apenas a imagem em si, mas também outro texto na postagem, dificultando a revisão da postagem ao editar.
Estou vendo todas as legendas geradas (tanto aqui quanto no meu site) começarem com “A imagem contém” ou “Uma imagem de” ou algo semelhante. Isso parece desnecessário e redundante. O prompt poderia ser atualizado para dizer que não precisa explicar que a imagem é uma imagem?
É muito complicado refinar porque modelos diferentes têm tolerâncias diferentes, mas um plano que temos é permitir que os proprietários da comunidade controlem os prompts para que possam experimentar.
@mattdm Você pode conseguir isso simplesmente pré-semeando a resposta gerada com “Uma imagem de”. Desta forma, o LLM pensa que já gerou a introdução e gerará apenas o restante.