Recurso de Legenda de Imagem AI no Plugin Discourse AI

Falco · Fevereiro 20, 2024, 5:53pm

Introduzimos um recurso de Legendas de Imagem por IA no plugin Discourse AI, permitindo a geração automática de legendas para imagens em postagens. Essa funcionalidade visa melhorar a acessibilidade do conteúdo e enriquecer os elementos visuais em sua comunidade.

Recursos e Uso

Legendas Automáticas por IA: Ao fazer upload de uma imagem no editor, você pode gerar uma legenda automaticamente usando IA.
Legendas Editáveis: A legenda gerada pode ser editada para se adequar melhor ao contexto e tom do seu conteúdo.
Acessibilidade Aprimorada: O recurso suporta a criação de conteúdo mais acessível para usuários que dependem de leitores de tela.

Como Usar

Faça o upload de uma imagem no editor do Discourse.
Clique no botão “Legendar com IA” próximo à imagem.
Uma legenda gerada aparecerá, que você pode modificar.
Aceite a legenda para incluí-la em sua postagem.

Feedback

Seu feedback é crucial para refinar este recurso. Ele está habilitado aqui no Meta, então, por favor, compartilhe suas experiências, problemas ou sugestões neste tópico.

Modelo de IA

Este recurso suporta o modelo de código aberto LLaVa 1.6 ou a API da OpenAI.

frold · Fevereiro 20, 2024, 5:56pm

Engraçado, eu usei mais cedo neste post. Fiquei muito impressionado. Ele conseguiu ler a imagem e dizer sobre o que era neste post

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · Fevereiro 20, 2024, 6:10pm

Anotado isto no fórum da OpenAI

Jagster · Fevereiro 20, 2024, 6:18pm

Não sei como fazer com que os usuários de dispositivos móveis se lembrem de usá-lo, pois eles precisam sair do editor.

Essa legenda também é usada como texto alternativo?

Falco · Fevereiro 20, 2024, 6:21pm

Sim.

Planejamos adicionar lembretes JIT em um futuro próximo, se a recepção for boa.

Falco · Fevereiro 21, 2024, 5:00pm

2 posts foram divididos em um novo tópico: Suporte para personalização de prompts no DiscourseAI

pmusaraj · Fevereiro 20, 2024, 10:15pm

Ele consegue ver a camisa xadrez, mas não consegue detectar o George Costanza.

Brincadeiras à parte, isso é ótimo, especialmente para #acessibilidade. Em relatórios anteriores de A11Y (acessibilidade), a falta de texto alternativo em imagens é um dos principais itens levantados, e anteriormente descartamos tudo isso, já que imagens são conteúdo carregado pelo usuário. Isso agora abre um caminho para uma acessibilidade muito, muito melhor.

Tris20 · Fevereiro 21, 2024, 8:23am

Em caso de mensagens de erro, existe alguma maneira de incentivar a legenda da parte principal do erro para que o mecanismo de busca a capte?

Alguns outros resultados

Ele identifica corretamente o terceiro como a ferramenta IBM EWM, mas não reconhece o 2 como Rhapsody e o 1 como Vector Davinci. Mesmo assim, essas legendas são bastante razoáveis.

tpetrov · Fevereiro 21, 2024, 9:55am

Esta é uma funcionalidade incrível!

Mas é muito difícil de encontrar. O usuário precisa passar o mouse sobre a imagem para ver o botão e então clicar nele (e a maioria das pessoas não saberá disso).
Mesmo sabendo e procurando a funcionalidade, tive que verificar o vídeo para entender que preciso passar o mouse.
Na minha opinião, deveria estar “na cara” para ser usada no início. Eu até a faria criar as legendas por padrão, sem que o usuário precise clicar em nada

Falco · Fevereiro 21, 2024, 5:04pm

Eventualmente, tornaremos esses prompts personalizáveis, então isso será possível.

Como um novo recurso, nossa ideia é introduzi-lo de uma forma muito discreta para coletar feedback e, em seguida, torná-lo mais fácil de encontrar e até mesmo automático.

JammyDodger · Março 12, 2024, 9:36am

6 posts foram divididos em um novo tópico: Problemas na configuração de legendas de imagens de IA

ecki · Março 15, 2024, 12:41pm

Isso enviará o link da imagem (da Internet) para o Serviço de IA, fará o upload do conteúdo da imagem ou executará algum “hashing” localmente no discourse? É do lado do servidor ou javascript (ou seja, expondo o IP do cliente a um serviço externo).

Falco · Março 15, 2024, 1:12pm

Ele envia um link para a imagem para o serviço que você selecionou para a legendagem. Isso acontece no lado do servidor, pois há credenciais envolvidas.

Se você quiser o recurso, mas não quiser envolver terceiros, você sempre pode executar o LLaVa em seu próprio servidor.

ecki · Março 15, 2024, 3:33pm

concordo, no entanto a qualidade pode sofrer com limitações de hardware. Talvez você possa compartilhar algumas recomendações em relação a tamanhos de modelo e quantização ou vram mínima de sua experiência. (não tenho certeza se eles têm modelos quantizados, o “zoo” deles parece ter apenas modelos completos).

Falco · Março 15, 2024, 3:46pm

Estamos executando o modelo completo, mas a menor versão dele com Mistral 7B. Ele está consumindo 21 GB de VRAM em nossos servidores A100 únicos e é executado através da imagem de contêiner ghcr.io/xfalcox/llava:latest.

Infelizmente, o ecossistema para modelos multimodais não é tão maduro quanto os de texto para texto, então ainda não podemos aproveitar servidores de inferência como vLLM ou TGI e ficamos com esses microsserviços pontuais. Isso pode mudar este ano, o multimodal está no roteiro do vLLM, mas até lá podemos pelo menos testar as águas com esses serviços.

seanblue · Março 21, 2024, 10:34pm

Tenho um pequeno feedback de UX para isso. Em imagens pequenas, o botão “Capturar com IA” bloqueia não apenas a imagem em si, mas também outro texto na postagem, dificultando a revisão da postagem ao editar.

Moin · Março 21, 2024, 10:55pm

mattdm · Abril 12, 2024, 1:59pm

Estou vendo todas as legendas geradas (tanto aqui quanto no meu site) começarem com “A imagem contém” ou “Uma imagem de” ou algo semelhante. Isso parece desnecessário e redundante. O prompt poderia ser atualizado para dizer que não precisa explicar que a imagem é uma imagem?

sam · Abril 17, 2024, 3:20am

É muito complicado refinar porque modelos diferentes têm tolerâncias diferentes, mas um plano que temos é permitir que os proprietários da comunidade controlem os prompts para que possam experimentar.

Isambard · Junho 3, 2024, 5:11pm

@mattdm Você pode conseguir isso simplesmente pré-semeando a resposta gerada com “Uma imagem de”. Desta forma, o LLM pensa que já gerou a introdução e gerará apenas o restante.

Tópico		Respostas	Visualizações
Helper - Auto caption Site Management how-to , ai , ai-captions	9	256	2 de Setembro de 2025
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	6	225	12 de Agosto de 2024
Issues configuring AI image captions Support ai , ai-helper	21	693	12 de Abril de 2024
Non-AI method of captioning images Support	3	166	21 de Junho de 2024
Lets see your best AI Image Caption! General ai , ai-helper , ai-captions	38	2223	29 de Junho de 2024

Recurso de Legenda de Imagem AI no Plugin Discourse AI

Recursos e Uso

Como Usar

Feedback

Modelo de IA

Tópicos relacionados