Remover código HTML de posts federados do ActivityPub

Ok, este é um caso de canto potencial, mas talvez ainda interessante.

Posts importados com rss-polling contêm código HTML. Se esses posts forem federados, a maior parte do código HTML quebra e é exibida como texto simples.

Em um mundo ideal, pelo menos os links seriam traduzidos. Mas se isso for muito complicado, pelo menos seria bom remover o código HTML, deixando o texto.

Algumas capturas de tela para ilustrar o problema:

Tópico do Discourse importado via RSS:

É assim que aparece no Mastodon:

Por que estamos federando posts importados via RSS? O caso de uso é: somos uma comunidade de podcasts, importamos novos episódios via RSS para que os ouvintes curtam e comentem em um só lugar, e queremos oferecer a esses podcasts uma janela para o Fediverso, onde eles podem obter mais ouvintes, comentários e curtidas – sem adicionar mais trabalho em suas agendas lotadas.

1 curtida

Apenas para seu contexto, quando o conteúdo do ActivityPub é federado (de qualquer plataforma), ele é tipicamente federado como HTML. Sempre federaremos posts do Discourse como HTML por padrão.

O que você provavelmente quer é um filtro personalizado para conteúdo ActivityPub. Podemos adicionar isso em breve, no entanto, este é um caso de uso relativamente específico e não está no topo da lista de prioridades.

1 curtida

Entendo. Você acha que poderíamos tentar impulsionar isso pelo Marketplace? É um caso de uso específico, mas nos impacta totalmente.

Não faz mal tentar postar um pedido no Marketplace!

1 curtida

Olhando a captura de tela que eles postaram, ainda parece haver definitivamente algum tipo de bug aqui, embora eu não consiga dizer se é do lado do Mastodon ou do lado do Discourse.

Mesmo o HTML mais complexo deveria apenas se transformar em texto simples quando o Mastodon o analisa. Não essa marcação HTML quebrada que está acontecendo aqui.

Além disso, quando visualizo este tópico de https://socialhub.activitypub.rocks/t/remove-html-code-from-activitypub-federated-posts/5293, por que as imagens estão faltando?

Infelizmente, não consigo visualizar o tópico em si no ActivityPub para determinar quem é o culpado aqui, o servidor retorna 406 Not Acceptable:

curl -H 'Accept: application/activity+json' https://red.podkasts.org/t/el-canto-de-la-tripulacion-n-36-nuevas-voces/23408/1

E procurar o objeto no Mastodon também não retorna um resultado.

1 curtida

Muito obrigado @nightpool por investigar isso. Consigo ver a postagem na minha linha do tempo do Mastodon porque estou seguindo a conta, mas não sei como obter um URL que não seja a postagem original no Discourse. Se quiser, você pode seguir o ator e então posso federar outra postagem para fins de teste.

De qualquer forma, planejo enviar esta solicitação para o Marketplace em breve.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.