从 ActivityPub 联邦帖子中移除 HTML 代码

好的,这是一个潜在的边缘情况,但可能仍然很有趣。

使用 rss-polling 导入的帖子包含 HTML 代码。如果这些帖子被联合,大部分 HTML 代码会损坏并作为纯文本显示。

理想情况下,至少链接应该被翻译。但如果这太麻烦,至少应该删除 HTML 代码,只留下文本。

几张截图来说明这个问题:

通过 RSS 导入的 Discourse 主题:

在 Mastodon 上看起来是这样的:

我们为什么要联合通过 RSS 导入的帖子?用例是:我们是一个播客社区,我们通过 RSS 导入新剧集,供听众在一个地方点赞和评论,并且我们希望为这些播客提供一个通往 Fediverse 的窗口,在那里他们可能会获得更多的听众、评论和点赞——而无需给他们本已繁忙的日程增加更多工作。

1 个赞

为了方便您了解情况,当 ActivityPub 内容被联合(来自任何平台)时,它通常会以 HTML 的形式进行联合。我们将始终默认以 HTML 的形式联合 Discourse 帖子。

您可能需要的是一个自定义过滤器来处理 ActivityPub 内容。我们可能会在不久的将来添加该功能,但这是一个相对具体的使用场景,不在优先列表的前列。

1 个赞

我明白了。您认为我们可以尝试通过 Marketplace 来推广这个方案吗?这是一个特定的用例,但它完全影响到我们。

在#marketplace发个请求也许没坏处!

1 个赞

从他们发布的截图来看,这里几乎肯定存在某种错误,尽管我无法确定是 Mastodon 方面的问题还是 Discourse 方面的问题。

即使是最复杂的 HTML,在 Mastodon 解析时也应该只变成纯文本。而不是这里出现的这种损坏的 HTML 标记。

另外,当我从 https://socialhub.activitypub.rocks/t/remove-html-code-from-activitypub-federated-posts/5293 查看此帖子时,为什么图片丢失了?

不幸的是,我无法在 ActivityPub 中查看该主题以确定谁应该为此负责,服务器返回 406 Not Acceptable

curl -H 'Accept: application/activity+json' https://red.podkasts.org/t/el-canto-de-la-tripulacion-n-36-nuevas-voces/23408/1

在 Mastodon 中查找该对象也没有返回结果。

1 个赞

非常感谢 @nightpool 关注此事。我可以在我的 Mastodon 时间线上看到这篇帖子,因为我关注了该账号,但我不知道如何获取一个非 Discourse 上的原始帖子 的 URL。如果你愿意,可以 关注该 Actor,然后我可以为测试目的联合发布另一篇帖子。

无论如何,我计划很快将此请求提交给 #marketplace。

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.