Links broken with (at least) two underscores in URL

i don’t know if this is an issue regarding Discourse exactly or if it’s coming from twitter API but I wanted to share this little bug, when we share a tweet from a account that has a underscore in its username, the link is broken on Discourse, here is an example :

https://twitter.com/_miss_ives_/status/923667180201414658
https://twitter.com/miss_ives/status/923667180201414658


Another example

https://twitter.com/_FARTIGAS_/status/914070638561767425
https://twitter.com/FARTIGAS/status/914070638561767425

when it’s not coming from twitter, a link with underscore works fine :

http://www.sqlite.org/lang_update.html

Put angle brackets on either side of the link. <like this>

That prevents oneboxing though. The link works, but it won’t onebox.
<https://twitter.com/_miss_ives_/status/923667180201414658>
https://twitter.com/_miss_ives_/status/923667180201414658

1 „Gefällt mir“

Then it’s something @sam will have to add to his list for later. In the meantime, replace the underscore with the URL-encoded version of the character.

I’ll leave that as an excercise for the reader…

4 „Gefällt mir“

It’s pretty rare so that’s not a hurry at all. No worry

I tried with %5F and works perfectly, that’ll do it nicely for now.

Thanks!

5 „Gefällt mir“

@Vitaly Is this issue something you would like reported to markdown.it for linkify ?

( https://twitter.com/_miss_ives_/status/923667180201414658 not auto linking )

I am not sure we can even fix this properly cause we would have to push linkify forward in the pipeline?

Especially since this is default CommonMark http://spec.commonmark.org/dingus/?text=https%3A%2F%2Ftwitter.com%2F_miss_ives_%2Fstatus%2F923667180201414658 @codinghorror

That’s a known issue:

https://github.com/markdown-it/markdown-it/issues/38

It’s possible to fix, but not easy. Workaround available.

Correct solution is to make linkifier part of tokenizer process. That’s expensive (for example, email lookahead check for every character). Tradeoff is to listen : then do look behind for http(s), and lookahead for the rest. That’s not universal, but will cover all real cases:

  • http/https links will be parsed with other tokens, with higher priority than emphasis
  • everything else will be detected via text scan & regexps (as linkifier works now), probability of collision is very low.

I have no plans to do this, but if anyone wish to implement - see explanation above. Or use < > :slight_smile:

9 „Gefällt mir“

Könnten wir dies beheben, indem wir die Arbeit in unserem Einfüge-Handler erledigen und, wenn wir eine URL einfügen, Unterstriche im Query-String prozentual kodieren?

5 „Gefällt mir“

Das Hantieren mit der Zwischenablage führt immer zu Tränen.

@Vitaly, ich bin neugierig, ob Sie sich in letzter Zeit mit diesem Problem befasst haben? In diesem Fall ist es der https://...-Linker.

Ich schätze, die richtige Reihenfolge in der Engine und die Minimierung der Kosten sind hier ein Albtraum.

1 „Gefällt mir“

Ich stimme nicht zu; https:// ist eine SO seltene Zeichenfolge, dass ich denke, das Herumspielen ist normalerweise ziemlich sicher.

(Außer in Codeblöcken, also gibt es das, aber wenn die Zwischenablage NUR EINE URL ist, dann ist sie meiner Meinung nach ziemlich sicher. Wenn Sie also einen Anker von „beginnt mit https://“ hätten, kann ich mit 99,99 %iger Sicherheit garantieren, dass er sicher ist.)

1 „Gefällt mir“