Улучшение обрезки email (без обрезки в блоках кода)

ZLMarshall · 05.Август.2024 12:25:48

Я также открыл задачу на GitHub по этому поводу, но хотел разместить её и здесь, на случай если за этим следят больше людей:

github.com/discourse/email_reply_trimmer

Don't apply trimming within code blocks

opened 04:00PM - 18 Jul 24 UTC

zlmarshall

We're using a pretty standard setup of Discourse with email integration, and it …looks like even within code blocks the trimming rules are applied. So for example in an email containing: ``` # This should not be deleted # # Or trimmed # It is code #### Code code code ``` Everything below the first '#' is trimmed. That's a bit inconvenient, as many folks use comment markers to break sections of their code, sometimes even in multi-line strings for printing. Is there any chance this is a common enough issue that someone might have a moment to see if it could be improved? I've gotten as far as the regex where the matching happens, but I'm not sure how complex adding an exception for code blocks would be. Thanks, Zach

Мне кажется, было бы отлично, если бы логику обрезки писем можно было улучшить, чтобы избежать обрезки внутри блоков кода. Например, в письме, содержащем:

```
# Это не должно быть удалено
#
# Или обрезано
# Это код
####
Код код код
```

Всё, что находится ниже первой ‘#’, обрезается. Это немного неудобно, так как многие используют символы комментариев для разделения секций своего кода, иногда даже в многострочных строках для вывода. Также это имеет удобное свойство: если люди хотят скопировать-вставить вывод программы в письмо, и этот вывод включает такие строки, письмо не будет обрезано в этих местах, если вывод программы заключён в обратные кавычки. Есть ли шанс, что это достаточно распространённая проблема, и кто-то сможет уделить время и посмотреть, можно ли это улучшить? Я дошёл до регулярного выражения, где происходит сопоставление, но не уверен, насколько сложно будет добавить исключение для блоков кода.

Спасибо!

ZLMarshall · 16.Ноябрь.2024 00:13:19

Хорошо, мне пришлось немного изучить Ruby, но:

github.com/discourse/email_reply_trimmer

Allowing delimiters inside of code blocks (#22)

main ← zlmarshall:AllowDelimintersInCodeBlocks

closed 11:06PM - 28 Nov 24 UTC

zlmarshall

+81 -0

Addresses https://github.com/discourse/email_reply_trimmer/issues/21 and https:/…/meta.discourse.org/t/email-trimming-improvement-no-trimming-in-code-blocks/320159 Adds two new regex classes identifying opening and closing code blocks based on Discourse rules for code blocks as I understand them. Creates two new patterns for matching either of those code block patterns, and an additional pattern for matching both (since something like "```" will match both opening and closing block patterns). Allows delimiters within code blocks. Added a test case to show that it is indeed working as expected. No other test cases appear affected.

Обсуждение приветствуется!

zogstrip · 28.Ноябрь.2024 16:02:18

Чтобы мы говорили об одном и том же, позвольте мне переформулировать вашу проблему

Вам нужно корректно обрабатывать блоки кода с ограничителями в ответах по электронной почте, особенно если они содержат символ #, который часто используется как разделитель (подписи) и поэтому обрезается.

Например, если вы отправите такой ответ по электронной почте:

Вот мой патч

```
# Это комментарий
####

answer = 42
```

Выглядит ли это нормально?

Система должна быть достаточно «умной», чтобы распознавать, что строки между ``` — это настоящий код, и поэтому их следует «игнорировать» при обычной обработке.

Если это так, я бы порекомендовал другой подход. Возможно, лучше будет выносить все блоки кода из функции preprocess!, а затем вставлять их обратно.

Парсинг блоков кода с ограничителями с помощью регулярных выражений довольно сложен, но для достаточно хорошего решения этот метод должен сработать:

def hoist_code_blocks(text)
  blocks = {}
  pattern = /^```\w*$\n.*?^```$/m
  
  text.gsub(pattern) do |block|
    token = SecureRandom.hex
    blocks[token] = block
    token
  end

  [text, blocks]
end

Этот метод заменит все блоки кода случайным значением и сохранит соответствие между случайным значением и содержимым блока в хеше blocks.

Вы можете вызвать его так:

text = "some text\n```ruby\ndef foo\nend\n```\nmore text"
new_text, blocks = hoist_code_blocks(text)

А затем «восстановить» блоки кода следующим кодом:

blocks.each { |token, block| new_text.gsub!(token, block) }

ZLMarshall · 28.Ноябрь.2024 22:19:45

Спасибо за ответ! Да, вы правильно поняли проблему, с которой я столкнулся.

Я тоже думал о подобном решении и буду рад, если оно будет реализовано, при условии что оно работает и максимально точно воспроизводит поведение парсера в браузере. Например, в браузерном интерфейсе мне разрешены пробелы перед объявлением языка и после закрывающих тегов:

``` (много пробелов здесь) c++
int x=42;
``` (много пробелов здесь)

Это всё ещё корректно рендерится как:

int x=42;

В приведённом выше PR я попытался следовать правилам, которые смог выявить в парсере.

Ещё два вопроса по поводу вашей реализации: действительно ли это должно выполняться в preprocess!, чтобы блоки также передавались или хранились в классе EmailReplyTrimmer (и какой вариант предпочтительнее), и нет ли там ошибки? Дело в том, что возвращаемый там text идентичен исходному тексту без каких-либо замен (кажется, gsub возвращает итератор совпадений, но вы на самом деле не выполняете замену?).

В любом случае, я не против, если вы воспользуетесь тестом, добавленным в моём вышеупомянутом pull request, если предпочитаете добавить этот код в парсер самостоятельно. Или, если вы сообщите мне об указанных выше проблемах, я создам новый pull request. Вы абсолютно правильно определили проблему, и ваше решение выглядит близким к правильному, просто я не до конца уверен, как именно вы хотели бы его завершить.

Спасибо!

zogstrip · 28.Ноябрь.2024 22:39:09

Да, всё начинает усложняться… Это выполнимо, но всегда будут пограничные случаи, в отличие от использования настоящего парсера.

Также можно использовать более 3 символов ``, где 3 — это минимум

Вы также можете сделать это в функции trim, сразу после вызова preprocess!, и выполнить шаг «постобработки» ближе к концу.

Верно, это был в основном псевдокод

Вы, вероятно, можете использовать gsub! или сделать text = text.gsub....

ZLMarshall · 28.Ноябрь.2024 23:06:53

Отлично — я открыл новый PR здесь:

github.com/discourse/email_reply_trimmer

Alternate code block protection (#23)

main ← zlmarshall:HoistCodeBlocks

merged 03:18PM - 29 Nov 24 UTC

zlmarshall

+59 -17

Following further discussion at https://meta.discourse.org/t/email-trimming-i…mprovement-no-trimming-in-code-blocks/320159 Pulling code blocks out of the email to be trimmed completely, and then replacing them in a post-processing step. Added a test to demonstrate that this is working properly. Thanks to zogstrip for the help!

Ещё раз спасибо!

zogstrip · 30.Ноябрь.2024 15:15:42

Обновили версию в Discourse тоже

zogstrip · 02.Декабрь.2024 07:00:30

Эта тема была автоматически закрыта через 39 часов. Новые ответы больше не принимаются.

Тема		Ответов	Просм.
Email replies truncated at code fences with tildes Bug	1	767	03.03.2020
Disable indent code block for emails Feature	20	1930	29.04.2020
Content after a horizontal line in email replies is stripped? Bug	2	614	05.01.2022
Single quote block dropped in email reply Bug	7	1526	15.04.2020
Code blocks in emails have empty newlines Support	3	538	21.06.2022

Улучшение обрезки email (без обрезки в блоках кода)

Связанные темы