Melhoria no corte de e-mail (sem corte em blocos de código)

ZLMarshall · Agosto 5, 2024, 12:25pm

Também abri um problema no GitHub sobre isso, mas queria postar aqui também caso mais pessoas estejam acompanhando:

github.com/discourse/email_reply_trimmer

Don't apply trimming within code blocks

opened 04:00PM - 18 Jul 24 UTC

We're using a pretty standard setup of Discourse with email integration, and it …looks like even within code blocks the trimming rules are applied. So for example in an email containing: ``` # This should not be deleted # # Or trimmed # It is code #### Code code code ``` Everything below the first '#' is trimmed. That's a bit inconvenient, as many folks use comment markers to break sections of their code, sometimes even in multi-line strings for printing. Is there any chance this is a common enough issue that someone might have a moment to see if it could be improved? I've gotten as far as the regex where the matching happens, but I'm not sure how complex adding an exception for code blocks would be. Thanks, Zach

Acho que seria ótimo se a lógica de corte de e-mail pudesse ser aprimorada para evitar cortes dentro de blocos de código. Por exemplo, em um e-mail contendo:

```
# Isso não deve ser excluído
#
# Ou cortado
# É código
####
Código código código
```

Tudo abaixo do primeiro ‘#’ é cortado. Isso é um pouco inconveniente, pois muitas pessoas usam marcadores de comentário para dividir seções de seu código, às vezes até em strings de várias linhas para impressão. Também tem o recurso conveniente de que, se as pessoas quiserem copiar e colar a saída do programa em um e-mail e essa saída incluir tais linhas, o e-mail não será cortado nelas se a saída do programa estiver entre aspas. Existe alguma chance de que este seja um problema comum o suficiente para que alguém possa ter um momento para ver se ele pode ser aprimorado? Cheguei até a expressão regular onde a correspondência acontece, mas não tenho certeza de quão complexo seria adicionar uma exceção para blocos de código.

Obrigado!

ZLMarshall · Novembro 16, 2024, 12:13am

Ok, tive que aprender um pouco de Ruby, mas:

github.com/discourse/email_reply_trimmer

Allowing delimiters inside of code blocks

main ← zlmarshall:AllowDelimintersInCodeBlocks

opened 12:12AM - 16 Nov 24 UTC

zlmarshall

+81 -0

Addresses https://github.com/discourse/email_reply_trimmer/issues/21 and https:/…/meta.discourse.org/t/email-trimming-improvement-no-trimming-in-code-blocks/320159 Adds two new regex classes identifying opening and closing code blocks based on Discourse rules for code blocks as I understand them. Creates two new patterns for matching either of those code block patterns, and an additional pattern for matching both (since something like "```" will match both opening and closing block patterns). Allows delimiters within code blocks. Added a test case to show that it is indeed working as expected. No other test cases appear affected.

Discussão é bem-vinda!

zogstrip · Novembro 28, 2024, 4:02pm

Só para termos certeza de que estamos na mesma página, deixe-me reformular seu problema para que estejamos falando sobre a mesma coisa

Você quer a capacidade de lidar corretamente com blocos de código cercados em respostas de e-mail, especialmente se eles incluírem o símbolo #, que é frequentemente usado como um delimitador (de assinatura) e, portanto, cortado.

Portanto, se você fosse enviar a seguinte resposta de e-mail

Aqui está o meu patch

```
# Este é um comentário
####

resposta = 42
```

Parece bom?

Ele deveria ser “inteligente” o suficiente para reconhecer que as linhas entre o ``` são código real e, portanto, devem ser “ignoradas” do processamento regular.

Se for esse o caso, eu recomendaria uma solução/abordagem diferente. Pode ser melhor “elevar” todos os blocos de código na função preprocess! e injetá-los de volta depois.

Blocos de código cercados são um tanto difíceis de analisar corretamente usando uma regex, mas para uma solução boa o suficiente, isso deve funcionar

def hoist_code_blocks(text)
  blocks = {}
  pattern = /^```\\w*$\\n.*?^```$/m
  
  text.gsub(pattern) do |block|
    token = SecureRandom.hex
    blocks[token] = block
    token
  end

  [text, blocks]
end

Este método substituirá todos os blocos de código por um valor aleatório e manterá o controle do mapeamento entre o valor aleatório e o conteúdo do bloco no hash blocks.

Você pode chamá-lo assim

text = "algum texto\n```ruby\ndef foo\nend\n```\nmais texto"
new_text, blocks = hoist_code_blocks(text)

E então você pode “restaurar” os blocos de código com o seguinte código

blocks.each { |token, block| new_text.gsub!(token, block) }

ZLMarshall · Novembro 28, 2024, 10:19pm

Obrigado pela resposta! Você entendeu corretamente o problema que estou tendo, sim.

Eu também pensei em fazer algo assim, e ficaria feliz em ter isso implementado se estiver funcionando e corresponder ao comportamento do analisador no navegador o mais próximo possível. Por exemplo, na interface do navegador, é permitido espaço em branco antes da declaração da minha linguagem e espaço em branco após o fechamento:

int x=42;<br>
```         (muitos espaços aqui)

Ainda renderiza corretamente como:
```                    c++
int x=42;

No PR acima, tentei seguir as regras que pude identificar no analisador.

As outras duas perguntas que eu faria sobre sua implementação são se isso realmente deveria ser feito em preprocess!, para que os blocos também tenham que ser passados ou mantidos pela classe EmailReplyTrimmer (e qual seria preferível), e se pode haver um bug lá, porque o text que é retornado lá é o mesmo que o texto original, sem nenhuma substituição feita (aparentemente gsub retorna um enumerador das correspondências, mas você não está realmente fazendo a substituição aqui?).

Em qualquer caso, ficarei feliz se você usar o teste que foi adicionado no meu pull request acima, se você preferir adicionar este código ao analisador você mesmo, ou se você me informar sobre os dois problemas acima, posso criar um novo pull request. Você entendeu o problema perfeitamente, e parece que sua solução está próxima, só não tenho certeza de como você gostaria que fosse finalizada.

Obrigado!

zogstrip · Novembro 28, 2024, 10:39pm

Sim, está começando a ficar complicado… É factível, mas sempre haverá casos extremos em comparação com um analisador real.

Você também pode ter mais de 3 \ , sendo 3 o mínimo

Você também pode fazer isso na função trim, logo após a chamada de preprocess! e fazer a etapa de “pós-processamento” no final.

Certo, aquilo foi principalmente pseudo-código

Você provavelmente pode usar gsub! ou fazer text = text.gsub....

ZLMarshall · Novembro 28, 2024, 11:06pm

Ok, ótimo — Abri um novo PR aqui:

Obrigado novamente!

zogstrip · Novembro 30, 2024, 3:15pm

Bumped a versão no Discourse também

zogstrip · Dezembro 2, 2024, 7:00am

Este tópico foi automaticamente fechado após 39 horas. Novas respostas não são mais permitidas.

Tópico		Respostas	Visualizações
Email replies truncated at code fences with tildes Bug	1	770	3 de Março de 2020
Disable indent code block for emails Feature	20	1941	29 de Abril de 2020
Content after a horizontal line in email replies is stripped? Bug	2	615	5 de Janeiro de 2022
Single quote block dropped in email reply Bug	7	1530	15 de Abril de 2020
Code blocks in emails have empty newlines Support	3	545	21 de Junho de 2022

Melhoria no corte de e-mail (sem corte em blocos de código)

Tópicos relacionados