A busca deve corresponder a caracteres especiais com seu equivalente "regular"

Copiei e colei um título de tópico (como é exibido, com entidades especiais) na busca
New Lowe's commercial with UniGeezer

Sem resultado:

Substituí a aspa especial por uma “comum” no campo de busca:
New Lowe's commercial with UniGeezer

Agora o tópico aparece.

Minha sugestão é que a busca deve corresponder cada caractere especial ao original.

8 curtidas

Bom ponto, como devemos lidar com isso, @sam?

3 curtidas

E quanto aos diacríticos?

Já temos uma normalização para diacríticos, então talvez possamos corrigir isso de forma semelhante.

@tgxworld, pode pensar sobre isso.

3 curtidas

@Canapin Você ainda consegue reproduzir isso? Tentei reproduzir localmente, mas não consegui. O apóstrofo é removido dos dados de pesquisa, então não deveria ter nenhum efeito na busca.

discourse_development=# SELECT TO_TSVECTOR('english', 'New Lowe’s commercial with UniGeezer') @@ PLAINTO_TSQUERY('english', 'New Lowe’s commercial with UniGeezer');
 ?column? 
----------
 t
(1 row)

Você consegue me indicar o site onde está enfrentando esse problema para que eu possa obter uma reprodução? Obrigado!

1 curtida

Ainda tenho o problema, e ele ocorre quando procuro pela string exata (envolta por "):

https://unicyclist.com/search?q=%22New%20Lowe%E2%80%99s%20commercial%20with%20UniGeezer%22

vs

https://unicyclist.com/search?q=%22New%20Lowe%27s%20commercial%20with%20UniGeezer%22

1 curtida

Obrigado pelo relatório. Isso basicamente afeta a busca por termos exatos quando os termos de pesquisa estão entre aspas ("). O problema aqui é que o título real do tópico é New Lowe's commercial with UniGeezer, mas o título estilizado é New Lowe’s commercial with UniGeezer. Quando fazemos uma busca por termos exatos, estamos comparando os termos fornecidos apenas com o título do tópico e não com o título estilizado.

A dificuldade aqui é que não podemos simplesmente substituir por ' incondicionalmente, pois um título de tópico com deixaria de corresponder. Estou meio inseguro sobre o que podemos fazer, já que estamos exibindo caracteres diferentes no lado do cliente ao mostrar o título do tópico.

@gerhard @sam Parece que vocês já lidaram com esse problema de citações antes. Alguma ideia do que podemos fazer aqui? Para ser honesto, trata-se de um caso de borda que afetará uma parcela muito pequena das consultas de pesquisa. Tenho inclinação a apenas deixar isso de lado.

1 curtida

Isso não é motivo de riso! :stuck_out_tongue_winking_eye:

Acho que poderíamos normalizar para ' no índice e no termo de pesquisa. Mas, honestamente, não tenho certeza se vale a pena um esforço gigantesco para corrigir isso.

1 curtida

Isso não está relacionado ao índice de busca. Para correspondências exatas, fazemos a comparação com Post#raw e Topic#title:

1 curtida

Entendi, sim… não há uma solução fácil aqui, acho que é só um detalhe com o qual temos que conviver.

2 curtidas