Experimentos com moderação baseada em IA no Discourse Meta

Observando a diferença entre estes prompts:

Julgue TODAS as postagens, se uma postagem não exigir moderação, use a prioridade de ignorar.

Julgue TODAS as postagens com um olhar cético. Use apenas a prioridade “ignorar” para contribuições com valor claro e autêntico. Em caso de dúvida sobre o valor ou autenticidade de uma postagem, atribua pelo menos uma prioridade “baixa” para revisão humana.

Penso que é importante lembrar o grande viés de recência nos modelos - talvez todas as palavras de comando devam ser mencionadas em prosa perto do final, em ordem inversa de frequência desejada.

1 curtida