Experimentamos com Discourse Google Perspective API, mas encontramos problemas semelhantes aos descritos no artigo que você linkou… a ferramenta teve dificuldades com linguagem mais matizada e, às vezes, classificava como ofensiva linguagem que não era ofensiva… e esses falsos positivos podem ser ofensivos por si só!
No entanto, os testes iniciais do Twitter enfrentaram alguns problemas. Descobriu-se que seus sistemas e algoritmos às vezes tinham dificuldade em entender a nuance presente em muitas conversas. Por exemplo, nem sempre conseguia diferenciar entre respostas ofensivas, sarcasmo ou, às vezes, até mesmo brincadeiras amigáveis. Também teve dificuldade em considerar situações em que a linguagem está sendo ressignificada por comunidades sub-representadas e, em seguida, usada de formas não prejudiciais.