le Sam 1 Oct 2011 04:06
oui effectivement, dans ce sens la, c'est dur a détecter.
mais mois je pensez plutot uniquement sur des mots très ciblé et péjoratif.
spam, spammer, pub, etc... qui détecte un faible tau de spam.
Un exemple plutot qu'un long discourt :
si l'on pose comme hypothèse (chiffres bidons) que sur 100 discutions
80 sont bonnes.
et que 20 sont des spam.
et que l'on fait un algo qui détecte du "spam" par simple analyse fréquentielle (il y-a plus efficace comme algo). disons que cet algo trouve 20% de spam et il a raison une fois sur 2
on supprime ce "spam" (ou 10% de spam avec 2/3 de réussite, on peut prendre tout autre chiffres en écrivant l'algo, le tau d'erreur est fonction du réglage du seuil de détection du spam)
Au final on a gardé dans l'index que 80 discutions au lieu des 100 initiale
ce n'est plus 20 spam/100 => 20%
mais 10/80 => 12%
Alors effectivement il auras beaucoup de raté (il détecte que 50% du spam et déclare a tort un nombre assez important de sujet en spam).
Mais malgres les manqué et dommage collatéraux, l'objectif est tout de même remplis on passe de 20% de spam dans l'index à 12%.
n°1 : Essayez SEO Soft, le logiciel de référencement open source