Profitez des offres Memoirevive.ch!
Dites adieu au spam grâce à Spam Sieve

WOW - Free Sony DVD Player
Is your phone bill too high?
Meet Other Singles Just Like You
Get four DVDs for 49 cents each plus shipping and processing
totally nasty porn site
Turn 10 seconds into $6,000 a month!!!!!

Pas besoin d’aller plus loin… Vous avez sans doute compris: les lignes qui précèdent sont des sujets d’emails que j’ai reçu dernièrement.

Contre les spams, ou courriers électroniques non sollicités, il n’y a pas cinquante armes. On peut ne donner son adresse qu’à des personnes que l’on connaît personnellement, et ne jamais l’utiliser en ligne, ni s’inscrire à quelque site Web que ce soit.

Pas facile, je vous l’accorde. Et cliquer sur le bouton « unsubscribe » ne sert qu’à prouver que l’adresse en question est active, ce qui multiplie le nombre de messages non sollicités reçus. Dans un élan de naïveté, il y a plusieurs mois, je me suis laissé prendre par ces boutons "désinscrire", et le résultat est là: je reçois maintenant autour de 40 emails publicitaires par jours.

En fin de compte, on se rend vite compte qu’il est pratiquement impossible de ne pas recevoir de messages de ce genre. On peut juste se défendre contre leur invasion.

Pour cela, beaucoup de gens utilisent les outils intégrés aux applications de courrier électronique. En effet, Entourage et Apple Mail possèdent chacun leur "Filtre de courrier indésirable".

Eudora, pour sa part, propose de repérer d’un drapeau les messages au contenu "potentiellement offensif", et ceci autant dans les emails entrants que sortants. Cette dernière fonctionnalité n’est pas, à mon avis, une protection réelle contre le spam, et la protection intégrée à Entourage ressemble plus à une bonne blague qu’à un réel bouclier anti-spam.

Autre façon de se défendre contre ces messages indésirables, les règles peuvent aider l’utilisateur. À condition d’être configurées avec intelligence et malice. En effet, effacer tous les messages contenant "sex" ne servira pas à être tranquille. Les expéditeurs de spams ne sont pas si bêtes et nombreux sont les emails contenant plutôt "s e x" que la première écriture.

Un seul mailer peut, aujourd’hui, prétendre avoir une protection réellement puissante contre les spams. Il s’agit de logiciel Mail de Apple. Ce logiciel n’est sans doute pas le meilleur programme de gestion des emails existant sur notre plateforme, mais il possède l’un des outils les plus puissants contre les emails indésirables.

Spam Sieve propose d’ajouter l’outil de protection contre le spam du mailer d’Apple à d’autres logiciels. À vrai dire, c’est la méthode utilisée par Mail que Spam Sieve reprend. Cette mise à jour du test de SpamSieve concerne la version 2.1.4. J'avais avant testé une version 1.x, puis la 2.0.1. Cela dit, les nouveautés des dernières versions valent une mise à jour de cet article.

 


Icône explicite…

 

Installation

Le logiciel est téléchargé et décompressé. On n'obtient alors plus, comme par le passé, l'application et ses dossiers, contenant les éléments à installer pour chaque logiciel de mails. Désormais, l'image disque ne contient plus que l'application et son read me.

Pour Entourage, Apple Mail et Eudora, il suffit d'aller dans le menu Fichier de SpamSieve, et de choisir l'option qui convient pour que ce dernier installe automatiquement les scripts là où il le faut, dans les dossiers utilisateurs des mailers.

Pour les autres logiciels compatibles avec SpamSieve (soit Mailsmith, Claris Emailer, Outlook Express et PowerMail), une option dans le même menu affiche un dossier contenant les scripts, qui doivent être déplacés manuellement dans les bons dossiers.

Il faut ensuite, et enfin, créer une règle qui appliquera à tous les emails entrants le script de vérification de SpamSieve. Par exemple, dans Entourage, cette règle se présente comme suit:

 


Pas bien compliqué en somme…

 

Seule astuce: laisser la règle de SpamSieve agir après toutes les autres règles qui, par exemple, séparent les messages reçus de mailing lists, ou les notifications provenant de forums.

 

Fonctionnement de SpamSieve

Avant d’expliquer l’utilisation de Spam Sieve, je souhaite vous donner une idée de sa façon de procéder.

Le problème, lorsque l’on cherche à identifier des messages non sollicités, c’est que si l’on construit des règles trop strictes, des faux positifs se glissent parmi les messages identifiés comme indésirables.

Les faux positifs sont des messages désirés, mais montrés par les règles comme du spam. Et pour moi, des messages que je souhaite recevoir, mais identifiés comme étant du spam sont largement pires que des emails non sollicités qui atterrissent dans ma boîte de réception.

Voici donc la stratégie de Spam Sieve pour identifier les messages indésirables.

Une fenêtre appelée Corpus est composée d’éléments qui ont été scannés dans des emails. Ces éléments sont comptés, et marqués suivant s’ils proviennent soit de messages spams, soit de messages sollicités. Une probabilité d’appartenir à un message indésirable est alors calculée.

 


La fenêtre du Corpus…

 

Lorsque l’on reçoit un message, ses éléments (mots, tags HTML, en-tête…) sont scannés par Spam Sieve, et sont ensuite comparés à ceux présents dans le Corpus.

Si la probabilité de provenir de messages spam des éléments contenus dans l’email est grande, ce dernier est identifié comme indésirable.

Cette dernière probabilité est calculée à partir des probabilités individuelles des éléments du mail reçu, et à l’aide de la formule de Bayes. Cette formule permet de prendre en compte un grand nombre d’éléments, et de donner une réponse précise quant au risque d’être face à un message non sollicité.

Dans cette nouvelle version, le Corpus a été passablement revu. Il est maintenant très rapide, autant lors de son chargement que, et c'est bien là le plus important, lorsqu'il vérifie les emails entrants. Ce Corpus est également modifiable. Il est donc possible de changer manuellement les occurrences d'un mot, soit pour augmenter sa présence dans les mails non sollicités, soit au contraire pour faire pencher la balance de l'autre côté. À chaque modification, la probabilité associée à ce mot est revue, et les mails reçus seront filtrés par SpamSieve suivant ces nouvelles règles.

 

Entraîner Spam Sieve

Oui, vous avez bien lu ! La première chose à faire, c’est de remplir le Corpus. Il faut alors sélectionner environs 500 ou 600 emails que l’on a reçus et qui ne sont pas indésirables, et environs le même nombre de messages non sollicités.

Spam Sieve, le logiciel contient un Corpus prérempli, pour aider les utilisateurs qui n’ont que peu de messages enregistrés. Évidemment, il n’est pas indispensable d’avoir autant de messages à envoyer en pâture à Spam Sieve pour qu’il soit performant. Mais il ne tournera à plein régime que lorsqu’il se sera réellement imprégné des habitudes de l’utilisateur.

Dans les mailers, il suffit alors de sélectionner les messages et d’appliquer le script correspondant.

 


La liste des scripts… dans le programme Entourage

 

Spam Sieve va alors construire un Corpus qui est propre à l’utilisateur. Cette étape est un petit peu fastidieuse, mais il est important de comprendre que Spam Sieve s’adapte à tous les utilisateurs. C’est d’ailleurs l’un de ses points forts : c’est vos emails qui vont décider du comportement du logiciel.

Il est également possible de laisser SpamSieve s'entraîner tout seul. Il va alors ajouter au Corpus les emails reçus, suivant les catégories qu'il leur assigne. Il est alors impératif de corriger le logiciel s'il commet une erreur, pour éviter qu'il ne la commette à chaque fois.

Lorsque le logiciel indique un email sollicité comme étant indésirable, un autre script peut être lancé, afin de montrer lui montrer à Spam Sieve son erreur et d’insérer ce message dans le Corpus pour affiner le tri. Un script existe aussi pour la situation inverse, soit un message non sollicité qui aurait atterri dans la boîte de réception. Spam Sieve inclu également un système de reconnaissance des emails, qui permet de ne pas ajouter deux fois un même message, et par là même biaiser les mesures statistiques. Lorsqu'un message doit être marqué comme spam et que, par erreur, il est marqué comme message souhaité, il suffit de lancer le script "Ajouter Spam" pour que Spam Sieve annule le dernier ajout comme mail souhaité et ajoute le mail parmi les messages spam.

Spam Sieve rempli également deux listes d’adresses email. La première, la liste blanche, contient toutes les adresses de gens dont les messages doivent être automatiquement acceptés. Chaque fois que l’utilisateur signale un message comme "non-spam", l’adresse de l’expéditeur est ajoutée à cette liste. Inversement, la liste noire contient tous les expéditeurs d’emails déclarés « spam » par l’utilisateur ou par le logiciel.

Pour rendre ces listes encore plus utiles, Spam Sieve fait également un lien avec le Carnet d’Adresse de Mac OS X. Les emails provenant de personnes inscrites par l’utilisateur à son Carnet d’Adresses seront automatiquement acceptés.

Avec la nouvelle version, SpamSieve propose d'ajouter automatiquement le Carnet d'adresses d'Entourage. Intelligent qu'il est, il ajoute systématiquement les adresses trouvées dans le logiciel de Microsoft à la fin de la liste blanche. Ainsi, les divers utilisateurs d'Entourage profitent tous de l'ajout de leurs contacts à la liste blanche.

Puisque l'on parle de cette liste blanche, et de son ombre la liste noire, sachez qu'il est maintenant possible de modifier manuellement les occurrences de ces deux listes. Comme pour la modification du Corpus, l'auteur de SpamSieve permet maintenant à l'utilisateur d'aller plus loin dans la maîtrise du logiciel, et c'est tant mieux !

Option un peu naïve, mais apparemment utile, SpamSieve propose de définir comme spam tous les messages contenant les caractères ADV dans le sujet. Il va de soit que cette option ne sert à rien toute seule, puisque les spammers ont compris depuis bien longtemps qu'il n'est pas dans leur intérêt d'ajouter un préfixe publicitaire à leurs envois.

Ainsi, peu à peu, Spam Sieve devient de plus en plus vigilant et précis dans l’identification de messages indésirables. Il apprend de ces erreurs en corrigeant les probabilités de chaque élément du Corpus.

L'entraînement du logiciel peut paraître fastidieux, mais il n'en est rien. Rapidement, SpamSieve devient très performant, et l'on passe alors volontiers quelques minutes de temps en temps pour corriger les éventuelles (et rares !) erreurs. Pour guider l'utilisateur dans cette tâche, SpamSieve fait maintenant apparaître un message, au lancement, qui indique quelle serait la meilleure stratégie à suivre pour l'utilisateur. Ainsi, ces temps le logiciel me fait remarquer que mon Corpus contient trop de description de messages non sollicités, et qu'un ratio plus équilibré entraînera de meilleurs résultats. Je signale donc plus souvent les emails sollicités à SpamSieve, pour qu'il en prenne note.

Dans les faits

Comme je l'ai expliqué, il suffit de créer une règle dans le logiciel de mail qui va, pour tous les messages entrants, appliquer le script de vérification de SpamSieve. Dans le cas où le message est identifié comme indésirable, ce script va seulement lui attribuer la catégorie Junk.

Alternativement, un autre script permet de déplacer le message vers un dossier Junk. Le message identifié comme spam n'est alors pas laissé dans la boîte de réception, comme avec le script précédant, mais déplacé vers un dossier à part. Spam Sieve peut créer lui-même le dossier de spam si celui-ci n'existe pas.

Dans le logiciel lui-même, plusieurs fenêtres sont disponibles:

Tout d’abord le fameux Corpus. On y trouve les mots tirés de nos messages, ainsi que les probabilités calculées.

Puis la fenêtre des statistiques. Elle affiche le nombre de messages (souhaités ou pas) reçus, ainsi que des informations concernant la précision de Spam Sieve. Enfin, le nombre de mots contenus dans le Corpus figure en bas de cette fenêtre.

 


Informations chiffrées sur Spam Sieve…

 

Une option appelée Nettoyer le Corpus permet de faire subir une cure d’amincissement au Corpus. Spam Sieve va alors éliminer les mots qui lui sont les moins utiles, ou ceux qui n'ont pas été utilisés depuis un certain temps. Il est alors évident que l’utilisateur cours le risque de baisser la précision du logiciel. Toutefois, cette opération permet de diminuer le temps de chargement du logiciel. En effet, lors du premier appel à Spam Sieve par l’un des scripts, le logiciel se lance de lui-même. Le temps de chargement est alors directement proportionnel à la taille du Corpus. Avec cette nouvelle version, les temps de chargements ont passablement baissé. La fonction Nettoyer le Corpus ne saurait plus être utilisée dans ce but, mais éventuellement pour remettre Spam Sieve sur les rails en cas de déviation dans le tri des emails. C’est une utilité que je ne fais que supposer, n’ayant jamais eu de problèmes de ce type avec ce logiciel.

Spam Sieve propose également un log de toutes les actions qu'il a mené. Tous les messages filtrés ou ajoutés au Corpus sont inclus dans un fichier que le logiciel va créer à la volée. Celui-ci est de la forme suivante:

 

Predicted: Spam
Subject: FREE Grinder + Sample the freshest coffee you will ever taste.
Identifier: TL7qRNJTe1ArGO+SPsBScQ==
Interesting Words: www.1stoffers.com(0.990), 1stoffers.com(0.990), content-transfer-encoding(0.990), unsubscribe.php(0.990), lovers(0.990), laws(0.990), mailings(0.990), P(spam)=1.000
Date: 2002-11-24 14:02:47

 

On voit la conclusion de Spam Sieve, le sujet de l'email reçu ainsi que les mots qui ont mené le logiciel à supposer que le message reçu soit un spam.

Autre fonction intéressante de Spam Sieve, la notification de l’arrivée de messages. Cela peut sembler inutile mais à l’usage, on remarque qu’il est gênant d’entendre son logiciel de mail sortir son "gling-gling" pour nous attirer vers lui, juste pour remarquer que deux emails publicitaires sont arrivés. Il est possible de laisser les notifications au logiciel, et donc de n’être averti que lorsque des messages désirés font leur arrivée.

 


L'icône de Spam Sieve dans le Dock

 

En cas de protection trop sévère, il est également possible de choisir la férocité de Spam Sieve, grâce à une barre présente dans les préférences:

 


Cela dit, je vous conseille plutôt de laisser Spam Sieve faire le travail tout seul.

 

Conclusion

J’utilise Spam Sieve depuis bientôt le mois de septembre 2002. J’ai commencé par lui montrer environs 600 messages, tirés de mon archive. Il ne restait plus qu’à lui indiquer, au fur et à mesure, les messages indésirables qui étaient téléchargés dans ma boîte de réception. Avec l'option d'entraînement automatique, la tâche est maintenant encore plus aisée.

Au départ, beaucoup de messages personnels et sollicités atterrissaient dans le dossier spam. Aujourd’hui, plus aucun message indésirable n’apparaît dans ma boîte de réception et, inversement je ne trouve plus de messages faussement identifiés comme étant indésirables.

Voici un extrait de la version précédente du test:

 

Depuis que Spam Sieve est entraîné, je ne souffre plus du tout des spams, et le sentiment que j’éprouve est assez ambigu. Certes, c’est génial de ne plus recevoir de propositions indécentes dans la boîte de réception. Pourtant, je n’arrive pas à faire complètement confiance à Spam Sieve. Plusieurs fois par jour, je vais vérifier son travail, juste pour être certain de ne pas effacer de message important que le logiciel aurait identifié comme indésirable. C’est aussi là l’un des points forts du logiciel: il n’efface rien, il ne fait qu’attribuer une catégorie et, éventuellement, déplacer les messages. Il laisse donc le contrôle complet à l’utilisateur.

 

Eh bien je dois dire qu’entre-temps, Spam Sieve est devenu l’un des seuls logiciels auquel je voue une totale confiance. Je retourne encore, tous les trois ou quatre jours, jeter un œil aux emails triés par Spam Sieve et marqués comme spam, juste pour avoir bonne conscience, mais j’avoue que son efficacité m’a bluffé et je ne reviens toujours pas de la tranquillité qu’il apporte.

Une licence de SpamSieve coûte 25 USD. Rien de bien méchant, surtout face à l’utilité certaine du logiciel et aux nouveautés apportées à la version 2.0, puis à toutes celles qui ont suivi.

Chose remarquable par les temps qui courent : les utilisateurs de Spam Sieve ont droit à toutes les mises à jour, majeures ou non, une fois qu’ils ont payé leur licence. Cette licence permet d'utiliser le logiciel soit sur un seul ordinateur, mais pour tous les utilisateurs, soit sur plusieurs machines, pour autant que leur propriétaire soit la même personne.

Lors que la première version de ce test, j'écrivais en guise de conclusion que, vu l'efficacité de Spam Sieve chez moi, il me paraissait étrange que ce logiciel fonctionne aussi bien chez tout le monde. Après avoir reçu de nombreux messages de lecteurs pour confirmer sa précision, je peux maintenant affirmer que Spam Sieve est l'arme absolue contre le spam.

Aucun commentaire pour l'instant…