source: spip-zone/_plugins_/nospam/nospam_pipelines.php @ 73463

Last change on this file since 73463 was 73463, checked in by cedric@…, 6 years ago

On utilise la detection de langue fournie par http://zone.spip.org/trac/spip-zone/browser/_plugins_/plugins_seenthis/detecter_langue/ (mais en l'integrant ici dans le plugin) pour repérer les messages dans une langue différente de l'article. Ces messages sont a priori suspects, et seront modérés avec plus de vigilance (modéré dès qu'il y a un lien).

Cela forcera au moins les spammeurs à apprendre la langue de molière.

File size: 13.4 KB
Line 
1<?php
2/**
3 * Plugin No-SPAM
4 * (c) 2008-2011 Cedric Morin Yterium.net
5 * Licence GPL
6 *
7 */
8
9if (!defined("_ECRIRE_INC_VERSION")) return;
10
11/**
12 * Lister les formulaires a prendre en charge contre le SPAM
13 * pour verifier le nobot et le jeton sur un formulaire, l'ajouter a cette liste
14 * par le pipeline nospam_lister_formulaires
15 * @return void
16 */
17function nospam_lister_formulaires() {
18        if (!isset($GLOBALS['formulaires_no_spam']))
19                $GLOBALS['formulaires_no_spam'] = array();
20        $formulaires = array_merge($GLOBALS['formulaires_no_spam'], array('forum', 'ecrire_auteur', 'signature'));
21        return pipeline('nospam_lister_formulaires', $formulaires);
22}
23
24/**
25 * Ajouter le champ de formulaire 'nobot' au besoin
26 *
27 * @param array $flux
28 * @return array
29 */
30function nospam_recuperer_fond($flux) {
31        // determiner le nom du formulaire
32        $fond = strval($flux['args']['fond']);
33        if (false !== $pos = strpos($fond, 'formulaires/')) {
34                $form = substr($fond, $pos + 12);
35                if (in_array($form, nospam_lister_formulaires())) {
36                        // on ajoute le champ 'nobot' si pas present dans le formulaire
37                        $texte = &$flux['data']['texte'];
38                        if ((false === strpos($texte, 'name="nobot"'))
39                                and (false !== $pos = strpos($texte, '</form>'))
40                        ) {
41                                $nobot = recuperer_fond("inclure/nobot", array('nobot' => ''));
42                                $texte = substr_replace($texte, $nobot, $pos, 0);
43                        }
44                }
45        }
46        return $flux;
47}
48
49/**
50 * Ajouter un jeton temporaire lie a l'heure et a l'IP pour limiter la reutilisation possible du formulaire
51 *
52 * @param array $flux
53 * @return array
54 */
55function nospam_formulaire_charger($flux) {
56        $form = $flux['args']['form'];
57        if (in_array($form, nospam_lister_formulaires())
58                AND $flux['data']
59                        AND is_array($flux['data'])
60        ) {
61                include_spip("inc/nospam");
62                $jeton = creer_jeton($form);
63                $flux['data']['_hidden'] .= "<input type='hidden' name='_jeton' value='$jeton' />";
64        }
65        return $flux;
66}
67
68/**
69 * Verifier le jeton temporaire lie a l'heure et a l'IP pour limiter la reutilisation possible du formulaire
70 *
71 * @param array $flux
72 * @return array
73 */
74function nospam_formulaire_verifier($flux) {
75        $form = $flux['args']['form'];
76        if (in_array($form, nospam_lister_formulaires())) {
77                include_spip("inc/nospam");
78                $jeton = _request('_jeton');
79                // le jeton prend en compte l'heure et l'ip de l'internaute
80                if (_request('nobot') // trop facile !
81                        OR (!verifier_jeton($jeton, $form))
82                ) {
83                        #spip_log('pas de jeton pour '.var_export($flux,true),'nospam');
84                        $flux['data']['message_erreur'] .= _T('nospam:erreur_jeton');
85                        if ($form == 'forum')
86                                unset($flux['data']['previsu']);
87                }
88
89                // pas la peine de filtrer les contenus postés par un admin
90                if (!isset($GLOBALS['visiteur_session']['statut']) OR $GLOBALS['visiteur_session']['statut'] != '0minirezo') {
91                        if ($verifier_formulaire = charger_fonction("verifier_formulaire_$form", "nospam", true)) {
92                                $flux = $verifier_formulaire($flux);
93                                // recuperation de la liste des IPs blacklist/greylist
94                                // async si on renvoie la previsu ou si erreur
95                                $async = false;
96                                if (count($flux['data']))
97                                        $async = true;
98                                nospam_update_ip_list($async);
99                        }
100                }
101        }
102        return $flux;
103}
104
105/**
106 * Au moment de decider du statut d'un forum,
107 * quelques verifications et une moderation si necessaire !
108 *
109 * @param array $flux
110 * @return array
111 */
112function nospam_pre_edition($flux) {
113        if ($flux['args']['table'] == 'spip_forum'
114                AND $flux['args']['action'] == 'instituer'
115        ) {
116
117                // ne pas publier automatiquement certains messages suspects ...
118                // sauf si le posteur a de toute facon le pouvoir de moderer et de se publier
119                include_spip('inc/autoriser');
120                if ($flux['data']['statut'] == 'publie'
121                        AND (!isset($GLOBALS['visiteur_session']['statut']) OR !autoriser('modererforum'))
122                ) {
123                        // verifier le status de cette IP
124                        nospam_check_ip_status($GLOBALS['ip']);
125
126                        $email = strlen($flux['data']['email_auteur']) ? " OR email_auteur=" . sql_quote($flux['data']['email_auteur']) : "";
127                        $spammeur_connu = (!isset($GLOBALS['visiteur_session']['statut'])
128                                AND (
129                                        isset($GLOBALS['ip_greylist'][$GLOBALS['ip']])
130                                        OR isset($GLOBALS['ip_blacklist'][$GLOBALS['ip']])
131                                        OR sql_countsel('spip_forum', '(ip=' . sql_quote($GLOBALS['ip']) . "$email) AND statut='spam'") > 0
132                                )
133                        );
134
135                  // activer aussi le flag spammeur connu en cas de flood, meme si aucune detection spam jusqu'ici
136                  // on sera plus severe sur les liens dans ce cas
137                  // cas du spammeur qui envoie que des messages a 3 liens a haute frequence (passe a travers tous les filtres)
138                  // au bout du 5e message en <10min ou 10e en <30min on va moderer tout message avec un lien
139                  if (!$spammeur_connu){
140                          if (($nb=sql_countsel('spip_forum','(ip='.sql_quote($GLOBALS['ip']).$email.') AND '.sql_date_proche('date_heure','-30','minute')))>=7){
141                          spip_log("[Flood] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 30 dernieres minutes",'nospam');
142                          $spammeur_connu = true;
143                          }
144                  }
145                  if (!$spammeur_connu){
146                          if (($nb=sql_countsel('spip_forum','(ip='.sql_quote($GLOBALS['ip']).$email.') AND '.sql_date_proche('date_heure','-10','minute')))>=3){
147                          spip_log("[Flood] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 10 dernieres minutes",'nospam');
148                          $spammeur_connu = true;
149                          }
150                  }
151
152                        $lang_suspecte = false;
153                        // si c'est un spammeur connu,
154                        // verifier que cette ip n'en est pas a son N-ieme spam en peu de temps
155                        // a partir d'un moment on refuse carrement le spam massif, le posteur devra attendre pour reposter
156                        if ($spammeur_connu) {
157                                // plus de 30 spams dans les dernieres 2h, faut se calmer ...
158                                // ou plus de 10 spams dans la dernieres 1h, faut se calmer ...
159                                if (
160                                        ($nb = sql_countsel('spip_forum', 'statut=\'spam\' AND (ip=' . sql_quote($GLOBALS['ip']) . $email . ') AND ' . sql_date_proche('date_heure','-120','minute'))) >= 30
161                                        OR
162                                        ($nb = sql_countsel('spip_forum', 'statut=\'spam\' AND (ip=' . sql_quote($GLOBALS['ip']) . $email .') AND ' . sql_date_proche('date_heure','-60','minute'))) >= 10
163                                        ){
164                                        $flux['data']['statut'] = ''; // on n'en veut pas !
165                                        spip_log("[Refuse] $nb spam pour (ip=" . $GLOBALS['ip'] . "$email) dans les 2 dernieres heures", 'nospam');
166                                        return $flux;
167                                }
168                        }
169                        // sinon regarder si l'objet a une langue, et si le post est dans la meme langue ou non
170                        // en cas de langue differente, on se mefie
171                        elseif ($flux['data']['objet']){
172                                $table = table_objet_sql($flux['data']['objet']);
173                                $trouver_table = charger_fonction("trouver_table","base");
174                                if ($desc = $trouver_table($table)
175                                  AND isset($desc['field']['lang'])){
176                                        $primary = id_table_objet($flux['data']['objet']);
177                                        $lang_objet = sql_getfetsel("lang",$table,"$primary=".intval($flux['data']['id_objet']));
178                                        include_spip("inc/detecter_langue");
179                                        $lang_post = _detecter_langue($flux['data']['texte']);
180                                        if ($lang_post!==$lang_objet)
181                                                $lang_suspecte = true;
182                                }
183                        }
184
185                        // si c'est un message bourre de liens, on le modere
186                        // le seuil varie selon le champ et le fait que le spammeur est deja connu ou non
187                        $seuils = array(
188                                // seuils par defaut
189                                0 => array(
190                                        0 => array(1 => 'prop', 3 => 'spam'), // seuils par defaut
191                                        'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
192                                        'texte' => array(4 => 'prop', 20 => 'spam') // pour le champ texte
193                                ),
194                                // seuils severises pour les suspects : modere en prop des qu'il y a un lien, spam si plus de 5
195                                'suspect' => array(
196                                        0 => array(1 => 'spam'),
197                                        'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
198                                        'texte' => array(1 => 'prop', 5 => 'spam')
199                                ),
200                                // seuils pour les blacklist : si pas de lien on passe en prop par precaution, sinon en spam
201                                'blacklist' => array(
202                                        0 => array(1 => 'spam'),
203                                        'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
204                                        'texte' => array(0 => 'prop', 1 => 'spam')
205                                )
206                        );
207
208                        $seuils = isset($GLOBALS['ip_blacklist'][$GLOBALS['ip']])? $seuils['blacklist'] : (($spammeur_connu OR $lang_suspecte) ? $seuils['suspect'] : $seuils[0]);
209                        include_spip("inc/nospam"); // pour analyser_spams()
210                        foreach ($flux['data'] as $champ => $valeur) {
211                                $infos = analyser_spams($valeur);
212                                if ($infos['contenu_cache']) {
213                                        // s'il y a du contenu caché avec des styles => spam direct
214                                        $flux['data']['statut'] = 'spam';
215                                        spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car contenu cache", 'nospam');
216                                }
217                                elseif ($infos['nombre_liens'] > 0) {
218                                        // si un lien a un titre de moins de 3 caracteres, c'est louche...
219                                        if ($infos['caracteres_texte_lien_min'] < 3) {
220                                                $flux['data']['statut'] = 'prop'; // en dur en attendant une idee plus generique
221                                                spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en prop car moins de 3car hors liens", 'nospam');
222                                        }
223
224                                        if (isset($seuils[$champ]))
225                                                $seuil = $seuils[$champ];
226                                        else
227                                                $seuil = $seuils[0];
228
229                                        foreach ($seuil as $s => $stat)
230                                                if ($infos['nombre_liens'] >= $s) {
231                                                        $flux['data']['statut'] = $stat;
232                                                        spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en " . $stat . " car nombre_liens >= " . $s, 'nospam');
233                                                }
234
235                                        if ($flux['data']['statut'] != 'spam') {
236                                                $champs = array_unique(array('texte', $champ));
237                                                $nb_tolerance = 3;
238                                                if ($h = rechercher_presence_liens_spammes($infos['liens'], $nb_tolerance, 'spip_forum', $champs)) {
239                                                        $flux['data']['statut'] = 'spam';
240                                                        spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car lien $h deja dans un spam", 'nospam');
241                                                }
242                                        }
243                                }
244                        }
245
246
247                        // verifier qu'un message identique n'a pas ete publie il y a peu
248                        if ($flux['data']['statut'] != 'spam') {
249                                if (sql_countsel('spip_forum', 'texte=' . sql_quote($flux['data']['texte']) . " AND statut IN ('publie','off','spam')") > 0){
250                                        $flux['data']['statut'] = 'spam';
251                                        spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car message identique deja existant", 'nospam');
252                                }
253                        }
254                        // verifier que cette ip n'en est pas a son N-ieme post en peu de temps
255                        // plus de 5 messages en 5 minutes c'est suspect ...
256                        if ($flux['data']['statut'] != 'spam') {
257                                if (($nb = sql_countsel('spip_forum', 'ip=' . sql_quote($GLOBALS['ip']) . ' AND ' . sql_date_proche('date_heure','-5','minute'))) >= 5){
258                                        $flux['data']['statut'] = 'spam';
259                                        spip_log("[Flood2] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 5 dernieres minutes : requalif en spam",'nospam');
260                                }
261                        }
262                }
263        }
264        return $flux;
265}
266
267
268
269/**
270 * Fermer la connexion pour que le visiteur n'attende pas apres le curl sur nospam.spip.net
271 * @param $content
272 * @return mixed
273 */
274function nospam_flush_close($content){
275        header("Content-Length: ".($l=ob_get_length()));
276        header("Connection: close");
277        return $content;
278}
279
280/**
281 * Flusher et lancer l'update de la liste des ip
282 */
283function nospam_flush_and_update(){
284        chdir(_ROOT_CWD); // securite en cas de register_shutdown_function
285        // forcer le flush des tampons pas envoyes (declenche le content-length/conection:close envoye dans cache_cool_flush)
286        $flush_level = ob_get_level();
287        while ($flush_level--) ob_end_flush();
288        flush();
289        if (function_exists('fastcgi_finish_request'))
290                fastcgi_finish_request();
291        nospam_update_ip_list();
292}
293
294if (!defined('_NOSPAM_IP_LIST_CACHE')) define('_NOSPAM_IP_LIST_CACHE',10800);
295/**
296 * Recuperer la liste des IP black ou grey sur nospam.spip.net
297 * si on a pas une liste a jour
298 * et la stocker dans un fichier
299 * @param bool $async
300 */
301function nospam_update_ip_list($async=false){
302        $file = _DIR_TMP."nospam_ip_list.txt";
303        if (file_exists($file) AND filemtime($file)>time()-_NOSPAM_IP_LIST_CACHE)
304                return;
305        spip_log("nospam_update_ip_list:$async","nospam");
306
307        if ($async){
308                // indiquer de fermer la connexion dans la foulee
309                // pour faire le hit de recuperation async hors temps d'attente
310                ob_start("nospam_flush_close");
311                register_shutdown_function("nospam_flush_and_update");
312                return;
313        }
314
315        // on fait d'abord un touch car si le recuperer_page echoue (hebergeurs qui interdisent)
316        // on ne veut pas recommencer plein de fois de suite
317        @touch($file);
318        $url_api = "http://nospam.spip.net/spamsignal.api/list";
319        include_spip("inc/distant");
320        include_spip("inc/json");
321        $res = recuperer_page($url_api);
322        if ($res
323          AND function_exists("json_decode")
324          AND $liste = json_decode($res,true)){
325                ecrire_fichier($file,serialize($liste));
326        }
327}
328
329/**
330 * Verifier le status d'une IP et la noter dans la globale ip_blacklist ou ip_greylist si c'est une IP louche
331 * @param $ip
332 * @return string
333 *   ok|grey|black
334 */
335function nospam_check_ip_status($ip){
336        $file = _DIR_TMP."nospam_ip_list.txt";
337        if (!file_exists($file) OR filemtime($file)<time()-_NOSPAM_IP_LIST_CACHE)
338                return;
339
340        lire_fichier($file,$liste);
341        spip_log("nospam_check_ip_status:$ip","nospam");
342        if ($liste = unserialize($liste)){
343                #spip_log($liste,"nospam");
344                $now = date('Y-m-d H:i:s');
345                $ip_family = preg_replace(",([.:])[^.:]$,","$1*",$ip);
346                spip_log("ip $ip famille $ip_family","nospam");
347                foreach(array("blacklist","greylist") AS $l){
348                        if (isset($liste[$l][$ip])
349                                AND $liste[$l][$ip]>$now){
350                                $GLOBALS['ip_'.$l][$ip] = true;
351                                spip_log("$ip ajoute a ip_$l","nospam");
352                                return ($l=="blacklist"?"black":"grey");
353                        }
354                        if (isset($liste[$l][$ip_family])
355                                AND $liste[$l][$ip_family]>$now){
356                                $GLOBALS['ip_'.$l][$ip] = true;
357                                spip_log("$ip ajoute a ip_$l (famille $ip_family)","nospam");
358                                return ($l=="blacklist"?"black":"grey");
359                        }
360                }
361        }
362        return "ok";
363}
364?>
Note: See TracBrowser for help on using the repository browser.