Changeset 44265 in spip-zone


Ignore:
Timestamp:
Feb 7, 2011, 12:40:51 PM (8 years ago)
Author:
l.oiseau2nuit@…
Message:

ajout de _IS_BOT pour tester la presence d'autres moteurs + qques pistes pour une selection par useragent pour ne pas flinguer le contenu dans les lecteurs d'ecran

Location:
_plugins_/dcpoison
Files:
3 edited

Legend:

Unmodified
Added
Removed
  • _plugins_/dcpoison/dcpoison_options.php

    r44259 r44265  
    2020        // sinon bye bye le referencement !
    2121
     22        // faire plutôt un test sur le useragent que sur une eventuelle ip ou Hostname
     23
    2224                function dcpoison_IsGooglebot() {
    2325                        $googleip = $_SERVER ['REMOTE_ADDR'];
     
    3133                }
    3234
     35
     36// Quelques pistes :
     37
     38
     39// $ua = $_SERVER['HTTP_USER_AGENT'];
     40// $uaGoogle="Googlebot/2.1 (+http://www.google.com/bot.html)";
     41//
     42// if($ua==$uaGoogle){
     43//  print("Salut Google Bot");
     44// }else{
     45//  print("Salut Visiteur");
     46// }
     47
     48
     49// liste des UA
     50
     51// http://www.useragentstring.com/pages/useragentstring.php
     52
    3353?>
    3454
  • _plugins_/dcpoison/dcpoison_pipelines.php

    r44259 r44265  
    1313        // Remplacement via affichage_final de tous les "a" et les "i"
    1414        // par leurs homographes dans l'alphabet cyrillique
    15         // si et seulement si on est sur que ce n'est pas Googlebot qui demande la page
    16         // principe a etendre pour les autres bot (cf todo.txt)
     15        // si et seulement si on est sur que ce n'est pas un robot d'indexation qui demande la page
    1716       
    1817                function dcpoison_affichage_final( $texte ) {
    1918                        global $notice;   
    20                                 if( !dcpoison_IsGooglebot() ) {
     19                                if( !_IS_BOT ) {
    2120                                        $texte = preg_replace("'(?!<.*?)i(?![^<>]*?>)'s", "і", $texte);
    2221                                        $texte = preg_replace("'(?!<.*?)a(?![^<>]*?>)'s", "а", $texte);
  • _plugins_/dcpoison/todo.txt

    r44259 r44265  
    1313
    1414
    15 TODO :
    1615
    17 dcpoison_options.php :
     16NOTES :
    1817
    19         1. a terme, voir s'il est possible d'utiliser une base (même externe) des IPs des differents DataCenters de Google au cas ou ce petit malin de bot s'amuserait a utiliser autre chose que ".googlebot.com" comme nom
    20 
    21         2. voir egalement comment integrer les autres moteurs de recherches sur la base du ...
    22 
    23         /*
    24          * detecteur de robot d'indexation
    25          * utilise en divers endroits, centralise ici
    26          */
    27         if (!defined('_IS_BOT'))
    28                                         define('_IS_BOT',
    29                                                                         isset($_SERVER['HTTP_USER_AGENT'])
    30                                                                         AND preg_match(',bot|slurp|crawler|spider|webvac|yandex,i',
    31                                                                                                         $_SERVER['HTTP_USER_AGENT'])
    32                                         );
    33                                        
    34 
    35         propose dans ecrire/inc-version.php
    36 
    37         J'ai pas trop vu comment je pouvais l'exploiter celui là...
     18- ajout de _IS_BOT pour etendre le traitement à l'ensemble des moteurs de recherche (merci _fil_)
Note: See TracChangeset for help on using the changeset viewer.