Changeset 94660 in spip-zone


Ignore:
Timestamp:
Jan 18, 2016, 6:09:23 PM (4 years ago)
Author:
booz@…
Message:

peaufiner la conversion

File:
1 edited

Legend:

Unmodified
Added
Removed
  • _plugins_/convertisseur/trunk/extract/xml_ocr.php

    r94633 r94660  
    5959        # nettoyage
    6060        $article = str_replace("-<SHY/>","", $article);
     61        $article = str_replace("<HHY/>","", $article);
     62        $article = str_replace("<UHY/>","", $article);
     63       
     64       
    6165       
    6266        # balises uniques
     
    6771                $l = strtolower($t) ;
    6872                $item[$l] = trim(textebrut($b)) ;
    69                 $article = preg_replace("/<" . $t . "[^>]*>.*<\/" . $t . ">/U", "", $article);
     73                $article = str_replace($b, "", $article);
     74        }
     75       
     76        # balises multiples
     77        $balises_multiples = array('AUTEUR','AFFILIATION');
     78       
     79        foreach($balises_multiples as $t){
     80                $aa = array();
     81                $elms = extraire_balises($article, $t) ;
     82                foreach($elms as $a){
     83                        $aa[] = preg_replace("/^\s*\*\s*/","", textebrut($a)) ;
     84                        $article = str_replace($a, "", $article);
     85                }
     86                $l = strtolower($t) . "s" ;
     87                $aa = array_unique($aa);
     88                $item[$l] = join(", " , $aa) ;
    7089        }       
    71        
    72         # auteurs
    73         $auteurs = extraire_balises($article, 'AUTEUR') ;
    74         foreach($auteurs as $a){
    75                 $aa[] = textebrut($a) ;
    76                 $article = preg_replace("/<AUTEUR[^>]*>.*<\/AUTEUR>/U", "", $article);
    77         }       
    78         $item['auteurs'] = join(", " , $aa) ;
    7990
    8091        # notes
     
    8697
    8798        # paragraphes
    88         $article = preg_replace(",</*P>,","\n\n", $article);
     99        $article = preg_replace("#</*P>#","\n\n", $article);
    89100       
    90101        # inters
    91         $article = preg_replace(",<INTERTITRE>,","{{{", $article);
    92         $article = preg_replace(",</INTERTITRE>,","}}}", $article);
     102        $article = preg_replace("#<INTERTITRE>,*\s*#","{{{", $article);
     103        $article = preg_replace("#,*\s*</INTERTITRE>#","}}}", $article);
     104       
     105        # Citations
     106        $article = preg_replace("#<EXERGUE>#","<blockquote>", $article);
     107        $article = preg_replace("#</EXERGUE>#","</blockquote>", $article);
    93108       
    94109        # Italiques
Note: See TracChangeset for help on using the changeset viewer.