Changeset 104192 in spip-zone


Ignore:
Timestamp:
May 5, 2017, 11:48:01 AM (2 years ago)
Author:
guy.cesaro@…
Message:

un formulaire de config à améliorer pour renseigner port et serveur, tika n'est pas forcement sur le serveur apache

Location:
_plugins_/extraire_documents/trunk
Files:
6 added
3 edited

Legend:

Unmodified
Added
Removed
  • _plugins_/extraire_documents/trunk/extraire/defaut/10_tika_server.php

    r92393 r104192  
    66function extraire_defaut_10_tika_server_test_dist($mime) {
    77        include_spip('inc/distant');
    8        
     8        include_spip('inc/config');
     9
     10        $url_serveur = (lire_config('extrairedoc_config/url_serveur')!='') ? lire_config('extrairedoc_config/url_serveur') : 'localhost';
     11        $port = (lire_config('extrairedoc_config/port')!='') ? lire_config('extrairedoc_config/port') : 9998;
    912        // On cherche si le serveur Tika est bien lancé en local (valeurs peut-être à configurer…)
    10         $tika_version = recuperer_page('http://localhost:9998/version');
     13        $tika_version = recuperer_page($url_serveur.':'.$port.'/version');
    1114       
    1215        if (
     
    3134 **/
    3235function extraire_defaut_10_tika_server_extraire_dist($fichier, $infos) {
    33     $infos = array('contenu' => false);
     36    $infos = array('contenu' => false, 'metadata' => false);
    3437    $contenu = '';
     38        include_spip('inc/config');
     39
     40        $url_serveur = (lire_config('extrairedoc_config/url_serveur')!='') ? lire_config('extrairedoc_config/url_serveur') : 'localhost';
     41        $port = (lire_config('extrairedoc_config/port')!='') ? lire_config('extrairedoc_config/port') : 9998;
    3542
    3643    // Bespoin de charger composer
     
    4653       
    4754        // On récupère le client pour discuter avec Tika
    48         $client = \Vaites\ApacheTika\Client::make();
     55        $client = \Vaites\ApacheTika\Client::make($url_serveur, $port);
    4956       
    5057        // On tente de récupérer le texte brut du fichier
     
    5259        set_time_limit (0);
    5360        $contenu = $client->getText(_DIR_RACINE . $fichier);
     61                $metadata = (array) $client->getMetadata(_DIR_RACINE . $fichier);
     62                $meta = (array) $metadata['meta'];
    5463    }
    5564    catch (Exception $e) {
     
    6574        // Si on a trouvé du texte
    6675        if ($contenu) {
    67                 $infos['contenu'] = $contenu;
     76                $infos['body'] = $contenu;
     77                $infos['title'] = $metadata['title'];
     78
    6879        }
    6980       
  • _plugins_/extraire_documents/trunk/inc/extraire_document.php

    r92414 r104192  
    1515        // Pour garder en mémoire les extracteurs déjà trouvés
    1616        static $extracteurs_ok = array();
    17        
     17
    1818        // On commence par chercher le fichier à travailler
    1919        if (
    2020                !isset($document['id_document'])
    2121                or !is_numeric($document['id_document'])
    22         ) {
     22        ) {     
    2323                return false;
    2424        }
    25        
     25
    2626        if (
    2727                !isset($document['fichier'])
  • _plugins_/extraire_documents/trunk/paquet.xml

    r100425 r104192  
    22        prefix="extrairedoc"
    33        categorie="outil"
    4         version="1.2.2"
     4        version="1.2.3"
    55        etat="test"
    66        compatibilite="[3.0.0;3.1.*]"
     
    1717        <copyright>2009-2015</copyright>
    1818
    19         <lib nom="TCPDF-6.2.6" lien="https://github.com/tecnickcom/TCPDF/archive/6.2.6.zip" />
    20         <lib nom="pdfparser-0.9.22" lien="https://github.com/smalot/pdfparser/archive/v0.9.22.zip" />
    2119</paquet>
Note: See TracChangeset for help on using the changeset viewer.