source: spip-zone/_plugins_/aspirateur/notes-aspirateur.txt @ 117558

Last change on this file since 117558 was 84509, checked in by toutati@…, 6 years ago

Modification du xpath pour inclure les noeuds ayant une ou plusieurs class ou une id donnée (tout tag HTML est accepté d'office)
Dans la configuration, on peut donc mettre plusieurs class d'exclusion séparées par un pipe
Ajout d'Exemples et explications sur l'inclusion et l'exclusion des motifs pour l'aspiration du contenu

File size: 1.9 KB
Line 
1Quelques étapes dans l'aspiration d'un site
2
3A1/ récupère tout d'une page depuis son url
4A2/ scanne tous les liens de cette page
5A3/ isole les liens des pages à suivre (si relatives au site et si elles ne sont pas des documents)
6
7Pour chaque page à suivre
8B1/ récupère tout d'une page depuis son url
9B2/ extrait le contenu spécifique
10B3/ isole les liens de ce contenu
11B4/ isole les liens documents depuis un motif, les soustrait de B3
12B5/ réécrit les liens documents dans le texte
13B6/ créé pour chaque page un item pour le contenu et ses documents
14
15C1/ Fabrique le rss spécifique, les liens locaux sont réécrits dans le texte en absolu, en minuscules (à activer?), mais pas les enclosures qui conserve le href exact (pour les rapatrier dans le site avec Docker), on reste en html
16
17Pour passer les articles en SPIP, on peut déjà le faire à la main
18D1/ Activez les sites et leur syndication complète
19D2/ Entrez le chemin du fichier RSS en syndication
20D1/ Activer le plugin Docker dès l'import du plugin RSS2articles ! On importe les articles en site syndiqué avec RSS2articles en activant la syntaxe SPIP -> ça doit conserver les <a> sans balise fermante…
21D4/ On télécharge ensuite les documents distants avec Docker les liens, en local, + réécrit en minuscules + en titrant les documents
22D5/ Il suffit de replacer les liens dans la base de type http://local/IMG/ en http://production/IMG/  ou même en ../IMG/
23UPDATE spip_articles
24SET `texte` = REPLACE(`texte`,'http://localhost/site_local/', 'http://site_production/')
25WHERE `texte` LIKE '%http://localhost/site_local/%'
26D6/ utiliser le plugin ressources pour afficher les liens images dans le texte
27
28------------
29
30TODO
31- Un suivi des liens de la page pour re-scanner toutes les pages
32- Un cron pour tous les liens du site, car c'est lourd
33- Il faudrait pouvoir rapatrier les documents indépendamment pour penser à importer ailleurs qu'en SPIP.
34
35
36
37
Note: See TracBrowser for help on using the repository browser.