osCommerce France : Accueil Forum Portail osCommerce France Réponses aux questions Foire aux contributions

Bienvenue invité ( Connexion | Inscription )

 
Reply to this topicStart new topic
> a quoi sert spiders.txt ??
afid_75011
posté 24 Oct 2003, 18:54
Message #1


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 158
Inscrit : 17-May 03
Lieu : 93
Membre no 1159



comment fonctionne se trucs ????

afid
Go to the top of the page
 
Gnidhal
posté 25 Oct 2003, 15:36
Message #2


5eme dan OSC
Icône de groupe

Groupe : Administrateur
Messages : 9221
Inscrit : 4-March 03
Lieu : Pau
Membre no 927



Regarde un peu le application_top de la MS2 par exemple :
si un spider (robot de moteur de recherche ou autre robot) arrive sur ton site, la session n'est pas démarrée, ce qui évite de te trouver avec une dizaines de sessions ouvertes et pas refermées dans le cas d'une visite d'un robot.

Le robot passe, la session trépasse laugh.gif
il est identifié par la liste située dans spiders.txt
Voilà à quoi sert le bouzin wink.gif


--------------------
Tout d'abord : - Ni Hotline ni Service Après Vente, ces forums sont un lieu d'échange. BIEN POSER SA QUESTION (généralités)
Les "Informations Importantes" que vous devez ABSOLUMENT avoir lues :
Règlement, Bien poser sa question dans ces forums et Bien utiliser les Forums.
Les raccourcis pour gagner du temps : la FAQ, les PDF de la Doc (MS2-fr): PDF-V1 et PDF-V2, le moteur de Recherche sur les forums , la Liste des Contributions de Corbin.

----------------------------- Quelques sites de référence ---------------------------
PHP: Le site du Zéro et PHP Débutant avec la DOC en français -- HTML: Self HTML - WebProgrammation -- CSS: OpenWeb - AlsaCréations - CSS/Edge -- Autres ressources: - XajaX - highslide js
Les bons outils : EasyPHP - WAMP-5 - - Notepad++ - Firefox et son extension WebDeveloper
Le gène idéal c'est le gène original. Le génie des halles est un Génie des Alpages qui tente d'être à la page. (Merci f'murrr pour les cours de philosophie de chien)
Go to the top of the page
 
afid_75011
posté 25 Oct 2003, 16:53
Message #3


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 158
Inscrit : 17-May 03
Lieu : 93
Membre no 1159



CA C'EST COOL !!!
Go to the top of the page
 
Patrick2
posté 26 Oct 2003, 23:38
Message #4


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 112
Inscrit : 13-May 03
Lieu : Paris
Membre no 1147



A ton avis Gnidhal, ce fichier spiders.txt, et tout ce qui va avec, peut-il être installé et adapté à la MS1 Creload 5 ?


--------------------
MS2 CreLoad 6.15
PHP 4.4.0. MySQL 4.0.25
Go to the top of the page
 
Gnidhal
posté 27 Oct 2003, 00:05
Message #5


5eme dan OSC
Icône de groupe

Groupe : Administrateur
Messages : 9221
Inscrit : 4-March 03
Lieu : Pau
Membre no 927



J'ai pas regardé de près, mais je pense que oui.
Finalement on desactive la session si c'est un spider qui se connecte, c'est sûrement faisable et ça doit pas être bien compliqué.
Essaye et raconte nous wink.gif


--------------------
Tout d'abord : - Ni Hotline ni Service Après Vente, ces forums sont un lieu d'échange. BIEN POSER SA QUESTION (généralités)
Les "Informations Importantes" que vous devez ABSOLUMENT avoir lues :
Règlement, Bien poser sa question dans ces forums et Bien utiliser les Forums.
Les raccourcis pour gagner du temps : la FAQ, les PDF de la Doc (MS2-fr): PDF-V1 et PDF-V2, le moteur de Recherche sur les forums , la Liste des Contributions de Corbin.

----------------------------- Quelques sites de référence ---------------------------
PHP: Le site du Zéro et PHP Débutant avec la DOC en français -- HTML: Self HTML - WebProgrammation -- CSS: OpenWeb - AlsaCréations - CSS/Edge -- Autres ressources: - XajaX - highslide js
Les bons outils : EasyPHP - WAMP-5 - - Notepad++ - Firefox et son extension WebDeveloper
Le gène idéal c'est le gène original. Le génie des halles est un Génie des Alpages qui tente d'être à la page. (Merci f'murrr pour les cours de philosophie de chien)
Go to the top of the page
 
Patrick2
posté 27 Oct 2003, 00:41
Message #6


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 112
Inscrit : 13-May 03
Lieu : Paris
Membre no 1147



Ca marche, je vous tiens au courant


--------------------
MS2 CreLoad 6.15
PHP 4.4.0. MySQL 4.0.25
Go to the top of the page
 
zagaz
posté 27 Oct 2003, 23:59
Message #7


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 137
Inscrit : 10-January 03
Membre no 726



bin j'aimerais bien suivre un peu :

le référencement (des produits) passe par les speaders non ?
(Il existe plusieurs contrib sur ce sujet pour les bloquer ce qui laisse penser que ce n'est pas une bonne chose, alors quid du référencement ?)

et la réécriture des urls ça sert à quoi (seulement pour faire joli ou sécurité ou speader) bref j'sais pas

merci pour le pourquoi du pourquoi
Go to the top of the page
 
Patrick2
posté 28 Oct 2003, 18:58
Message #8


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 112
Inscrit : 13-May 03
Lieu : Paris
Membre no 1147



Pour résumer et pour faire simple, il y a 2 type de spider (ou robot en francais), les moteurs de recherche, et les aspirateurs de site.

Le but est bien évidement de bloquer les seconds, sans bloquer les premiers. J'imagine que c'est le but de ces contribs. Et pour ça il y a plusieurs méthodes, en utilisant le USER_AGENT, ou en piegeant le spider sur une page invisible qui va le bloquer (là c un peu complexe, mais efficace)

Pour l'URL rewriting, c'est effectivement + joli, mais les moteurs s'y retrouvent mieux aussi. Souvent les moteurs acceptent de référencer les pages avec 2 ou 3 paramètres derrières (?id=xxx&product=www&language=xxx&oscid=xxx), mais pas plus.

Donc réduire le nombre de paramètre en les intégrants dans le nom des fichiers permet en effet d'être sur d'avoir ses pages référencées.

La deuxième chose est le paramètre oscid qui s'affiche quand la personne n'accepte pas les cookies (ce qui est le cas des spiders). Mais ce numéro est unique et change à chaque connexion. C'est donc preferable qu'il ne s'affiche pas quand les robots des moteurs de recherche analysent le site.


--------------------
MS2 CreLoad 6.15
PHP 4.4.0. MySQL 4.0.25
Go to the top of the page
 
zagaz
posté 28 Oct 2003, 23:36
Message #9


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 137
Inscrit : 10-January 03
Membre no 726



Merci Patrick2, c'est en effet beaucoup plus clair dans ma ptite tête : faut killer du speader (ou inversement).
j'ai trouvé une contrib qui est assez récente sur .com (si tu ne l'as pas encore exploré, ce qui m'étonnerait) :
spiderkiller_1.2.zip
Aussi qu'est -ce que t'en pense (si c'est le cas):
est-elle valable pour reaload 5 ? semblerait qu'il y ait juste ces modifs à faire

QUOTE
dans html_output.php remplacer
global $kill_sid, $HTTP_GET_VARS;
par
 // Start IN-Solution Spiderkiller
   // these variables are global availible!
   global $spider_agent, $spider_ip, $spider_checked_for_spider, $spider_kill_sid, $HTTP_SERVER_VARS;
 // END IN-Solution SpiderKiller

 et ajouter :
// Start IN-Solution SpiderKiller
   if (SPIDER_USE_KILLER == 'true') {
     // Did we check before?
     if ( $spider_checked_for_spider == 'false') {
       $spider_checked_for_spider = 'true';
       // get useragent and force to lowercase just once  
       $useragent =  strtolower($HTTP_SERVER_VARS[\"HTTP_USER_AGENT\"]);
       if (is_array($spider_agent)) {
         for($x=0; $x < sizeof($spider_agent); $x++) {
           if (!(strpos( $useragent, strtolower($spider_agent[$x])) === false)) {  
             // found a spider, kill the sid  
             $spider_kill_sid = 'true';
             break;
           }
         }
       }
       // get remote_addr  
       $userip = $HTTP_SERVER_VARS[\"REMOTE_ADDR\"];
       if (is_array($spider_ip)) {
         for($x=0; $x < sizeof($spider_ip); $x++) {
           if (!(strpos($userip, $spider_ip[$x]) === false)) {  
             if (strpos($userip, $spider_ip[$x]) == 0) {  
               // found a spider, kill the sid  
               $spider_kill_sid = 'true';
               break;  
             }
           }
         }          
       }
     }
     if ( $spider_kill_sid == 'true') $sid = NULL;    
   }
 // END IN-Solution SpiderKiller

Le fichier spider_configure.php liste une belle série de spider certains sont désactivés
est-ce que le choix te semble judicieux et pas trop exotique, est-ce qu'il est à compléter d'après toi ?
Go to the top of the page
 
Patrick2
posté 29 Oct 2003, 12:09
Message #10


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 112
Inscrit : 13-May 03
Lieu : Paris
Membre no 1147



J'ai jeté un coup d'oeuil sur cette contrib, il semble qu'elle serve à bloquer une liste de spider (définit dans spider_configure.php).

Et dans cette liste, je vois principalement des robots de moteur de recherche. Je ne sais pas si c'est ton but, sinon il faut soit changer la liste, soit changer de methode.

Moi, personnellement, je bloque les spiders avec un fichier .htaccess, en fonction du USER_AGENT, mais le principe reste le même.


--------------------
MS2 CreLoad 6.15
PHP 4.4.0. MySQL 4.0.25
Go to the top of the page
 
zagaz
posté 29 Oct 2003, 13:07
Message #11


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 137
Inscrit : 10-January 03
Membre no 726



slt,
hum donc il bloque principalement les moteurs de recherche, et est-ce qu'il existe une liste des aspirateurs de site qui peut remplacer cette liste, oo je suppose que tous ne sont pas déclarés ?
d'ou le pourquoi du choix d'une méthode "générique"

Est-ce que tu sais où je peux trouver de l'info concernant la méthode que tu utilises ?

merci
Go to the top of the page
 
Patrick2
posté 29 Oct 2003, 14:32
Message #12


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 112
Inscrit : 13-May 03
Lieu : Paris
Membre no 1147



Donnes moi ton email et je te l'envoi
Il est trop long


--------------------
MS2 CreLoad 6.15
PHP 4.4.0. MySQL 4.0.25
Go to the top of the page
 
zagaz
posté 31 Oct 2003, 12:27
Message #13


Ceinture jaune+ OSC
Icône de groupe

Groupe : Membres
Messages : 137
Inscrit : 10-January 03
Membre no 726



boap ? pas de nouvelle, j'espère que ça va ?

En attendant j'ai bidouillé une contrib si cela t'intéresse :

http://www.oscommerce-fr.info/forum/index.php?showtopic=2249

A bientôt ?
Go to the top of the page
 

Reply to this topicStart new topic
1 utilisateur(s) sur ce sujet (1 invité(s) et 0 utilisateur(s) anonyme(s))
0 membre(s) :

 



RSS Version bas débit Nous sommes le : 29th March 2024 - 02:34
Ce site est déclaré auprès de la commision Nationale
de l'Informatique et des Libertés (déclaration n°: 1043896)