Redirection vers une autre instance · Issue #40 · broncowdd/googol

Le fil de conversation Github à propos du bannissement du serveur hébergeant Googol.
Les utilisateurs se sont sans doute rendu compte du fait que les cas où le script ne renvoyait pas de résultats se multipliaient ces dernières semaines.

C'est dû au fait que google semble avoir durci ses paramètres en matière de bannissement (ou alors googol envoie de plus en plus de requêtes )

je copiecolle mon dernier commentaire à ce propos:
«En fait, googol envoie ta recherche à google.fr, récupère la page, la parse pour récupérer les infos et recrée une page propre et sans traçage ou pub. Le problème, c'est que si google.fr reçoit trop de requêtes depuis la même IP, il considère que ce n'est pas un utilisateur mais un robot et envoie une page contenant le captcha à remplir à la place de la page contenant les résultats: or, cette page est reçue par googol (et pas par ton navigateur); comme il ne trouve aucune info, il dit qu'il n'y a pas de résultats.
Le souci, c'est que même si googol te fournissait la page captcha, ça ne servirait à rien puisque l'IP serait la tienne et pas celle du serveur hébergeant googol... Dead end.
La seule solution que j'avais trouvé c'était de rediriger vers un autre moteur de recherche ou une autre instance de googol le temps d'être unban: toutefois, il faudrait un réseau de googol plus important pour diluer le nombre de requêtes globales. »

Du coup, je me suis dit que ce pourrait être ça la solution: qu'on augmente la quantité d'instances de googol...

Des volontaires ? ;-)

❝ 2 commentaires ❞

1  Jerry Wham le

Je pense avoir résolu le pb : en fait google renvoie une erreur 301 disant que le fichier a été déplacé car les url sont en encrypted.google.com dans googole alors qu'a priori google attend une url en www.google.com (https).


Plutôt que de modifier l'url, j'ai vérifié le résultat et s'il y a une entête, j'extrais l'url qui va bien. Comme ça, si les url changent, on ne devrait plus être coincés.


Sinon, l'idée de l'essaim de googol est pas mal. Tu peux ajouter mon instance (en espérant que ça ne mette pas à genoux le serveur mutualisé sur lequel je suis...).

 
2  Jerry Wham le

J'ai oublié : http://googol.ecyseo.net

 

Fil RSS des commentaires de cet article

✍ Écrire un commentaire

les commentaires relevant du SPAM seront filtrés et dégagés direct...

Quelle est le quatrième caractère du mot np3u14r ?