Work in progress: Googol
Il y a quelques personnes qui me posent des questions à propos de googol, du coup, je fais une petite page pour résumer à quoi je me suis heurté et où j'en suis de mes tentatives...
À l'origine
Googol était un simple script destiné à s'intercaler entre google et l'usager afin que ce dernier ne donne aucune information au géant du web:
Toutefois...
Google ne facilite pas la tâche: ses pages changent régulièrement (et il faut adapter le parseur) et il finit par bannir mon serveur googol quand trop de requêtes viennent de lui.
J'ai donc un temps opté pour la transmission de la requête vers DDG puis j'ai préféré modifier Googol en profondeur pour qu'il puisse changer son moteur en interne: j'ai donc créé une classe google.php et une startpage.php pour que googol puisse changer de lui-même le temps du débannissement. Lien
Oui mais, bon... voilà.
Startpage s'est mis lui aussi à me bannir et à me renvoyer un captcha... Lien
Je me démonte pas...
... et je me lance dans l'ajout d'un troisième moteur selon le même principe: Qwant...
A ce stade, ça fonctionnait... Mais...
- ... ben ça fait quand même trois moteurs différents à maintenir (parseur+URLs etc)
- vu le rythme de bannissement, seul qwant était utilisé... Du coup, l'intérêt du cript ne saute pas aux yeux.
C'est reparti pour une réflexion
Là je prends le problème dans l'autre sens: au lieu de changer de moteur, je pourrais changer de serveur...
C'est une piste que j'avais explorée à une époque en faisant une sorte de chaîne de Googol qui se renvoyaient la requête.
Le problème, c'est que multiplier les googols, c'est multiplier la maintenance: c'est lourd, peu élégant et pas satisfaisant. Surtout qu'il suffirait de faire transiter la requête par un relais pour que google ne voie plus l'adresse IP du serveur Googol !
Je pars donc sur un script tout con qui curl l'adresse envoyée en GET et retourne la page. C'est bourrin, c'est pas sécurisé du tout, mais OSEF, c'est pour tester...
if (isset($_GET['url2get'])){
$url=urldecode($_GET['url2get']);
$content=file_curl_contents($url);
$content=str_replace(['
❝ 5 commentaires ❞
Fil RSS des commentaires de cet article
✍ Écrire un commentaire
les commentaires relevant du SPAM seront filtrés et dégagés direct...