Googol: il bouge pas mais il n'est pas mort...

La dernière fois que j'ai abordé le sujet de googol, j'en étais à chercher un moyen de contourner les blocages de google ET de startpage... J'avais pensé à multiplier les moteurs alternatifs, à multiplier les serveurs de relais...

Mais depuis, j'ai pas progressé:

  1. parce que j'avais pas d'idée nouvelle (et on y a réfléchi à plusieurs ;-)
  2. parce que j'ai vraiment pas eu le temps (présentiel+distanciel+école à la maison=pas de temps de cerveau disponible)
  3. parce qu'à vivre h24 ensemble, la propension de mes proches à considérer que je suis la seule solution à toute forme de problème ou de questionnement à subi une inflation exponentielle.

cmon do something

Toutefois...

je continue à réfléchir dans mon coin: je laisse mûrir... je file le dossier à mon inconscient en me disant qu'une solution finira bien par se présenter: pour le mec qui a un marteau, tous les problèmes sont des clous... parfois, il faut prendre le problème par un autre bout.

Et comme je m'interrogeais pour la millionième fois sur le langage auquel je pourrais me former, mon inconscient m'a rétorqué : «et googol dans un autre langage...?»

J'ai confié la question à quelques neurones pas encore cramés par le travail à la maison... Après délibération, une page HTML + js pourrait éventuellement réaliser une partie du boulot:

schéma1

Les points négatifs:

  • si la requête initiale se fait depuis le client son IP n'est plus cachée lors de cette requête
  • l'accès aux miniatures de google révélera également cette IP

Les points positifs:

  • plus de problème de bannissement d'IP
  • le parcours du DOM pour la récupération des données pertinentes sera sans doute plus nativement simple en JS qu'en PHP...

Pour le problème de l'IP visible lors de l'appel aux miniatures, on peut imaginer une partie backend en php dédiée à cette tâche uniquement (en gros, tipiak les thumbs de google, les mettre en cache et les servir).

schéma2

En ce qui concerne la visibilité de l'IP lors de la requête initiale, là je sèche. On a besoin que le client envoie la requête avec sa propre IP non bloquée pour que JS récupère la réponse, parse les résultats et produise la page propre...

Voilà...

❝ 9 commentaires ❞

1  Jerry Wham le

Du coup, si tu fais ça en js, on perd l'intérêt du bouzin non ?

 
2  Bronco le

Pour la première requête de chaque recherche uniquement: l'anonymisation des liens et des miniatures ainsi que le filtrage de la pub, eux restent valables. En gros, Google ne connaîtrait que ta recherche mais rien d'autre (comme les liens sur lesquels tu cliques, les pubs etc...)

 
3  Chouchen le

Hello,


Je ne sais pas si vous avez vu mais quelqu'un a fait le même projet mais en python : https://github.com/benbusby/whoogle-search .
Je n'ai pas encore regardé le code (donc je ne sais pas trop comment ça gère le proxy et tout) mais je l'utilise depuis facile 4 mois sans interruption et sans soucis. Faudrait peut-être regarder par là pour le transposer en PHP (si c'est faisable) car ça ferait plus de gens pour l'héberger.


En tout cas, bon courage !

 
4  Bronco le

Très intéressant en effet: j'avais pensé à python aussi...
Je vais je ter un oeil dessus ;-)
Merci !

 
5  toum le

Hello,
As-tu regardé du côté de searx ? Il est assez facile a héberger en gros sert de proxy pour tout types de moteurs de recherches (Google, Bing,...)
Il permet aussi d'aggreger des moteurs de recherches moins courant comme Wikipédia par exemple.

 
6  Bronco le

Salut !
Dans mon souvenir, les instances de searX se heurtent au même souci de bannissement... Non ?

 
7  Jerry Wham le

Oui. Tout pareil.

 
8  AAA le

L'idée que ce soit le navigateur qui fasse les requêtes directement sur google.com risque de ne pas marcher à cause de CORS malheureusement. https://developer.mozilla.org/fr/docs/Web/HTTP/CORS

 
9  Bronco le

En effet, il y a de fortes chances que ça merdouille à ce niveau...

 

Fil RSS des commentaires de cet article

✍ Écrire un commentaire

les commentaires relevant du SPAM seront filtrés et dégagés direct...

Quelle est le dernier caractère du mot 2a8ez9 ?