http://googol.warriordudimanche.net/#
J'ai testé cette nuit une contre-mesure contre le bannissement d'IP par google:
Dès la première requête renvoyant un captcha, googol se met en pause et relaie les demandes utilisateur directement vers duckduckgo pendant une heure.
Passé une heure sans requêtes vers google, ce dernier «oublie» l'IP...
Je vais tester une solution qui utiliserait les ip directes des datacenters de google... (thx Erase : j'ai pas dit mon dernier mot ^^ )
http://googol.warriordudimanche.net/?
Bon,
je cherche un moyen depuis un bon moment pour permettre l'envoi du captcha par l'utilisateur mais en passant par le serveur hébergeant le script, c'est pas glop : le formulaire donné par google pour le captcha n'a pas d'url dans l'attribut «action» mais le mot «Captcha» et aucun js pour gérer l'expédition, ce qui 1- me laisse perplexe et 2-m'empêche de savoir à quel script envoyer la résolution du captcha...
BREF
En attendant mieux, et pour laisser le temps à Google d'oublier un googol trop actif, je propose de renvoyer la requête vers DDG chaque fois que le formulaire de captcha est détecté...
C'est ce que j'ai fait sur le mien sans répercuter cette modif sur le github.
Heu... si quelqu'un a une idée...
http://googol.warriordudimanche.net/
Petite mise à jour de Googol: un bug fix sur les recherches d'images (google est particulièrement chiant avec ça ^^) et un changement de design.
Je continue à bosser dessus.
Edit: si la page de démo ne renvoie rien pour l'instant, c'est sans doute que google bloque l'ip de mon serveur pendant un temps: ça arrive quand googol est victime de son succès et que trop de requêtes parviennent à google en une seule fois ^^
N'hésitez pas à héberger vos propres instances du script ou patientez un moment, ça devrait passer rapidement ^^
http://klask.jaouen.eu/petra.php?lang=br
Un utilisateur de Googol ( https://github.com/broncowdd/googol ) m'a proposé d'en faire une version en Breton... il en a profité pour améliorer le script en ajoutant les cartes et la traduction...
Je n'ai pas encore jeté un oeil dedans, mais ça m'a l'air d'être du beau boulot GG !
http://googol.warriordudimanche.net/?lang=fr&q=boops&mod=images&couleur=&taille=
YAHAAAAAA ! JE SUIS INVINCIBLE !!! smiley
J'ai mis en ligne et sur github la version corrigée de googol... les images refonctionnent !
J'ai bien galéré mais ça maaaarche !
Un jour je vous raconterai... Bronco tombe en mode cramé
J'en ai profité pour ajouter un système de !bangs à la ddg ^^
depuis googol, si vous tapez !ddg au début de votre recherche, il la fait directement sur DDG... <3
Je bosse sur l'intégration directe d'orange proxy...
http://warriordudimanche.net/shaarli/?3CKAPQ
Bon, je pense avoir saisi comment google s'y prend pour blouser googol:
1- il met une fake url d'image dans la balise img du thumbnail
2- il met dans un SCRIPT JS l'image miniature encodee en base64 (c'est des malades !)
3- une fonction js se charge d'injecter les datas dans la balise en faisant le lien NAME->data...
des malades, je vous dis...
J'essaie de contourner et je vous tiens au courant
http://zerobin.warriordudimanche.net/?589fbf9fc0c6459b#EgQAKiA/118J2Kh3JA2OVLWhXCRVvDYfJ/QCFHraUPg=
Voilà un zérobin pouvant servir de réflexion sur le thème : "comment niquer google images malgré l'utilisation du js pour les thumbs" ou "que fait donc la fonction google.tbn.csi ?" (google tbn => google.thumbnail en tt cas ! )
http://www.warriordudimanche.net/static2/tooeets
Googol news: Google semble avoir paré à la récupération des miniatures...
En effet, le code des balises thumbs ressemble à ça quand on affiche la source:
< img class="rgi" data-src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRGh9-U3M3Sjyqk0AFPMLEgcv8gwjAYcpPJiDEwgvjnbB3_NML" data-sz="f" name="Xo4cu1yxz0vQzM:" onload="google.stb.csi.onTbn(1, this)">
Ooooh, un appel à du JS ... oooohhh!
Pis si je cherche à voir l'image (copier-coller dans le navigateur) ben j'ai rien...
puis une inspection du code final donne plutôt des données base64 dans la src...
Donc, j'ai bien l'impression que c'est le js qui récupère l'image en base64 et l'insère dans l'IMG...
Bronco se gratte la tête
http://googol.warriordudimanche.net/?q=&mod=images&lang=fr
Après les changements de la page de google ( http://warriordudimanche.net/shaarli/?rCequA ) j'ai bossé sur les regexes et je suis arrivé à retrouver la plupart des infos.
côté +:
côté -:
Dès que j'ai fait la même chose avec la recherche de vidéos, je mets les modifs sur github
[ET SUR LA RECHERCHE NORMALE oO !? ARGH ! WTF !]
Tchuss les gars ;) (et les filles, si il y en a ;)
http://googol.warriordudimanche.net
Ils sont malins, chez google ^^
De temps en temps, il faut revoir la regex qui parse la page de résultats d'une recherche récupérée via curl en php: en effet, il suffit d'un changement dans la structure de la page pour que la regex foire... normal.
En ce moment, les recherches d'images ne renvoient rien via googol: je me dis que ça doit être la regex...
Je regarde ce que mon script reçoit dans sa fonction parse_query: ce n'est en effet plus du tout la même structure qu'avant.
Problème, les adresses directes vers les images n'y sont pas !
Il me semble étrange qu'ils suppriment une donnée aussi vitale: je refais donc la recherche via mon navigateur et surprise: ce n'est pas DU TOUT la même page que celle reçue par Googol... hinhin
Google adapte donc ce qu'il envoie selon si c'est un user ou pas...
Gotcha me dis-je (car je suis polyglotte et sujet au soliloque ^^), je vais envoyer un faux user_agent, pour voir...
Twingo ! voilà que googol reçoit bien la page d'un utilisateur lambada.
Malin, google, hein ?! Ben c'est pas fini !
Quand on regarde le code de la page APRES HTMLSPECIALCHARS => c'est du pur JS ! ^^
Donc, en résumé: google reçoit la requête, la gère et renvoie un code js qui génère la page de planche d'images que vous voyez...
Non sans faire des reports par ci par là... bien entendu.
Du coup, parser le big shitload reçu, ça va être la fête à mon cul ^^
Je renonce pas notez, hein ?!
https://stenevang.wordpress.com/2013/02/22/google-search-url-request-parameters/
Et ça pour améliorer googol quand j'aurai le temps, hinhinhin !
http://sebsauvage.net/links/?myeK1Q
En effet, on en parlait sur WDD (là http://www.warriordudimanche.net/article161/googol-1-3-ajout-des-videos#c1369669085-1) mais comme il semble que ce soit temporaire, la solution la plus simple dans un délai court résiderait dans l'installation massive du script sur de multiples serveurs, histoire de diluer le volume de requêtes venant d'une seule IP...
Donc: COPIEZ Googol, installez-le, proposez-le à vos visiteurs, faites circuler ;) (ou utilisez duckduckgo ;)
http://www.warriordudimanche.net/article159/google-vous-ment-googol-vous-prend-pas-pour-un-hon
Pour ceux qui suivent seulement mon shaarli, j'ai mis à jour Googol.php: il permet de faire aussi de la recherche d'images ...
Partagez, installez-le, amusez-vous...