IA Bot war: on BOT en touche ? [EDIT]

Les IA qui butinent broutent comme des vaches sur nos serveurs semblent poser de plus en plus de problèmes à tout le monde, si on en croit masto et la river...

Symptômes

  • durées de visite anormales dans les logs (millisecondes par exemple)
  • pics de connexions inexpliqués et violents

Risques

  • vol de données et détournement du contenu
  • pertes de performance voire plantage du serveur
  • inflation dantesque des fichiers logs
  • frais supplémentaires

Bref, les crawlers des IA sont comme les IA elles-mêmes: de la merde envahissant et ressourçophage...

Oui, ressourçophage...   j'ai le droit de néologismer  quand je veux...

Quelles solutions pour lutter ?

le robot.txt : 👍 facile - 👎 efficace que pour ceux qui jouent le jeu

En gros, on joue sur la détection du user-agent, pas forcément fiable puisqu'il est simple de le modifier.

voir https://alyze.info/Blog/le-fichier-robots-txt-ia , https://sebsauvage.net/links/?hyKnfA & https://github.com/ai-robots-txt/ai.robots.txt/blob/main/robots.txt

IP & htaccess : 👍 efficace avec les bots connus - 👎 plus ardu, besoin de mises à jour

On bloque des IP ou des plages d'IP dont on sait qu'elles sont utilisées par les bots.

Premier problème, obtenir une liste de ces plages d'IP... second problème, la garder à jour. Sans compter que le fait de bidouiller le htaccess quand on est un peu noob n'est pas sans danger ou prises de tête...

voir https://chemicloud.com/kb/article/block-bad-bots-and-spiders-using-htaccess/

action user : 👍 efficace - 👎 chiant pour le visiteur et js obligatoire

Pour faire simple, on attend une action du visiteur avant de lui servir la page: un captcha par exemple... Mais il faut JS et se faire chmir à cliquer sur des machins...

[EDIT] https://framapiaf.org/@sebkirche/115486519579128004 m'a fait passer une solution plus simple, bloquer tout accès n'ayant pas un cookie, rediriger vers un JS qui crée le cookie et recharger: les Bots IA n'exécutant pas le JS [pour le moment], ils restent à la porte. ( https://fxgn.dev/blog/anubis/ )

une appli tierce de blocage 👍 efficace - 👎 ardu pour le webmestre amateur

On a entendu parler d'Anubis ( https://sebsauvage.net/links/?ZFvxlg ) que je n'ai pas testé mais qui détecte qu'un BOT en est un en faisant remplir une «preuve de travail» au navigateur. Même s'ils bossent dessus, le problème, pour les gens un sensibles comme nous, reste qu'il faut JS activé... et que ça semble un peu poilu à configurer...

Même chose pour goaway (https://git.gammaspectra.live/git/go-away) qui semble fonctionner comme un reverse proxy...

Un piège façon HoneyPot: https://ecirtam.net/links/?CLMOQQ

On faisait ça pour les anciens bots qui commentaient sur es blogs: en gros, un lien vers une page de ban de l'IP qui est rendue invisible via CSS: l'utilisateur ne le voyant pas, il n'y va pas... Seuls les BOTS, qui n'interprètent pas le CSS, le suivent et tombent dedans.

Admettons   un instant...

que je veuille une solution simple à installer en PHP qui permette de filtrer raisonnablement les bots en question...

Il faut déjà détecter le bot:

  • avec le useragent -même si ce n'est pas la panacée-,
  • via son IP -avec une mise à jour régulière -,
  • grâce à la fréquence de visite: lors des pics, il peut y avoir beaucoup connexions en très peu de temps, ce qu'un humain ne pourrait pas faire...

ensuite il faut lutter contre le bot

  • soit en le bloquant carrément: peu de charge pour le serveur mais le bot va réitérer ses tentatives de connexions,
  • soit en lui envoyant un header (too many connections / moved permanently ) : peu de charge et [peut-être] plus de demandes de connexion...

Mais on peut bien sûr choisir de lutter, au prix d'un peu de charge serveur:

  • générer du blabla incohérent à l'aide d'un lorem ipsum aléatoire,
  • générer des expressions fantaisistes à partir d'un jargonneur afin que l'IA ne puisse pas filtrer le bruit,
  • générer un labyrinthe de liens dans lequel elle se perdra,
  • renvoyer une page statique simple, légère, avec le texte pollueur,
  • rediriger la demande vers un autre site afin que ce soit lui qui se bouffe la charge (un GAFAM dans l'idéal )
  • rendre les données très lentement
  • faire une zipbomb

Exemple de zip-bomb. (Votre serveur envoie 10 Mo, côté client ça se décompresse en 10 Go côté client. La plupart des bots qui scannent les sites web supportent la compression gzip et chargeront bien volontier ce fichier. Et comme ils sont mal développés, ils vont planter. (En principe, que vous développez un client http, il faut coder la quantité de données maximales de données que vous allez lire d'une requête http. Par exemple, il n'est généralement pas utile de charger plus de 20 Mo pour une image. Par défaut, ce n'est pas limité.) (via https://shaarli.zoemp.be/shaare/mx1lcg) Une autre manière de répondre aux bots, c'est d'envoyer les données, mais très lentement. Ça ne consomme que peu de ressources côté serveur, mais côté client il va attendre les données.

dd if=/dev/zero bs=1G count=10 | gzip -c > 10GB.gz

<?php
if (ipIsBlackListed() || isMalicious()) {
    header("Content-Encoding: gzip");
    header("Content-Length: "+ filesize(ZIP_BOMB_FILE_10G)); // 10 MB
    readfile(ZIP_BOMB_FILE_10G);
    exit;
}
?>

une bidouille perso : antibotai

photo de subotai
Mon cerveau est content, il a fait sa blague de merde
S'pas facile des fois...

Donc, c'est un petit script PHP dont je préfère vous annoncer de suite qu'il s'agit plus d'une proof of concept que d'un truc à intégrer dans l'immédiat...

Toutefois

  1. il permet de détecter les user-agents de bots IA
  2. il gère les adresses IP et les plages d'IP
  3. il détecte les fréquences de connexions trop rapides
  4. en cas de bot, on peut choisir:
    1. le blocage par header (404 etc)
    2. la redirection automatique vers une URL de son choix
    3. la pollution par retour de bruit (lorem ipsum aléatoire mélangeant des mots français, anglais et espagnols...)

On gère la configuration par des constantes:

  1. en précisant un code HTML dans HEADER_CODE_FOR_BOTS, antibotai boutera le bot avec le header correspondant.
  2. sinon, REDIRECT_TO_URL peut contenir une URL de redirection
  3. USE_CONNECTION_FREQUENCY , USE_USERAGENT et USE_IP, s'ils sont à TRUE, vont déclencher les diverses détections correspondantes.
  4. POLLUTE_LENGTH (nombre de mots) qui, s'il n'est pas vide génère un texte de pollution

Afin de pouvoir contrôler l'efficacité du bouzin, il y a un fichier log (LOGFILE) ce qui m'a permis de voir que ça avait fonctionné pour quelques bots au moins:

Capture d’écran du 2025-11-02 10-25-19.png

Limite constatée

Si une page de votre site redirige automatiquement vers une autre, antibotai peut penser qu'il s'agit d'un bot car la fonction is_too_quick_to_be_honest() va détecter deux accès trop rapides pour la même ip... Il m'a fallu adapter ce script pour le cas précis de ces redirections.

Je n'ai pas tout testé mais si le coeur vous en dit: de mon côté j'ai pas le temps: rien que pour TERMINER cet article -commencé il y a un moment - j'ai été interrompu pour : réparer un vélux, réparer une fuite de douche, couper les cheveux et préparer à manger... (en plus des interruptions diverses habituelles )

Sources diverses:

Téléchargement

Le zip est à récupérer là http://cdn.warriordudimanche.net/antibotai.zip

Il contient :

  • antibotai.php qui est le script à appeler au début de page.
  • base.php, un fichier texte contenant simplement les mots à utiliser pour polluer
  • ip.php contenant les ip à détecter
  • useragents.php qui fait de même avec les user-agents.

(...)

PluXml plugin Starter v1.3

Pour toute personne voulant faire des plugins pour pluXML, j'ai mis à jour mon générateur de plugin: pour rappel, il sert à créer tous les fichiers et sous-dossiers préconfigurés selon vos choix.

  • J'ai mis à jour les hooks,
  • j'ai ajouté la gestion du scope (admin/site)
  • j'ai ajouté la possibilité de traduire les textes du frontend
  • j'ai changé un détail assez chiant: il ne plaçait pas les fichiers du zip dans le dossier du plugin...
  • J'ai amélioré la lisibilité du code... (un peu)

Je ne m'étends pas plus, vu que je dois être le seul à utiliser ça, mais bon.

Au cas où,

Nicolas Sarkozy condamné : Bien que relaxé pour « corruption », l’ex-Président bientôt en prison… On vous explique tout

sarkodtc.jpeg

réalisé avec https://api.warriordudimanche.net/stamp/

«J'irai dormir en prison mais la tête haute»

oui, oui, ta gueule et avance... De toutes façon, la tête haute, même avec tes talonnettes...

Finalement, le karcher a fini par marcher... Bon, c'est pas tout ça mais il en reste plein: au suivant !

L'attribut contenteditable plaintext-only - Alsacreations

Résumé : l'attribut contenteditable est une faille XSS en soi car il permet d'injecter une balise script.

Pour éviter ça, contenteditable="plaintext-only".

Et si on a besoin de texte enrichi, on laisse contenteditable="true" mais on sanitize...

Ha, tiens ? la mise à jour de PluXML pète les TAGS ?

J'ai fait une MAJ de PluXML et je viens de m'apercevoir que ça m'a viré tous mes tags...

Donc, là, actuellement, impossible de retrouver des articles par mot-clé...

Bon, ben je vais voir ce que je peux faire... sans me retaper le «tagage» de 2000 articles sur 13 ans...

Heureusement que ce site ne sert à rien, parce que sinon, on serait dans la merde !

Bon, heureusement que je sauvegarde régulièrement... on remet le fichier de tags et ça a l'air reparti...

(...)

Nixite - Une webapp qui génère des scripts bash pour installer tous vos logiciels Linux d'un coup

Un équivalent pour linux à https://ninite.com/ sous windaube (qui permet de faire sensiblement la même chose à savoir une installation automatisée de plein de logiciels en une fois en évitant les toolbars à la con, les logiciels malveillants et les changement de moteur de recherche intempestifs...)

Pas testé... Mais ça me semble intéressant, même si pour le moment, il n'y a pas des masses de logiciels dans la liste...

Désactiver l'IA sur Firefox 141 - Strak.ch | Actu et liens en vrac

Donc, maintenant, il faut EN PLUS traquer ces merdes d'IA jusque dans la page about:config de firefox...🤪💩

EDIT proposé par Albirew ( https://soshar.dess.ga/notes/acgj91f2ie ) Il semblerait que les deux premières lignes suffisent ;-)

browser.ml.enable -> false
extensions.ml.enabled-> false

//browser.ml.chat.enabled -> false
//browser.tabs.groups.smart.enabled -> false

Skyrim à la MOD de chez nous

Comme ma moitié s'est mise à Skyrim et que j'ai presque fini Tainted grail fall of avalon, j'ai eu envie de m'y remettre une Xième fois...

Mais bon, j'ai un ordi qui patate... c'est pas pour rejouer comme le joueur lambada...

Donc, repartons pour le modding.

1. Commençons par Nexus Mod

Il y a une compilation de mods super dont j'ai lancé l'install mais bon... 1000 mods sans compte premium, ça fait quand même deux trois mille clics... et une présence PERMANENTE devant l'ordi...

En somme, c'est la merde. En plus, à la fin, il n'a pas réussi à marcher parce que SKSE n'était pas compatible avec ma version.

J'ai lâché l'affaire.

2. J'apprends qu'il existe une alternative à Nexus Mods: Wabbajack

https://www.wabbajack.org/

Cette appli permet - sur le papier - d'installer des compilations de mods en un ou deux clics.

Problème, il ne trouve ton Skyrim que si c'est une version légale Donc exit les versions pirates. Sauf...

En cherchant, j'ai trouvé une astuce qui consiste à placer le dossier skyrim dans le dossier common de Steam. Avec un fichier manifest correct, Wabbajack le reconnaît. (voir https://www.reddit.com/r/PiratedGames/comments/f35ufe/getting_modlist_downloader_wabbajack_to_recognize/ )

Capture d’écran du 2025-08-24 16-02-34.png

3. Problème suivant, sans compte prémium, c'est le retour du clickodrome.

Hé oui: si Wabbajack peut télécharger certains mods seul, pour les autres, il faut à nouveau cliquer sur le slow download de Nexusmods...

Comme j'ai choisi de tester la compilation Next generation visual overhaul (170Go), je suis pas chaud pour cliquer 1400 fois et je me dis que je vais installer un autoclicker. Le souci, c'est que l'autoclicker ne clique qu'à des coordonnées précises et le bouton de téléchargement se décale parfois...

Je me dis: spapossible, il y a forcément quelqu'un qui y a pensé... La réponse est oui: https://github.com/parsiad/nexus-autodl

Ce petit bijou fonctionne de façon différente: on lui fournit une capture écran du bouton sur lequel cliquer, on place cette capture dans le dossier templates et on lance... Crois-moi crois-moi-pas, le bouzin reconnaît le bouton et clique dessus... tout seul

Donc, j'ai lancé le tout et j'attends la fin du téléchargement...

4. NotE aU PasSaGe

N'éteignez pas le moniteur, genre pour que ça bosse la nuit... pas de moniteur = pas de capture si vous avez configuré "réduire les fenêtres lorsqu'un moniteur est déconnecté"...

5. Résultat après de loooongues heures... poufcétou

Le contenu venant du Creative Content me fait un trait plat...

Capture d'écran 2025-08-26 174830.png
Wabbajack.current.log

Il semble que ce soit un problème de version... alors que la version que j'ai installée est "The Elder Scrolls V Skyrim Anniversary Edition v1 6 1179 0 8" donc, à priori, avec le Creative Club content...

6. Après quelques sanglots contenus...

Je décide de lâcher l'affaire pour le moment. Si j'étais certain de pouvoir modder correctement le jeu, je serais allé jusqu'à envisager d'éventuellement l'acheter (t'imagines le truc !)

Enfin... comme d'hab' si quelqu'un a une idée... ou simplement une explication de POURQUOI ON NE TROUVE PAS DES VERSIONS DE SKYRIM DEJA MODDEES...

Au moins, j'aurai découvert quelques trucs

Liens:

(...)

New gameuse in town

Après 27 ans de vie commune, ma moitié - résolument opposée au jeu vidéo car n'en voyant pas l'intérêt - à commencé à s'y intéresser: en effet, les enfants grandissent, jouent aux jeux vidéos et elle se dit que si toute la maison s'y adonne, c'est que ça doit être bien...

Par conséquent, je lui ai acheté un petit PC gaming portable pas trop cher mais pas trop mal (un Acer Nitro 5 15,6" Full HD 144Hz Intel Core i5 16 Go RAM 512 Go SSD Nvidia RTX 3060 Noir pour 500€) et je lui ai installé... Skyrim

En noob totale, elle a galéré de ouf au début: incapable de se repérer alors qu'elle a un sens de l'orientation parfait, elle se déplaçait par à-coups en regardant par terre tant le combo QZSD + souris la laissait perplexe, appuyait sur les touches de déplacement comme un gendarme qui tape à la machine...

Mais elle y est revenue et commence même à faire des sessions de 3h de jeu.

Je l'ai installée dans mon bureau et je lui ai fait un petit repose-pieds spécial avec un logo à elle (elle a choisi une Khajiit).

logo bea.png 2PXL 20250820 113423361.jpg 1PXL 20250820 113415792.jpg

Bientôt elle sera suffisamment habituée pour qu'on entame les jeux en réseau: à nous planet crafter, minecraft, aloft etc...

D'ailleurs, si vous avez des idées de jeu en LAN... en particulier RPG / Aventure ... Je... ON prend !

Fil RSS des articles