Les membres ayant 30 points peuvent parler sur les canaux annonces, projets et hs du chat.
La shoutbox n'est pas chargée par défaut pour des raisons de performances. Cliquez pour charger.

Forum Casio - Actualités


Index du Forum » Actualités » Crawlers IA sur la forge : état du service et blocage
Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Crawlers IA sur la forge : état du service et blocage

Posté le 27/03/2025 19:34

Notre forge Git est actuellement harcelée par des crawlers utilisés pour entraîner des IA. Ce n'est pas que nous, c'est partout dans les news des sites techniques en cette fin de mois.

Pour contexte, on se prend facilement 10 requêtes par seconde, depuis des User-Agent randomisés (qui n'osent pas révéler leur identité) qui requêtent depuis des IP parfois résidentielles (i.e. tout à fait légitime en surface) aléatoires dans des petits groupes.

On fait ce qu'on peut pour essayer de rétablir le service mais c'est pas facile.

Les habitués du forum connaîtront sans doute ma haine profonde de l'IA sur tous les plans ; sociétal, scientifique, environnemental, économique. Voilà notamment pourquoi


Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Citer : Posté le 14/04/2025 23:54 | #


Le spam continue et les bans continuent ; les logs indiquent environ 300'000 requêtes par jour dont au moins 85% sont trivialement du crawling. L'approche est très distribuée : chaque client ne fait que 20-30 requêtes par jour pour éviter de déclencher les mesures antiban classiques. Les critères plutôt conservateurs de mon script en flaggent la moitié environ, ce qui aide mais n'est pas encore assez pour décharger complètement la forge.

J'ai vu par l'intermédiaire de quelqu'un d'autre ChatGPT écrire du code avec le module gint de PythonExtra, et le seul endroit où la doc de cette chose se trouve est sur notre forge. Je vous laisse en déduire ce que vous voulez...
Mon graphe (28 Janvier): (MPM ; serial gint ; (Rogue Life || HH2) ; PythonExtra ; ? ; Boson X ; passe gint 3 ; ...) || (shoutbox v5 ; v5)
Kikoodx Hors ligne Ancien labélisateur Points: 3041 Défis: 11 Message

Citer : Posté le 15/04/2025 12:00 | #


bon courage avec les crawlers, cette « industrie » est une plaie
ouais ouais
Mb88 Hors ligne Rédacteur Points: 1224 Défis: 3 Message

Citer : Posté le 15/04/2025 15:15 | #


Lephenixnoir a écrit :
Les habitués du forum connaîtront sans doute ma haine profonde de l'IA sur tous les plans ; sociétal, scientifique, environnemental, économique. Voilà notamment pourquoi


T'es pas le seul

Lephenixnoir a écrit :
J'ai vu par l'intermédiaire de quelqu'un d'autre ChatGPT écrire du code avec le module gint de PythonExtra, et le seul endroit où la doc de cette chose se trouve est sur notre forge. Je vous laisse en déduire ce que vous voulez...


Tant qu'il ne copie colle pas du code d'humain ça va encore...

EDIT:

Et après aussi c'est trop un effet de mode, chacun veut avoir son IA à la c*n pour chaque petit truc débile, comme stack overflow ou Mozilla par exemple, à des endroits où personne en a demandé.
Slyvtt Hors ligne Maître du Puzzle Points: 2559 Défis: 17 Message

Citer : Posté le 15/04/2025 15:24 | #


@Lephe, j'espère que tu as fait ton starter pack ...


There are only 10 types of people in the world: Those who understand binary, and those who don't ...
Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Citer : Posté le 15/04/2025 15:34 | #


Pff oui c'est inutilisable la forge là. Quel foutage de gueule. J'en remets une couche.

Vous inquiétez pas j'en fait profiter tout le monde au boulot aussi, j'ai même boycotté un événement parce que juste non. Mais bon, rien n'arrête le progrès !

Allez, quelques stats de plus. Aujourd'hui on est à 235'000 requêtes (à 15h30). 72% proviennent d'IP qui sont déjà bannies. Des autres (4400 clients), 9 sur 10 sont de façon flagrante du crawling, et avec les paramètres que j'ai mis ça bannit 1800 clients. Mes critères sont trop rigides pour griller les autres, il faut que j'étudie la tête des requêtes.
Mon graphe (28 Janvier): (MPM ; serial gint ; (Rogue Life || HH2) ; PythonExtra ; ? ; Boson X ; passe gint 3 ; ...) || (shoutbox v5 ; v5)
Thebigbadboy Hors ligne Maître du Puzzle Points: 456 Défis: 16 Message

Citer : Posté le 15/04/2025 15:53 | #


Ça fait super longtemps que je ne me suis pas connecté, mais j'ai vu ce thread-ci et je me suis dit : pourquoi ne pas utiliser Anubis ? https://github.com/TecharoHQ/anubis

C'est open-source, gratuit, ...
Après je ne m'y connais pas trop c'est vrai (= je ne sais pas si c'est la meilleure des solutions), mais de nombreux sites l'utilisent depuis peu (e.g. FFmpeg issue tracker, Gnome GitLab).
J'en avais entendu parlé parce que des dev sur Gnome GitLab râlaient que ce soit une "anime girl" comme mascote : https://discourse.gnome.org/t/anime-girl-on-gnome-gitlab/27689
Un problème sans solution est un problème mal posé — Albert Einstein
Dark storm Hors ligne Labélisateur Points: 11647 Défis: 179 Message

Citer : Posté le 15/04/2025 15:57 | #


J’ai peur que ça casse GiteaPC. Le fonctionnement de GiteaPC est de cloner les dépôts pour les compiler localement, en https.
Donc si tu ajoute une PoW en Javascript pour accéder au site, tu pète ça.

Après ptet qu’avec un header spécifique on peut exclure GiteaPC du scope d’Anubis, mais ça fait quand même beaucoup de taf de mise en place.
Finir est souvent bien plus difficile que commencer. — Jack Beauregard
Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Citer : Posté le 15/04/2025 16:36 | #


J'y ai pensé aussi. Honnêtement, pour l'instant j'attends de voir jusqu'où on peut aller. Je râle parce que c'est chiant (et que tout prétexte est bon pour râler sur l'IA) mais on n'est pas au bout de nos options non plus. Si on peut calmer le jeu sans solution de ce type tant mieux. Sinon ouais il faudra bien installer un truc du genre.
Mon graphe (28 Janvier): (MPM ; serial gint ; (Rogue Life || HH2) ; PythonExtra ; ? ; Boson X ; passe gint 3 ; ...) || (shoutbox v5 ; v5)
Breizh_craft Hors ligne Modérateur Points: 1178 Défis: 7 Message

Citer : Posté le 15/04/2025 16:37 | #


J’aimerais bien éviter cette solution aussi.
Breizh.pm – Un adminsys qui aime les galettes.
Farhi Hors ligne Membre Points: 1429 Défis: 0 Message

Citer : Posté le 15/04/2025 17:24 | #


Et pourquoi on ne peux pas réservé l'accès a uniquement ceux qui ont un compte Planet Casio ou quelque chose dans le genre ?

Aparté :
Personnellement j'ai un autre avis sur l'IA, je trouve que c'est quelque chose d'incroyable, que ce soit la science ou les maths qui se cachent derrière. Je pense qu'il ne faudrait pas cracher sur l'IA mais sur ceux qui l'utilisent de la mauvaise façon ou emploient ce genre de méthode de spam. Ces derniers temps, il y a tellement d'engouement autour de l'IA qu'on en fait une overdose, mais ce n'est pas la faute des machines mais des gens qui veulent se faire un masse de fric. Ça me rend triste de voir autant de personnes détester l'IA parce que des personnes avares inondent internet de spam, alors que ça pourrait sauver des vies, dans la médecine, dans les recherches, dans la sécurité et j'en passe. À cause de ça, les gens vont boycotter l'IA alors que c'est une science tellement intéressante.
"La créativité est contagieuse faites la tourner"
Albert Einstein
Breizh_craft Hors ligne Modérateur Points: 1178 Défis: 7 Message

Citer : Posté le 15/04/2025 17:25 | #


Nan mais je pense que tout le monde ici sera d’accord pour dire que l’IA est un secteur de recherche qui peut être intéressant, mais les LLM et autres machins génératifs utilisés à tout va ici sont une horreur qu’on veut tous voir brûler.

Déjà si l’IA était simplement resté un secteur de recherche intéressant, personne n’en aurait entendu parler, à part ceux que ça intéresse, justement.
Breizh.pm – Un adminsys qui aime les galettes.
Dark storm Hors ligne Labélisateur Points: 11647 Défis: 179 Message

Citer : Posté le 15/04/2025 17:34 | #


Farhi a écrit :
Et pourquoi on ne peux pas réservé l'accès a uniquement ceux qui ont un compte Planet Casio ou quelque chose dans le genre ?

Je trouve ça dommage, quand on est un site qui promeut ouvertement l’accès libre aux informations, qui s’est opposé à Discord exactement pour ces raisons, qui autorise même le post en tant qu’invité (qui en 2025 le propose encore ?), de devoir mettre en place un contrôle d’accès strict pour juste accéder à des ressources qu’on publie le plus largement possible, le tout parce que des sociétés qui n’en n’ont rien à foutre font littéralement du DDoS au sens propre du terme pour des raisons commerciales. Même les crawlers de moteurs de recherche ont la décence de respecter le robots.txt, utiliser des User-Agent identifiables et globalement ne pas perturber le service.


+1 pour Breizh : ok pour la recherche, sauf que là 99% du calcul c’est pour générer des starter packs, du code bourré de vulnérabilités ou des campagnes de phishing chiadées.
Finir est souvent bien plus difficile que commencer. — Jack Beauregard
Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Citer : Posté le 15/04/2025 17:53 | #


Les comptes ne sont pas liés donc ce serait dur à détecter ; et on a pas mal d'utilisateurs / collaborateurs qui sont externes et ont juste une utilisation légitime du service sans compte.

Je pourrais m'épancher des heures sur l'IA, je vais essayer formuler mon opinion entièrement et brièvement ; je n'y reviendrai pas ensuite. Soyez libres de répondre, mais je m'arrêterai là.
  • Côté scientifique, le ML est utilisé n'importe comment. On ne sait toujours pas le valider mais si tu veux des accélérateurs pour le truc dont on sait pas s'il marche, on a touuuut ce qu'il te faut. J'ai vu 5 chercheurs éminents conférencer une heure sur remplacer un compilateur par une IA sans même frôler le début de la notion de la question qu'on sait pas si le code généré est juste. C'est indigne de la profession.
  • Côté industriel, c'est une blague absolue, que des grosses entreprises qui veulent faire des profits, et qui les font en en promettant la lune et en délivrant un gravier. Leurs sous viennent des investisseurs, pas des résultats.
  • L'industrie dans l'ensemble empeste de scams faciles, le Rabbit R1, les millions de clones, et toujours zéro application utile à part violer le copyright de Studio Ghibli en plein jour et Recall dont personne ne veut. Tout ce qu'on fait c'est remplacer des artistes par des datacenters gérés par des milliardaires. Fuck les milliardaires, moi je paierai mes artistes.
  • L'éthique du processus est dans l'azote liquide ; délocalisation de travail esclave pour valider, scraping éhonté, violation complète de copyright sous couvert d'un flou juridique sur la nature transformative de l'IA pas encore traitée par la loi.
  • En bref, on nous peint le tableau d'un futur où l'IA est miraculeuse, solide, gérée de façon responsable et utilisée pour le bien commun, compatible avec la crise environnementale, tout en fermant les yeux sur une réalité qui montre tout le contraire et alimente le prochain pic du capitalisme terminal.

L'IA est inextricable du contexte sociétal dans lequel elle vit, et les mérites techniques sont à plusieurs ordres de grandeurs de justifier la débauche intellectuelle et morale qui est étalée aujourd'hui. Tu me vires les entreprises qui font des sous sur le buzz spéculatif, tu me vires les promesses outrageantes irréalisables faites au public, tu me vires les scientifiques qui en mettent de partout avant de commencer à réfléchir, et je ferai de l'IA. Mes espoirs sont minces.
Mon graphe (28 Janvier): (MPM ; serial gint ; (Rogue Life || HH2) ; PythonExtra ; ? ; Boson X ; passe gint 3 ; ...) || (shoutbox v5 ; v5)
Potter360 Hors ligne Rédacteur Points: 1257 Défis: 2 Message

Citer : Posté le 16/04/2025 10:37 | #


+1 Lephe’.
Globalement, coder. Mal, mais coder.
Mb88 Hors ligne Rédacteur Points: 1224 Défis: 3 Message

Citer : Posté le 16/04/2025 15:38 | #


Thebigbadboy a écrit :
J'en avais entendu parlé parce que des dev sur Gnome GitLab râlaient que ce soit une "anime girl" comme mascote : https://discourse.gnome.org/t/anime-girl-on-gnome-gitlab/27689


Ça m'a surpris aussi la première fois quand j'ai vu ça
Eragon Hors ligne Gardien des bots Points: 495 Défis: 0 Message

Citer : Posté le 17/04/2025 23:57 | #


SourceHut à mis en place Anubis.
Le post mentionne go-away comme potentielle alternative.
J'ai pas trop regardé en détail. Mais si les filtres sur le proxy et pare-feu sont pas suffisants on devra regarder d'autres options. Donc je liste ce qui est possible
Lephenixnoir Hors ligne Administrateur Points: 25011 Défis: 174 Message

Citer : Posté le 19/04/2025 20:42 | #


Update toujours : la forge était assez bof hier et aujourd'hui, entre autres parce que j'avais pas lancé mon script x), en partie parce que certains jours l'attaque est extrêmement distribuée avec 1-2 requêtes par IP seulement. J'ai pas encore exploité le critère de bannir les IPs dont la toute première requête est du spam, donc y'a encore beaucoup de potentiel (ça vient).

Aujourd'hui les bots étaient stupides et faisait 20 requêtes chacun donc une petite update de la banlist a fait le ménage.

Plus long-terme il faudra remplacer la page 403 par une explicative pour que si quelqu'un est banni par erreur il y ait un moyen de le récupérer.
Mon graphe (28 Janvier): (MPM ; serial gint ; (Rogue Life || HH2) ; PythonExtra ; ? ; Boson X ; passe gint 3 ; ...) || (shoutbox v5 ; v5)

LienAjouter une imageAjouter une vidéoAjouter un lien vers un profilAjouter du codeCiterAjouter un spoiler(texte affichable/masquable par un clic)Ajouter une barre de progressionItaliqueGrasSoulignéAfficher du texte barréCentréJustifiéPlus petitPlus grandPlus de smileys !
Cliquez pour épingler Cliquez pour détacher Cliquez pour fermer
Alignement de l'image: Redimensionnement de l'image (en pixel):
Afficher la liste des membres
:bow: :cool: :good: :love: ^^
:omg: :fusil: :aie: :argh: :mdr:
:boulet2: :thx: :champ: :whistle: :bounce:
valider
 :)  ;)  :D  :p
 :lol:  8)  :(  :@
 0_0  :oops:  :grr:  :E
 :O  :sry:  :mmm:  :waza:
 :'(  :here:  ^^  >:)

Σ π θ ± α β γ δ Δ σ λ
Veuillez donner la réponse en chiffre
Vous devez activer le Javascript dans votre navigateur pour pouvoir valider ce formulaire.

Si vous n'avez pas volontairement désactivé cette fonctionnalité de votre navigateur, il s'agit probablement d'un bug : contactez l'équipe de Planète Casio.

Planète Casio v4.3 © créé par Neuronix et Muelsaco 2004 - 2025 | Il y a 121 connectés | Nous contacter | Qui sommes-nous ? | Licences et remerciements

Planète Casio est un site communautaire non affilié à Casio. Toute reproduction de Planète Casio, même partielle, est interdite.
Les programmes et autres publications présentes sur Planète Casio restent la propriété de leurs auteurs et peuvent être soumis à des licences ou copyrights.
CASIO est une marque déposée par CASIO Computer Co., Ltd