Posté le 27/03/2025 19:34
Planète Casio v4.3 © créé par Neuronix et Muelsaco 2004 - 2025 | Il y a 121 connectés | Nous contacter | Qui sommes-nous ? | Licences et remerciements
Planète Casio est un site communautaire non affilié à Casio. Toute reproduction de Planète Casio, même partielle, est interdite.
Les programmes et autres publications présentes sur Planète Casio restent la propriété de leurs auteurs et peuvent être soumis à des licences ou copyrights.
CASIO est une marque déposée par CASIO Computer Co., Ltd
Citer : Posté le 14/04/2025 23:54 | #
Le spam continue et les bans continuent ; les logs indiquent environ 300'000 requêtes par jour dont au moins 85% sont trivialement du crawling. L'approche est très distribuée : chaque client ne fait que 20-30 requêtes par jour pour éviter de déclencher les mesures antiban classiques. Les critères plutôt conservateurs de mon script en flaggent la moitié environ, ce qui aide mais n'est pas encore assez pour décharger complètement la forge.
J'ai vu par l'intermédiaire de quelqu'un d'autre ChatGPT écrire du code avec le module gint de PythonExtra, et le seul endroit où la doc de cette chose se trouve est sur notre forge. Je vous laisse en déduire ce que vous voulez...
Citer : Posté le 15/04/2025 12:00 | #
bon courage avec les crawlers, cette « industrie » est une plaie
Citer : Posté le 15/04/2025 15:15 | #
Les habitués du forum connaîtront sans doute ma haine profonde de l'IA sur tous les plans ; sociétal, scientifique, environnemental, économique. Voilà notamment pourquoi
T'es pas le seul
J'ai vu par l'intermédiaire de quelqu'un d'autre ChatGPT écrire du code avec le module gint de PythonExtra, et le seul endroit où la doc de cette chose se trouve est sur notre forge. Je vous laisse en déduire ce que vous voulez...
Tant qu'il ne copie colle pas du code d'humain ça va encore...
EDIT:
Et après aussi c'est trop un effet de mode, chacun veut avoir son IA à la c*n pour chaque petit truc débile, comme stack overflow ou Mozilla par exemple, à des endroits où personne en a demandé.
Citer : Posté le 15/04/2025 15:24 | #
@Lephe, j'espère que tu as fait ton starter pack ...
Citer : Posté le 15/04/2025 15:34 | #
Pff oui c'est inutilisable la forge là. Quel foutage de gueule. J'en remets une couche.
Vous inquiétez pas j'en fait profiter tout le monde au boulot aussi, j'ai même boycotté un événement parce que juste non. Mais bon, rien n'arrête le progrès !
Allez, quelques stats de plus. Aujourd'hui on est à 235'000 requêtes (à 15h30). 72% proviennent d'IP qui sont déjà bannies. Des autres (4400 clients), 9 sur 10 sont de façon flagrante du crawling, et avec les paramètres que j'ai mis ça bannit 1800 clients. Mes critères sont trop rigides pour griller les autres, il faut que j'étudie la tête des requêtes.
Citer : Posté le 15/04/2025 15:53 | #
Ça fait super longtemps que je ne me suis pas connecté, mais j'ai vu ce thread-ci et je me suis dit : pourquoi ne pas utiliser Anubis ? https://github.com/TecharoHQ/anubis
C'est open-source, gratuit, ...
Après je ne m'y connais pas trop c'est vrai (= je ne sais pas si c'est la meilleure des solutions), mais de nombreux sites l'utilisent depuis peu (e.g. FFmpeg issue tracker, Gnome GitLab).
J'en avais entendu parlé parce que des dev sur Gnome GitLab râlaient que ce soit une "anime girl" comme mascote : https://discourse.gnome.org/t/anime-girl-on-gnome-gitlab/27689
Citer : Posté le 15/04/2025 15:57 | #
J’ai peur que ça casse GiteaPC. Le fonctionnement de GiteaPC est de cloner les dépôts pour les compiler localement, en https.
Donc si tu ajoute une PoW en Javascript pour accéder au site, tu pète ça.
Après ptet qu’avec un header spécifique on peut exclure GiteaPC du scope d’Anubis, mais ça fait quand même beaucoup de taf de mise en place.
Citer : Posté le 15/04/2025 16:36 | #
J'y ai pensé aussi. Honnêtement, pour l'instant j'attends de voir jusqu'où on peut aller. Je râle parce que c'est chiant (et que tout prétexte est bon pour râler sur l'IA) mais on n'est pas au bout de nos options non plus. Si on peut calmer le jeu sans solution de ce type tant mieux. Sinon ouais il faudra bien installer un truc du genre.
Citer : Posté le 15/04/2025 16:37 | #
J’aimerais bien éviter cette solution aussi.
Citer : Posté le 15/04/2025 17:24 | #
Et pourquoi on ne peux pas réservé l'accès a uniquement ceux qui ont un compte Planet Casio ou quelque chose dans le genre ?
Aparté :
Personnellement j'ai un autre avis sur l'IA, je trouve que c'est quelque chose d'incroyable, que ce soit la science ou les maths qui se cachent derrière. Je pense qu'il ne faudrait pas cracher sur l'IA mais sur ceux qui l'utilisent de la mauvaise façon ou emploient ce genre de méthode de spam. Ces derniers temps, il y a tellement d'engouement autour de l'IA qu'on en fait une overdose, mais ce n'est pas la faute des machines mais des gens qui veulent se faire un masse de fric. Ça me rend triste de voir autant de personnes détester l'IA parce que des personnes avares inondent internet de spam, alors que ça pourrait sauver des vies, dans la médecine, dans les recherches, dans la sécurité et j'en passe. À cause de ça, les gens vont boycotter l'IA alors que c'est une science tellement intéressante.
Albert Einstein
Citer : Posté le 15/04/2025 17:25 | #
Nan mais je pense que tout le monde ici sera d’accord pour dire que l’IA est un secteur de recherche qui peut être intéressant, mais les LLM et autres machins génératifs utilisés à tout va ici sont une horreur qu’on veut tous voir brûler.
Déjà si l’IA était simplement resté un secteur de recherche intéressant, personne n’en aurait entendu parler, à part ceux que ça intéresse, justement.
Citer : Posté le 15/04/2025 17:34 | #
Et pourquoi on ne peux pas réservé l'accès a uniquement ceux qui ont un compte Planet Casio ou quelque chose dans le genre ?
Je trouve ça dommage, quand on est un site qui promeut ouvertement l’accès libre aux informations, qui s’est opposé à Discord exactement pour ces raisons, qui autorise même le post en tant qu’invité (qui en 2025 le propose encore ?), de devoir mettre en place un contrôle d’accès strict pour juste accéder à des ressources qu’on publie le plus largement possible, le tout parce que des sociétés qui n’en n’ont rien à foutre font littéralement du DDoS au sens propre du terme pour des raisons commerciales. Même les crawlers de moteurs de recherche ont la décence de respecter le robots.txt, utiliser des User-Agent identifiables et globalement ne pas perturber le service.
+1 pour Breizh : ok pour la recherche, sauf que là 99% du calcul c’est pour générer des starter packs, du code bourré de vulnérabilités ou des campagnes de phishing chiadées.
Citer : Posté le 15/04/2025 17:53 | #
Les comptes ne sont pas liés donc ce serait dur à détecter ; et on a pas mal d'utilisateurs / collaborateurs qui sont externes et ont juste une utilisation légitime du service sans compte.
Je pourrais m'épancher des heures sur l'IA, je vais essayer formuler mon opinion entièrement et brièvement ; je n'y reviendrai pas ensuite. Soyez libres de répondre, mais je m'arrêterai là.
L'IA est inextricable du contexte sociétal dans lequel elle vit, et les mérites techniques sont à plusieurs ordres de grandeurs de justifier la débauche intellectuelle et morale qui est étalée aujourd'hui. Tu me vires les entreprises qui font des sous sur le buzz spéculatif, tu me vires les promesses outrageantes irréalisables faites au public, tu me vires les scientifiques qui en mettent de partout avant de commencer à réfléchir, et je ferai de l'IA. Mes espoirs sont minces.
Citer : Posté le 16/04/2025 10:37 | #
+1 Lephe’.
Citer : Posté le 16/04/2025 15:38 | #
J'en avais entendu parlé parce que des dev sur Gnome GitLab râlaient que ce soit une "anime girl" comme mascote : https://discourse.gnome.org/t/anime-girl-on-gnome-gitlab/27689
Ça m'a surpris aussi la première fois quand j'ai vu ça
Citer : Posté le 17/04/2025 23:57 | #
SourceHut à mis en place Anubis.
Le post mentionne go-away comme potentielle alternative.
J'ai pas trop regardé en détail. Mais si les filtres sur le proxy et pare-feu sont pas suffisants on devra regarder d'autres options. Donc je liste ce qui est possible
Citer : Posté le 19/04/2025 20:42 | #
Update toujours : la forge était assez bof hier et aujourd'hui, entre autres parce que j'avais pas lancé mon script x), en partie parce que certains jours l'attaque est extrêmement distribuée avec 1-2 requêtes par IP seulement. J'ai pas encore exploité le critère de bannir les IPs dont la toute première requête est du spam, donc y'a encore beaucoup de potentiel (ça vient).
Aujourd'hui les bots étaient stupides et faisait 20 requêtes chacun donc une petite update de la banlist a fait le ménage.
Plus long-terme il faudra remplacer la page 403 par une explicative pour que si quelqu'un est banni par erreur il y ait un moyen de le récupérer.