Base de code pour Crawler

le Mer 24 Aoû 2011 09:57

Bonjour,
je commence à sérieusement avoir besoin de mon propre crawler, ne serait ce que pour analyser les caractéristiques d'un site (titres, descriptions, densités, par exemple) avant publication et indexation par les moteurs.
Je voulais savoir si quelqu'un connait une base de code déjà écrite, GPL si possible (BSD ou CC sont bienvenus) et si vous avez des retours à donner dessus.


referencement naturel,Adwords:Refeo.fr

Avatar de l’utilisateur   
36positions
Like Rank Total : 2.5    
Actif
 
Messages : 2297
Inscription : Mar 9 Aoû 2011 12:10
Localisation : Caen







    
 

le Mer 24 Aoû 2011 10:41

Ici tu aura tout ça même plus... http://www.analyses-url.com/cgi-bin/met ... omplete.pl

Tu peut lancer ton site même si il est pas optimisé au tacket, tu y reviens dessus dès que t'as trouvé les bons éléments pour le mettre conforme pour Google...


Refaudit sarl Référencement et positionnement Google, Yahoo, Bing, Alexa...

Avatar de l’utilisateur   
refaudit    
Actif
 
Messages : 172
Inscription : Jeu 8 Jan 2009 09:52
Localisation : Bretagne

le Mer 24 Aoû 2011 11:21

Merci, c'est utile, mais ce n'est pas du tout ce que je cherche: ça n'analyse qu'une page, et les infos collectées, même si elles sont exhaustives, ne sont pas celles que je cherche.
Je veux du code, à installer idéalement sur un de mes serveurs, et suffisament customizable pour me permette de pister des caractéristiques particulières tout au long du site: sortir le listing des titres, de tous les liens internes avec leurs ancrages, des liens sortants en dofollow tout au long du site, calculer la densité de répètition d'un terme au sein d'un lot de pages, essayer de détecter un peu de duplicate interne, etc...
C'est pour ça que je cherche une bibliothèque ou un code de crawler facile à éditer, pour ne pas tout réécrire à la base du crawler (gestion des erreurs, timeouts, etc...).


Votre hébergement de vacances en Dordogne est sur http://www.locationdordogne.com/.

Avatar de l’utilisateur   
36positions
Like Rank Total : 2.5    
Actif
 
Messages : 2297
Inscription : Mar 9 Aoû 2011 12:10
Localisation : Caen

le Mer 24 Aoû 2011 13:06

Bonjour refaudit j'aprécie beaucoup ton lien je le trouve très bien merci



jeanmarie    
Actif
 
Messages : 29
Inscription : Mar 10 Mai 2011 15:53
Localisation : Coursan dans l' Aude

le Mer 24 Aoû 2011 13:23

De rien JM ;)

36Positions, la ça va être chaud à trouver sauf si tu le code toi même...
Ceci dit, vous travaillez tous en Ref ou vous avez des besoins en ref, ou vous voulez vous perfectionner en ref, automatiser en ref, vous faciliter la vie en ref... Alors?

Pourquoi ne pas investir dans un logiciel professionnel qui fait tout cela en illimité.
Ne sortez pas pendant un mois (pas de boite de nuit, pas d'alcool, pas de filles...)
Un paquet de clopes sur deux (si vous fumez ;) ) et vous économisez:

68€ http://www.advancedwebranking.com/feats-list.html version standard, elle te donne tout ça et tu l'utilise à vie, sinon => Les mains dans le camboui mon gars ;)


Refaudit sarl Référencement et positionnement Google, Yahoo, Bing, Alexa...

Avatar de l’utilisateur   
refaudit    
Actif
 
Messages : 172
Inscription : Jeu 8 Jan 2009 09:52
Localisation : Bretagne

le Mer 24 Aoû 2011 13:39

De toutes maniere il faudra faire page par page, c'est sur !
De toutes maniere tu n'arrivera jamais à optimiser un site complet en une fois non? (sinon je suis preneur)

Donc apres des outils il y en à pas mal qui font ce que tu demande.
T'en à quelques uns ici: http://www.webconfs.com/
Sinon ici t'as des tas de bouts de code, à toi de les recompiler dans le meme script (bonjour le taff !!!) http://www.google.fr/search?q=crawler++ ... 80&bih=855

Et ici ils ont pas mal de bout de scripts PhP http://www.dailybloggr.com/category/tools/ et la idem, à toi de mettre les mains dedans, mais dans ton optique du "tout en un" totalement gratuit, la je doute que tu trouve ton bonheur ;)


Refaudit sarl Référencement et positionnement Google, Yahoo, Bing, Alexa...

Avatar de l’utilisateur   
refaudit    
Actif
 
Messages : 172
Inscription : Jeu 8 Jan 2009 09:52
Localisation : Bretagne

le Mer 24 Aoû 2011 13:44

@refaudit avant dernier message: je travaille déjà avec AWR ;), et je travaille dans le référencement, donc mes besoins sont plus pointus, en fait, que les analyses de bases des différents outils que je connais (cf plus haut). Je pourrais effectivement sans problème coder moi même le spider "from scratch", je cherche juste à savoir si je peux gagner du temps en ne réinventant pas la roue. J'ai déjà noté au passage quelques trucs comme sphider, phpdig et toute une série de moteurs de recherches libres en langages variés ou plus particulièrement en perl qui est un dialecte que j'aime assez, mais comme il y a il me semble quelques autres pros ici, je me disais qu'il y avait des chances que quelqu'un en ai testé quelques uns et m'oriente vers un moteur modulable et surtout trés customisable.

@refaudit dernier message: merci encore, ça me donne un peu plus de références qui vont dans mon sens. Maintenant je cherche à savoir s'il y a un truc mieux que les autres pour faire ce que j'ai décrit, à savoir effectivement des trucs qui concernent un site tout entier, comme détecter [edit:plutot brancher mes routines de détection] des parties "cross site", des portions de texte trop similaires, ou ce genre de choses [edit:l'audit/optimisation page à page, je fais effectivement ça à la main].
Je sais, c'est peut être un peu balèze, mais ça ne me fait pas vraiment peur.

Dernière édition par 36positions le Mer 24 Aoû 2011 13:53, édité 2 fois.

referencement naturel,Adwords:Refeo.fr

Avatar de l’utilisateur   
36positions
Like Rank Total : 2.5    
Actif
 
Messages : 2297
Inscription : Mar 9 Aoû 2011 12:10
Localisation : Caen

le Mer 24 Aoû 2011 13:48

Et pour rebondir sur ta dernière remarque: en sur mesure et couteaux suisses, en tant qu'ardent défenseur du libre, je t'assure que c'est dans les projets bénévoles collaboratifs qu'on a le plus de chance de trouver son bonheur. ;)
Je t'accorde que quand on est pas codeur, le libre n'est pas forcément gratuit.


Réparer son iphone, trouver des pièces de portable, c'est sur http://comptoir-iphone.com/ que ça se passe

Avatar de l’utilisateur   
36positions
Like Rank Total : 2.5    
Actif
 
Messages : 2297
Inscription : Mar 9 Aoû 2011 12:10
Localisation : Caen

le Mer 24 Aoû 2011 13:49

A part les mains dans le camboui mon pôte, je vois pas. Je suis toujours en recherche de bout de code aussi pour des besoins spécifiques (et j'y passe 7j/7j) mais je t'avoue que je crois que j'ai fait le tour de la question (sauf si un jour quelqu'un met ça à dispo mais j'en doute, sauf payant...)

Le dernier site sympa qui te donne pas mal d'indications que j'ai pu trouver c'est: http://www.sheerseo.com/

Mais bon dans l'avenir si je trouve un truc qui corresponde à tes besoins, je le posterai.
Pour l'instant, moi j'utilise AWR et Web ceo 8 en complément. Maintenant, j'ai pas vraiment le temps de coder un truc pareil, (de A à Z j'ai déja pas le niveau) mais si je trouve... ;)


Refaudit sarl Référencement et positionnement Google, Yahoo, Bing, Alexa...

Avatar de l’utilisateur   
refaudit    
Actif
 
Messages : 172
Inscription : Jeu 8 Jan 2009 09:52
Localisation : Bretagne







    
 

Retourner vers Les outils web & le logiciel SEO Soft