Browsing Posts in SEO

Web GraphHello, today I wanna tell you about my last python script (really nuts and bolts), called sitemaps.
With it you can build your website sitemaps, it works as a simple spider, it doesn’t produce a xml file but later maybe i can implement this function, for now it only produces a txt file.

This little spider, starts its crawling from a user specified starting page, and it moves all around the internal links it founds. At the end it produces a txt file with all the links, one per line, found during its crawl, this file could be submitted to Google SiteMaps and its syntax is legal.

The importans of using this kind of tool is that Google could index all your internal pages in less time, giving you the chance to increase your popularity.

As I said before this is really “nuts and bolts” but it’s a good starting point to write more sofisticated spider or web analysis tools.

The script core is a BFS (Breadth first search) visit of the graph composed from target web site internal links.

As usually if you have any comments, please don’t esitate, write them!

Here is the source code

Error: Could not open sitemap.py

and here sitemap.py you can download the script.

(English version Google sitemap tool)

Web GraphCiao a tutti, quello che vi presento oggi è un semplicissimo script python, che consente a partire da un indirizzo internet specificato all’avvio, di costruire un file indice contenente tutti i link interni del sito analizzato.

Con questo strumento è possibile creare dei file utilizzabili con Google SiteMaps che vi aiuteranno a far indicizzare l’intero contenuto del vostro sito.

Lo script essendo stato scritto in meno di mezz’ora è veramente spartano, non prevede alcuna personalizzazione né produce in output un file xml compatibile con lo standard definito da google per le sitemaps, ma un semplice file di testo con l’elenco dei link.

È comunque un buon inizio sia per poter sviluppare tool più sofisticati per la produzione di sitemap sia per gettare le basi per un piccolo web crawler in python, perché quello che fa questo script è effettuare una visita BFS cioè in ampiezza, del grafo dei link interni di un sito.

Come al solito se avete commenti non esitate, anzi più ce ne sono migliore sarà il prodotto finale.

Clicca qui per il codice

Error: Could not open sitemap.py

e clicca sitemap.py per scaricare il file.

L’URL rewriting è quella tecnica che vi permette (server consentendo), attraverso l’uso di particolari istruzioni nei file .htaccess, di trasformare gli indirizzi dei vostri siti dinamici, umanamente illegibili ed ancor peggio inaffidabili per gli spider, in un formato utile all’indicizzazione nei motori e alla memorizzazione degli utenti.Per farvi capire cosa sono le pagine dinamiche, diciamo che voi avete il vostro bel forum nella barra degli indirizzi presenta l’url in un formato caratterizzato dalla presenza di molte variabili (sono tutte quelle voci che seguono il ?) che via via che vi aggirate nel sito cambiano in funzione del punto dove vi trovate.

Dal punto di vista di quei simpatici ragnetti dei motori di ricerca questi url sono la cosa pi� pericolosa che esista, difatti nulla assicura allo spider che seguendo questi indirizzi riuscirebbe ad indicizzare correttamente il sito ad esempio supponiamo che voi abbiate un sito con due sole pagine index.php e spidertrap.php, e che per qualche motivo index contenga un link a spidertrap utlizzando un indirizzo nel formato sito/spidertrap.php?SID=84duryreyey e spidertrap contenga un link a index sempre nel formato di prima, dove SID � la variabile che contiene l’id di sessione del vostro visitatore, quello che potrebbe succedere, ad ogni nuova visita degli spider, è che seguendo i link tra le due pagine, lo spider cadrebbe in un loop nel quale ad ogni nuovo accesso SID avrebbe un valore diverso da quello precedente, inducendo così lo spider a pensare di trovarsi difronte ad una pagina mai indicizzata, ottenendo così un’indicizzazione infinita.

La norma per gli spider è quindi quella di non considerare i parametri negli url, (o almeno tralasciarne buona parte) riducendo così la profondità di indicizzazione nei vostri siti.

Proprio in ragione di questo interviene l’url rewriting che consente di riscrivere gli indirizzi che contengono parametri in indirizzi nel formato: sito/param1/param2/param3/pippo.php o in quasi qualunque altra forma vi venga in mente, consentendo così agli spider di attraversare tutto il vostro sito, oltre che ai vostri utenti di rintracciare una pagina interna senza diventare matti.

Il post potrei dichiararlo concluso qui, non mi metterò a spiegare come vanno scritte le regole per l’url rewrite, ma se qualcuno fosse particolarmente interessato potrei pensare di scrivere un nuovo post.

Consiglio a tutti gli interessati di leggersi questo articolo se potete usare .htaccess sul vostro server:

http://pro.html.it/articoli/id_219/idcat_28/pag_3/pag.html

mentre quest’altro se non vi viene concesso:

http://freephp.html.it/articoli/view_articolo.asp?id=61

Originariamente questa testo è stato pubblicato da me sul forum del sito AlVerde.net, a questo indirizzo potrete leggere la versione originale:
http://www.alverde.net/forum/topic.asp?TOPIC_ID=6866&whichpage=1

Questo è un semplice script scritto in python e nato dall’esigenza di controllare il posizionamento dei miei siti su Google in funzione delle chiavi di ricerca.

Quello che fa il programma è leggere un file di configurazione nel quale si possono specificare diversi parametri come il dominio che si vuole trovare, la chiave con la quale effettuare la ricera, il motore di ricerca (google.it/com/…) ed il numero di pagine da controllare.

Potrete scaricare il file originale e completo qui whereIs.py, e questo è un suo file di configurazione di prova data.txt.
Altrimenti potrete vedere il codice direttamente qui sotto cliccando sul nome del file:

Error: Could not open whereIs.py