Browsing Posts in Python

Validazione email – Email validation:
^[_a-zA-Z0-9-]+(.[_a-zA-Z0-9-]+)*@[_a-zA-Z0-9-]+(.[_a-zA-Z0-9-]+)*(.[a-z]{2,3})$

Parsing file di log di Apache – Apache log parsing:
(\d+\.\d+\.\d+\.\d+) (-|\w*) (-|\w*) \[(\d+\/\w+\/\d+):(\d+:\d+:\d+) -(\d\d\d\d)\] "([^"]*)" (\d+) (-|\d+) "([^"]*)" "(.*)"\s*\Z

se utilizzate python è estremamente utile compilare l’espressione regolare che ho appena scritto in questo modo:
myregex = re.compile('(?P\d+\.\d+\.\d+\.\d+) (?P-|\w*) (?P-|\w*) \[(?P\d+\/\w+\/\d+):(?P

in questo modo utilizzando questo codice:

log = self.regex.match(row)
log_line = log.groupdict()

nella variabile log_line otterrete un dizionario contenente come chiavi i valori che avete inserito nella fase di compilazione come ?P e come valore la relativa sottostringa, ad esempio log_line['ip'] = valore ip .

Web GraphHello, today I wanna tell you about my last python script (really nuts and bolts), called sitemaps.
With it you can build your website sitemaps, it works as a simple spider, it doesn’t produce a xml file but later maybe i can implement this function, for now it only produces a txt file.

This little spider, starts its crawling from a user specified starting page, and it moves all around the internal links it founds. At the end it produces a txt file with all the links, one per line, found during its crawl, this file could be submitted to Google SiteMaps and its syntax is legal.

The importans of using this kind of tool is that Google could index all your internal pages in less time, giving you the chance to increase your popularity.

As I said before this is really “nuts and bolts” but it’s a good starting point to write more sofisticated spider or web analysis tools.

The script core is a BFS (Breadth first search) visit of the graph composed from target web site internal links.

As usually if you have any comments, please don’t esitate, write them!

Here is the source code

Error: Could not open sitemap.py

and here sitemap.py you can download the script.

(English version Google sitemap tool)

Web GraphCiao a tutti, quello che vi presento oggi è un semplicissimo script python, che consente a partire da un indirizzo internet specificato all’avvio, di costruire un file indice contenente tutti i link interni del sito analizzato.

Con questo strumento è possibile creare dei file utilizzabili con Google SiteMaps che vi aiuteranno a far indicizzare l’intero contenuto del vostro sito.

Lo script essendo stato scritto in meno di mezz’ora è veramente spartano, non prevede alcuna personalizzazione né produce in output un file xml compatibile con lo standard definito da google per le sitemaps, ma un semplice file di testo con l’elenco dei link.

È comunque un buon inizio sia per poter sviluppare tool più sofisticati per la produzione di sitemap sia per gettare le basi per un piccolo web crawler in python, perché quello che fa questo script è effettuare una visita BFS cioè in ampiezza, del grafo dei link interni di un sito.

Come al solito se avete commenti non esitate, anzi più ce ne sono migliore sarà il prodotto finale.

Clicca qui per il codice

Error: Could not open sitemap.py

e clicca sitemap.py per scaricare il file.

ATTENZIONE: questa configurazione dopo i recenti aggiornamenti su dreamhost non è più consigliata, spesso causa crash nel sito che risulta irraggiungibile ritornando Errore 500, appena possibile pubblicherò una guida aggiornata…

Questa è una versione modificata rispetto alla guida ufficiale che potrete trovare sul wiki di dreamhost, difatti punta a farvi utilizzare non la versione preinstallata che trovate sul vostro server di python ma una vostra installazione personalizzata, con tutte le librerie di cui potreste aver bisogno, il documento originale in inglese da cui sono partito per scrivere questo tutorial si trova all’indirizzo:
http://forums.site5.com/showthread.php?t=10236
ora non mi rimane che augurarvi una buona lettura.

Per iniziare dopo aver completato le fasi di registrazione su dreamhost e una volta che avrete ottenuto un account ssh questi sono i passi da seguire per installare Django su Dreamhost, facendo uso però di una versione personalizzata di python:

  1. collegatevi in ssh sul vostro server
  2. una volta entrati nella vostra home digitate:
    wget http://peak.telecommunity.com/dist/virtual-python.py
    python virtual-python.py

    Questo creerà nella vostra home diverse cartelle (bin, lib, …) che vi consentiranno di avere una installazione personalizzata di python.
    Il vantaggio di questo approccio è che vi consentirà di avere a vostra disposizione le librerie più indicate per il vostro progetto proprio come se aveste un vostro server personale.

  3. Adesso è necessario scaricare ez_setup:
    wget http://peak.telecommunity.com/dist/ez-setup.py
    ~/bin/python ez_setup.py

    Adesso avete un’installazione completamente funzionante di python al vostro servizio, passiamo ora all’installazione delle librerire necessarie.

Librerie di python:

  1. La prima libreria necessaria per il funzionamento di Django su Dreamhost è quella per interfacciare Python al dbms MySQL, consiglio vivamente di scaricarsi ogni volta l’ultima versione della libreria che trova a questo indirizzo http://sourceforge.net/projects/mysql-python e al limite caricarla in ftp direttamente nella vostra home e seguire le indicazioni che vi sto per dare, per la sua installazione, ad eccezione della prima linea.
    wget http://path.to.sourceforge.mirror/sourceforge/mysql-python/MySQL-python-1.2.1_p2.tar.gz
    tar zxvf MySQL-python-1.2.1_p2.tar.gz
    cd MySQL-python-1.2.1_p2
    ~/bin/python setup.py install
  2. Installiamo una libreria che è utile (e necessaria) soprattutto se usate le immagini nel vostro progetto e gli ImageField, si tratta della libreria PIL (Python Imaging Library):
    wget http://effbot.org/downloads/Imaging-1.1.5.tar.gz
    tar zxvf Imaging-1.1.5.tar.gz
    cd Imaging-1.1.5
    ~/bin/python setup.py install
  3. Installiamo infine la libreria flup:
    svn co http://svn.saddi.com/flup/trunk flup
    cd flup
    ~/bin/python setup.py install

    a questo punto siete pronti per l’installazione vera e propria di Django.

Installazione di Django:

  1. scarichiamo per prima cosa nella nostra home l’ultima versione di django, utilizzando svn:
    svn co http://code.djangoproject.com/svn/django/trunk/ django-src
  2. adesso rendiamo disponibile il path di django nella nostra installazione di python facendo un soft link:
    ln -s ~/django_src/django ~/lib/python2.4/site-packages/django
  3. creiamo una directory nella vostra home che conterrà il progetto che andrete ad utilizzare:
    mkdir ~/django_project

    All’interno di questa directory dovrete caricare il vostro progetto django con tutte le cartelle ad eccezione della cartella media.

Rendiamoci visibili:

Nella vostra home oltre a tutte le cartelle che avete creato fin qui, ci dovrebbe essere una cartella con il nome uguale a quello del dominio che avete acquistato, in caso contrario vi consiglio di visitare il wiki di dreamhost per maggiori informazioni.

  1. Supponendo quindi che voi abbiate una cartella miodominio.com la prima cosa da fare è aggiungere le ultime due cartelle create nel PATH di sistema:
    vim ~/.bashrc
    export PYTHONPATH=$PYTHONPATH:$HOME/django_src:$HOME/django_projects
    :wq
    source ~/.bashrc
  2. bisogna creare un file di configurazione che vi permetta di interfacciare il vostro progetto Django con il modulo fcgi:
    vim ~/miodominio.com/django.fcgi
    #!/home/username/bin/python
    import sys
    sys.path += ['/home/username/django_src']
    sys.path += ['/home/username/django_projects']
    from flup.server.fcgi import WSGIServer
    from django.core.handlers.wsgi import WSGIHandler
    import os os.environ['DJANGO_SETTINGS_MODULE'] = 'Progetto.settings'
    WSGIServer(WSGIHandler()).run()
    
    :wq

    ovviamente le parti con username e Progetto vanno sostituite con i vostri dati.
    (N.B.) Fate molta attenzione ad utilizzare nano o vim come editor se hanno il wordwrap, perch� in questo caso le linee troppo lunghe verranno spezzate ed il file sar� inservibile.

  3. ora va creato sempre nella directory miodominio.com il file che vi consentirà di utilizzare il mod_rewrite di Apache, quindi questo è quello che dovrete scrivere:
    vim ~/miodominio.com/.htaccess
    RewriteEngine On
    RewriteBase /
    
    RewriteCond %{REQUEST_URI} ^/stats/(.*)$ [OR]
    RewriteRule ^.*$ - [L]
    RewriteRule ^(media/.*)$ - [L]
    RewriteRule ^(admin_media/.*)$ - [L]
    RewriteCond %{REQUEST_URI} !(django.fcgi)
    RewriteRule ^(.*)$ django.fcgi/$1 [L]  
    
    :wq

    la riga

    RewriteCond %{REQUEST_URI} ^/stats/(.*)$ [OR]

    sta ad indicare la parte di file nella quale dovrete inserire tutte le url che non debbono essere gestite da django, quindi ad esempio l’url per accedere alle statistiche del sito www.miodominio.com/stats

  4. gli ultimi ritocchi da fare sono:
    ln -s ~/django_src/django/contrib/admin/media ~/miodomionio.com/admin_media

    per rendere disponibile la grafica dell’amministrazione e caricare tramite ftp la cartella media del proprio progetto sempre dentro ~/miodominio.com

  5. Ormai giunti alla fine di questo lungo lavoro, dovrete modificare il file di configurazione di django, settings.py in modo tale che rispetti il nuovo ordinamento delle directory, in particolare vanno modificate tutte le linee che si riferiscono alla cartella media indicando dove queste vanno ricercate, cioè ~/miodominio.com:
    MEDIA_ROOT = '/home/username/miodominio.com/media/'
    
    MEDIA_URL = 'http://www.miodominio.com/media/'
    
    ADMIN_MEDIA_PREFIX = '/admin_media/'
    
    TEMPLATE_DIRS = ( '/home/username/miodominio.com/media/template/',  )
  6. Per concludere dovrete “uccidere” tutti i processi attivi con python e django, ricordate questo passaggio è necessario ripeterlo tutte le volte che modificherete un file vitale di django come settings.py o urls.py, digitate quindi:
    killall -9 /home/username/bin/python
    killall -9 django.fcgi

Questo è veramente tutto, vi consiglio di leggere il tutorial su come utilizzare vim presente in questo blog all’indirizzo: http://www.antonellocicchese.com/2005/12/12/tutorial-vim/

ATTENZIONE: questa configurazione dopo i recenti aggiornamenti su dreamhost non è più consigliata, spesso causa crash nel sito che risulta irraggiungibile ritornando Errore 500, appena possibile pubblicherò una guida aggiornata…

Ciao a tutti, questa volta vi propongo un nuovo programma in python, utile per tutti quelli che come me debbono frequentemente scambiare dati, progetti o copie di backup delle directory del proprio Mac su Windows.

MacOSX in tutte le cartelle che crea o che voi visitate inserisce dei file chiamati .DS_Store, questi file, utili solo ai fini del Finder di MacOSX, diventano veramente fastidiosi ogni qual volta la cartella su cui lavorate finisce su un sistema Windows, che non riconoscendo il file come nascosto ve lo presenta immancabilmente in mezzo al vostro lavoro.

A questo punto interviene questo programma, che attraversa tutte le directory a partire da quella che specificate ripulendole dai file .DS_Store, e se siete interessati, produce in output un file compresso con tutto il vostro lavoro ripulito.

Il programma funziona sia sotto Windows sia sotto MacOSX e supporta il formato di compresione GZip, BZip2 e Tar, il primo ed il secondo formato ve li consiglio per realizzare dei piccoli backup dei vostri lavori perché producono un output con un ottimo fattore di compressione (a discapito però della velocità).

Per lanciare il programma, da linea comando vi basterà digitare
python clearTarMac.py [opzioni]

la parte delle opzioni può sia essere vuota, sia riportare :

  • bzip -> comprime in bzip2
  • gzip -> comprime in gzip
  • tar -> comprime in tar semplice

Il file compresso di output, verrà creato nella directory dalla quale eseguite il programma e avrà come nome il nome della cartella analizzata e pulita.

Potete scaricare il programma completo cliccando qui cleanTarMac.py, oppure potrete leggere il codice cliccando qui:

Error: Could not open cleanTarMac.py