URLs einer Seite Parsen

Python script um die URLs einer Seite zu parsen.

Like it? Share it!
import urllib2 import re #Link abrufen urlcontent = urllib2.urlopen(url) #HTML auslesen html = urlcontent.read() # re.findall sucht alle URLs - alternativ auch mailto für Mails links = re.findall('"((http|ftp)s?://.*?)"', html) print links

>_ Author

>_ last updated 4 yearss ago

>_ Language: Python

scraping parsen