在寫爬蟲時會用到的基本三個函示庫:requests , BeautifulSoup , lxml
requests是解析網路資源的套件,所以這邊是給網址的,網址抓下來後要分析他的架構就交給BeautifulSoup
BeautifulSoup可以分析html的元素,再來是用lxml編輯網頁
r1=requests.get('https://www.youtube.com/watch?v=9SY16YbteM0') soup=BeautifulSoup(r1.text,'lxml') print soup #這是全部的程式碼
requests點後面可用post or get方式下載
如果要指定其中一個元素的話可以這樣做
print soup.select('a') print soup.select('img') print soup.select('span') tit=soup.select('元素') print tit
要顯示結果時只會出現跟所選元素相關的程式碼