爬蟲的函示庫介紹

在寫爬蟲時會用到的基本三個函示庫:requests , BeautifulSoup , lxml
requests是解析網路資源的套件,所以這邊是給網址的,網址抓下來後要分析他的架構就交給BeautifulSoup

BeautifulSoup可以分析html的元素,再來是用lxml編輯網頁

r1=requests.get('https://www.youtube.com/watch?v=9SY16YbteM0')
soup=BeautifulSoup(r1.text,'lxml')
print soup #這是全部的程式碼

requests點後面可用post  or get方式下載

如果要指定其中一個元素的話可以這樣做

print soup.select('a')
print soup.select('img')
print soup.select('span')
tit=soup.select('元素')
print tit

要顯示結果時只會出現跟所選元素相關的程式碼

函示庫安裝