《中谷教育python視頻教程》講的是python開發的入門教程,它將介紹python語言的特點和適用范圍,python基本的數據類型,條件判斷和循環,函數,以及python特有的切片和列表生成式。希望本python教程能夠讓您快速入門并編寫簡單的python程序。
課程播放地址:http://www.php.cn/course/501.html
該老師講課風格:
教師講課生動形象,機智詼諧,妙語連珠,動人心弦。一個生動形象的比喻,猶如畫龍點睛,給學生開啟智慧之門;一種恰如其分的幽默,引來學生會心的微笑,如飲一杯甘醇的美酒,給人以回味和留戀;哲人的警句、文化的箴言不時穿插于講述中間,給人以思考和警醒。
立即學習“Python免費學習筆記(深入)”;
本視頻中較為難點是爬蟲了:
1、單個網頁的簡易爬蟲
以下爬蟲的主要功能是爬取百度貼吧中某一頁面的所有圖片。代碼由主要有兩個函數:其中getHtml()通過頁面url獲取其對應的html內容,getImage()則通過解析html獲取圖片地址,實現圖片的下載。
代碼如下:
import?urllib?? import?re?? ??? def?getHtml(url):?? ????"""通過頁面url獲取其對應的html內容? ????"""?? ????page?=?urllib.urlopen(url)?#打開頁面?? ????content?=?page.read()?#讀取頁面內容?? ????return?content?? ????? def?getImage(html):?? ????"""通過解析html獲取圖片地址,實現圖片的下載? ????"""?? ????regx?=r'src="(.+?.jpg)"?pic_ext'?#利用正則表達式獲得圖片url?? ????imgreg?=?re.compile(regx)?? ????imglist?=?re.findall(imgreg,html)?? ????x?=?0?? ????for?imgurl?in?imglist:?? ????????filepath?='F:Downloads'+str(x)+'.jpg'?? ????????urllib.urlretrieve(imgurl,filepath)?#將圖片下載到本地?? ????????x?+=?1?? ????print?'completed!'?? ????? html?=?getHtml('http://tieba.baidu.com/p/2505265675')?? imglist?=?getImage(html)
2、爬取多網頁的框架
這里只講基本思想:第一步是選擇一個起始頁面,可以直接選擇某個網站的主頁作為起始頁面;第二步是分析這個起始頁面的所有鏈接,然后爬取所有鏈接的內容;第三步就是無休無止的遞歸過程,分析爬蟲所及的所有子頁面內部鏈接,如果沒有爬取過,則繼續無休無止的爬取。
借用知乎上謝科兄弟的一段代碼來說明。設定初始頁面initial_page,爬蟲就從這里開始獲取頁面,url_queue用來存將要爬取的頁面隊列,seen用來存爬取過的頁面。
import?Queue?? initial_page?="http://www.renminribao.com"?? url_queue?=Queue.Queue()?? seen?=?set()?? seen.insert(initial_page)?? url_queue.put(initial_page)?? while?True:?? ????if?url_queue.size()>0:?? ????????current_url?=?url_queue.get()????#取出隊例中第一個的url?? ????????store(current_url)?????????????#把這個url代表的網頁存儲好?? ????????for?next_url?inextract_urls(current_url):?#提取把這個url里鏈向的url?? ????????????if?next_url?not?in?seen:?? ????????????????seen.put(next_url)?? ????????????????url_queue.put(next_url)?? ????else:?? ????????break
這里還給大家推薦了源碼資源的下載:http://www.php.cn/course/501.html
這個給大家分享了視頻的課件