本文介紹如何用php正則表達式從html文檔中提取特定內(nèi)容,解決兩個問題:提取特定class屬性的div標簽內(nèi)容,以及提取該div內(nèi)所有a標簽的href屬性值。
問題一:提取特定class屬性的div標簽內(nèi)容
目標:提取class屬性為“box list channel max-border list-text-my”的div標簽內(nèi)所有內(nèi)容。
示例HTML:
立即學習“PHP免費學習筆記(深入)”;
<div class="box list channel max-border list-text-my"> <ul><li><a href="https://www.php.cn/link/b999a556e5f6186b8cba2dd848c22711" title="">[2022-12-13]新聞1</a></li> <li><a href="https://www.php.cn/link/7c1373b8fec010dba9b2cf06e7b232a7" title="">[2022-12-13]新聞2</a></li> <li><a href="https://www.php.cn/link/afe7064469e1509a007b92118aee4524" title="">[2022-12-13]新聞3</a></li> </ul></div>
PHP正則表達式:
/<div class="box list channel max-border list-text-my">([sS]*?)</div>/
該表達式匹配
,并捕獲其后的所有內(nèi)容直到
,[sS]*?表示匹配任意字符(包括換行符),*?為非貪婪匹配。
問題二:提取div標簽內(nèi)所有a標簽的href屬性值
目標:提取上述div標簽內(nèi)每個標簽的href屬性值。
PHP正則表達式:
/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c"/
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
THE END
喜歡就支持一下吧
相關(guān)推薦