Querylist遞歸采集:預期結果與實際結果差異分析及解決方案
在使用QueryList進行多層級數據抓取時,開發者常常遇到文檔示例與實際運行結果不一致的情況。本文將通過一個案例,深入分析問題根源并提供有效的解決方案。
問題描述:
目標是從html結構中提取標題和列表信息。HTML結構如下:
<div id="demo"> <ul><li> <h3>xxx</h3> <div class="list"> <div class="item">item1</div> <div class="item">item2</div> </div> </li> <li> <h3>xxx2</h3> <div class="list"> <div class="item">item12</div> <div class="item">item22</div> </div> </li> </ul></div>
使用QueryList代碼進行數據提取:
// ... (代碼片段缺失,無法完整分析) ...
預期結果是分別提取每個
標題和item內容。但實際結果卻是item內容合并:
Array ( [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) )
Array ( [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) )
問題分析:
問題在于內層QueryList對象繼承了外層QueryList對象的range參數。range(”)并沒有真正重置選擇器,導致其仍然使用外層range(‘#demo li’)的選擇器,從而導致item內容合并。 這可能是由于QueryList內部機制或代碼中其他問題導致的。range(”) 并非總是能正確重置范圍,需要更深入的分析。
解決方案:
為了解決這個問題,需要確保內層QueryList對象獨立于外層對象工作。 單純的range(”)可能無效,我們需要更可靠的方法。以下幾種方案可以嘗試:
- 使用更精確的選擇器: 避免使用range(),直接在rules中使用更精確的css選擇器,例如:
$data = querylist::html($html) ->rules([ 'title' => ['h3', 'text'], 'list' => ['.list .item', 'text'] // 直接選擇所有.item元素 ]) ->range('#demo li') ->query(); // 注意這里直接使用query(),不再需要querydata()的遞歸 dump($data);
此方法直接提取所有.item元素的文本內容,避免了遞歸帶來的問題。
- 手動循環處理: 放棄QueryList的遞歸功能,手動循環處理每個
- 元素:
$lis = querylist::html($html)->find('#demo li'); $data = []; foreach ($lis as $li) { $item = []; $item['title'] = querylist::html($li)->find('h3')->text(); $items = querylist::html($li)->find('.list .item')->map(function($item){return $item->text();})->all(); $item['list'] = $items; $data[] = $item; } dump($data);
這種方法更清晰,更容易理解和調試。
- 深入檢查QueryList源碼和文檔: 如果以上方法無效,則需要深入研究QueryList的源碼和文檔,查找range()方法的具體行為和潛在問題,并嘗試其他QueryList提供的功能來解決這個問題。 可能需要檢查QueryList版本和php版本兼容性。
選擇哪種方案取決于具體需求和對QueryList的熟悉程度。 建議優先嘗試方法1,因為它簡潔高效。如果方法1無法滿足需求,再考慮方法2。 方法3是最后的選擇,需要更深入的編程知識。 記住始終檢查QueryList的官方文檔和示例代碼,以確保正確使用其功能。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
THE END