QueryList遞歸采集結果異常:文檔示例與實際結果為何不一致?

QueryList遞歸采集結果異常:文檔示例與實際結果為何不一致?

Querylist遞歸采集:預期結果與實際結果差異分析及解決方案

在使用QueryList進行多層級數據抓取時,開發者常常遇到文檔示例與實際運行結果不一致的情況。本文將通過一個案例,深入分析問題根源并提供有效的解決方案。

問題描述:

目標是從html結構中提取標題和列表信息。HTML結構如下:

<div id="demo">     <ul><li>           <h3>xxx</h3>           <div class="list">             <div class="item">item1</div>             <div class="item">item2</div>           </div>         </li>          <li>           <h3>xxx2</h3>           <div class="list">             <div class="item">item12</div>             <div class="item">item22</div>           </div>         </li>     </ul></div>

使用QueryList代碼進行數據提取:

// ... (代碼片段缺失,無法完整分析) ...

預期結果是分別提取每個

  • 下的

    標題和item內容。但實際結果卻是item內容合并:

    Array (      [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) )      [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) )  )

    問題分析:

    問題在于內層QueryList對象繼承了外層QueryList對象的range參數。range(”)并沒有真正重置選擇器,導致其仍然使用外層range(‘#demo li’)的選擇器,從而導致item內容合并。 這可能是由于QueryList內部機制或代碼中其他問題導致的。range(”) 并非總是能正確重置范圍,需要更深入的分析。

    解決方案:

    為了解決這個問題,需要確保內層QueryList對象獨立于外層對象工作。 單純的range(”)可能無效,我們需要更可靠的方法。以下幾種方案可以嘗試:

    1. 使用更精確的選擇器: 避免使用range(),直接在rules中使用更精確的css選擇器,例如:
    $data = querylist::html($html)     ->rules([         'title' => ['h3', 'text'],         'list' => ['.list .item', 'text'] // 直接選擇所有.item元素     ])     ->range('#demo li')     ->query(); //  注意這里直接使用query(),不再需要querydata()的遞歸 dump($data);

    此方法直接提取所有.item元素的文本內容,避免了遞歸帶來的問題。

    1. 手動循環處理: 放棄QueryList的遞歸功能,手動循環處理每個
    2. 元素:
    $lis = querylist::html($html)->find('#demo li'); $data = []; foreach ($lis as $li) {     $item = [];     $item['title'] = querylist::html($li)->find('h3')->text();     $items = querylist::html($li)->find('.list .item')->map(function($item){return $item->text();})->all();     $item['list'] = $items;     $data[] = $item; } dump($data);

    這種方法更清晰,更容易理解和調試。

    1. 深入檢查QueryList源碼和文檔: 如果以上方法無效,則需要深入研究QueryList的源碼和文檔,查找range()方法的具體行為和潛在問題,并嘗試其他QueryList提供的功能來解決這個問題。 可能需要檢查QueryList版本和php版本兼容性。

    選擇哪種方案取決于具體需求和對QueryList的熟悉程度。 建議優先嘗試方法1,因為它簡潔高效。如果方法1無法滿足需求,再考慮方法2。 方法3是最后的選擇,需要更深入的編程知識。 記住始終檢查QueryList的官方文檔和示例代碼,以確保正確使用其功能。

  • ? 版權聲明
    THE END
    喜歡就支持一下吧
    點贊10 分享