亚洲国产精品成人无码区,公天天吃我奶躁我的比视频,亚洲国产欧美视频亚洲国产精品一区二区成人片不卡,天天躁日日躁狠狠躁视频2021,起视碰看97视频在线少妇久久久久久人妻无码, 芒果乱码一线二线三线新区 ,亚洲熟妇无码AⅤ不卡在线播放,人妻少妇乱子伦无码专区

400-800-9385
網(wǎng)站建設(shè)資訊詳細(xì)

關(guān)于thinkphp6與QueryList采集的相關(guān)使用的內(nèi)容

發(fā)表日期:2023-08-18 09:58:27   作者來(lái)源:陳應(yīng)信   瀏覽:884   標(biāo)簽:網(wǎng)站開(kāi)發(fā)    
很多人都知道,網(wǎng)站的信息采集非常的重要,可以從別的網(wǎng)站里的數(shù)據(jù)采集過(guò)來(lái)給自己的網(wǎng)站使用,所以就需要用到QueryList插件了,下面就系統(tǒng)的講一下在thinkphp6下是如何使用QueryList的。
首先是下載QueryList的文件,存放到extend/Caiji里。

文件

然后是引入文件,如下圖所示:

導(dǎo)入文件

這里需要提一下,引入的文件必須在namespace app\home\controller的下面,否則會(huì)程序會(huì)報(bào)錯(cuò),引入的代碼:
require_once  app()->getRootPath()."extend/Caiji/phpQuery.php";// 引入插件
require_once  app()->getRootPath()."extend/Caiji/QueryList.php";
use QL\QueryList;
app()->getRootPath()是指引入文件根路徑,例如這里是I:/wamp64/www/。
 
現(xiàn)在來(lái)講使用,其實(shí)采集網(wǎng)站數(shù)據(jù)除非就是打開(kāi)要采集網(wǎng)站的指定的URL,打開(kāi)后頁(yè)面后,匹配相關(guān)的標(biāo)簽,得到我們要采集的數(shù)據(jù)的一個(gè)數(shù)組,然后對(duì)數(shù)組進(jìn)行一系列的處理后,得到我們想到的數(shù)據(jù),然后將這些數(shù)據(jù)寫(xiě)入到數(shù)據(jù)庫(kù)表里,就基本完成了。
例如我們打開(kāi)某個(gè)頁(yè)面,代碼如下:
  $html = '某個(gè)網(wǎng)站的URL';
      $rules = [
      'title'=>['.article__title','text'],
      'lay'=>['.meta-info-list li:eq(2) a','text'],
      'lay2'=>['.meta-info-list li:eq(3) a','text'],
      'content'=>['.article-content>.content','html'],
      ];
      $data_list = QueryList::Query($html,$rules)->data;
 
 其中title是新聞的標(biāo)題,如下圖所示,這里我們用text方式獲取.article__title里的純文本就行
 

html代碼

 
還有l(wèi)ay和lay2是獲取文章的作者,lay是每指.meta-info-list 的第二個(gè)li的純文本text,lay2是.meta-info-list第三個(gè)li的text,如下圖所示:
 

html

content是指新聞的具體內(nèi)容了,處理數(shù)據(jù)也是整個(gè)最復(fù)雜的,這里包括去除一些不需要的內(nèi)容,獲取遠(yuǎn)程的圖片地址,并下載圖片到本地上等都需要在此操作的,content獲取的是.article-content>.content的html,即帶有html屬性標(biāo)簽的內(nèi)容。
 

開(kāi)發(fā)代碼1

獲取這些內(nèi)容后,我們先刪除<noscript></noscript>里的內(nèi)容,如下圖所示:
 

開(kāi)發(fā)代碼2



 $content = preg_replace('#<noscript[^>]*?[^>]*>(.*?)</noscript>#is', '', $content);使用該正則表達(dá)式即可刪除<noscript></noscript>和里面的內(nèi)容。
 
由于內(nèi)容里存在圖片,如下圖所示:

開(kāi)發(fā)代碼3

所以我們還要對(duì)content進(jìn)行篩選,得到圖片的數(shù)組,代碼如下:
$rules2 =[
      'picture_list'=>['img','src']
      ];
 
   $data2 = QueryList::Query($content,$rules2)->data;//獲得圖片的一個(gè)二維數(shù)組,然后再循環(huán)圖片,下載圖片保存到本地上。
處理以上事情后,就可以將處理后的數(shù)據(jù)寫(xiě)入到數(shù)據(jù)表中了,采集也就完成了。
如沒(méi)特殊注明,文章均為方維網(wǎng)絡(luò)原創(chuàng),轉(zhuǎn)載請(qǐng)注明來(lái)自http://www.oulysa.com/news/6857.html
国产乱人伦偷精品视频免下载| 91中文字幕视频| 欧美一进一出抽搐大尺度视频| 人妻丝袜加勒比色综合| 久久99精品久久久久久齐齐| 色婷婷久久五月综合色啦网ww| 国产精品日产无码av永久不卡| 亚洲国产成人片在线观看| 亚洲高清无码一二三区A片| 国产精品69毛片高清亚洲| 日韩精品无码久久久久久| 日本高清在线观看视频www| 日韩国产成人在线免费| 日韩一区二区在线色网视频| 精品韩国亚洲AV无码久久品赏| 无码AV免费精品一区二区三区| 日韩午夜福利 摸BBB揉BBB揉BBB视频| 久久久久精品国产AV麻豆| 国产精品国语自产拍在线观看| 麻豆aⅴ精品无码一区二区| 9277在线观看最新资源| 欧美一级二级三级视频| 国产亚洲自在精品久久| 无码heyzo天然素人在线观看| 亚洲色精品√1一区三区| 国产v亚洲v欧美v专区| 两性午夜福利国产一级毛片| 亚洲精品无码久久久久久久| 国产香蕉国产精品偷在线| 无码A级毛片免费视频内谢野外| 被学强奷的女教师在线观看| JK浴室自慰到不停喷水尿失| 亚洲国产成人一区二区精品区| 艳妇乳肉豪妇荡乳| 无码粉嫩虎白一线天在线观看| 欧美性猛交黑人午夜视频| 无码一区二区一区二区视频| 国产精品久久久久精品香蕉| 国产午夜无码精品电影在线观看| 国产午夜无码视频免费网站| 一本色道久久HEZYO无码|