最近搞了一个采集站(使用wordpress),用到了火车头采集器,这品文章主要简述使用该工具采集并发布文章的过程,希望对看到本篇文章的朋友们带来一些帮助
QAQ我刚开始使用的时候也有点懵逼啊233
好了废话不多说开始:
1.前往火车头官网下载软件,有免费版和商业版,对于我来说免费版功能完全够用,这点我也是非常开心的
2.安装打开
3.这里以《百度百家号为例》
稍微分析了一下网页结构,我们可以看到这个网页并不是以分页加载方式加载,而是使用ajax异步加载

所以我们不能用内置的规则来抓取下一页的文章链接,怎么办呢?
别担心,chrome的开发者工具(俗称F12大法)

按顺序点击,点完“加载更多”后你会开发者工具中有发现如图所示栏目:

右键,点击“copy”再点“copy link address”,,复制显示的这个网址
我们可以看到这个链接,拥有时间戳和参数
直接这样看并不能看出什么门道,我需要同类链接进行对比,于是我选择点击顶上的其他栏目,就选择“娱乐”板块吧,依旧是照着上面的步骤,提取“加载更多”的链接

可以看出有不同,再尝试科技板块:
现在规律一目了然!
这几个板块从左到右分别对应的参数是
现在我们来尝试调整参数“”和“”
发现这两个参数至少在10~400之间是有数据返回的
找到了链接的规律,我们就可以使用采集器了,,如图打开,填入链接
这里我只抓取“娱乐板块”,因此这条链接的变量只有两个,添加两条网址

确定好之后软件会把这个链接变成一个表达式,
好了,但是这里有朋友会问了,这里的这些链接打开了都是一些乱码一样的啊,别急,现在以
为例,在浏览器中打开这个链接
![]()
如图,我们其实很容易就能找到其中包含的链接

如图,直接手动添加提取链接url规则
现在我们可以点击右下角的网站采集测试

可以看到完整的采集出了每篇文章的url链接
我们在上一步已经获得了文章的地址,现在我们要做的就是采集出文章的标题和内容
随便找个文章地址出来,这里以

查看源码
我们可以发现可以很容易的批量获取文章的标题和内容

每篇文章的标题和内容都在这几个字符之间
因此,我们可以如下设置规则:


好了设置好了规则我们可以测试一下

可以看到采集到了标题和文章
这个软件实际上提供了很多发布文章规则,但是很多都失效了,我找到了一个wordpress的规则文件
点击此处下载密码: 99bj
使用前请将压缩包内的post.php放置于wordpress网站根目录


点击 启动浏览器获取登录信息,之后就会进入你上面填好的你自己的wordpress网址,前往登录界面,登录成功自动获取登录参数,直接关闭浏览器窗口就好了
由于这个教程是针对百度百家的娱乐板块的,那么我这里也首先在wordpress上创建了一个“娱乐”分类目录

选择好文章需要发布到哪个分类,然后我们可以点击下面的测试

测试发布成功即可
记得要勾选使用这个规则!!!!!!!!

保存退出

勾选三样,然后开始任务,自动抓取,抓完之后自动发布,这时候你打开自己的wordpress文章列表就有了很多的新文章
但是这时候你会发现这些文章全都是“待发布”状态
这时候我们就需要对数据库进行操作了

点击数据表上方的SQL按钮,进入数据表代码编辑器,并在里面输入以下数据表执行命令:
!!!!!!!大功告成!!!你的网站上这个时候便拥有了几百上千的文章!!!!
》我随便抓的一个垃圾站
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/11950.html