检测已发布软文是否被百度收录的方法

因工作需要,需要检测已发布软文是否被百度收录。手动检测太麻烦,一不留神可能会出现遗漏。作为火车采集器专业用户(业余),当然关键时刻得站出来,提高工作效率。

采集思路,搜索关键词页面作为列表页,百度快照页作为内容页,标题限定软文特征部分,网址用快照显示的并用重复过滤功能。

1、网址采集规则

1.1、批量网址:地址格式为 https://www.baidu.com/s?wd=关键词&pn=[地址参数],数字变化为从0开始,每次递增10,共100项。
1.2、链接过滤:必须包含“cache.baiducontent.com”

2、内容采集规则

2.1、标题:数据获取,开头字符串 ,结尾字符串 。内容过滤,内容必须包含“软文标题特征部分”
2.2、网址:数据获取,开头字符串 百度和网页,结尾字符串 的作者无关。内容截取,开头字符串 “,结尾字符串 ” 。内容过滤,采集结果不得重复。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据