检测已发布软文是否被百度收录的方法

因工作需要,需要检测已发布软文是否被百度收录。手动检测太麻烦,一不留神可能会出现遗漏。作为火车采集器专业用户(业余),当然关键时刻得站出来,提高工作效率。

采集思路,搜索关键词页面作为列表页,百度快照页作为内容页,标题限定软文特征部分,网址用快照显示的并用重复过滤功能。

1、网址采集规则

1.1、批量网址:地址格式为 https://www.baidu.com/s?wd=关键词&pn=[地址参数],数字变化为从0开始,每次递增10,共100项。
1.2、链接过滤:必须包含“cache.baiducontent.com”

2、内容采集规则

2.1、标题:数据获取,开头字符串 ,结尾字符串 。内容过滤,内容必须包含“软文标题特征部分”
2.2、网址:数据获取,开头字符串 百度和网页,结尾字符串 的作者无关。内容截取,开头字符串 “,结尾字符串 ” 。内容过滤,采集结果不得重复。

教师群体访问网站时间段

通过一些面向教师用户群体的网站访问数据,经过一定整理,分两个维度列出教师群体的访问网站时间段,一天24小时不同时间段和一周七天。

一天24小时不同时间段访问比例
1,0,0,0,0,0,0,3,10,14,15,10,6,7,12,13,10,6,5,6,7,6,4,2

一周七天(周一到周日)不同时间段访问比例
17,18,18,16,14,7,8

通过这几年和教师群体的接触,这个数据也比较符合教师的作息习惯。

后续还有教师群体访问网站比例