详细内容

采集规则设置注意事项

image.png

随着社会的日益浮躁,越来越多的人希望事情可以变得更加简单和简单。尤其对于快速变化的互联网,需要时间仔细考虑的事物是不适合的。以网站运营为例,虽然完整原创文章有助于网站排名的优化,但多数网站运行文字能力并不高,再加上题材的限制、时间的规律,希望完全通过原创和全手工来运行和优化一个网站是非常困难的事情,尤其是对于一些资讯类网站、商城类网站、视频类网站、视频类网站等此类页面较多、内容更新要求较快的网站,无论是内容建设还是外链发布都是一个庞大复杂的任务。因此,有时我们需要使用一些辅助工具。收集工具就是其中之一。

现在网站采集中比较常用的采集工具是火车头采集工具,以及织梦自己的dede采集工具,采集工具的优劣对比网络有很多,百度一下你就知道了,而且采集规则的设置网络上也有很多攻略,本文也不再多加说明,所以本文不再多加说明了。今日美孕宝防辐射服小美想和大家分享一下,设定采集规则时,有哪些注意事项?

收集到的起止代码设置。

在采集规则设置中,非常重要的一步是采集到结束码的设置。普通代码一小段,以“数字/英文+符号”形式为主。更短的代码就更不容易出错,而且必须是唯一性的,以便机器快速地识别采集的起始位置。在线教程中,这个起止代码大体上是一个完整的段落,比如[内容],其中,就是开始采集位置,[内容]表示需要采集的部分信息,是采集位置,很多人会误以为起止代码必须是完整的一段,但实际上并非如此。

下面是两个图:

一段代码,或者甚至包含中文的代码也可以作为采集的起止代码,这样就可以去掉某些网站内容开头和结尾带有一个网站专用标识。

二、标题采集设置。

title获取非常简单,可以通过以下两种方式实现:

点击右键选择“查看源码”,选择打开的页面中的快捷键Ctrl+F,然后在出现的搜索栏中输入该内容的标题,就可以看到该页面的标题规则,通常是title标签和H标签,数量在1~4之间。通常网页会有两种标题标签并存。本例中,与title标签采集相比,使用H标签更不易出错。

请注意,有时H标签上有H1标签H2标签H3标签等,通常只使用H1标签。

三、分页获取规则的设置。

有些网站因为文章太长或者想要提高点击率,经常将一篇文章分成几页来呈现。本例中所获取的起止代码并不在相同的页面上,而是应该从文章的开头查找获取开始代码,并在文章结束页查找终止代码,设置如下:

四、可能造成采集失败的一些因素。

网站隐藏内容,禁止采集。就拿腾讯新闻来说吧,腾讯新闻的内容并不会出现在打开的源代码页上,因此也无法辨别文章的起始位置,也无法获取网站内容。

2、网站采集错误。大部分网站的内容在网页和代码中都可以正常显示,但是当收集到目标站点时却出现错误。此错误可分为以下类别:

A、标题错误。如下图所示,文章的内容将集中在标题上。

只采集到标题,内容空白。也就是不能获取相关内容。

采集终止符失效,采集内容包括被采集站点的广告/版权信息/版尾信息等信息。

这是采集过程中经常遇到的问题,了解这些问题,对采集以及伪原创有很大的帮助。尽管在优化方面我们并不推荐采用采集的方式,但是在必要的情况下,了解收集规则,对网站的运营还是有好处的。