首页  /  分享世界  /  三十三画的分享世界  /  网站搜索SEO之百度蜘蛛及网站日志分析
 发布信息

网站搜索SEO之百度蜘蛛及网站日志分析

  2343 
 0
 0

详解百度蜘蛛ip段代表的不同含义


       有时候我们在分析百度蜘蛛的时候,会发现很多的ip,这些个ip地址,根据后面的参数可以发现都是百度的。刚学习SEO不久的同学肯定要问:这些ip地址到底代表什么含义,是不是不同的ip地址所代表的含义不一样呢?对权重和抓取是否有影响?哪些是无效的蜘蛛,哪些是站长工具的蜘蛛,那些又是百度自己真正的蜘蛛?


如何判断真实百度蜘蛛IP:


       首先,怎么判断这个蜘蛛是不是百度蜘蛛?在这里,我教大家一个命令检测方法。


例:检索220.181.108.178这个IP


方法:电脑上,点开始——运行——cmd——“nslookup 220.181.108.178”(输入引号内内容,回车后查看name值)


结果:此时我们发现返回的name值为:baiduspider-220-181-108-178.crawl.baidu.com


判断:那么这就代表这是真实的百度蜘蛛,如果name值返回的非baiduspider......字样,那就不是百度蜘蛛IP


百度蜘蛛各IP段的作用:


       那么,不同的百度蜘蛛,它的功能和作用是什么呢?下面是百度蜘蛛的IP地址,整理于2021年6月。


百度蜘蛛IP------------功能说明

60.172.229.61--------蜘蛛来访,准备抓取网页内容

61.129.45.72---------蜘蛛来访,准备抓取网页内容

61.135.162.*---------蜘蛛来访,准备抓取网页内容

61.135.165.134------百度竞价蜘蛛

117.34.74.66---------百度竞价蜘蛛

118.122.188.194-----百度竞价蜘蛛

119.63.196.9---------百度竞价蜘蛛

125.39.78.185-------百度竞价蜘蛛

61.135.186.*---------百度联盟蜘蛛、百度统计蜘蛛

61.147.98.146--------站长工具模拟百度蜘蛛

61.188.39.16---------站长工具模拟百度蜘蛛

113.98.254.245------站长工具模拟百度蜘蛛

117.21.220.245------站长工具模拟百度蜘蛛

117.28.255.42-------站长工具模拟百度蜘蛛

124.248.34.52-------站长工具模拟百度蜘蛛

125.90.88.*----------站长工具模拟百度蜘蛛

119.147.114.213----站长工具模拟百度蜘蛛

121.10.141.*--------站长工具模拟百度蜘蛛

123.15.**.**---------百度图片蜘蛛

123.125.71.*--------抓取网站内页收录,质量不高,暂时不会放出来

159.226.50.*--------考察蜘蛛(很大可能是降权蜘蛛)

180.76.5.*----------考察蜘蛛(很大可能是降权蜘蛛)

180.76.5.87--------考察蜘蛛(很大可能是降权蜘蛛)

220.181.158.107---考察蜘蛛(很大可能是降权蜘蛛)

183.91.40.144------新站不正常情况下的蜘蛛

203.208.60.*-------新站不正常情况下的蜘蛛

210.72.225.*-------打酱油的百度蜘蛛

123.125.68.*-------如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。

218.30.118.102----如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。

220.181.68.*-------如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。

123.125.66.*-------代表百度蜘蛛IP来过了,准备抓取你网站上的东西!

220.181.7.*--------代表百度蜘蛛IP来过了,准备抓取你网站上的东西!

121.14.89.*--------百度蜘蛛作为度过新站考察期的一个ip段

220.181.108.95----此ip段爬过的文章或首页正常情况下基本在24小时都会放出来

220.181.108.92----此ip段爬过的文章或首页正常情况下基本在25小时都会放出来

220.181.108.91----此ip段爬过的文章或首页正常情况下基本在26小时都会放出来

220.181.108.75----此ip段爬过的文章或首页正常情况下基本在27小时都会放出来

123.125.71.95-----抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。

123.125.71.97-----抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。

123.181.108.77----抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。

123.125.71.106----抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。

220.181.108.89----专用抓取网站首页的,也属于权重段,一般返回代码304 0 0就代表网站未更新

220.181.108.94----专用抓取网站首页的,也属于权重段,一般返回代码304 0 1就代表网站未更新

220.181.108.97----专用抓取网站首页的,也属于权重段,一般返回代码304 0 2就代表网站未更新

220.181.108.80----专用抓取网站首页的,也属于权重段,一般返回代码304 0 3就代表网站未更新

220.181.108.77----专用抓取网站首页的,也属于权重段,一般返回代码304 0 4就代表网站未更新

220.181.108.83----专用抓取网站首页的,也属于权重段,一般返回代码304 0 5就代表网站未更新

220.181.108.86----专用抓取网站首页的,也属于权重段,一般返回代码304 0 6就代表网站未更新


网站日志文件分析:


       通过分析网站的日志文件,我们可以很清楚的了解到每一个来访问你网站的IP记录,及访问内容,还有服务器返回的状态码(特别针对404的内容及链接我们可以进行站点内容及链接的检查),从而我们可以从各个维度来对网站来进行针对性的改善,下面附上一个在线日志文件分析的网站,通过此站点可以基本分析网站被蜘蛛访问的情况:


LogHao蜘蛛在线分析:http://www.loghao.cn


服务器返回常见状态码及意义:


一、状态代码由三位数字组成,第一个数字定义了响应的类别,且有5种可能取值:


    1XX:指示信息–表示请求已接收,继续处理


    2XX:成功–表示请求已被成功接收、理解、接受


    3XX:重定向–要完成请求必须进行更进一步的操作


    4XX:客户端错误–请求有语法错误或请求无法实现


    5XX:服务器端错误–服务器未能实现合法的请求


二、常见状态代码、状态描述、说明:


    200 OK //客户端请求成功


    400 Bad Request //客户端请求有语法错误,不能被服务器所理解


    401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用


    403 Forbidden //服务器收到请求,但是拒绝提供服务


    404 Not Found //请求资源不存在,eg:输入了错误的URL


    500 Internal Server Error //服务器发生不可预期的错误


    503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常


三、详细:请求URL浏览器返回状态码的含义(http statusCode):


    201-206都表示服务器成功处理了请求的状态代码,说明网页可以正常访问。

    200(成功)  服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。

    201(已创建)  请求成功且服务器已创建了新的资源。 

    202(已接受)  服务器已接受了请求,但尚未对其进行处理。 

    203(非授权信息)  服务器已成功处理了请求,但返回了可能来自另一来源的信息。 

    204(无内容)  服务器成功处理了请求,但未返回任何内容。 

    205(重置内容) 服务器成功处理了请求,但未返回任何内容。与 204 响应不同,此响应要求请求者重置文档视图(例如清除表单内容以输入新内容)。 

    206(部分内容)  服务器成功处理了部分 GET 请求。

    300-3007表示的意思是:要完成请求,您需要进一步进行操作。通常,这些状态代码是永远重定向的。

    300(多种选择)  服务器根据请求可执行多种操作。服务器可根据请求者 来选择一项操作,或提供操作列表供其选择。 

    301(永久移动)  请求的网页已被永久移动到新位置。服务器返回此响应时,会自动将请求者转到新位置。您应使用此代码通知搜索引擎蜘蛛网页或网站已被永久移动到新位置。 

    302(临时移动) 服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。会自动将请求者转到不同的位置。但由于搜索引擎会继续抓取原有位置并将其编入索引,因此您不应使用此代码来告诉搜索引擎页面或网站已被移动。 

    303(查看其他位置) 当请求者应对不同的位置进行单独的 GET 请求以检索响应时,服务器会返回此代码。对于除 HEAD 请求之外的所有请求,服务器会自动转到其他位置。 

    304(未修改) 自从上次请求后,请求的网页未被修改过。服务器返回此响应时,不会返回网页内容。

如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应。由于服务器可以告诉 搜索引擎自从上次抓取后网页没有更改过,因此可节省带宽和开销。 

    305(使用代理) 请求者只能使用代理访问请求的网页。如果服务器返回此响应,那么,服务器还会指明请求者应当使用的代理。 

    307(临时重定向)  服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。会自动将请求者转到不同的位置。但由于搜索引擎会继续抓取原有位置并将其编入索引,因此您不应使用此代码来告诉搜索引擎某个页面或网站已被移动。


    4XXHTTP状态码表示请求可能出错,会妨碍服务器的处理。

    400(错误请求) 服务器不理解请求的语法。 

    401(身份验证错误) 此页要求授权。您可能不希望将此网页纳入索引。 

    403(禁止) 服务器拒绝请求。

    404(未找到) 服务器找不到请求的网页。例如,对于服务器上不存在的网页经常会返回此代码。

    405(方法禁用) 禁用请求中指定的方法。

    406(不接受) 无法使用请求的内容特性响应请求的网页。 

    407(需要代理授权) 此状态码与 401 类似,但指定请求者必须授权使用代理。如果服务器返回此响应,还表示请求者应当使用代理。 

    408(请求超时) 服务器等候请求时发生超时。 

    409(冲突) 服务器在完成请求时发生冲突。服务器必须在响应中包含有关冲突的信息。服务器在响应与前一个请求相冲突的 PUT 请求时可能会返回此代码,以及两个请求的差异列表。 

    410(已删除) 请求的资源永久删除后,服务器返回此响应。该代码与 404(未找到)代码相似,但在资源以前存在而现在不存在的情况下,有时会用来替代 404 代码。如果资源已永久删除,您应当使用 301 指定资源的新位置。 

    411(需要有效长度) 服务器不接受不含有效内容长度标头字段的请求。 

    412(未满足前提条件) 服务器未满足请求者在请求中设置的其中一个前提条件。 

    413(请求实体过大) 服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。 

    414(请求的 URI 过长) 请求的 URI(通常为网址)过长,服务器无法处理。 

    415(不支持的媒体类型) 请求的格式不受请求页面的支持。 

    416(请求范围不符合要求) 如果页面无法提供请求的范围,则服务器会返回此状态码。 

    417(未满足期望值) 服务器未满足"期望"请求标头字段的要求。

   


    500至505表示的意思是:服务器在尝试处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。

    500(服务器内部错误)  服务器遇到错误,无法完成请求。 

    501(尚未实施) 服务器不具备完成请求的功能。例如,当服务器无法识别请求方法时,服务器可能会返回此代码。 

    502(错误网关) 服务器作为网关或代理,从上游服务器收到了无效的响应。 

    503(服务不可用) 目前无法使用服务器(由于超载或进行停机维护)。通常,这只是一种暂时的状态。 

    504(网关超时)  服务器作为网关或代理,未及时从上游服务器接收请求。 

    505(HTTP 版本不受支持) 服务器不支持请求中所使用的 HTTP 协议版本。

标签:
三十三画:    楼主 2021-06-26 16:49:13
回复列表

0

guest
登录之后更精彩~
您的IP: 3.133.144.217 , 2024-04-26 05:59:15
模切世界,全球模切人的世界!Die cutting world, the world of global die cutting people!
头像

积分:

粉丝:

签名:

 主页 关注 好友 消息
,