搜索引擎爬蟲(chóng)(Spider)或者機(jī)器人(bot)訪問(wèn)網(wǎng)站特點(diǎn)及分析
廣告:
搜索引擎UserAgent:
Googlebot Bytespider BLEXBot Baiduspider YisouSpider Googlebot SemrushBot bingbot DotBot 360Spider
DotBot : Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
Sogou web spider : Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Baiduspider :Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
YisouSpider :Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
Bytespider : Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.7938.1115 Mobile Safari/537.36; Bytespider
YandexBot : Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
bingbot : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
360Spider : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36;360Spider
Googlebot :Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
BLEXBot : Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
SemrushBot:SEMrush 是一個(gè)強(qiáng)大的、全面的在線營(yíng)銷競(jìng)爭(zhēng)情報(bào)平臺(tái),其中包括 SEO、PPC、社交媒體和視頻廣告研究。
Exabot:
AhrefsBot:AhrefsBot是ahrefs.com的一條網(wǎng)絡(luò)爬蟲(chóng),通過(guò)抓取網(wǎng)頁(yè)建立索引庫(kù),并提供反向鏈接分析和服務(wù)
CCBot: 美國(guó)
ZoominfoBot: 美國(guó)
CCBot: 美國(guó)
robots.txt 禁止寫(xiě)法:
User-agent:YisouSpider
Disallow:/
User-agent: yisouspider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目錄下網(wǎng)頁(yè)
其他:
yisouspider 一搜蜘蛛
FeedDemon 內(nèi)容采集
BOT/0.1 (BOT for JCE) sql 注入
CrawlDaddy sql 注入
Java 內(nèi)容采集
Jullo 內(nèi)容采集
Feedly 內(nèi)容采集
UniversalFeedParser 內(nèi)容采集
ApacheBench cc 攻擊器
Swiftbot 無(wú)用爬蟲(chóng)
YandexBot 無(wú)用爬蟲(chóng)
AhrefsBot 無(wú)用爬蟲(chóng)
YisouSpider 無(wú)用爬蟲(chóng)(已被 UC 神馬搜索收購(gòu),此蜘蛛可以放開(kāi)。
MJ12bot 無(wú)用爬蟲(chóng)
ZmEu phpmyadmin 漏洞掃描
WinHttp 采集 cc 攻擊
EasouSpider 無(wú)用爬蟲(chóng)
HttpClient tcp 攻擊
Microsoft URL Control 掃描
YYSpider 無(wú)用爬蟲(chóng)
jaunty wordpress 爆破掃描器
oBot 無(wú)用爬蟲(chóng)
Python-urllib 內(nèi)容采集
Indy Library 掃描
FlightDeckReports Bot 無(wú)用爬蟲(chóng)
Linguee Bot 無(wú)用爬蟲(chóng)
每個(gè)爬蟲(chóng)抓取特點(diǎn):
1.Sogou web:固定同一個(gè)IP,如:220.181.125.106,跟普通用戶一樣,抓取每個(gè)頁(yè)面用同一sessionid,每隔10秒左右抓取一次。
2. so.com 360Spider 每次訪問(wèn)用不同IP,不同sessionid,間隔時(shí)間時(shí)長(zhǎng)最高可每秒20多次,不同的ip 如:42.236.10.110
3.baidu.com 每次訪問(wèn)用不同IP,跟普通用戶一樣,抓取每個(gè)頁(yè)面用不同ip,間隔時(shí)間比較長(zhǎng)。
4.yisouspider 每次訪問(wèn)用不同IP,跟普通用戶一樣,抓取每個(gè)頁(yè)面用不同ip,間隔時(shí)間時(shí)長(zhǎng)時(shí)短,有時(shí)幾秒一次,全天會(huì)經(jīng)常訪問(wèn)。
5. DotBot 每次訪問(wèn)用同一次ip,不同sessionid,間隔時(shí)間時(shí)長(zhǎng)1秒一次,但并不是一直訪問(wèn)
6. Googlebot 每次訪問(wèn)用同一次ip,同一sesssionid,間隔時(shí)間時(shí)長(zhǎng)最高可1秒一次,有時(shí)一秒訪問(wèn)兩次,但并不是一直訪問(wèn)
7. Bytespider 每次訪問(wèn)用不同IP,不同sessionid,間隔時(shí)間時(shí)長(zhǎng)最高可2秒一次
8. bingbot 每次訪問(wèn)用不同IP,不同sessionid,間隔時(shí)間時(shí)長(zhǎng)最高可30秒左右一次
9.BLEXBot 同一ip,共sesssionid,間隔時(shí)間時(shí)長(zhǎng)最高可1秒左右一次 176.9.4.107 (德國(guó))
10.SemrushBot 不同ip
11.Exabot 同一ip,3秒左右訪問(wèn)一次 法國(guó)
12. AhrefsBot 不同ip,10秒左右訪問(wèn)一次 法國(guó)
13.ZoominfoBot 不同ip,10秒左右訪問(wèn)一次 美國(guó)
14.CCBot 同一ip,10秒左右訪問(wèn)一次 美國(guó)
so.com頁(yè)面轉(zhuǎn)向代碼:
http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
<meta content="always" name="referrer">
<script>window.location.replace("http://www.53bk.com/")</script>
<noscript>
<meta http-equiv="refresh" content="0;URL='http://www.53bk.com/'">
</noscript>
cururl:http://www.53bk.com/
refer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI+cimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc=
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Host:www.53bk.com
Referer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
百度頁(yè)面搜索轉(zhuǎn)向代碼:
https://www.baidu.com/link?url=ZaRdutd-_FMUyNxbxonyB66E-t5gTkttXPL2NTW4BG7&wd=&eqid=8ffd6569000590ef000000065d0706b8
響應(yīng)標(biāo)頭:
Location: http://www.53bk.com/ 302轉(zhuǎn)向
cururl:http://www.53bk.com/
refer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7 CheckCode=2F84
Host:www.53bk.com
Referer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
廣告: