人,因思则变。
Archive for 2007 年 12 月 24 日
Indy Library-一个什么性质的爬虫?
0Indy Library最初是一个关于网络操作的开源程序库,可在 http://www.nevrona.com/Indy
” 或 http://indy.torry.net
” 找到。这个程序库被Borland Delphi 6、 7、 C++Builder 6,以及所有 Kylix 版本所引用。
不幸的是,这个程序库被强制破解(hi-jacked)并被滥用于一些中国的spam bots中。近期所见使用“Indy Library”字串作为User Agent信息的访问,大多是这些中国“原创作品”。
是开源项目Indy的一部分,是关于网络操作的一个程序库。
[编辑]爬虫信息
爬虫名称: Indy Library
HTTP User Agent:
Mozilla/3.0 (compatible; Indy Library) </pre>
抓取强度: 不一定,很多服务器上较少出现,但也有部分服务器被大量访问
搜索引擎推广效果:无!
来访IP:无规律,很杂乱
[编辑]对Indy Library爬虫进行控制
Indy Library只是一个程序库,很多使用它的用户并不遵循robots.txt抓取规范,可能抓取你服务器上声明禁止访问的内容!。如果此类爬虫对您的服务器造成困扰,您可以:
用服务器防火墙屏蔽相关访问
用.htaccess屏蔽相关访问
在程序中进行相关检测和屏蔽
[编辑]参考资料
官方网站
http://www.indyproject.org/
” 关于Indy Library项目的官方信息