YisouSpider 不是假蜘蛛,而是一个合法的真实搜索引擎爬虫(蜘蛛),其 User-Agent (UA) 字符串用于标识它在抓取网页时的身份。它属于**神马搜索(Shenma Search,域名 sm.cn)**的爬虫,由阿里巴巴集团旗下广州神马移动信息科技有限公司运营。神马搜索的前身是“易搜”(Yisou),因此 UA 名称保留了“YisouSpider”。
详细说明
- UA 示例:常见的 YisouSpider UA 字符串包括:
- Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36(桌面版伪装)。
- Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1(移动版伪装)。 这些字符串让它看起来像普通浏览器,但末尾的“YisouSpider/5.0”暴露了爬虫身份。
- 作用:YisouSpider 用于系统性地浏览和索引网页内容,主要关注文本、链接、图片等元素,帮助神马搜索(尤其是移动端搜索)发现和收录网站数据。它从 2013 年左右开始活跃,至今仍在使用。
- 是否假蜘蛛?:它不是伪造的恶意爬虫,而是官方搜索引擎工具。神马搜索会遵守 robots.txt 协议(允许网站通过此文件控制抓取)。不过,早年(2010 年代初)它因高频抓取、不严格遵守规则而被一些站长诟病,甚至导致服务器负载过高或类似 DDoS 的问题。 现在已优化,IP 段主要来自阿里云(如 47.52.x.x 等),你可以检查服务器日志验证。
- 如何处理?
- 允许抓取:如果想被神马搜索收录,保留默认设置(神马站长平台有工具提交 sitemap)。
- 屏蔽:在 robots.txt 添加 User-agent: YisouSpider Disallow: /;或在 .htaccess/Nginx 配置中基于 UA/IP 拒绝访问(如 RewriteRule 规则)。
- 验证 IP:神马蜘蛛 IP 总数超 2600 个,主要阿里云段;可参考 CSDN 或 Udger 等工具查询。
如果你的网站日志中频繁出现 YisouSpider,建议监控流量变化,并考虑是否屏蔽以节省带宽。更多细节可查神马站长平台(sm.cn/zhuanzhan)或 Udger UA 数据库。