2025-12-10
爬虫
00

目录

爬虫的定义和分类
什么是爬虫
爬虫的分类
链路设计
爬虫技术难点/壁垒
逆向难度高
js混淆技术
签名破解
风控难度高
人机验证
设备指纹
行为埋点
轨迹构造
维护成本高

爬虫的定义和分类

什么是爬虫

爬虫是一种自动获取网络信息的程序,它模拟人类浏览的行为,按照一定的规则,从互联网上抓取数据。

爬虫的分类

  1. 从数据源来分 a. web爬虫 b. 移动爬虫
  2. 从爬取方式来分 a. 自动化爬虫 b. 协议爬虫

链路设计

  1. 明确目标:确定要爬取的网站、数据类型(如文本、图片、视频等)以及数据的用途。
  2. 明确接口:确定要爬取的业务接口(api,html,websocket...)
  3. 分析风控:业务接口签名,反爬措施(定制型,通用型)
  4. 编写脚本:模拟真实业务场景发送请求获取数据,解析数据
  5. 数据落地:清洗爬取到的数据,存入数据库

爬虫技术难点/壁垒

逆向难度高

对于大部分网站而言,重要业务接口都会有各种签名算法进行保护,如果缺失重要参数,会被风控拦截。

js混淆技术

  1. 控制流平坦化

image.png 2. ob混淆

js
function hi() { console.log("Hello World!"); } hi(); var _0x3ed0 = ['1241023ikpdYM', 'Hello\x20World!', '291190xIUkft', '1251274vQVPdI', '124952hgHyOi', '1983KQSSIW', '247DipWFn', '7354VgseoG', '49680CQWPxl', '1ZTWTUo', '648lISKkF']; function _0x4ed9(_0x475ec5, _0x372034) { return _0x4ed9 = function (_0x3ed0df, _0x4ed9c4) { _0x3ed0df = _0x3ed0df - 0x96; var _0x5a22f3 = _0x3ed0[_0x3ed0df]; return _0x5a22f3; }, _0x4ed9(_0x475ec5, _0x372034); } (function (_0xa942b4, _0x57410c) { var _0x4e4980 = _0x4ed9; while (!![]) { try { var _0x1e86fa = parseInt(_0x4e4980(0x9b)) + parseInt(_0x4e4980(0x9e)) + -parseInt(_0x4e4980(0x97)) + -parseInt(_0x4e4980(0x9c)) * -parseInt(_0x4e4980(0xa0)) + -parseInt(_0x4e4980(0x98)) * parseInt(_0x4e4980(0x9d)) + -parseInt(_0x4e4980(0x96)) + parseInt(_0x4e4980(0x99)) * parseInt(_0x4e4980(0x9a)); if (_0x1e86fa === _0x57410c) break;else _0xa942b4['push'](_0xa942b4['shift']()); } catch (_0x178fbf) { _0xa942b4['push'](_0xa942b4['shift']()); } } })(_0x3ed0, 0xb3f61); function hi() { var _0x81b55a = _0x4ed9; console['log'](_0x81b55a(0x9f)); } hi();
  1. jsvmp
  2. wasm...

签名破解

  1. 纯算法还原
  2. 模拟浏览器环境(补环境,自动化)

风控难度高

签名防护是风控的第一步,后续我们还要涉及到设备指纹,行为埋点,轨迹构造等等手段通过风控。

人机验证

见前文人机校验 常见验证码以及难点简析

设备指纹

通过采集手机或者浏览器上的各种属性信息,经过一定的计算,产生出一个设备唯一值。 image.png

行为埋点

网站或app根据用户的浏览路径,点击行为等向服务器发送信息,对方获取到信息可以进行数据分析等方式分析请求的可信度。 image.png

轨迹构造

我们通过分析网站或app的埋点方式,构造合理的访问路径获取业务接口数据。

维护成本高

对于网站或app而言,风控策略以及风控参数可以随时发生变动,一旦对方的策略发生改变,那么我们也需要针对性的做出变化以应对风控。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:回锅炒辣椒

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!