认识达内从这里开始

认真做教育专心促就业

python爬虫如何爬取信息？（3）

发布：烟台达内
来源：烟台达内
时间：2019-01-30 15:12

烟台达内的小编总结，此时就需要使用headless browser了，这是什么技术呢？其实说白了就是，让程序可以操作浏览器去访问网页，这样编写爬虫的人可以通过调用浏览器暴露出来给程序调用的api去实现复杂的抓取业务逻辑。
其实近年来这已经不算是什么新鲜的技术了，从前有基于webkit内核的PhantomJS,基于Firefox浏览器内核的SlimerJS,甚至基于IE内核的trifleJS,有兴趣可以看看这里和这里是两个headless browser的收集列表。
这些headless browser程序实现的原理其实是把开源的一些浏览器内核C++代码加以改造和封装，实现一个简易的无GUI界面渲染的browser程序。但这些项目普遍存在的问题是，由于他们的代码基于fork官方webkit等内核的某一个版本的主干代码，因此无法跟进一些最新的css属性和js语法，并且存在一些兼容性的问题，不如真正的release版GUI浏览器运行得稳定。
这其中最为成熟、使用率最高的应该当属 PhantonJS 了，对这种爬虫的识别我之前曾写过一篇博客，这里不再赘述。PhantomJS存在诸多问题，因为是单进程模型，没有必要的沙箱保护，浏览器内核的安全性较差。另外，该项目作者已经声明停止维护此项目了。
如今Google Chrome团队在Chrome 59 release版本中开放了headless mode api,并开源了一个基于Node.js调用的headless chromium dirver库，我也为这个库贡献了一个centos环境的部署依赖安装列表。

Headless Chrome可谓是Headless Browser中独树一帜的大杀器，由于其自身就是一个chrome浏览器，因此支持各种新的css渲染特性和js运行时语法。

烟台达内

基于这样的手段，爬虫作为进攻的一方可以绕过几乎所有服务端校验逻辑，但是这些爬虫在客户端的js运行时中依然存在着一些破绽，诸如：
基于plugin对象的检查
if（navigator.plugins.length === 0） {
console.log（‘It may be Chrome headless’）；
}
基于language的检查
if（navigator.languages === '‘） {
console.log（'Chrome headless detected’）；
}
基于webgl的检查
var canvas = document.createElement（‘canvas’）；
var gl = canvas.getContext（‘webgl’）；
var debugInfo = gl.getExtension（‘WEBGL_debug_renderer_info’）；
var vendor = gl.getParameter（debugInfo.UNMASKED_VENDOR_WEBGL）；
var renderer = gl.getParameter（debugInfo.UNMASKED_RENDERER_WEBGL）；
if（vendor == 'Brian Paul' && renderer == 'Mesa OffScreen‘） {
console.log（'Chrome headless detected’）；
}
基于浏览器hairline特性的检查
if（！Modernizr['hairline']） {
console.log（‘It may be Chrome headless’）；
}
基于错误img src属性生成的img对象的检查
var body = document.getElementsByTagName（‘body’）[0];
var image = document.createElement（‘img’）；
image.src = '#';
image.setAttribute（‘id', 'fakeimage’）；
body.appendChild（image）；
image.onerror = function（）{
if（image.width == 0 && image.height == 0） {
console.log（‘Chrome headless detected’）；
}
}

以上就是烟台达内给大家做的内容详解，更多关于IT的学习，请继续关注烟台达内

< 上一篇：python爬虫如何爬取信息？（2）

下一篇：python爬虫如何爬取信息？（4） >