认识达内从这里开始

认真做教育专心促就业

python爬虫干货大分享！！！（3）

发布：烟台达内
来源：烟台达内
时间：2019-01-30 15:40

烟台达内的小编总结，智能解析意思就是说，如果能提供一个页面，算法可以自动来提取页面的标题、正文、日期等内容，同时把无用的信息给刨除，这是 Safari 中自带的阅读模式自动解析的结果。
对于智能解析，下面分为四个方法进行了划分：
readability 算法，这个算法定义了不同区块的不同标注集合，通过权重计算来得到最可能的区块位置。
疏密度判断，计算单位个数区块内的平均文本内容长度，根据疏密程度来大致区分。
Scrapyly 自学习，是 Scrapy 开发的组件，指定？页？面和提取结果样例例，其可？自学习提取规则，提取其他同类？页？面。
深度学习，使？用深度学习来对解析位置进？行行有监督学习，需要？大量量标注数据。
如果能够容忍一定的错误率，可以使用智能解析来大大节省时间。
目前这部分内容我也还在探索中，准确率有待继续提高。
存储
存储，即选用合适的存储媒介来存储爬取到的结果，这里还是分为四种存储方式来进行介绍。
文件，如 JSON、CSV、TXT、图？、视频、？频等，常用的一些库有 csv、xlwt、json、pandas、pickle、python-docx 等。

数据库，分为关系型数据库、非关系型数据库，如 MySQL、MongoDB、HBase 等，常用的库有 pymysql、pymssql、redis-py、pymongo、py2neo、thrift.

烟台达内

搜索引擎，如 Solr、ElasticSearch 等，便于检索和实现？本匹配，常用的库有 elasticsearch、pysolr 等。
云存储，某些媒体文件可以存到如七？牛云、又拍云、阿里云、腾讯云、Amazon S3 等，常用的库有 qiniu、upyun、boto、azure-storage、google-cloud-storage 等。
这部分的关键在于和实际业务相结合，看看选用哪种方式更可以应对业务需求。
反爬
反爬这部分是个重点，爬虫现在已经越来越难了，非常多的网站已经添加了各种反爬措施，在这里可以分为非浏览器检测、封 IP、验证码、封账号、字体反爬等。
下面主要从封 IP、验证码、封账号三个方面来阐述反爬的处理手段。
反爬 / 封 IP
对于封 IP 的情况，可以分为几种情况来处理：
首先寻找手机站点、App 站点，如果存在此类站点，反爬会相对较弱。
使用代理，如抓取免费代理、购买付费代理、使用 Tor 代理、Socks 代理等。
在代理的基础上维护自己的代理池，防止代理浪费，保证实时可用。
搭建 ADSL 拨号代理，稳定高效。
反爬 / 验证码
验证码分为非常多种，如普通图形验证码、算术题验证码、滑动验证码、点触验证码、手机验证码、扫二维码等。
以上就是烟台达内给大家做的内容详解，更多关于IT的学习，请继续关注烟台达内

< 上一篇：python爬虫干货大分享！！！（2）

下一篇：python爬虫干货大分享！！！（4） >