文心博客_第9页_关注互联网，关注未来！

公告:

时间：9年前 (2017/10/03) / 阅读：1274 / 评论：0

用python做数据分析4|pandas库介绍之DataFrame基本操作

怎样删除list中空字符？最简单的方法：new_list = [ x for x in li if x != '' ]今天是5.1号。这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的

时间：9年前 (2017/09/30) / 阅读：1163 / 评论：0

Sublime TEXT3 安装中文语言文件

安装Sublime TEST3 软件，默认是英文界面。点击Preferences-》点击Package Control，弹出如下框搜索install找到install package点击进入在上面界面点击install package搜索l

时间：9年前 (2017/09/30) / 阅读：1092 / 评论：0

Sublime Text3字体大小设置方法

今天在使用Sublime Text3 时觉得字体太小了，有时侯容易看花眼，于是在官网看了一哈说明，找到了解决办法，如下： 1、首先打开你的Sublime Text3 编辑器，在菜单栏选择”preferences” ->”Se

时间：9年前 (2017/09/30) / 阅读：1085 / 评论：0

sublime text3在高分屏下左侧栏的字体怎么调整？

安装Package Control，可以参考： SublimeText3无法安装插件，弹出对话框Package Control：There are no packages available for installation安装安

IP84爬虫：

看吧，丝毫不留情面，我们的爬虫已经没法工作了，不过办法总比困难多，只要你去想，所以本文稍微讲一下防ban策略。

常见反爬虫策略

    知己知彼，百战不殆。我们想防止爬虫被 ban就得了解一些常见的反爬虫措施。但要反爬虫还得先识别爬虫，所以首先讲讲如何识别爬虫。

方法1：http日志和流量分析，如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。

方法2：Headers参数检测

上图是浏览器正常访问站点时发送的数据包，可以看到Request Headers里面有一堆参数，目标站点可以检测User-Agent或者Referer参数的值来判断是否为爬虫，顺便提一下Referer参数也可以防盗链。

方法3：在网页源码内放置一个对浏览器不可见的链接，正常用户使用浏览器是看不到该链接的当然也不会去点击，如果检测到该链接被点击，来访IP就会被界定为爬虫。

讲完了爬虫识别方法，下面开始讲反爬虫策略

1.临时或永久封禁来访ip

2.返回验证码

3.异步加载(ajax)

4.爬虫陷阱

常见反反爬虫策略

    针对反爬策略1可以使用高匿代理IP解决；针对反爬策略2，如果不是每次都弹验证码也可以使用高匿代理IP解决，如果感觉高匿代理不稳定或者收集起来不方便使用Tor网络(不懂Tor？动动你的手指百度吧^_^)也可以，如果每次都弹验证码那就得涉及到验证码识别了，简单的验证码可以自己写代码处理，python有不少知名的图像处理(识别)库（如PIL/Pillow、Mahotas、Pymorph、pytesser、tesseract-ocr、openCV等）和算法（比如大名鼎鼎的KNN[K邻近算法]和SVM[支持向量机]），但复杂的验证码例如涉及逻辑判断和计算、字符粘连变形、前置噪音多色干扰、多语种字符混搭的大多也只能靠接入人工打码平台来对抗了；针对反爬策略3，由于采用异步加载方式，网页内容不会一次性全部展示出来，需要将滚动条滑到最底部才能继续浏览下一页内容，此时可以使用selenium+phantomjs解决，phantomjs是一个无头无界面浏览器，使用selenium可以驱动它模拟浏览器的一切操作，但缺点也很明显，爬取效率低；针对反爬策略4，看情况而定吧，如果是比较简单的死循环陷阱，可以对爬虫将要爬取的链接进行判断，不重复爬取相同的页面，scrapy的LinkExtractor设定unique参数为True即可或者直接设定爬虫的最大循环次数。高级的陷阱笔者还没遇到，暂不讨论。此外增加爬取间隔和禁用cookie也能降低爬虫被ban的概率。

实践

    上面说了那么多，实践才是硬道理，以突破IP84反爬策略为例，主要代码参考Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战，下面只贴出需要修改部分的代码。

在settings.py同级目录下新建文件useragent.py

时间：9年前 (2017/09/29) / 阅读：1468 / 评论：0
反爬虫与反反爬虫策略

本文摘自：http://jinbitou.net/ 仅供自己记录学习使用，感谢原作者！到目前为止我们已经写了好几个爬虫，虽然已经可以实现数据采集，但是我们的爬虫其实是在”裸奔”，因为没有加任何的伪装，很容易就可以被远程服务器识别

时间：9年前 (2017/09/29) / 阅读：1072 / 评论：0

sublimeTEXT 常用快捷键

Ctrl+L 选择整行（按住-继续选择下行）Ctrl+KK 从光标处删除至行尾Ctrl+Shift+K 删除整行Ctrl+Shift+D 复制光标所在整行，插入在该行之前Ctrl+J 合并行（已选择需要合并的多行时）Ctrl+KU 改为大写

时间：9年前 (2017/09/20) / 阅读：2910 / 评论：0

群晖自有域名DDNS设置教程

群晖想开外网，结果发现电信竟然不给外网IP,果断投诉走起，告知家里监控需要外网IP，15分钟就给我开通了，所以才有了今天的教程，再次赞一下电信的服务，晚上9点半才打的电话，9点45分就给我弄好了，废话不多说进入今天的正题，其实整个过程非常简

时间：9年前 (2017/08/30) / 阅读：1086 / 评论：0

cmd命令大全／cmd命令提示符大全

刚接触电脑的时候是从DOS系统开始，DOS时代根本就没有Windows这样的视窗操作界面，只有一个黑漆漆的窗口，让你输入命令。所以学DOS系统操作，cmd命令提示符是不可或缺的。可以告诉大家，大多数的程序员牛人或计算机专家在DOS系统下的操

时间：9年前 (2017/08/02) / 阅读：1449 / 评论：0

win 10 和 CentOS 7 双系统安装总结

本文引自：http://blog.csdn.net/gatherfly/article/details/51864247 仅供自己学习使用。谢谢原作者！工具及材料　　1、一台PC &

时间：9年前 (2017/08/02) / 阅读：3030 / 评论：0

ThinkPad X200 安装Centos7，安装无线网卡驱动，启动wifi

1、下载安装驱动：wget http://mirror.centos.org/centos/7/os/x86_64/Packages/iwl5000-firmware-8.83.5.1_1-49.el7.noarch.rpm （网

‹‹ ‹ 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 › ››

文心博客

用python做数据分析4|pandas库介绍之DataFrame基本操作

Sublime TEXT3 安装中文语言文件

Sublime Text3字体大小设置方法

sublime text3在高分屏下左侧栏的字体怎么调整？

常见反爬虫策略

常见反反爬虫策略

反爬虫与反反爬虫策略

sublimeTEXT 常用快捷键

群晖自有域名DDNS设置教程

cmd命令大全／cmd命令提示符大全

win 10 和 CentOS 7 双系统安装总结

ThinkPad X200 安装Centos7，安装无线网卡驱动，启动wifi

控制面板

网站分类

搜索

最新留言

文章归档

网站收藏

友情链接

访问最多文章

标签列表

评论最多文章

最新评论

« 2026年4月 »
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30