-
Python爬虫之为BeautifulSoup添加索引查找2017-02-18 | 分类于: Python爬虫
最近在帮金融教授爬取优先股的数据,要求不能过滤掉部分信息缺失的数据并将缺失部分用"N/A"填充。这样一来必须要使用正则表达式将原始数据切成很小片,很不方便,好在有解析利器 BeautifulSoup,但是不知道什么原因BeautifulSoup只能索引到多个同类子节点的第一个节点。不能索引给我造成了极大困扰,有时候甚至还是需要使用纯正则来解析数据。思前想后我决定自己为其添加索引功能以备不时之需。
... -
Python爬虫:多线程爬虫入门2016-10-22 | 分类于: Python爬虫
看了上一篇文章的朋友们会发现虽然我们可以爬取整个相册,但是速度非常慢,需要一个一个来爬,排队等待的效率是极其低下的。针对这种大部分时间浪费在网络阻塞的情况,python的多线程方法在这里大显神威。那什么是多线程呢,很简单: 假如需要做的事情是搬砖,而电脑是搬砖工人,通常程序都是单线程运行。也就是说只有一个工人在搬砖。如果觉得这样速度很慢,你可以
多请几个工人
-
Python爬虫:二层爬虫之爬取整个相册2016-10-06 | 分类于: Python爬虫
上次读了这篇文章的之后的老司机们可能发现了一个问题,我们爬取的妹子图片怎么都!是!封!面!。那是因为我们爬取得的内容是列表页提供的,所以只有封面图片链接。这并不能满足广大爬友的喜好,要来就要来全套。于是我们试图让我们的爬虫,让它能够爬取每个相册并保存没个相册在一个新建的文件夹中。
... -
Python爬虫: 带你上车之爬取妹子图2016-09-27 | 分类于: Python爬虫
简介
30行python轻松爬取成百上千的妹子图到本地。没时间解释了,快上车。
什么是爬虫?
网络爬虫,顾名思义就是在网上爬来爬去的“虫子”,它能够按照一定规则自动抓取网络数据的脚本。比如说你找到了一个特别棒的网站,上面全是妹子图。而你想把它们存到你的随身硬盘当中。如果你要一张一张保存的话那需要比较持久的耐力,这个时候你就需要通过爬虫来帮你抓取你心心念念的妹子图。
那么如何通过爬虫来完成任务呢?
运行机制
其实爬虫的工作流程和人是一样的,都需要经过下面几个步骤:
使用本机的IP连接到网络 ->使用地址登入网站 ->看到网页内容 ->筛选需要的信息 -> 保存下载 -> 登入新网页 ->重复之前的动作
是不是非常相似?
为什么使用python
很多编程语言都可以写爬虫,可我们为什么选择python呢?总的来说就是四个字:简单够用:
- Python语法简单,开发效率高
- Python 有着丰富第三方爬虫工具库(requests,scrapy,BeautifulSoup)
- 爬虫的速度瓶颈大多是在网络阻塞上,非超大规模爬取很少遇到计算性能瓶颈
- Python起初被用来开发搜索引擎,所以关于爬虫的资料很多,社区活跃
让我们开始吧!
... - 1