• Python爬虫之为BeautifulSoup添加索引查找

    最近在帮金融教授爬取优先股的数据,要求不能过滤掉部分信息缺失的数据并将缺失部分用"N/A"填充。这样一来必须要使用正则表达式将原始数据切成很小片,很不方便,好在有解析利器 BeautifulSoup,但是不知道什么原因BeautifulSoup只能索引到多个同类子节点的第一个节点。不能索引给我造成了极大困扰,有时候甚至还是需要使用纯正则来解析数据。思前想后我决定自己为其添加索引功能以备不时之需。

    ...
  • 使用Selenium驱动浏览器的爬虫

    我们这次使用S&P Capital IQ NetAdvantage来查找S&P500中市值超过$50B的公司,并将表单数据爬取下来存入数据库。最后根据自己的需求找到对应的股票。

    为了更好地了解整个过程,建议使用python的交互式界面。

    ...
  • 使用Jalapeno快速搭建博客

    上次我们讲了如何使用Flask系列来搭建静态博客,但是实际上功能仍然比较单一。为了省去大家重复造轮子的辛苦,老钱同志在今年年初发布了Jalapeno。由于偷懒原因(逃),官方文档一直未能发布。这次我们讲如何使用Jalapeno快速搭建自己的博客网站。

    注:Jalapeno当前支持Mac/Linux, Windows目前尚未测试。

    ...
  • 两种Fibnacci递归求解对比

    斐波那契数列

    在我学C的时候,Fibnacci就是作为递归算法入门的经典案例。斐波那契数列是由列奥纳多•斐波那契通过兔子繁殖的例子提出的,对各个科学领域有非常重要的意义。

    斐波那契数列:1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, ... 如果设F(n)为该数列的第n项(n∈N*),那么这句话可以写成如下形式::F(n)=F(n-1)+F(n-2) 显然这是一个线性递推数列。

    参见百科词条

    让我们来看看它是怎么实现的。

    ...
  • 使用Python实现关键字搜索文件

    让我们通过20行python代码实现一个简单的关键字搜索工具

    目录遍历

    首先我们来看如何实现目录遍历

    目录遍历的过程很简单:

    1. 将目标路径作为当前目录
    2. 罗列出当前目录下的所有内容
    3. 判断每一个目标是否是文件夹。
    4. 如果是,进入该文件夹搜索(将文件夹路径改为当前路径,多级目录在此处会循环)
    ...
  • 数据可视化(2):五种基本图形

    上一次通过一个简单例子学习了图形的基本绘制方法,这次我们通过农企(AMD)的数据来学习五种基本图形的绘制

    工具准备

    • AMD股票数据(Nov 21,2015 - Nov 21,2016),下载
    • S&P500同期指数,下载
    • AMD最近四个季度的财报
    • S&P500 同时段(AMD)的指数 ...