网络爬虫实战
第五节:解析库的使用
本页代码可以在这里下载。 1.使用XPath 全称 XML Path Language,即XML语言路径。 常用规则: nodename 选取此节点的所有子节点 / 阅读更多…
网络爬虫实战
第四节:爬取猫眼电影排行榜
本页源码可以在这里查看或下载。 获取页面源码: # get page code def get_one_page(url): headers = { ‘User-agent’: ‘Moz 阅读更多…
Ubuntu
Ubuntu的可视化界面安装
1.获取安装源 sudo add-apt-repository ppa:kubuntu-ppa/backports 2.更新资源 sudo apt-get update & 阅读更多…
Python
Python:yield关键字
yield是python里的生成器,有效利用yield可以有效地节约程序占用的系统资源。 比如这里: # parse the message with regex def parse_one_page 阅读更多…
Python
第二十一讲:爬虫实战
# -*- coding: utf-8 -*- # beautifulsoup from bs4 import BeautifulSoup import html import time import 阅读更多…