Blog – 第 26 页

第八节：爬取新浪微博

本页代码可以在这里下载。 1.分析请求打开新浪微博，过滤Ajax请求并查看。我们可以看到URL中有4个属性值，分别是type、value、containerid和page，其中containeri 阅读更多…

Ajax 全称 Asynchronous JavaScript and XML ，即异步的JavaScript和XML。它是利用JavaScript在保证页面被不断刷新、页面链接不改变的前提下与服务器阅读更多…

本页代码可以在这里下载。 1.文件存储（1）txt文本存储 r：以只读方式打开文件。 rb：以二进制只读方式打开一个文件。 r+：以读写方式打开一个文件。 rb+：以二进制读写方式打开一个文件。阅读更多…

本页代码可以在这里下载。 1.使用XPath 全称 XML Path Language，即XML语言路径。常用规则： nodename 选取此节点的所有子节点 / 阅读更多…

本页源码可以在这里查看或下载。获取页面源码： # get page code def get_one_page(url): headers = { ‘User-agent’: ‘Moz 阅读更多…

本页源码可以在这里查看或下载。 1.urllib库 1.发送请求（1）request：可以方便地实现请求的发送并得到响应。 # urlopen test import urllib.request 阅读更多…

URI(Uniform Resource Identifier )统一资源标识符 URL(Uniform Resource Locator)统一资源定位符 URL是URI的子集，另一个分支是URN （阅读更多…

1.anaconda的安装（Python3安装）官方网站：https://www.continum.io/downloads 清华大学镜像：https://mirrors.tuna.tsinghua 阅读更多…

1.获取安装源 sudo add-apt-repository ppa:kubuntu-ppa/backports 2.更新资源 sudo apt-get update & 阅读更多…

使用win10自带的虚拟机，在搜索栏搜索hyper然后在控制面板中打开Hyper-V等待文件加载之后重启即可。 1.我们打开hyper-V，选择快速新建 2.然后点击本地安装源 &nbs 阅读更多…