URI(Uniform Resource Identifier )统一资源标识符
URL(Uniform Resource Locator)统一资源定位符

URL是URI的子集,另一个分支是URN ( Universal Resource Name),已经很少使用了。

HTTP (Hyper Text Transfer Protocol)超文本传输协议

·      用于从网络传输超文本数据到本地浏览器的传输协议,它能保证高效而准确地传送超文本文档。

HTTPS (Hyper Text Transfer Protocol over Secure Socket Layer)

·      是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称HTTPS。
主要作用是:
1.建立一个信息安全通道来保证数据传输的网站。
2.确认网站的真实性。

请求

请求方法:
GET             请求页面,并返回页面内容
HEAD          类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头
POST          大多用于提交表单或上传文件,数据包含在请求体中
PUT            从客户端向服务器传送的数据取代指定文档中的内容
DELETE     请求服务器删除指定的页面
CONNECT 把服务器当作跳板,让服务器代替客户端访问其他网页
OPTIONS  允许客户端查看服务器的性能
TRACE      回显服务器收到的请求,主要用于测试或诊断
请求头:
Accep:请求报头域,用于指定客户端可接受哪些类型的信息。
Accept-Language:指定客户端可接受的语言类型。
Accept-Encoding:指定客户端可接受的内容编码。
Host:用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。
Cookie:也常用复数形式 Cookies,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。
Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如作来源统计、防盗链处理等。
User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。
Content-Type:也叫互联网媒体类型(Internet Media Type)或者MIME类型,在HTTP协议消息头中,它用来表示具体请求中的媒体类型信息。
请求体:
 

响应

响应状态码:
200、404、500等。
响应头:
Date:标识响应产生的时间。
Last-Modified:指定资源的最后修改时间。
Content-Encoding:指定响应内容的编码。
Server:包含服务器的信息,比如名称、版本号等。
Content-Type:文档类型,指定返回的数据类型是什么,如text/html代表返回HTML文档,application/x-javascript则代表返回JavaScript文件,image/jpeg则代表返回图片。
Set-Cookie:设置Cookies。
Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。
响应体:
 

网页的组成

HTML:
Hyper Text Markup Language,即超文本标记语言。
CSS:
Cascading Style Sheets,即层叠样式表。
JavaScript:
简称JS,是一种脚本语言。
 

JS渲染页面

有时候抓取源码和浏览器中看到的不一样,是因为网页由JS渲染出来,也就是说原始的HTML代码是一个空壳,对于这样的情况,我们可以分析其Ajax接口,也可以使用Selenium、Splash这样的库来实现模拟JS渲染。


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注