账号注册找回密码
  微信登录

奇瑰网社区

python爬虫开发前需要了解的知识

[复制链接]

4

主题

10

帖子

141

积分

资深会员

Rank: 2

G币
0
信用
2
体力
28
发表于 4 天前 | 显示全部楼层 |阅读模式
  爬虫的基本原理是基于网站网络协议,根据网址批量获取到网页上的信息操作过程。简单一点说就是用计算机程序来模拟人工点击网页获取数据的过程。大数据时代来临,网络爬虫日益火爆,不少朋友都纷纷开始学习,准备入行了,那么在学习爬虫开发之前需要先了解哪些知识呢?
  一、HTTP基本原理
  由客户端向服务端发起,可以分为4个部分:请求方法(Request Methon)、请求的网址(Resquest URL)、请求头(Request Headers)、请求体(Resquest Body)。
  1、请求方法常见的有两种:GET和POST,还有PUT、DELETE、HEAD以及OPTIONS等方法,这里就不详细介绍了;
  2、请求网址:URL,统一资源定位符,它可以唯一确定我们想要的资源;
  3、请求头:用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等;
  4、请求体:一般承载内容是POST请求的表单数据,而对于GET请求,请求体则为空 。
  二、网页结构分析
  网页大致可分为三大部分——HTML(骨架)、CSS(皮肤)和JavaScript(肌肉)。
  1、HTML:描述网页的语言,即超文本标记语言,不同的元素通过不同的标签来表示;
  2、CSS:全称叠层样式表,是目前唯一的网页页面排版样式标准;
  3、JavaScript是一种脚本语言,实现实时、动态、交互的页面功能。
  三、爬虫基本原理
  爬虫的工作流程大致可以分为四步:获取网页,提取信息,保存数据,自动化程序。
  1、获取网页:获取网页源码;
  2、提取信息:分析网页内容;
  3、保存数据:保存到文本或者数据库中;
  4、自动化程序:代替操作。
  四、代理IP的选择
  代理IP是爬虫工作过程中必不可少的辅助工具之一,高效稳定的代理IP是保障爬虫高效率运行的基础。
  在选择代理IP的时候,要尽量选择一家靠谱的高匿代理IP供应商,根据自身业务需求选择HTTP或者Socks5协议的比如番茄加速https://www.fanqieip.net/支持http/https/socks5,在选择的时候需要注意IP可用率、延时、稳定、价格等因素,最重要看一天去重的数量有多少就能知道IP池子的大与小,IP池越大对业务来说更有利。





上一篇:紫鸟浏览器是一款好用的跨境电商浏览器
下一篇:拼多多直播场控王!直播间人气权重提升
使用高级回帖 (可批量传图、插入视频等)

发表回复

您需要登录后才可以回帖 登录 | 账号注册   微信登录

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
Powered by Discuz! X3.4 ( 粤ICP备20013252号-1  
Copyright © 2014-2020 奇瑰网 All Rights Reserved.
快速回复 返回顶部 返回列表