-
蒋振飞
2018年09月08日
爬虫抓取实践
792 ℃
0
杭州,是我毕业找工作的首选地,了解到租房价格较高,现通过所学知识对杭州租房价格进行分析。进行数据分析,就要实现对房产信息的可视化,必须拿到数据,后通过numpy,pandas,matplotlib等一些科学计算包进行计算。此项目需要用到爬虫知识,Scrapy框架,数据分析基础。 Scrapy抓...
-
蒋振飞
2018年08月11日
爬虫抓取实践
550 ℃
0
爬取糗事百科段子,假设页面的URL是:http://www.qiushibaike.com/8hr/page/1要求 1.使用requests获取页面信息,用XPath / re 做数据提取2.获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数3.保存到 json 文件内Qu...
-
蒋振飞
2018年08月09日
爬虫抓取实践
1117 ℃
0
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/在抓取网页时,某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求,但进行爬虫时可能需要很多ip,这时就要求维护一个代理池(池也就是代理队列),可放进代理,也可取出代理。我...
-
蒋振飞
2018年08月06日
爬虫抓取实践
992 ℃
0
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址https://cuiqingcai.com/ 普通代理因为之前都是学习测试,不需要对网站频繁的搜索爬取,所以代理使用似乎关系不大,不过为了防止IP被封,也是一个很重要的知识点。之前使用代理也都是查找一些代理网站,手动将IP设置添加到p...
-
蒋振飞
2018年08月05日
爬虫抓取实践
977 ℃
0
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟点击、输入和下拉等多...
-
蒋振飞
2018年08月03日
爬虫抓取实践
765 ℃
0
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址https://cuiqingcai.com/实现流程介绍1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果2.抓取详情页内容解析返回结果,得到详情页的链接,并进一步抓取详情页信息3.下载图片与保存数...
-
蒋振飞
2018年08月02日
爬虫抓取实践
797 ℃
0
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/流程框架1.抓取单页内容利用requests请求目标站点,得到单个网页HTML代码,返回结果。2.正则表达式分析根据HTML代码分析得到电影的名称,主演,上映时间,评分,图片链接等信息。3...
-
蒋振飞
2018年07月10日
爬虫抓取实践
491 ℃
0
内涵段子前段时间发生的事情,想必大家都有所耳闻,我本人也是非常喜欢看段子的。但这并不能阻止我想看段子的脚步,幸好,给大家推荐一个网站,叫做内涵吧,里面也有非常丰富的段子内容。下面就以内涵吧为例爬取所有段子,可供离线观看。先分析请求的url地址1.第1页段子url:https://www.n...
-
蒋振飞
2018年06月23日
爬虫抓取实践
757 ℃
0
今天是学习爬虫的第二天了,看了网上很多初学者都喜欢爬取字典翻译。确实,有一个自己随时随地使用的翻译神器,省去了打开浏览器输入网址的那些繁琐,也腾出了不少时间。在这里我选择的是有道翻译,相比于百度翻译来说,它的特点就是使用了post请求来获取json格式数据,而百度翻译使用的是get请求。...