python爬虫数据怎么分析（爬虫从网页爬取数据需要几步）

千万条缺点 2023-07-08 05:12:42

收藏赞

对于数据分析师来说，数据获取通常有两种方式，一种是直接从系统本地获取数据，另一种是爬取网页上的数据，爬虫从网页爬取数据需要几步？总结下来，Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步。

本文使用Python爬取去哪儿网景点评论数据共计100条数据，数据爬取后使用Tableau Public软件进行可视化分析，从数据获取，到数据清洗，最后数据可视化进行全流程数据分析，下面一起来学习。

示例工具：anconda3.7

本文讲解内容：数据获取、数据可视化

适用范围：网页数据获取及评论分析

网页数据爬取
Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步，懂的数据爬取的原理后，进行数据爬取。

1、发起请求

以去哪儿旅行网站为例，爬取网页数据，首先发送请求。

import requests u=https://travel.qunar.com/p-cs300100-xian-jingdian#爬取网址 response=requests.get(u) print(状态码:{}.format(response.status_code)) if response.status_code != 200: pass else: print("服务器连接正常")

这里返回状态码为200，说明服务器连接正常，可以进行数据爬取。

2、获取响应内容

服务器连接正常后，直接打印返回内容，这里返回整个网页html。

print(response.text)

3、解析数据

网页结构由复杂的html语言构成，这里借助BeautifulSoup库进行解析。

from bs4 import BeautifulSoup ri = requests.get(url=u) soupi=BeautifulSoup(ri.text,lxml)#解析网址 ul=soupi.find(ul,class_=list_item clrfix) lis = ul.find_all(li) lis

对于特定的标签进行定位，输出text。

print(soupi.h1.text)#标签定位，输出text lis=ul.find_all(li) print(lis[0].text)

建立一个字典，解析目标标签内容。

li1=lis[0] dic={} dic[景点名称]=li1.find(span,class_="cn_tit").text dic[攻略提到数量]=li1.find(div,class_="strategy_sum").text dic[评论数量]=li1.find(div,class_="comment_sum").text dic[lng]=li[data-lng] dic[lat]=li[data-lat] dic

使用for循环解析标签内容。

import requests from bs4 import BeautifulSoup u1=https://travel.qunar.com/p-cs300100-xian-jingdian ri=requests.get(url= u1) soupi=BeautifulSoup(ri.text,lxml)#解析网址 ul=soupi.find(ul,class_=list_item clrfix) lis=ul.find_all(li) for li in lis: dic={} dic[景点名称]=li.find(span,class_="cn_tit").text dic[攻略提到数量]=li.find(div,class_="strategy_sum").text dic[评论数量]=li.find(div,class_="comment_sum").text dic[lng]=li[data-lng] dic[lat]=li[data-lat] print(dic)

根据翻页规律设置翻页数，这里设置一个列表，用来循环爬取前十页数据。

#根据翻页规律，设置翻页数 urllst=[] for i in range(11): urllst.append(https://travel.qunar.com/p-cs300100-xian-jingdian str(-1-) str(i)) urllst=urllst[2:11] urllst.append(https://travel.qunar.com/p-cs300100-xian-jingdian) urllst

4、保存数据

新建一个空的数据框，用于保存数据。

import pandas as pd dic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"]) dic

在空的数据框中保存第一条数据，并且使用for循环，依次爬取其余页面的数据。

n=0 dic.loc[n, 景点名称] = li.find(span, class_="cn_tit").text dic.loc[n, 攻略提到数量] = li.find(div, class_="strategy_sum").text dic.loc[n, 评论数量] = li.find(div, class_="comment_sum").text dic.loc[n, lng] = li[data-lng] dic.loc[n, lat] = li[data-lat] dic

,

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。

猜您喜欢

华为手机还增充电器吗（华为部分手机取消充电器降价200）

苹果为代表，目前很多手机厂商都以“环保”之名取消了标配充电器。近日，有网友发现，华为部分手机也不再标配手机充电器和数据线...

媳婦悳姨禡 2023-07-08 04:46:27
iphone紫米30w快充拆解（华为手机都能快充）

最近充电头网拿到了JOYROOM机乐堂一款20W双口快充充电器，配备的是市面热门的1A1C接口，而产品整体体积做得很小，...

冬天被窝里 2023-07-08 04:53:33
华为不用原装充电器有问题吗（华为手机取消充电器）

华为Mate 40 Pro系列手机近期重新通过了3C认证，笔者注意到，在产品规格一栏中写着：“当产品为玻璃外壳（后盖）时...

情永不枯萎 2023-07-08 04:30:44
哪些充电器品牌支持华为超级快充（笔记本手机共用）

近日充电头网拿到了一款华为新推出的超大功率充电器，功率达到135W，应该是专门为笔记本开发的配套产品。与传统大黑砖充电器...

厌倦的生活 2023-07-08 04:36:36
大棚食用菌菇怎么栽培（种菌菇荷包鼓）

2017-11-20 14:27 | 浙江新闻客户端记者阮帅通讯员魏华杰只需要打开手机轻轻点击，就能远程操作...

有迩更好 2023-07-08 04:28:23
实木床制作图解（实木床制作工具有哪些）

实木床如何自制？目前木工DIY的爱好还十分小众，对于很多人依旧神秘遥远，但其实心理门槛大于实际门槛，木工DIY并没有我们...

帅哥美女 2023-07-08 04:19:05
鬼畜音乐原唱是谁（这两天大家受惊了）

《刀剑如梦》演唱：周华健(完整版)经典老歌：我剑何去何，爱舆恨情，手指是唱空。我刀划破长空是木无法懂，也不懂。我醉一...

再哭就親妳 2023-07-08 04:29:27

秒懂生活

python爬虫数据怎么分析（爬虫从网页爬取数据需要几步）

猜您喜欢

华为手机还增充电器吗（华为部分手机取消充电器降价200）

iphone紫米30w快充拆解（华为手机都能快充）

华为不用原装充电器有问题吗（华为手机取消充电器）

哪些充电器品牌支持华为超级快充（笔记本手机共用）

大棚食用菌菇怎么栽培（种菌菇荷包鼓）

实木床制作图解（实木床制作工具有哪些）

鬼畜音乐原唱是谁（这两天大家受惊了）

热门推荐

排行榜