首先,老规矩。 在爬取之前,我们首先分析一些目标网页的构成。 我们进入佳缘的搜索页面,按F12打开开发者工具,找到网页选项,查看网页的URL、请求方式、user-agent等基本信息。 :
请求方法是post,这意味着我们不必在源码中寻找标签。 所有数据都存储在网页的json文件中,方便多了。 我们直接通过链接获取API文件,无需解析网页。 点击HTR 然后点击“”查看表单数据。
显然,“sex”是性别,“f”是“”的缩写,“p”代表页码。 因为搜索页面总共有10个页面,所以我们需要构造完整的请求URL:/v2/.php? 键=&性别=f&stc=1:11,2:18.24,3:155.170,23:1&sn=&sv=1&p=1&f=
当网页的页码发生变化时,我们发现只有URL中的p值发生变化,因此我们只需要改变p值即可构造对应的URL。
好了,现在网页的构成已经分析完毕单身男女2,接下来就是开始在其中编写爬虫了。 通过上面的URL,我们可以获取服务器返回的json格式的用户信息。 部分源码如下:
爬取的过程就不详细说明了,因为佳缘的网站还是需要模拟登录的,所以登录后需要放入爬虫的请求头中,这样才能正确访问数据。 爬取后清理的数据如下:
注:Excel数据集的下载方法可直接在文末获取! BI可视化分析
有了数据之后,我们下一步就是进行数据可视化分析。 这里我们将清理后的数据导入其中,并在首页创建一个Excel数据集。 我们可以将其放入任何业务包中:
下一步,为了在不改变源数据表的情况下处理和编辑数据,我们采用自助数据集的方法,添加excel表中的所有指标:
在其中,我们可以对数据进行很多处理操作,例如过滤、分组汇总、添加列、排序、合并等:
因为我们已经清理了excel中的数据,所以这次不需要处理。 我们直接选择创建一个可视化组件,命名为“Blind Date”:
然后我们进入可视化操作页面。 我们只需将指标和维度拖到横轴和纵轴上,并选择相应的图表类型即可。 例如,如果这里选择“条形图”,则会自动显示图表:
当然,我们还可以编辑指标和维度,比如排序、分组、过滤等:
然后就可以对图表进行一些优化,比如颜色、大小、标签等,一个基本的可视化图表组件就完成了:
结论分析
1、单身男女学历分析
总体而言,受过高等教育的人比例很小。 他们大多数拥有大学或学士学位。 不过,硕士学历的人中单身的比例也很高,因为一般来说,学历越高,结婚率越低; 让我们看看下面按性别划分的教育资格:
总体而言,女性受教育程度低于男性。 女性具有大学及以下学历的比例较高,男性具有学士及以上学历的比例较高。 这可能也与受过高等教育的人数有关;
2. 单身男女婚姻状况
没想到,占比最大的婚姻状况竟然是离婚,说明婚恋网站最大的市场对象是离婚男女,占比50%;
我们再用性别维度对数据进行拆解,发现总体比例相似,但丧偶男性比例较高,未婚女性比例远低于女性。 这说明相亲市场的未婚人群仍然以女性为主。
3、单身男女年龄、身高
首先是年龄。 可以看出,交友网站用户整体年龄偏大。 主要人群以30-40岁为主。 但男性的年龄分布存在明显差距。 40-50岁的人所占比例很小。 是的,但是55岁以上的比例远远超过女性。 看来剩下的老年男性都是因为离婚或者守寡;
55岁之前,单身女性的比例相对较高,但55岁之后就急剧下降。看来单身女性是各个年龄段都存在的问题。
我们来看看单身男女的身高:
显然,单身女性有“160cm”和“165cm”两个峰值,单身男性有“170cm”和“175cm”两个峰值。 据说身高不超过160的女性很难找到伴侣,身高不超过175的男性很难找到伴侣。看来大家在填写信息的时候,都或多或少的依赖这两个数值。 总的来说,可以看出,想要找到个子不高的人,确实很难。 目的。
为了更清楚地看到男女的身高和年龄,我特地做了一个分布图:
4. 单身男女择偶观分析
这张图的横坐标代表了个人的年龄,纵坐标代表了你要择偶的人的年龄。 基本上,男性和女性都呈现出正线性关系,但男性明显更喜欢比自己年轻的人,而女性则相反。
我们来看看单身男女对于未来配偶的条件分析:
果然,有房有车是每个人最关心的事情。 这不会错,因为单身年龄越大,对生活的要求就越高;
5、单身男女城市分布分析
为了方便地看到分布,我使用了热图。 事实上,从数据中可以看出,单身人数最多的城市都是一线城市,包括:上海、成都、广州、北京、天津等地。
由于爬取的信息有限,分析结论不是很深入。 它仅供您娱乐。 祝大家明年七夕都能早日找到心仪的对象,不再单身!
原作者姓名: 数字评论指南
原文链接:爬取2万条相亲数据!看看中国单身男女都在选择什么
原始来源:搜狗账号
标题:单身男女2 “世纪佳缘”相亲网站爬取搜索页面当中所有用户信息
链接:https://yyuanw.com/news/gl/4372.html
版权:文章转载自网络,如有侵权,请联系删除!