如何采集马蜂窝景点下的评论内容 | 眉山网络公司
事先声明下,本文纯属学术性探讨,请勿将采集到的内容用作商业用途。
一、工具准备
火车头,免费版本的已经够用
Excel,要开启宏,wps不支持
没事,你爱用wps,我不会说你Low的。
【成都南奇网络】cdnanqi.cn二、操作方法
1、找呀找评论
显然,评论的文字内容源代码中是木有的。
好吧,此刻你需要借助Chrome浏览器,Fn+F12。
打开这个链接,认真观察。
你会发现很有趣的两点:
1)、Url中包含着景点的id;
2)、细细观察,红框所示的部分就是评论,当然,需要把unicode转成汉字。
换句话说,如果你能拿到所有的你需要采集评论的景点的id,你就可以批量把景点对应的评论Url地址拼接出来,然后用火车头进行采集,可以获取到这些unicode。
下一步就是怎样批量的将unicode转成汉字。
2、将unicode转成汉字
哈哈,我伟大的excel可以。
打开excel,按alt+F11,然后插入,模板,粘入如下的代码:
Function ChW(t) If InStr(t, “\u”) Then s = Split(t, “\u”) For i = 0 To UBound(s) If Len(s(i)) > 3 Then ChW = ChW & ChrW(“&H” & Left(s(i), 4)) & Mid(s(i), 5) Else ChW = ChW & s(i) End If Next Else For i = 1 To Len(t) s = AscW(Mid(t, i, 1)) If s > 0 And s < 255 Then ChW = ChW & Mid(t, i, 1) Else ChW = ChW & “\u” & LCase(Hex(s)) End If Next End If End Function
保存,此刻就相当于你人工自定义了一个叫ChW的函数,使用方法类似excel自带的sum等函数。
A1单元格中放入你采集到的unicode,B1单元格中输入=ChW(a1)。
怎么样,是不是大功告成?
来吧,试试看你是不是也可以用火车头去采集百度或淘宝等的下拉框了?
推荐阅读
如何采集马蜂窝景点下的评论内容 | 眉山网络公司 https://cdnanqi.cn/meishan/1006.html
- 百度搜索推广有哪些优势?百度推广对企业的帮助_成都竞价托管
- 通过网站微调的方式可稳定关键词排名-成都seo优化-成都网站优化
- 网站SEO优化的基本核心是什么-成都seo优化-成都网站优化
- SEO站内优化无效页面(SEO站内优化无效页面怎么办)
- 在网站优化过程,我们除了对站点做seo还能做什么-遂宁SEO优化
- seo快排SEO必知的100个网站优化问答总结,一共不足或错误之处seo技seo好做seo-宜宾SEO优化
- TCL科技中英文响应式网站建设项目_成都网站制作
- 【seo内容营销】网站内容更新速度决定蜘蛛抓取活跃度-成都seo优化-成都网站优化
- 建设官网服务器放在哪里好?_成都做网站模板仿站
- 如何更换网站的服务器?需要注意哪些细节?_宜宾seo优化