影刀RPA新手教程：新媒体运营完全指南——小红书、抖音、公众号三平台联动数据追踪-尧图网站开发

影刀RPA新手教程新媒体运营完全指南——小红书、抖音、公众号三平台联动数据追踪我做新媒体运营第二年手里同时管小红书、抖音、公众号三个平台。每天早上第一件事就是分别打开三个平台的后台手动记录昨天的数据阅读量、点赞量、评论量、涨粉数。一套操作下来40分钟没了。后来我用影刀RPA做了一个三平台数据自动采集流程每天早上自动跑数据自动写入飞书多维表格。现在每天省40分钟一个月就是20个小时。这篇文章围绕三平台数据自动追踪这个真实案例展开全流程拆解。一、安装与准备新媒体人的自动化起点影刀RPA社区版免费新媒体用足够了。如果你要同时监控多个账号建议上创业版可以多开流程。安装完之后先把三个平台的后台都在浏览器里登录好。Cookie有了后面的采集流程就不需要反复登录了。新媒体数据采集的关键是频率控制。平台的反爬措施很严操作太快会被封IP或者封账号。我在每个操作之间加3-5秒的随机等待。我建议每天早上固定时间跑采集流程比如早上8点这样数据是每天统一的方便做趋势分析。二、元素定位四合一新媒体平台的定位技巧新媒体平台的页面都是动态渲染的元素定位有一定难度。元素捕获在动态页面上经常失效。这时候要用XPath或者CSS选择器手动写。小红书的XPath写法//div[classnote-stat] ← 笔记数据块 //span[contains(class,like)]/text() ← 点赞数 //span[contains(class,comment)]/text() ← 评论数 //span[contains(class,collect)]/text() ← 收藏数 //div[classtitle]/text() ← 笔记标题抖音的XPath写法//div[classvideo-stat] ← 视频数据块 //span[contains(text(),点赞)]/following-sibling::span ← 点赞数 //span[contains(text(),评论)]/following-sibling::span ← 评论数 //span[contains(text(),分享)]/following-sibling::span ← 分享数公众号后台的XPath写法//td[classread-count]/text() ← 阅读数 //td[classlike-count]/text() ← 点赞数 //tr[classarticle-item] ← 文章行 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/33ac153d741b415fad01b296dba3dbca.png#pic_center)CSS选择器在三个平台上都有效.span.like-count ← 点赞数 .span.comment-count ← 评论数 .span.collect-count ← 收藏数 .td.read-count ← 阅读数公众号正则表达式用来处理混乱的数字格式“1.2万” “1234” “1.2w”(\d\.?\d*)(万|w|W) ← 匹配1.2万格式 (\d) ← 匹配纯数字我当时踩过的坑小红书的点赞数有时候显示1.2万有时候显示12345还有时候显示点赞没点赞过。要用正则先判断格式再决定怎么处理。三、变量与数据类型管理你的新媒体数据新媒体数据要存下来还要做趋势分析变量和数据类型要搞清楚。拼多多店群自动化上架方案字符串用来存标题、链接、发布日期。note_title影刀RPA入门教程note_linkhttps://www.xiaohongshu.com/explore/xxxpublish_date2024-03-15数字用来存点赞数、评论数、收藏数、阅读数、涨粉数。likes1234comments56collects78reads5600new_fans23列表用来存一批笔记/视频的数据。采集完一个平台的所有内容先存在列表里统一写入Excel。字典用来存单条内容的完整数据结构化清晰note_data{platform:小红书,title:影刀RPA入门教程,likes:1234,comments:56,collects:78,publish_date:2024-03-15,link:https://xxx}JSON处理在调用新媒体数据API的时候用到。新榜、飞瓜数据、蝉妈妈这些第三方数据平台有API可以直接调。我当时踩过的坑点赞数1.2万存到Excel里变成了日期。解决方法是在写入Excel之前把所有数字字段转成字符串前面加一个单引号强制当作文本。四、流程控制让数据采集流程会思考新媒体数据采集不是简单的打开页面→抓取→保存中间有很多判断逻辑。If条件判断做数据异常检测阅读量突然降为0可能是账号被限流了发通知。today_reads120yesterday_reads1500iftoday_readsyesterday_reads*0.1:![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6119202fee7e4e9f8471cee6f0583a14.png#pic_center)print(阅读量异常下降可能被限流)循环用来批量采集内容数据。ForEach列表循环最常用有一批笔记链接逐个打开采集数据。note_linksget_note_links()# 获取笔记链接列表forlinkinnote_links:open_page(link)datacollect_data()save_to_excel(data)wait_random(3,5)# 随机等待3-5秒While条件循环用来翻页采集不知道有多少页内容用While循环有下一页就继续没有就停。相似元素循环用来处理内容列表后台页面上20条内容用相似元素循环逐个采集。Try-Catch在所有采集步骤外面都要包一层。网络卡了、页面结构变了、弹窗出来了——这些都要优雅处理不能让整个采集流程中断。我第一次做三平台数据采集没加Try-Catch。跑到抖音的时候页面弹了一个是否允许通知的弹窗流程停了。后面公众号的数据没采到。五、网页自动化新媒体平台的特殊问题新媒体平台的网页自动化有几个特殊问题我都踩过。等待策略新媒体平台都是动态页面必须用元素出现再继续不能用固定等待。弹窗处理小红书和抖音后台经常弹升级通知功能引导等弹窗要用5步标准流程处理。翻页处理后台数据列表有好几页用While循环判断下一页按钮是否可用。懒加载处理小红书首页的笔记列表是滚动加载的要模拟滚动才能加载全部。iframe处理有些平台的后台页面用了iframe要先切换进去才能操作。窗口切换点击某条内容会打开详情页要用切换到指定窗口。我踩过最恶心的坑公众号后台的阅读数要等页面完全加载完才显示有个延迟加载的过程。我没加足够的等待时间抓到的阅读数全是0。六、数据处理让新媒体数据产生价值采集到原始数据之后要做清洗和分析才能真正用起来。Excel读写我每天把采集到的三平台数据写入同一个Excel文件用追加模式不覆盖之前的数据。importpandasaspd# 读取历史数据dfpd.read_excel(新媒体数据.xlsx)# 计算平均点赞数avg_likesdf[点赞数].mean()# 找出表现最好的内容top_notedf.sort_values(点赞数,ascendingFalse).head(1)文本提取与清洗笔记标题里经常有特殊字符emoji、换行符、引号写入Excel之前要清洗掉。importre title影刀RPA真的太好用了clean_titlere.sub(r[^\u4e00-\u9fa5a-zA-Z0-9\s],,title)![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/2f43608a6999476bbd2e7d34419cc338.png#pic_center)JSON解析调用第三方数据平台API得到的数据是JSON格式要解析后提取字段。数据库连接我的新媒体数据库存在MySQL里方便按日期、按平台、按内容类型查询分析。五个常见报错Excel写入重复——同一条内容可能被多次采集要去重数字格式不统一——1.2万要转成数字再存日期格式错误——统一用YYYY-MM-DD格式网络连接超时——加重试逻辑编码错误——标题里有emoji要先处理再写入Excel七、鼠标键盘图像自动化处理特殊场景有些操作网页自动化完成不了要用鼠标键盘模拟。模拟模式和驱动模式新媒体数据采集用模拟模式就行不会触发反爬。图像识别用在什么场景有些数据是用Canvas绘制的图表抓取不到具体数字要用OCR识别图片里的数字。锚点9位置偏移点击的位置不对可以用偏移调整。八、进阶技能让新媒体分析更智能HTTP请求对接第三方数据平台API。新榜、飞瓜数据、蝉妈妈这些平台都有API可以直接拿到账号数据、热门内容数据。importrequests urlhttps://api.newrank.cn/api/account/dataparams{account_id:xxx}headers{Authorization:Bearer xxxxx}resprequests.get(url,paramsparams,headersheaders)account_dataresp.json()[data]Python协同做内容分析。采集到一批内容数据之后用Python做统计分析平均点赞、最高点赞、涨粉趋势。importpandasaspd dfpd.read_excel(新媒体数据.xlsx)# 按平台分组统计平均点赞数avg_by_platformdf.groupby(平台)[点赞数].mean()OCR文字识别用来处理封面图里的文字。有些博主把核心数据写在封面图上要用OCR识别出来。ADB手机自动化有些平台小红书、抖音在手机端的反爬比网页端松可以用ADB控制手机做自动化。九、平台实战小红书抖音公众号三平台差异TEMU店群如何管理运营小红书数据采集的要点登录态保持Cookie、点赞数格式转换1.2万转成数字、图片封面采集存图片链接。抖音数据采集的要点抖音后台的响应速度慢等待时间要设长一点我一般设5-8秒。视频播放量在页面源码里不一定有要用正则从JS变量里提取。公众号数据采集的要点公众号后台的阅读数、点赞数要等页面完全加载完才显示要加足够的等待时间。还有公众号后台的日期选择器是动态加载的要模拟点击不能用输入。三平台数据汇总每个平台采集完统一写入同一个Excel文件字段对齐平台、标题、链接、点赞数、评论数、收藏数、阅读数、日期。十、系统联动让数据自动通知到你飞书消息通知每天采集完数据之后自动发一条飞书消息“今日三平台数据采集完成小红书平均点赞XXX抖音平均播放XXX”。飞书多维表格新媒体数据存在飞书多维表格里随时随地用手机查看还能做数据透视和图表。邮件发送把每周的数据分析报告发给团队或者甲方用影刀的发送邮件指令附件是Excel报告。定时任务配置每天早上8点自动跑采集流程这个时候前一天的数据已经完全统计完了。十一、工程化与规范新媒体自动化的工程管理子流程封装我把三平台数据采集流程拆成了小红书采集子流程、抖音采集子流程、公众号采集子流程、数据汇总子流程、通知子流程。调试技巧新媒体数据采集流程比较复杂我会在每个平台采集完成之后加一个打印日志输出小红书采集完成共XX条。命名规范platform_name比pn好note_title比nt好like_count比lc好。版本选择社区版够用。如果要同时监控多个账号比如你是一个MCN的运营建议上创业版。流程模板化不同平台的数据采集流程底层逻辑是一样的登录→打开后台→采集数据→翻页→保存做成模板新平台来了改改元素定位就能用。十二、速查表与常见报错新媒体自动化专属问题元素定位失败小红书和抖音的class是动态生成的每次刷新都变。解决方法是用contains()模糊匹配或者用文字定位。XPath语法报错属性值里有空格或者特殊字符要用引号包起来。Excel报错写入数据之前要做去重不然同一条内容会被写入多次。循环报错相似元素循环在页面刷新之后找不到元素。解决方法是在循环体里加等待时间并且用Try-Catch包住每个循环体。弹窗拦截小红书和抖音后台经常弹升级通知、功能引导弹窗。要在每个关键步骤后面加弹窗检测。反爬封号采集频率太高会被封号。解决方案是加随机等待时间3-5秒并且控制每天的采集次数。平台改版新媒体平台经常改版XPath失效是常事。我的方案是每次运行流程之前先手动打开目标页面用检查元素确认XPath是否还有效。我把自己用的新媒体数据采集XPath模板整理了一份放在 home.linyan.cloud需要的话可以去看。#影刀RPA #RPA教程 #新媒体运营 #数据追踪 #三平台联动作者林焱

影刀RPA新手教程：新媒体运营完全指南——小红书、抖音、公众号三平台联动数据追踪

相关新闻