主题
核心功能
蓝贝AI RPA融合了人工智能与RPA自动化技术,为你提供强大而易用的手机自动化能力。
🤖 AI智能生成
自然语言理解
无需学习编程,只需用日常语言描述你的需求,AI就能理解并生成对应的自动化工作流。
核心能力:
- 意图识别: 准确理解用户想要执行的操作类型(点击、输入、滑动等)
- 上下文理解: 结合当前屏幕状态,理解操作的目标和条件
- 多轮对话: 支持连续对话,逐步澄清和完善工作流
- 智能建议: 当意图不明确时,提供"你是不是想..."的候选选项
示例对话:
用户: "帮我打开微信的朋友圈"
AI: 已分析当前屏幕,生成工作流:
1. 点击底部"发现"标签
2. 点击"朋友圈"入口
是否确认执行?
用户: "然后发一条朋友圈"
AI: 继续添加步骤:
3. 点击相机图标
4. 选择"发表文字"
请问要发布什么内容?
用户: "今天天气真好"
AI: 已添加:
5. 输入文本"今天天气真好"
6. 点击"发表"按钮
工作流已完成,是否保存?
屏幕节点镜像分析
基于Android无障碍服务,实时采集和分析屏幕节点树,精准定位目标元素。
技术特点:
- 实时采集: 捕获当前屏幕的完整节点树结构
- 智能压缩: 将节点树压缩为nodesZip格式,高效传输
- 多维匹配: 支持resourceId、text、className、bounds等多种匹配方式
- 三段式选择器: target(目标)+ must(必须存在)+ must_not(必须不存在)
节点匹配示例:
json
{
"selector3": {
"target": {
"resourceId": "com.tencent.mm:id/fp",
"className": "android.widget.Button",
"text": "发表",
"index": 0
},
"must": [
{"text": "发现", "matchMode": "EQ"}
],
"must_not": [
{"text": "查看消息", "matchMode": "EQ"}
]
}
}
AI推理引擎
后端集成多种AI模型,支持灵活切换和fallback策略。
支持的模型:
- OpenAI GPT系列
- 阿里通义千问
- 讯飞星火
- 腾讯混元
- 本地Ollama模型
推理流程:
- 构建Prompt: 将用户意图 + 屏幕节点镜像组合成结构化提示
- 模型推理: 调用AI模型生成步骤序列和选择器
- 结果校验: 验证输出JSON的完整性和合法性
- 自动修正: 补充缺省值,优化选择器策略
- 返回工作流: 生成可执行的EiWork JSON
⚡ 工作流执行引擎
闭环执行架构
采用"Android端 ↔ 后端服务"的闭环交互模式,确保执行稳定可靠。
执行流程:
1. Android端采集屏幕节点树
↓
2. POST /rpa/hand/delivered (发送节点树)
↓
3. 后端匹配捕获器,计算下一步操作
↓
4. 返回执行器指令(DptDemand)
↓
5. Android端执行手势操作
↓
6. 循环直至工作流结束
优势:
- 动态适配: 每步都基于实时屏幕状态决策
- 容错能力: 支持fallback备选方案
- 验证机制: 每步执行后验证是否成功
- 异常处理: 自动重试和错误恢复
丰富的手势操作
支持Android平台的所有常见手势和操作。
手势类型:
手势 | 说明 | 应用场景 |
---|---|---|
点击 | 单击屏幕指定位置 | 按钮点击、选项选择 |
长按 | 长时间按压 | 唤起菜单、删除操作 |
滑动 | 从A点滑到B点 | 翻页、刷新、滑动解锁 |
输入 | 文本输入 | 填写表单、发送消息 |
截图 | 屏幕截图 | 保存内容、数据采集 |
返回 | 模拟返回键 | 退出页面 |
Home | 返回桌面 | 切换应用 |
滚动 | 上下滚动 | 浏览长列表 |
手势策略:
- AI生成: AI直接计算手势坐标和参数
- 服务端计算: 后端根据bounds自动计算
- 混合模式: AI优先,服务端fallback
执行控制
精细化控制工作流的执行过程。
控制参数:
- 延迟(delay): 操作前等待时间,确保界面加载完成
- 休眠(sleep): 操作后等待时间,等待响应
- 超时(timeout): 单步最大执行时间
- 重试(retry): 失败后重试次数
- 验证(verify): 执行后的验证条件
示例配置:
json
{
"action": "click",
"delay": 1000,
"sleep": 2000,
"timeout": 10000,
"retry": 3,
"verify": {
"text": "发布成功"
}
}
🎬 录制与回放
智能录制
记录你的操作轨迹,自动转换为可复用的工作流。
录制能力:
- 全手势捕获: 记录点击、滑动、输入等所有操作
- 节点关联: 自动关联操作的目标节点
- 时序记录: 保留操作的时间间隔
- 智能优化: 去除冗余操作,优化执行路径
录制流程:
- 启动录制模式
- 正常操作手机
- 停止录制
- 系统分析轨迹
- 生成工作流
- 保存并可重复执行
轨迹转工作流
将录制的操作序列转换为结构化工作流。
转换逻辑:
- 操作识别: 识别每个操作的类型和目标
- 选择器生成: 为每个目标生成稳定的选择器
- 参数提取: 提取输入文本、滑动距离等参数
- 流程优化: 合并相似操作,添加验证条件
🔄 多模态输入
支持的输入方式
文本描述
最基础的输入方式,用自然语言描述需求
屏幕截图
上传截图,AI识别界面元素和布局
短录屏
录制操作视频,AI理解操作意图和流程
语音输入
语音转文字,更便捷的交互方式
多模态融合
结合多种输入方式,提升AI理解准确率。
示例场景:
用户: [上传截图] + "点击这个红色的按钮"
AI: 已识别截图中的红色按钮,位置在(540, 320)
生成点击操作,是否确认?
用户: [录制视频] + "就是这样操作"
AI: 已分析视频,识别到以下步骤:
1. 点击"设置"
2. 滑动到底部
3. 点击"退出登录"
是否生成工作流?
🛡️ 人机协同
人审确认机制
关键步骤需要人工确认,确保工作流准确性。
Verdict Gating:
- 对/不对: 每个生成的步骤都可以人工审核
- 锁定机制: 确认后锁定,不允许AI自动修改
- 修正反馈: 不通过时可以补充说明,AI重新生成
交互流程:
AI: 生成步骤1:点击"发现"标签
[对] [不对]
用户: [对] ✓
AI: 步骤1已锁定。生成步骤2:点击"朋友圈"
[对] [不对]
用户: [不对] ✗ "应该是点击'视频号'"
AI: 已修正。步骤2:点击"视频号"
[对] [不对]
用户: [对] ✓
候选建议
当AI不确定时,提供多个候选方案供用户选择。
建议类型:
- 目标节点候选: 多个可能的点击目标
- 操作类型候选: 点击、长按、滑动等
- 参数候选: 不同的输入内容或滑动方向
示例:
AI: 检测到多个可能的目标,请选择:
1. "发表" 按钮 (右上角)
2. "发送" 按钮 (底部)
3. "提交" 按钮 (中间)
用户: 选择 1
AI: 已确认,使用"发表"按钮
📊 数据采集
屏幕数据提取
从屏幕节点树中提取结构化数据。
提取能力:
- 文本提取: 提取页面中的所有文本内容
- 列表提取: 提取列表项的标题、价格、状态等
- 表格提取: 提取表格数据为CSV或JSON
- 图片提取: 识别并下载页面中的图片
应用场景:
- 电商商品信息采集
- 社交媒体内容抓取
- 数据监控和统计
- 竞品分析
批量下载
支持批量下载图片、视频等媒体文件。
下载流程:
- 识别页面中的媒体元素
- 提取下载链接
- 批量下载到本地
- 自动分类和命名
🔧 高级特性
应用版本管理
支持同一应用的多个版本,确保工作流兼容性。
版本组(AppGroup):
- 同一应用的不同版本归为一组
- 工作流关联版本组,自动适配
- 版本差异自动检测和提示
定位器(GPS)
流程"回家"能力,确保工作流从正确的起点开始。
定位器类型:
- 应用启动: 启动指定应用
- 页面跳转: 跳转到指定页面
- 状态检查: 检查当前状态是否符合预期
条件分支
根据屏幕状态执行不同的分支逻辑。
分支条件:
- 节点存在/不存在
- 文本匹配/不匹配
- 自定义条件判断
循环执行
重复执行某些步骤,直到满足退出条件。
循环类型:
- 固定次数: 执行N次
- 条件循环: 直到某个条件满足
- 列表遍历: 遍历列表中的每一项
持续进化
蓝贝AI RPA的功能还在不断增强中,我们会持续优化AI模型、扩展手势类型、提升执行稳定性。敬请期待更多强大功能!