Skip to content

核心功能

蓝贝AI RPA融合了人工智能与RPA自动化技术,为你提供强大而易用的手机自动化能力。

🤖 AI智能生成

自然语言理解

无需学习编程,只需用日常语言描述你的需求,AI就能理解并生成对应的自动化工作流。

核心能力:

  • 意图识别: 准确理解用户想要执行的操作类型(点击、输入、滑动等)
  • 上下文理解: 结合当前屏幕状态,理解操作的目标和条件
  • 多轮对话: 支持连续对话,逐步澄清和完善工作流
  • 智能建议: 当意图不明确时,提供"你是不是想..."的候选选项

示例对话:

用户: "帮我打开微信的朋友圈"
AI: 已分析当前屏幕,生成工作流:
    1. 点击底部"发现"标签
    2. 点击"朋友圈"入口
    是否确认执行?

用户: "然后发一条朋友圈"
AI: 继续添加步骤:
    3. 点击相机图标
    4. 选择"发表文字"
    请问要发布什么内容?

用户: "今天天气真好"
AI: 已添加:
    5. 输入文本"今天天气真好"
    6. 点击"发表"按钮
    工作流已完成,是否保存?

屏幕节点镜像分析

基于Android无障碍服务,实时采集和分析屏幕节点树,精准定位目标元素。

技术特点:

  • 实时采集: 捕获当前屏幕的完整节点树结构
  • 智能压缩: 将节点树压缩为nodesZip格式,高效传输
  • 多维匹配: 支持resourceId、text、className、bounds等多种匹配方式
  • 三段式选择器: target(目标)+ must(必须存在)+ must_not(必须不存在)

节点匹配示例:

json
{
  "selector3": {
    "target": {
      "resourceId": "com.tencent.mm:id/fp",
      "className": "android.widget.Button",
      "text": "发表",
      "index": 0
    },
    "must": [
      {"text": "发现", "matchMode": "EQ"}
    ],
    "must_not": [
      {"text": "查看消息", "matchMode": "EQ"}
    ]
  }
}

AI推理引擎

后端集成多种AI模型,支持灵活切换和fallback策略。

支持的模型:

  • OpenAI GPT系列
  • 阿里通义千问
  • 讯飞星火
  • 腾讯混元
  • 本地Ollama模型

推理流程:

  1. 构建Prompt: 将用户意图 + 屏幕节点镜像组合成结构化提示
  2. 模型推理: 调用AI模型生成步骤序列和选择器
  3. 结果校验: 验证输出JSON的完整性和合法性
  4. 自动修正: 补充缺省值,优化选择器策略
  5. 返回工作流: 生成可执行的EiWork JSON

⚡ 工作流执行引擎

闭环执行架构

采用"Android端 ↔ 后端服务"的闭环交互模式,确保执行稳定可靠。

执行流程:

1. Android端采集屏幕节点树

2. POST /rpa/hand/delivered (发送节点树)

3. 后端匹配捕获器,计算下一步操作

4. 返回执行器指令(DptDemand)

5. Android端执行手势操作

6. 循环直至工作流结束

优势:

  • 动态适配: 每步都基于实时屏幕状态决策
  • 容错能力: 支持fallback备选方案
  • 验证机制: 每步执行后验证是否成功
  • 异常处理: 自动重试和错误恢复

丰富的手势操作

支持Android平台的所有常见手势和操作。

手势类型:

手势说明应用场景
点击单击屏幕指定位置按钮点击、选项选择
长按长时间按压唤起菜单、删除操作
滑动从A点滑到B点翻页、刷新、滑动解锁
输入文本输入填写表单、发送消息
截图屏幕截图保存内容、数据采集
返回模拟返回键退出页面
Home返回桌面切换应用
滚动上下滚动浏览长列表

手势策略:

  • AI生成: AI直接计算手势坐标和参数
  • 服务端计算: 后端根据bounds自动计算
  • 混合模式: AI优先,服务端fallback

执行控制

精细化控制工作流的执行过程。

控制参数:

  • 延迟(delay): 操作前等待时间,确保界面加载完成
  • 休眠(sleep): 操作后等待时间,等待响应
  • 超时(timeout): 单步最大执行时间
  • 重试(retry): 失败后重试次数
  • 验证(verify): 执行后的验证条件

示例配置:

json
{
  "action": "click",
  "delay": 1000,
  "sleep": 2000,
  "timeout": 10000,
  "retry": 3,
  "verify": {
    "text": "发布成功"
  }
}

🎬 录制与回放

智能录制

记录你的操作轨迹,自动转换为可复用的工作流。

录制能力:

  • 全手势捕获: 记录点击、滑动、输入等所有操作
  • 节点关联: 自动关联操作的目标节点
  • 时序记录: 保留操作的时间间隔
  • 智能优化: 去除冗余操作,优化执行路径

录制流程:

  1. 启动录制模式
  2. 正常操作手机
  3. 停止录制
  4. 系统分析轨迹
  5. 生成工作流
  6. 保存并可重复执行

轨迹转工作流

将录制的操作序列转换为结构化工作流。

转换逻辑:

  • 操作识别: 识别每个操作的类型和目标
  • 选择器生成: 为每个目标生成稳定的选择器
  • 参数提取: 提取输入文本、滑动距离等参数
  • 流程优化: 合并相似操作,添加验证条件

🔄 多模态输入

支持的输入方式

文本描述
最基础的输入方式,用自然语言描述需求

屏幕截图
上传截图,AI识别界面元素和布局

短录屏
录制操作视频,AI理解操作意图和流程

语音输入
语音转文字,更便捷的交互方式

多模态融合

结合多种输入方式,提升AI理解准确率。

示例场景:

用户: [上传截图] + "点击这个红色的按钮"
AI: 已识别截图中的红色按钮,位置在(540, 320)
    生成点击操作,是否确认?

用户: [录制视频] + "就是这样操作"
AI: 已分析视频,识别到以下步骤:
    1. 点击"设置"
    2. 滑动到底部
    3. 点击"退出登录"
    是否生成工作流?

🛡️ 人机协同

人审确认机制

关键步骤需要人工确认,确保工作流准确性。

Verdict Gating:

  • 对/不对: 每个生成的步骤都可以人工审核
  • 锁定机制: 确认后锁定,不允许AI自动修改
  • 修正反馈: 不通过时可以补充说明,AI重新生成

交互流程:

AI: 生成步骤1:点击"发现"标签
    [对] [不对]

用户: [对] ✓

AI: 步骤1已锁定。生成步骤2:点击"朋友圈"
    [对] [不对]

用户: [不对] ✗ "应该是点击'视频号'"

AI: 已修正。步骤2:点击"视频号"
    [对] [不对]

用户: [对] ✓

候选建议

当AI不确定时,提供多个候选方案供用户选择。

建议类型:

  • 目标节点候选: 多个可能的点击目标
  • 操作类型候选: 点击、长按、滑动等
  • 参数候选: 不同的输入内容或滑动方向

示例:

AI: 检测到多个可能的目标,请选择:
    1. "发表" 按钮 (右上角)
    2. "发送" 按钮 (底部)
    3. "提交" 按钮 (中间)

用户: 选择 1

AI: 已确认,使用"发表"按钮

📊 数据采集

屏幕数据提取

从屏幕节点树中提取结构化数据。

提取能力:

  • 文本提取: 提取页面中的所有文本内容
  • 列表提取: 提取列表项的标题、价格、状态等
  • 表格提取: 提取表格数据为CSV或JSON
  • 图片提取: 识别并下载页面中的图片

应用场景:

  • 电商商品信息采集
  • 社交媒体内容抓取
  • 数据监控和统计
  • 竞品分析

批量下载

支持批量下载图片、视频等媒体文件。

下载流程:

  1. 识别页面中的媒体元素
  2. 提取下载链接
  3. 批量下载到本地
  4. 自动分类和命名

🔧 高级特性

应用版本管理

支持同一应用的多个版本,确保工作流兼容性。

版本组(AppGroup):

  • 同一应用的不同版本归为一组
  • 工作流关联版本组,自动适配
  • 版本差异自动检测和提示

定位器(GPS)

流程"回家"能力,确保工作流从正确的起点开始。

定位器类型:

  • 应用启动: 启动指定应用
  • 页面跳转: 跳转到指定页面
  • 状态检查: 检查当前状态是否符合预期

条件分支

根据屏幕状态执行不同的分支逻辑。

分支条件:

  • 节点存在/不存在
  • 文本匹配/不匹配
  • 自定义条件判断

循环执行

重复执行某些步骤,直到满足退出条件。

循环类型:

  • 固定次数: 执行N次
  • 条件循环: 直到某个条件满足
  • 列表遍历: 遍历列表中的每一项

持续进化

蓝贝AI RPA的功能还在不断增强中,我们会持续优化AI模型、扩展手势类型、提升执行稳定性。敬请期待更多强大功能!

粤ICP备18141372号