核心功能

浪花AI RPA融合了人工智能与RPA自动化技术，为你提供强大而易用的手机自动化能力。

🤖 AI智能生成

自然语言理解

无需学习编程，只需用日常语言描述你的需求，AI就能理解并生成对应的自动化工作流。

核心能力：

意图识别: 准确理解用户想要执行的操作类型（点击、输入、滑动等）
上下文理解: 结合当前屏幕状态，理解操作的目标和条件
多轮对话: 支持连续对话，逐步澄清和完善工作流
智能建议: 当意图不明确时，提供"你是不是想..."的候选选项

示例对话：

用户: "帮我打开微信的朋友圈"
AI: 已分析当前屏幕，生成工作流：
    1. 点击底部"发现"标签
    2. 点击"朋友圈"入口
    是否确认执行？

用户: "然后发一条朋友圈"
AI: 继续添加步骤：
    3. 点击相机图标
    4. 选择"发表文字"
    请问要发布什么内容？

用户: "今天天气真好"
AI: 已添加：
    5. 输入文本"今天天气真好"
    6. 点击"发表"按钮
    工作流已完成，是否保存？

屏幕节点镜像分析

基于Android无障碍服务，实时采集和分析屏幕节点树，精准定位目标元素。

技术特点：

实时采集: 捕获当前屏幕的完整节点树结构
智能压缩: 将节点树压缩为nodesZip格式，高效传输
多维匹配: 支持resourceId、text、className、bounds等多种匹配方式
三段式选择器: target（目标）+ must（必须存在）+ must_not（必须不存在）

节点匹配示例：

json

{
  "selector3": {
    "target": {
      "resourceId": "com.tencent.mm:id/fp",
      "className": "android.widget.Button",
      "text": "发表",
      "index": 0
    },
    "must": [
      {"text": "发现", "matchMode": "EQ"}
    ],
    "must_not": [
      {"text": "查看消息", "matchMode": "EQ"}
    ]
  }
}

AI推理引擎

后端集成多种AI模型，支持灵活切换和fallback策略。

支持的模型：

OpenAI GPT系列
阿里通义千问
讯飞星火
腾讯混元
本地Ollama模型

推理流程：

构建Prompt: 将用户意图 + 屏幕节点镜像组合成结构化提示
模型推理: 调用AI模型生成步骤序列和选择器
结果校验: 验证输出JSON的完整性和合法性
自动修正: 补充缺省值，优化选择器策略
返回工作流: 生成可执行的EiWork JSON

⚡ 工作流执行引擎

闭环执行架构

采用"Android端 ↔ 后端服务"的闭环交互模式，确保执行稳定可靠。

执行流程：

1. Android端采集屏幕节点树
   ↓
2. POST /rpa/hand/delivered (发送节点树)
   ↓
3. 后端匹配捕获器，计算下一步操作
   ↓
4. 返回执行器指令（DptDemand）
   ↓
5. Android端执行手势操作
   ↓
6. 循环直至工作流结束

优势：

动态适配: 每步都基于实时屏幕状态决策
容错能力: 支持fallback备选方案
验证机制: 每步执行后验证是否成功
异常处理: 自动重试和错误恢复

丰富的手势操作

支持Android平台的所有常见手势和操作。

手势类型：

手势	说明	应用场景
点击	单击屏幕指定位置	按钮点击、选项选择
长按	长时间按压	唤起菜单、删除操作
滑动	从A点滑到B点	翻页、刷新、滑动解锁
输入	文本输入	填写表单、发送消息
截图	屏幕截图	保存内容、数据采集
返回	模拟返回键	退出页面
Home	返回桌面	切换应用
滚动	上下滚动	浏览长列表

手势策略：

AI生成: AI直接计算手势坐标和参数
服务端计算: 后端根据bounds自动计算
混合模式: AI优先，服务端fallback

执行控制

精细化控制工作流的执行过程。

控制参数：

延迟（delay）: 操作前等待时间，确保界面加载完成
休眠（sleep）: 操作后等待时间，等待响应
超时（timeout）: 单步最大执行时间
重试（retry）: 失败后重试次数
验证（verify）: 执行后的验证条件

示例配置：

json

{
  "action": "click",
  "delay": 1000,
  "sleep": 2000,
  "timeout": 10000,
  "retry": 3,
  "verify": {
    "text": "发布成功"
  }
}

🎬 录制与回放

智能录制

记录你的操作轨迹，自动转换为可复用的工作流。

录制能力：

全手势捕获: 记录点击、滑动、输入等所有操作
节点关联: 自动关联操作的目标节点
时序记录: 保留操作的时间间隔
智能优化: 去除冗余操作，优化执行路径

录制流程：

启动录制模式
正常操作手机
停止录制
系统分析轨迹
生成工作流
保存并可重复执行

轨迹转工作流

将录制的操作序列转换为结构化工作流。

转换逻辑：

操作识别: 识别每个操作的类型和目标
选择器生成: 为每个目标生成稳定的选择器
参数提取: 提取输入文本、滑动距离等参数
流程优化: 合并相似操作，添加验证条件

🔄 多模态输入

支持的输入方式

文本描述
最基础的输入方式，用自然语言描述需求

屏幕截图
上传截图，AI识别界面元素和布局

短录屏
录制操作视频，AI理解操作意图和流程

语音输入
语音转文字，更便捷的交互方式

多模态融合

结合多种输入方式，提升AI理解准确率。

示例场景：

用户: [上传截图] + "点击这个红色的按钮"
AI: 已识别截图中的红色按钮，位置在(540, 320)
    生成点击操作，是否确认？

用户: [录制视频] + "就是这样操作"
AI: 已分析视频，识别到以下步骤：
    1. 点击"设置"
    2. 滑动到底部
    3. 点击"退出登录"
    是否生成工作流？

🛡️ 人机协同

人审确认机制

关键步骤需要人工确认，确保工作流准确性。

Verdict Gating：

对/不对: 每个生成的步骤都可以人工审核
锁定机制: 确认后锁定，不允许AI自动修改
修正反馈: 不通过时可以补充说明，AI重新生成

交互流程：

AI: 生成步骤1：点击"发现"标签
    [对] [不对]

用户: [对] ✓

AI: 步骤1已锁定。生成步骤2：点击"朋友圈"
    [对] [不对]

用户: [不对] ✗ "应该是点击'视频号'"

AI: 已修正。步骤2：点击"视频号"
    [对] [不对]

用户: [对] ✓

候选建议

当AI不确定时，提供多个候选方案供用户选择。

建议类型：

目标节点候选: 多个可能的点击目标
操作类型候选: 点击、长按、滑动等
参数候选: 不同的输入内容或滑动方向

示例：

AI: 检测到多个可能的目标，请选择：
    1. "发表" 按钮 (右上角)
    2. "发送" 按钮 (底部)
    3. "提交" 按钮 (中间)

用户: 选择 1

AI: 已确认，使用"发表"按钮

📊 数据采集

屏幕数据提取

从屏幕节点树中提取结构化数据。

提取能力：

文本提取: 提取页面中的所有文本内容
列表提取: 提取列表项的标题、价格、状态等
表格提取: 提取表格数据为CSV或JSON
图片提取: 识别并下载页面中的图片

应用场景：

电商商品信息采集
社交媒体内容抓取
数据监控和统计
竞品分析

批量下载

支持批量下载图片、视频等媒体文件。

下载流程：

识别页面中的媒体元素
提取下载链接
批量下载到本地
自动分类和命名

🔧 高级特性

应用版本管理

支持同一应用的多个版本，确保工作流兼容性。

版本组（AppGroup）：

同一应用的不同版本归为一组
工作流关联版本组，自动适配
版本差异自动检测和提示

定位器（GPS）

流程"回家"能力，确保工作流从正确的起点开始。

定位器类型：

应用启动: 启动指定应用
页面跳转: 跳转到指定页面
状态检查: 检查当前状态是否符合预期

条件分支

根据屏幕状态执行不同的分支逻辑。

分支条件：

节点存在/不存在
文本匹配/不匹配
自定义条件判断

循环执行

重复执行某些步骤，直到满足退出条件。

循环类型：

固定次数: 执行N次
条件循环: 直到某个条件满足
列表遍历: 遍历列表中的每一项

持续进化

浪花AI RPA的功能还在不断增强中，我们会持续优化AI模型、扩展手势类型、提升执行稳定性。敬请期待更多强大功能！

核心功能 ​

🤖 AI智能生成 ​

自然语言理解 ​

屏幕节点镜像分析 ​

AI推理引擎 ​

⚡ 工作流执行引擎 ​

闭环执行架构 ​

丰富的手势操作 ​

执行控制 ​

🎬 录制与回放 ​

智能录制 ​

轨迹转工作流 ​

🔄 多模态输入 ​

支持的输入方式 ​

多模态融合 ​

🛡️ 人机协同 ​

人审确认机制 ​

候选建议 ​

📊 数据采集 ​

屏幕数据提取 ​

批量下载 ​

🔧 高级特性 ​

应用版本管理 ​

定位器（GPS） ​

条件分支 ​

循环执行 ​