AI应用等设想的需求与落地场景
type
Post
status
Published
date
Oct 18, 2025
slug
ideas
summary
一些日常想到的需求场景
tags
开发
category
技术分享
titleIcon
password
icon
insider
一些日常想到的需求场景
智能OCR - Video Grounding
RimWorld Mod研发 Agent - 反编译得到mods与游戏代码上下文,xml上下文
Prompt Management
AI自动合并白噪音背景与音乐
AI自动定位音乐在番剧的集数与时间
带正面反馈/更细粒度/更灵活的推荐系统
- 仅从用户使用的角度出发,很诡异的一点是推荐系统,从B站,知乎,小红书到Reddit,Youtube都不存在直接正面的反馈模式,只有负面,正面反馈都只依赖于固定模式的反馈,如点赞,收藏,喜欢等,但1.点赞,收藏,喜欢等都不应直接等同于正反馈 2.不存在直接正面反馈以挑选心仪内容,调整推荐优先级等的选项,如果三种交互都不做呢?
- 收藏≠喜欢,收藏可以作为一种不设上限的稍后再看使用,或者仅仅一种资源收藏使用,稍后再看的不等于喜欢的,囤积的资源也不等于常看的。
- 点赞同样≠喜欢,比如看了一个深度学习入门的组会汇报,点赞,可以是出于对创作者指标的贡献,视频质量的认可,不等于希望这样的内容更多地出现,“我最近看了深度学习入门教程”,“为这一入门教程点了赞”,完全可以是出于欣赏这一内容,作为教程而言很优秀的行为,不等于我需要更多相关的,不等于有“在学习深度学习“的用户画像,尤其是现有推荐系统往往颗粒度稀烂,会导致1.如果需要深度学习相关内容(推荐的内容与点赞体现的相同)的情形,会出现大量的入门教程,但入门教程只需要一个两个足以,总不能天天都在入门 2.如果不处于(推荐的内容与点赞体现的不同),用户也不能控制优先级,反馈的粒度(CV,NLP细分方向,实用教程与技术观点等)
- 现有APP的推荐方式存在在单一方向倾向过大,欠缺多样的选择,比如知乎倾向于不同的内容,对于观点类内容,常推不同观点的回答,但回答之间的价值不是等同的,用户缺少选择,且负面反馈效果欠佳,不喜欢还推,且对于知识类(需要相似相关)的又不能保证内容的相关性了,小红书相反
租房合同AI
- 通过对大量租房合同进行训练,使AI可以很好地应对租房中的经典qa
- 识别合同中潜在的风险与成本转嫁的问题
- 比如家具损坏责任认定,虚假的空调开销
- 水电费不走民电民水
- 打击房东在打工人与公司之间抽取过量利益的行为
将程序变成完全portable的方法
- portable在迁移设备时方便,可以直接磁盘拷贝即可完全复制程序状态,但现有情况下,存在 1.使用了注册表的程序 2.数据目录定死在APPDATA等C盘目录下 等情形,实现一种AI将程序完全变成完全portable的,比如尝试将第二种里APPDATA的访问链接化,APPDATA链接到安装根目录文件夹下
视频理解时间戳自动截图与汇入内容
- AI对传入的视频进行处理,能够截取出文字描述的对应时间戳,也能在对应时间戳按照格式(位置)等要求直接插入用户的添加内容
测试驱动开发 - 需求-测试用例/UT-代码实现-自动测试
- 通过多Agent实现这样一套研发流程
- 从结果出发,减少对AI的过程要求。通过I号Agent面向需求(包括产品产出的文档,UI产出的原型图,研发提出的性能指标与设计规格)设计对应的测试用例,通过II号Agent面向测试用例提供代码实现并要求通过测试用例,通过III号Agent面向实现代码进行Code Review并重测测试用例,通过IV号Agent实现自动化测试(比如Playwright等Web页面测试,相当于是最终用户与产品交互的测试)的开发流程。
MCP2APP - MCP代码转传统APP
- MCP本身带有:吃RPM,吃Token,处理时间长,不便于中断等问题,对部分简单场景(如链接中Anki MCP场景)不适宜使用,成本高效果一般,相比下更适合作确定性的APP,可以实现一个AI Agent,专门用于在现有的MCP源码基础上构建一个确定的APP,将涉及AI(往往是数据转换与生成)的部分封装为一个RPC,结合到确定性的,不涉及AI的确定性业务流程中去。
AI逆向(bushi)
Context Learning
对抗现有LLM经验的需求Agent(面向药效训练的LLM添加盈利的维度,思考不能只局限于A方案药效更加,B方案有回扣,如何衡量,或者分层给低端一套高端一套)
监听Git Commit触发HF Space的factory rebuild
- 对于HF Space多以Dockerfile的方式部署,没有像Vercel或Netlify上的新Commit触发部署更新,需要一个单独的APP实现,考虑上用Github Action在提交后Hook里进行HF Space的factory rebuild更新部署
带Prompt优化的基本交互
- 虽然对于如Gemini2.5Pro这样的优秀模型而言,直接简单的一句话已经可以解决相当部分任务,但实践上,仅通过简单将Google自家的Prompt Guide丢进去让AI对用户描述(简单一句话)生成对应的Prompt再去执行任务,效果表现仍有相当明显的提升,可以将这一流程作为一个基本的交互块
- 下方案例里通过AI Studio用户输入,提供一个输入数据参考格式的例子和任务目标(通过MCP实现Anki自动制卡)
- 生成对应Prompt,将其放入Cherry Studio的助手Prompt里,往后直接CV输入数据,然后自行制卡

元信息知识库
- 让模型在对anki制卡时,自行提醒(想到)日语字体的问题
参考:
- 参见二语习得文章
启发式交互
- 对于真正了解甚少的领域而言,用户是不能进行“提问“的,提问的前提是已经有一定的基础了解,至少知道该问什么,模型应该能实现一种树状的启发式的会话,用户给出某一个名词,模型逐步迭代从这个名词能延伸到的地方。
Pre-Study
- 用于沉浸式学习方案,在观看视频前提前进行学习:
- 抽取视频文本
- 拆句(词汇/俚语/语法与固定(习惯)搭配/动词变形/游戏限定剧情上下文)
- 制卡(理想情况应该能把片段拆下来)
- 难点在于拆句的粒度 | 如何同时将片段也对应拆下来


