火米博客

聊聊语音输入转文字这件事

大概两周前受到 这篇文章 的启发,我开始在全平台尝试使用 Wispr Flow 进行语音转文字。今天分享一下这段时间的经验。

硬件

硬件分两部分来说。

首先是家里。我使用 Mac mini M2 Pro 和 Studio Display。如果不用外接话筒,默认收音设备就是 Studio Display。一个人在家时,对着显示器说话没什么问题;但家里有人的话,中等音量就会被听到内容。隐私倒不是问题,只是旁边有人时总会有所顾忌,有时候他们听到我输入的内容, 还会来笑我

解决方案很简单:直接使用我桌面上原本用于录播的设备——舒尔 SM7 话筒和 Apogee Symphony Desktop 声卡。这样即使用很小的声音低语,也能准确识别。

另一个场景是在公司开放办公环境里使用 Windows PC。直接用笔记本麦克风显然不合适。我试过有线麦克风,但手持讲话总觉得别扭,桌上多根线也不好看。

后来想到蓝牙无线麦克风。最火的是 Wispr Flow 官方提到的大疆 Mic Mini 2,但价格要三百多块。如果最后用不习惯,成本还是有点高。

后来我买了博雅(Boya)的 Mini 2 一拖一基础款,闲鱼上 110 元包邮。用了两天,效果出乎意料地好。在公司只需很小音量低声说话,麦克风夹在衣领上,不需要手持,也没有线缆干扰。

至于 iPhone,我直接对着手机麦克风说话。

软件

AI 语音转文字软件很多,从开源免费到付费订阅都有。

我之前试过 Superwhisper、Aiko,还有别人推荐但尚未体验的 Typeless 和 Monologue。目前用了差不多一个星期的 Wispr Flow,已经能很好满足需求。

语音转文字最大的痛点,是某些词或句子无法被正确识别。Wispr Flow 的 Dictionary 功能很好地解决了这个问题。

发现识别错误后,直接修改文字即可。Wispr Flow 会记住正确写法并自动加入 Dictionary,下次便能正确识别。当然也可以手动添加词条。

除此之外,这类 App 通常还有一些 AI 辅助功能,比如整理成 AI 提示词,或者转换成商务邮件格式。不过这些功能我用得不多。

至于 Wispr Flow 和苹果自带语音转文字的差距,我只能说是天壤之别。用过 Wispr Flow 之后,再回去用苹果自带方案,几乎无法忍受。

好处

首先当然是更快。

这篇文章就是我用语音输入完成的。如果全靠手敲,大概至少需要三倍时间。

第二个好处是记录成本大幅降低。当输入变得足够轻松时,我会记录更多细节。无论是写日记还是记录工作日志,都能写得更详细。

以前打字时,为了减少输入量,我总会尽量简洁,不可避免地遗漏很多细节。

第三个好处是 AI 会顺手帮忙整理格式。比如口述清单时自动分行、添加编号;口述标点时自动补全;有时甚至还能正确加上括号。

最后分享一下我的 Wispr Flow 邀请码。如果你通过 这个链接 注册,可以免费使用一个月(我也能额外获得一个月 Pro 权限)。


一个安全的玩耍空间

Austin Kleon 在他的新书 Don’t Call It Art 中提到了创造的三要素:时间,空间,和材料。

关于空间,他写道:

艺术家需要空间。不一定非得是一整间房,但总得有属于自己的空间。艺术家的空间既可以在家里创造,也可以在家外寻找。大多数艺术家都梦想拥有一个与居住空间分开的地方——比如大楼里的工作室、一间小棚屋,甚至一个车库。能拥有地下室、阁楼,或一间属于自己的卧室,都已经算幸运了。有时候,艺术家不得不满足于角落里的一张书桌,或者餐桌上的一席之地。
……
如果你的工作具有可移动性,或者你能够让它变得具有可移动性,那么有时你可以到现实世界中寻找一些发挥和放松的空间——也就是雷·奥尔登堡(Ray Oldenburg)所说的“第三空间”(third places),例如公园、图书馆或咖啡馆。(“第一空间”是家,“第二空间”是工作场所。)如今,许多这样的第三空间正在从现代生活中逐渐消失,但你或许仍能在一些意想不到的地方找到它们。

很可惜,我还没法拥有一个属于自己的空间。

幸运的是,我的创意工作具有可移动性,所以,只要我带者电脑,和一副隔音耳塞,就能在图书馆,或者公园里工作。

话虽如此,我还是梦想能有一个 Austin 这样的工作室,一个属于我的,可以安全玩耍的空间。

e0774a0b-01e9-4e3f-8360-39909249e41c_1080x1350.jpg


什么样的人在听我的播客

2024年,Tim Ferriss 对他的听众做了一个调查,这是他的听众的画像:

  1. 总体来看,你们受教育程度很高。 大约 45% 的听众拥有硕士或更高学历。
  2. 近 50% 的听众家庭年收入达到或超过 15 万美元。 其中,33.5% 的家庭年收入超过 20 万美元14.3% 的家庭年收入在 15 万至 19.9 万美元之间。
  3. 你们信任节目中的推荐。 77% 的听众曾购买过播客推荐的产品或服务;其中 55.6% 购买过不止一次。
  4. 你们已经收听这档节目很多年了。76% 的听众表示自己收听这档节目至少已有 4 至 9 年
  5. 你们收听频率很高。 接近一半(42.2%)的听众每周都会收听这档播客。
  6. 听众的性别比例大致为男性 80%、女性 20%,但不同平台有所差异。 (Spotify for Podcasters 数据为 74% 男性、23% 女性,另有 2% 未说明性别、1% 非二元性别;YouTube 根据观看时长统计约为 70% 男性、30% 女性;Facebook 约为 65% 男性、35% 女性。)
  7. 最常见的年龄段是 35–44 岁。 (根据 Spotify for Podcasters 的数据,该年龄段约占全部听众的 三分之一;而 YouTube 平台的受众整体更年轻一些。)

总体来说,除了收入之外,我比较符合这些情况里描述的大多数那类。

然后我在想,我的播客听众会是什么样的人呢?我的感觉是这样的:

  • 你们的学历在本科以上,有一部分还是学生。
  • 收入的话,我之前看过听众所在区域的热图,大部份人来自北上广深,所以我相信你们的收入应该在中国的前10%左右。
  • 我的节目有固定听众,我相信至少有500人是每期必听的。
  • 男女比例的话,我感觉和 Tim 的调查结果一样,8/2开。
  • 最常见的年龄段,我觉得应该在20-38岁。不是说40岁的人不喜欢听我的节目,而是80后会去听播客的人,真的很少。

其实我心里一直有一个典型的听众的样子,他是一个刚毕业不久的青年男性,单身,和我一样从外地到沿海城市打工。上进,工作和收入都还不错,对于未来有些彷徨,渴望通过学习,找到自己的方向。


面对 ai 的语音输入,不需要精确

今天在 X 读到一篇关于 ai 生产力的 长文,让我受益匪浅。

作者整个与 ai 互动的工作流里,通过语音输入,是非常重要的一环。

然而,在谈到语音输入的小章节里,作者认为,在 iPhone 上没有必要使用 Whispr Flow 等 ai 辅助工具,一方面切换 app 有些麻烦,另一个原因,我觉得也很在理:

语音对 LLM 和对其他任何东西都不一样。转录不需要完美,因为听的人(模型)能理解上下文。它会自动猜出麦克风哪里听错了。你可以含糊不清地说话、说到一半停下来、重新组织句子再说。语音终于真正变得好用了,因为另一端足够聪明,能够把缺失的信息补全。
……
(在手机上) 不要用 Monologue 或 Wispr Flow——在 iOS 上切换到这些应用太麻烦了。直接用苹果自带的语音听写就够了,因为你是在和 LLM 交流,不是在和真人交流。即使它把一半的词识别错了,智能体通常还是能理解你的意思。随手记点懒人笔记完全没问题。

的确,和 ai 对话时,你不需要精确,甚至不用太准确。不管是错别字,还是逻辑瑕疵,只要大概意思表达得七七八八,ai 都能理解你在说什么。

所以,你不用为了与 ai 对话时,输入更精确的文字,而去使用语音输入工具,打字的时候,也不用太纠结。


哪吒监控漏洞,MCP,奶爸的博客

我用 哪吒监控 管理我的小鸡(服务器),作者奶爸更新得很勤,我也一直享受隔三岔五就用脚本升级一下的感觉。

最近几天,奶爸一直在频道里警告用户,赶紧升级到最新的版本,因为发现了一个重大的安全漏洞。昨天,他把漏洞的来龙去脉,以及如何自查,写成了 一篇博客

我以外行的角度读下来,应该是 AI 发现了一个存在长达一年多的重大安全漏洞。这个漏洞也引发了奶爸对于 AI 的焦虑。

这个报告对我的冲击很大,原本以为坚不可摧的东西瞬间崩塌,安全就在身边。可以说现在所有的开源项目不再安全,就算本体暂时安全还有供应链上随时也可能出问题,做智能合约的人都知道 OpenZeppelin,他们联创在让家人都逃离 DeFi,在 AI 安全威胁下,没有什么是绝对安全的,只能寄希望于现实世界的 Real Power。

哪吒 MCP

博客文章的后半部分,奶爸分享了如何开启哪吒自带的 MCP 服务,如何创建 API,让 Openclaw 等 agents 辅助检查漏洞。

我把文章扔给自己的 Openclaw,只是一句话,它就给我创建了 API,然后查完了所有14台小鸡,告诉我没有被攻破的痕迹。可是我的原始命令里面,只是让它先读读文章,然后和我一起来做这件事,我的意思是, API 也要我自己来创建,可这家伙因为有我装有哪吒面板的服务器的 SSH key,未经允许就自己操作了。这次的互动,也给了我冲击,防止小鸡被攻破是一回事,这些 AI agents 要是被攻破,或是模型提供商想干点什么,我们这些用户也是在劫难逃。

奶爸的博客

第一次读奶爸的博客,觉得他的看法很能代表当下程序员这个岌岌可危的群体,他也丝毫不避讳自己面对的威胁和感到的彷徨。

我在 Reader 里添加了他博客的 RSS feed,读完最近五篇博客。他更新不勤,博客读起来很流畅,推荐你也订阅一下。


如何利用邮件、聊天、论坛来与用户沟通

对于小公司,或是一人团队来说(比如我),如何和用户/顾客沟通,是不得不面对,不得不考虑的问题。

今天早上忽然想起来去玩一个叫 Kinopio 的笔记应用,在感慨这产品做得独特又和我心意的同时,就跑去读作者 Piri 的博客,读了几篇,感觉都很有营养。在一篇叫做《我是如何做支持与社区工作的》的文章里,Piri 分享了如何利用邮件、聊天室、论坛这三种沟通管道与用户有效沟通。文章的观点和方法都让我有所受益,不如让我转载一下。

三种管道的优劣

Piri 画了个表,来对比三种沟通方式,我找 ai 翻译如下:

类型 优点 缺点
邮件 Email 每个人都会用邮件,容易开始 对话是 1 对 1 的,无法共享,也很难追踪
聊天 Discord 1 对多的交流能促进社区氛围,并且回复更快 需要 Discord 账号,旧消息很快会被新消息淹没
论坛 Discourse 所有内容都是公开的,Topic 更容易组织和管理,节奏较慢 功能化的形式不太适合轻松随意的社区讨论

如何利用三种管道

Piri 说:

有人通过邮件提出了一个非常小众的功能需求,可能除了他之外没人会用。我会让他们到聊天频道里分享自己的想法和使用场景,看看其他人是否也感兴趣。

有好几个人通过邮件向我反馈同一个 Bug,同时聊天频道里也有人报告了这个问题。我会在论坛里创建一个关于该问题的主题帖,把所有复现步骤和其他调试线索整理进去,然后把链接分享给所有人,这样大家就能跟踪它的状态。

有人在聊天频道里报告了一个不太紧急的 Bug,但我现在没有精力去调查(比如我正在写博客文章)。所以我会请他们把问题发到论坛里,这样等我有时间的时候再回来处理。

在聊天频道里,大家正在热烈讨论一个新提出的功能,纷纷分享自己的期待和各种观点,气氛开始变得火热。我会让最初发帖的人去论坛开一个主题帖,并把讨论继续放到那里,这样等以后我准备真正开始做这个功能时,就不会丢失任何人的想法。

我理解 Piri 的看法是,email 无可替代,但讨论的尽头,最好还是论坛。一来人人都可以看到,并参与讨论,二来,也是一个容易追溯的档案。我最喜欢的动作是,用一个论坛帖子来整理同一个话题,当后面的人来问时,直接发送链接过去就可以了。


WorkFlowy + Bear web = 浏览器黄金组合

前些天,我写了篇关于 WorkFlowy 的博客。介绍了过去半年,为什么我放弃了 Obsidian,转而使用 WorkFlowy 当作自己主力笔记软件。

其中一个主要原因,就是 WorkFlowy 是一个 web app,无论我使用什么设备,手机、iPad、Windows PC 或是 Mac mini,甚至 Linux 远程桌面,只要有浏览器,我就能立即打开 WorkFlowy 查看和记录我的笔记。

但对于我来说,WorkFlowy 并不完美,由于它是一个大纲式的笔记软件,并不适合用来写作(写是可以写,但前面的子弹圆点实在让人分心)。如果使用 WorkFlowy,我必须还要搭配一个写作 app,目前在用 iA Writer,可这样一来,我的写作/笔记系统,还是不能脱离桌面 app。

这个缺憾,在前两天得到了解决。

无意中,我搜索了一下一直喜欢的 Bear(熊掌记)的 web 版进度,没想到的是,就在最近几个月,Bear 推出了 web beta 版。于是赶紧登陆上去,发现 web 版的完成度还是很高,整体颜值和桌面版一致,除了不能自定义字体,我感觉该有的功能全都在,包括自动同步到你的 iCloud drive。

昨天试着用 Bear web 版敲下了第一篇文章,整体的体验也非常好。与 iA Writer 对比下来,Bear 有太多的主题可以更换,避免了前者千篇一律的黑白两色让人无聊,由于不需要创建本地文件,也不用担心文件丢失的问题,总体来看,算是一个可以打90分的写作工具。

最重要的,它可以让我只用浏览器,就能完成写作,再加上用 web 版 WorkFlowy 记笔记,这一套我可以称作随时开箱即用的浏览器黄金组合,在哪都能用,还能用的爽。

SCR-20260526-pokc.png


第一次买独服,我学到了什么

前天下午,在犹豫了两个礼拜之后,我终于还是入手了人生第一台独服。

这台大鸡来自圈内知名的法国厂商 OVH,代号为 KS-LE-B,属于廉价入门款。由于 CPU 和内存比标配更高(抽奖得来),所以这台的配置,又被称为“小满贯”,意思是,硬盘是这个型号里能抽到的最大容量。

具体来说,配置是:

  • CPU 1230v6
  • 内存 32GB
  • 硬盘 2x1.9T NVME
  • 网络 上行500Mbps 下行1Gbps
  • 续费 9.9o/月

第一次用独服,其实也没遇到什么坑,就是安装系统的时候,需要提前想好是否要组 RAID1,以及如何划分硬盘分区。接下来简单讲讲我的两点心得吧。

是否组 RAID1

如果你的独服有两块硬盘,OVH 的安装界面是默认建议你组 RAID1 的,意思就是,你的两块硬盘,互为备份,你所有的数据都有双份,分别存在两块硬盘上。你为这样的安全冗余付出的代价是,两块硬盘只能当一块用。

关于是否组 RAID1,我搜过一些帖子,基本上都说,如果是生产环境,或者对数据安全要求很高,就要组。一般玩玩,不组也行。我第一次安装系统的时候,是组了 RAID1,后来跑了个硬件检测脚本,发现两块硬盘的健康度都是99%,就放弃了组 RAID1,直接 RAID0 开干。这样一来,一块可以用来当作主要用途(同步全节点),第二块可以用来备份,或安装别的应用。

先装一块,再装一块

接下来我就遇到第一个小坑。我选择 RAID0 之后,分区,安装系统。等到让 Openclaw 帮我挂硬盘,装应用时,它提到了,这样的分区,实际上每个应用的数据,都是随机安装在两块硬盘上的。如果一块挂了,整个服务都会挂掉。而根本不是我一开始设想的,一块用来干活,一块用来备份。

解决方案是,回到 OVH 后台重新安装系统,这次,只选择一块硬盘,分区,安装,另一块先不动。等到系统装好了,再进去挂载第二块,这样一来,第二块硬盘,就能干干净净地,放在你想要的目录下面。你安装程序时,就会很清晰地直到,到底安装在哪里。

要不要切小鸡(PVE)

今天早上突然想到,既然第二块硬盘要挪作他用,不如直接切个小鸡(虚拟机)出来。问了一圈 ai,都鼓励我这么干。我的设想是,物理机用来同步全节点,虚拟机(小鸡)分配 nat v4,和 ipv6 地址,用来玩点别的。

开动之前,我隐约记得,这台入门款,好像没给分配一个 /64 段的 ipv6,也就是说,整台独服,只有一个 ipv6,如果切小鸡出来,v4 v6 都得用 nat,网络会变得很复杂。让 ai 登上机器看了看,果然是这样,没用多余的 ipv6 可以给小鸡用。最后不得已,放弃了切小鸡的计划。内心也松了口气,省的去折腾了

值得分享的目前就这么多,用了2天,最大的感受是,稳定(两天还看不出来哈),网络好(一晚上就同步了700gb),cpu/内存/硬盘,还有很多很多剩余。


点评一下小米 Mimo 模型

差不多20天,用完了小米 Mimo 赠送的两亿 token,来主观片面地点评一下,我对 Mimo 模型的看法,主要是 MiMo-V2-Pro。

  • 我没有用来编程,主要放在 Openclaw 和 Hermes 里面用。解决日常问题的能力,我觉得和 GPT5.5 不相上下。
  • 主要体现在,用 MiMo-V2-Pro 时,它能主动寻找不同的解决方案,并一直处理,直到达成目标(或者实在解决不了)。这一点,稍微弱一点的模型都做不到,弱鸡模型常见的情况是:回复少、遇到问题就停止工作、聊天经常中断、不主动寻找新的方案。
  • 2亿 token 还是挺耐造。我从月初用到20号,差不多一半的时间都在用它。换句话说,如果想当作 GPT5.5 的备选模型,我看了一下,年付1045rmb 的标准套餐,是可以满足需求的。只不过,在征询 ns 论坛网友意见后,被劝退。大家的意见是 Deepseek 更划算。
  • 再说一个让我印象深刻的,mimo 的特征。它的胆子比 GPT 大很多,有一次,忘记具体什么事情了,我让它去我的一台 VPS 上解决问题。它没有征询我的同意,采取了非常激进的修改方案,尽管最后解决了我的问题,但从它先斩后奏这一点来看,在 GPT5.5 上是没有经历过的。依我来说,mimo 有一点中国人做事的风格,不太守规矩,为达目的,不择手段。
  • 想不到其他想说的了,mimo 说活不矫情,这也算是一个特点吧。另外,从论坛看到,小米负责 ai 的,是个天才少女,有网友说感觉她怪怪的,瘆人。
  • 总结一下,如果盲猜,仅仅从我日常使用的场景来看,分辨不出来 MiMo-V2-Pro 和 GPT5.5 的区别。我给它打 8.5 分(GPT5.5 9分的话)。
  • 如果你想试用的话,可以试用我的邀请链接注册,免费获得10美金试用金。

Token 不够用的话,试试 RTK 吧

周末躺床上刷手机,在 Linux.do 论坛看到一个评论,大概意思说,你们这帮闲 token 不够用的,为什么不去配置一下 rtk,至少可以省下50%。我心想,还有这种好事,赶紧爬起来研究一下。几天过去了,事实是,它真的可以节省 token,某些项目里,甚至可以节省80%以上。

先让 ai 总结一下 rtk 是干什么的,它比我说得专业:

RTK 是一个用 Rust 编写的高性能 CLI 代理工具,专门用于在 AI 编程助手(如 Claude Code、Codex、Gemini CLI 等)与终端之间,对命令输出做“过滤、压缩、去重”,从而把 LLM 的 token 消耗降低约 60–90%。它会自动把 git statusnpm testgrep 等常见开发命令重写成更紧凑的输出格式,让 AI 更省上下文、更快、更便宜。  

项目主打“零依赖、单 Rust 二进制、透明接入”,支持多种 AI coding agent,并通过 hook/plugin 机制自动拦截 shell 命令,是最近 AI 编程工作流里很火的一个基础设施工具。

看懂了吗?没懂的话我告诉你,它就是把你 ai 常用的命令返回的结果,压缩一遍再喂给 ai,这样输入少了,token 消耗就少了。

我给 Codex,Openclaw,Hermes 全装上了,前面几天没有密集使用这些工具,所以验证效果不一定准确,今天,刚刚,第一次 vibe coding 了一个 WordPress 插件(在这里,用来同步发推的,帮忙收藏一下哦)。我和 Codex 聊了个把小时,从零开始,来回改了几次插件,它还操控我电脑好几次,结束一看,Plus 账户的5小时限额才用了一半。

换个角度来看,具体有多省呢?用数字来说话吧,请看下图:

如果你用 ai 编程很多,是不是应该装一个,你应该比我更懂。

对了,关于省 token 这件事,我还做了一个动作,让 ai 自己上网搜索教程,然后修改自己的 agents.md 等配置文件,它们改动很大,但到底能省多少,没办法验证🤷。