聊聊语音输入转文字这件事

星期二 , 6 月 16 日 2026

大概两周前受到这篇文章的启发，我开始在全平台尝试使用 Wispr Flow 进行语音转文字。今天分享一下这段时间的经验。

硬件

硬件分两部分来说。

首先是家里。我使用 Mac mini M2 Pro 和 Studio Display。如果不用外接话筒，默认收音设备就是 Studio Display。一个人在家时，对着显示器说话没什么问题；但家里有人的话，中等音量就会被听到内容。隐私倒不是问题，只是旁边有人时总会有所顾忌，有时候他们听到我输入的内容，还会来笑我。

解决方案很简单：直接使用我桌面上原本用于录播的设备——舒尔 SM7 话筒和 Apogee Symphony Desktop 声卡。这样即使用很小的声音低语，也能准确识别。

另一个场景是在公司开放办公环境里使用 Windows PC。直接用笔记本麦克风显然不合适。我试过有线麦克风，但手持讲话总觉得别扭，桌上多根线也不好看。

后来想到蓝牙无线麦克风。最火的是 Wispr Flow 官方提到的大疆 Mic Mini 2，但价格要三百多块。如果最后用不习惯，成本还是有点高。

后来我买了博雅（Boya）的 Mini 2 一拖一基础款，闲鱼上 110 元包邮。用了两天，效果出乎意料地好。在公司只需很小音量低声说话，麦克风夹在衣领上，不需要手持，也没有线缆干扰。

至于 iPhone，我直接对着手机麦克风说话。

软件

AI 语音转文字软件很多，从开源免费到付费订阅都有。

我之前试过 Superwhisper、Aiko，还有别人推荐但尚未体验的 Typeless 和 Monologue。目前用了差不多一个星期的 Wispr Flow，已经能很好满足需求。

语音转文字最大的痛点，是某些词或句子无法被正确识别。Wispr Flow 的 Dictionary 功能很好地解决了这个问题。

发现识别错误后，直接修改文字即可。Wispr Flow 会记住正确写法并自动加入 Dictionary，下次便能正确识别。当然也可以手动添加词条。

除此之外，这类 App 通常还有一些 AI 辅助功能，比如整理成 AI 提示词，或者转换成商务邮件格式。不过这些功能我用得不多。

至于 Wispr Flow 和苹果自带语音转文字的差距，我只能说是天壤之别。用过 Wispr Flow 之后，再回去用苹果自带方案，几乎无法忍受。

好处

首先当然是更快。

这篇文章就是我用语音输入完成的。如果全靠手敲，大概至少需要三倍时间。

第二个好处是记录成本大幅降低。当输入变得足够轻松时，我会记录更多细节。无论是写日记还是记录工作日志，都能写得更详细。

以前打字时，为了减少输入量，我总会尽量简洁，不可避免地遗漏很多细节。

第三个好处是 AI 会顺手帮忙整理格式。比如口述清单时自动分行、添加编号；口述标点时自动补全；有时甚至还能正确加上括号。

最后分享一下我的 Wispr Flow 邀请码。如果你通过这个链接注册，可以免费使用一个月（我也能额外获得一个月 Pro 权限）。

一个安全的玩耍空间

星期三 , 6 月 10 日 2026

Austin Kleon 在他的新书 Don’t Call It Art 中提到了创造的三要素：时间，空间，和材料。

关于空间，他写道：

艺术家需要空间。不一定非得是一整间房，但总得有属于自己的空间。艺术家的空间既可以在家里创造，也可以在家外寻找。大多数艺术家都梦想拥有一个与居住空间分开的地方——比如大楼里的工作室、一间小棚屋，甚至一个车库。能拥有地下室、阁楼，或一间属于自己的卧室，都已经算幸运了。有时候，艺术家不得不满足于角落里的一张书桌，或者餐桌上的一席之地。
……
如果你的工作具有可移动性，或者你能够让它变得具有可移动性，那么有时你可以到现实世界中寻找一些发挥和放松的空间——也就是雷·奥尔登堡（Ray Oldenburg）所说的“第三空间”（third places），例如公园、图书馆或咖啡馆。（“第一空间”是家，“第二空间”是工作场所。）如今，许多这样的第三空间正在从现代生活中逐渐消失，但你或许仍能在一些意想不到的地方找到它们。

很可惜，我还没法拥有一个属于自己的空间。

幸运的是，我的创意工作具有可移动性，所以，只要我带者电脑，和一副隔音耳塞，就能在图书馆，或者公园里工作。

话虽如此，我还是梦想能有一个 Austin 这样的工作室，一个属于我的，可以安全玩耍的空间。

什么样的人在听我的播客

星期二 , 6 月 9 日 2026

2024年，Tim Ferriss 对他的听众做了一个调查，这是他的听众的画像：

总体来看，你们受教育程度很高。 大约 45% 的听众拥有硕士或更高学历。

近 50% 的听众家庭年收入达到或超过 15 万美元。 其中，33.5% 的家庭年收入超过 20 万美元；14.3% 的家庭年收入在 15 万至 19.9 万美元之间。

你们信任节目中的推荐。 77% 的听众曾购买过播客推荐的产品或服务；其中 55.6% 购买过不止一次。

你们已经收听这档节目很多年了。 约 76% 的听众表示自己收听这档节目至少已有 4 至 9 年。

你们收听频率很高。 接近一半（42.2%）的听众每周都会收听这档播客。

听众的性别比例大致为男性 80%、女性 20%，但不同平台有所差异。 （Spotify for Podcasters 数据为 74% 男性、23% 女性，另有 2% 未说明性别、1% 非二元性别；YouTube 根据观看时长统计约为 70% 男性、30% 女性；Facebook 约为 65% 男性、35% 女性。）

最常见的年龄段是 35–44 岁。 （根据 Spotify for Podcasters 的数据，该年龄段约占全部听众的 三分之一；而 YouTube 平台的受众整体更年轻一些。）

总体来说，除了收入之外，我比较符合这些情况里描述的大多数那类。

然后我在想，我的播客听众会是什么样的人呢？我的感觉是这样的：

你们的学历在本科以上，有一部分还是学生。
收入的话，我之前看过听众所在区域的热图，大部份人来自北上广深，所以我相信你们的收入应该在中国的前10%左右。
我的节目有固定听众，我相信至少有500人是每期必听的。
男女比例的话，我感觉和 Tim 的调查结果一样，8/2开。
最常见的年龄段，我觉得应该在20-38岁。不是说40岁的人不喜欢听我的节目，而是80后会去听播客的人，真的很少。

其实我心里一直有一个典型的听众的样子，他是一个刚毕业不久的青年男性，单身，和我一样从外地到沿海城市打工。上进，工作和收入都还不错，对于未来有些彷徨，渴望通过学习，找到自己的方向。

面对 ai 的语音输入，不需要精确

星期五 , 6 月 5 日 2026

今天在 X 读到一篇关于 ai 生产力的长文，让我受益匪浅。

作者整个与 ai 互动的工作流里，通过语音输入，是非常重要的一环。

然而，在谈到语音输入的小章节里，作者认为，在 iPhone 上没有必要使用 Whispr Flow 等 ai 辅助工具，一方面切换 app 有些麻烦，另一个原因，我觉得也很在理：

语音对 LLM 和对其他任何东西都不一样。转录不需要完美，因为听的人（模型）能理解上下文。它会自动猜出麦克风哪里听错了。你可以含糊不清地说话、说到一半停下来、重新组织句子再说。语音终于真正变得好用了，因为另一端足够聪明，能够把缺失的信息补全。
……
（在手机上）不要用 Monologue 或 Wispr Flow——在 iOS 上切换到这些应用太麻烦了。直接用苹果自带的语音听写就够了，因为你是在和 LLM 交流，不是在和真人交流。即使它把一半的词识别错了，智能体通常还是能理解你的意思。随手记点懒人笔记完全没问题。

的确，和 ai 对话时，你不需要精确，甚至不用太准确。不管是错别字，还是逻辑瑕疵，只要大概意思表达得七七八八，ai 都能理解你在说什么。

所以，你不用为了与 ai 对话时，输入更精确的文字，而去使用语音输入工具，打字的时候，也不用太纠结。

哪吒监控漏洞，MCP，奶爸的博客

星期一 , 6 月 1 日 2026

我用哪吒监控管理我的小鸡（服务器），作者奶爸更新得很勤，我也一直享受隔三岔五就用脚本升级一下的感觉。

最近几天，奶爸一直在频道里警告用户，赶紧升级到最新的版本，因为发现了一个重大的安全漏洞。昨天，他把漏洞的来龙去脉，以及如何自查，写成了一篇博客。

我以外行的角度读下来，应该是 AI 发现了一个存在长达一年多的重大安全漏洞。这个漏洞也引发了奶爸对于 AI 的焦虑。

这个报告对我的冲击很大，原本以为坚不可摧的东西瞬间崩塌，安全就在身边。可以说现在所有的开源项目不再安全，就算本体暂时安全还有供应链上随时也可能出问题，做智能合约的人都知道 OpenZeppelin，他们联创在让家人都逃离 DeFi，在 AI 安全威胁下，没有什么是绝对安全的，只能寄希望于现实世界的 Real Power。

哪吒 MCP

博客文章的后半部分，奶爸分享了如何开启哪吒自带的 MCP 服务，如何创建 API，让 Openclaw 等 agents 辅助检查漏洞。

我把文章扔给自己的 Openclaw，只是一句话，它就给我创建了 API，然后查完了所有14台小鸡，告诉我没有被攻破的痕迹。可是我的原始命令里面，只是让它先读读文章，然后和我一起来做这件事，我的意思是， API 也要我自己来创建，可这家伙因为有我装有哪吒面板的服务器的 SSH key，未经允许就自己操作了。这次的互动，也给了我冲击，防止小鸡被攻破是一回事，这些 AI agents 要是被攻破，或是模型提供商想干点什么，我们这些用户也是在劫难逃。

奶爸的博客

第一次读奶爸的博客，觉得他的看法很能代表当下程序员这个岌岌可危的群体，他也丝毫不避讳自己面对的威胁和感到的彷徨。

我在 Reader 里添加了他博客的 RSS feed，读完最近五篇博客。他更新不勤，博客读起来很流畅，推荐你也订阅一下。

如何利用邮件、聊天、论坛来与用户沟通

星期三 , 5 月 27 日 2026

对于小公司，或是一人团队来说（比如我），如何和用户/顾客沟通，是不得不面对，不得不考虑的问题。

今天早上忽然想起来去玩一个叫 Kinopio 的笔记应用，在感慨这产品做得独特又和我心意的同时，就跑去读作者 Piri 的博客，读了几篇，感觉都很有营养。在一篇叫做《我是如何做支持与社区工作的》的文章里，Piri 分享了如何利用邮件、聊天室、论坛这三种沟通管道与用户有效沟通。文章的观点和方法都让我有所受益，不如让我转载一下。

三种管道的优劣

Piri 画了个表，来对比三种沟通方式，我找 ai 翻译如下：

类型	优点	缺点
邮件 Email	每个人都会用邮件，容易开始	对话是 1 对 1 的，无法共享，也很难追踪
聊天 Discord	1 对多的交流能促进社区氛围，并且回复更快	需要 Discord 账号，旧消息很快会被新消息淹没
论坛 Discourse	所有内容都是公开的，Topic 更容易组织和管理，节奏较慢	功能化的形式不太适合轻松随意的社区讨论

如何利用三种管道

Piri 说：

有人通过邮件提出了一个非常小众的功能需求，可能除了他之外没人会用。我会让他们到聊天频道里分享自己的想法和使用场景，看看其他人是否也感兴趣。

有好几个人通过邮件向我反馈同一个 Bug，同时聊天频道里也有人报告了这个问题。我会在论坛里创建一个关于该问题的主题帖，把所有复现步骤和其他调试线索整理进去，然后把链接分享给所有人，这样大家就能跟踪它的状态。

有人在聊天频道里报告了一个不太紧急的 Bug，但我现在没有精力去调查（比如我正在写博客文章）。所以我会请他们把问题发到论坛里，这样等我有时间的时候再回来处理。

在聊天频道里，大家正在热烈讨论一个新提出的功能，纷纷分享自己的期待和各种观点，气氛开始变得火热。我会让最初发帖的人去论坛开一个主题帖，并把讨论继续放到那里，这样等以后我准备真正开始做这个功能时，就不会丢失任何人的想法。

我理解 Piri 的看法是，email 无可替代，但讨论的尽头，最好还是论坛。一来人人都可以看到，并参与讨论，二来，也是一个容易追溯的档案。我最喜欢的动作是，用一个论坛帖子来整理同一个话题，当后面的人来问时，直接发送链接过去就可以了。

WorkFlowy + Bear web = 浏览器黄金组合

星期二 , 5 月 26 日 2026

前些天，我写了篇关于 WorkFlowy 的博客。介绍了过去半年，为什么我放弃了 Obsidian，转而使用 WorkFlowy 当作自己主力笔记软件。

其中一个主要原因，就是 WorkFlowy 是一个 web app，无论我使用什么设备，手机、iPad、Windows PC 或是 Mac mini，甚至 Linux 远程桌面，只要有浏览器，我就能立即打开 WorkFlowy 查看和记录我的笔记。

但对于我来说，WorkFlowy 并不完美，由于它是一个大纲式的笔记软件，并不适合用来写作（写是可以写，但前面的子弹圆点实在让人分心）。如果使用 WorkFlowy，我必须还要搭配一个写作 app，目前在用 iA Writer，可这样一来，我的写作/笔记系统，还是不能脱离桌面 app。

这个缺憾，在前两天得到了解决。

无意中，我搜索了一下一直喜欢的 Bear（熊掌记）的 web 版进度，没想到的是，就在最近几个月，Bear 推出了 web beta 版。于是赶紧登陆上去，发现 web 版的完成度还是很高，整体颜值和桌面版一致，除了不能自定义字体，我感觉该有的功能全都在，包括自动同步到你的 iCloud drive。

昨天试着用 Bear web 版敲下了第一篇文章，整体的体验也非常好。与 iA Writer 对比下来，Bear 有太多的主题可以更换，避免了前者千篇一律的黑白两色让人无聊，由于不需要创建本地文件，也不用担心文件丢失的问题，总体来看，算是一个可以打90分的写作工具。

最重要的，它可以让我只用浏览器，就能完成写作，再加上用 web 版 WorkFlowy 记笔记，这一套我可以称作随时开箱即用的浏览器黄金组合，在哪都能用，还能用的爽。

第一次买独服，我学到了什么

星期一 , 5 月 25 日 2026

前天下午，在犹豫了两个礼拜之后，我终于还是入手了人生第一台独服。

这台大鸡来自圈内知名的法国厂商 OVH，代号为 KS-LE-B，属于廉价入门款。由于 CPU 和内存比标配更高（抽奖得来），所以这台的配置，又被称为“小满贯”，意思是，硬盘是这个型号里能抽到的最大容量。

具体来说，配置是：

CPU 1230v6
内存 32GB
硬盘 2x1.9T NVME
网络上行500Mbps 下行1Gbps
续费 9.9o/月

第一次用独服，其实也没遇到什么坑，就是安装系统的时候，需要提前想好是否要组 RAID1，以及如何划分硬盘分区。接下来简单讲讲我的两点心得吧。

是否组 RAID1

如果你的独服有两块硬盘，OVH 的安装界面是默认建议你组 RAID1 的，意思就是，你的两块硬盘，互为备份，你所有的数据都有双份，分别存在两块硬盘上。你为这样的安全冗余付出的代价是，两块硬盘只能当一块用。

关于是否组 RAID1，我搜过一些帖子，基本上都说，如果是生产环境，或者对数据安全要求很高，就要组。一般玩玩，不组也行。我第一次安装系统的时候，是组了 RAID1，后来跑了个硬件检测脚本，发现两块硬盘的健康度都是99%，就放弃了组 RAID1，直接 RAID0 开干。这样一来，一块可以用来当作主要用途（同步全节点），第二块可以用来备份，或安装别的应用。

先装一块，再装一块

接下来我就遇到第一个小坑。我选择 RAID0 之后，分区，安装系统。等到让 Openclaw 帮我挂硬盘，装应用时，它提到了，这样的分区，实际上每个应用的数据，都是随机安装在两块硬盘上的。如果一块挂了，整个服务都会挂掉。而根本不是我一开始设想的，一块用来干活，一块用来备份。

解决方案是，回到 OVH 后台重新安装系统，这次，只选择一块硬盘，分区，安装，另一块先不动。等到系统装好了，再进去挂载第二块，这样一来，第二块硬盘，就能干干净净地，放在你想要的目录下面。你安装程序时，就会很清晰地直到，到底安装在哪里。

要不要切小鸡（PVE）

今天早上突然想到，既然第二块硬盘要挪作他用，不如直接切个小鸡（虚拟机）出来。问了一圈 ai，都鼓励我这么干。我的设想是，物理机用来同步全节点，虚拟机（小鸡）分配 nat v4，和 ipv6 地址，用来玩点别的。

开动之前，我隐约记得，这台入门款，好像没给分配一个 /64 段的 ipv6，也就是说，整台独服，只有一个 ipv6，如果切小鸡出来，v4 v6 都得用 nat，网络会变得很复杂。让 ai 登上机器看了看，果然是这样，没用多余的 ipv6 可以给小鸡用。最后不得已，放弃了切小鸡的计划。内心也松了口气，省的去折腾了

值得分享的目前就这么多，用了2天，最大的感受是，稳定（两天还看不出来哈），网络好（一晚上就同步了700gb），cpu/内存/硬盘，还有很多很多剩余。

点评一下小米 Mimo 模型

星期五 , 5 月 22 日 2026

差不多20天，用完了小米 Mimo 赠送的两亿 token，来主观片面地点评一下，我对 Mimo 模型的看法，主要是 MiMo-V2-Pro。

我没有用来编程，主要放在 Openclaw 和 Hermes 里面用。解决日常问题的能力，我觉得和 GPT5.5 不相上下。
主要体现在，用 MiMo-V2-Pro 时，它能主动寻找不同的解决方案，并一直处理，直到达成目标（或者实在解决不了）。这一点，稍微弱一点的模型都做不到，弱鸡模型常见的情况是：回复少、遇到问题就停止工作、聊天经常中断、不主动寻找新的方案。
2亿 token 还是挺耐造。我从月初用到20号，差不多一半的时间都在用它。换句话说，如果想当作 GPT5.5 的备选模型，我看了一下，年付1045rmb 的标准套餐，是可以满足需求的。只不过，在征询 ns 论坛网友意见后，被劝退。大家的意见是 Deepseek 更划算。
再说一个让我印象深刻的，mimo 的特征。它的胆子比 GPT 大很多，有一次，忘记具体什么事情了，我让它去我的一台 VPS 上解决问题。它没有征询我的同意，采取了非常激进的修改方案，尽管最后解决了我的问题，但从它先斩后奏这一点来看，在 GPT5.5 上是没有经历过的。依我来说，mimo 有一点中国人做事的风格，不太守规矩，为达目的，不择手段。
想不到其他想说的了，mimo 说活不矫情，这也算是一个特点吧。另外，从论坛看到，小米负责 ai 的，是个天才少女，有网友说感觉她怪怪的，瘆人。
总结一下，如果盲猜，仅仅从我日常使用的场景来看，分辨不出来 MiMo-V2-Pro 和 GPT5.5 的区别。我给它打 8.5 分（GPT5.5 9分的话）。
如果你想试用的话，可以试用我的邀请链接注册，免费获得10美金试用金。

Token 不够用的话，试试 RTK 吧

星期二 , 5 月 19 日 2026

周末躺床上刷手机，在 Linux.do 论坛看到一个评论，大概意思说，你们这帮闲 token 不够用的，为什么不去配置一下 rtk，至少可以省下50%。我心想，还有这种好事，赶紧爬起来研究一下。几天过去了，事实是，它真的可以节省 token，某些项目里，甚至可以节省80%以上。

先让 ai 总结一下 rtk 是干什么的，它比我说得专业：

RTK 是一个用 Rust 编写的高性能 CLI 代理工具，专门用于在 AI 编程助手（如 Claude Code、Codex、Gemini CLI 等）与终端之间，对命令输出做“过滤、压缩、去重”，从而把 LLM 的 token 消耗降低约 60–90%。它会自动把 git status、npm test、grep 等常见开发命令重写成更紧凑的输出格式，让 AI 更省上下文、更快、更便宜。

项目主打“零依赖、单 Rust 二进制、透明接入”，支持多种 AI coding agent，并通过 hook/plugin 机制自动拦截 shell 命令，是最近 AI 编程工作流里很火的一个基础设施工具。

看懂了吗？没懂的话我告诉你，它就是把你 ai 常用的命令返回的结果，压缩一遍再喂给 ai，这样输入少了，token 消耗就少了。

我给 Codex，Openclaw，Hermes 全装上了，前面几天没有密集使用这些工具，所以验证效果不一定准确，今天，刚刚，第一次 vibe coding 了一个 WordPress 插件（在这里，用来同步发推的，帮忙收藏一下哦）。我和 Codex 聊了个把小时，从零开始，来回改了几次插件，它还操控我电脑好几次，结束一看，Plus 账户的5小时限额才用了一半。

换个角度来看，具体有多省呢？用数字来说话吧，请看下图：

如果你用 ai 编程很多，是不是应该装一个，你应该比我更懂。

对了，关于省 token 这件事，我还做了一个动作，让 ai 自己上网搜索教程，然后修改自己的 agents.md 等配置文件，它们改动很大，但到底能省多少，没办法验证🤷。