千问电脑端上线语音输入法——大模型公司为什么都在抢这个入口？

我最近买了一个这样的键盘——

为什么要买这个键盘呢？

原因在于现在各种 AI 的快捷键实在是太多了，原来键盘的组合键不够用了。

有了这个东西，我就可以放飞地设置了。

比如将不同的键设置成Claude Code里的接受一次、接受全部、拒绝。

其中用得最多的，还是语音输入键。

过去大半年，我每个月都在给语音输入法产品Typeless续费。

它的价格月付30刀，居然比我的ChatGPT的Plus套餐还贵10刀。

一个输入法，这个定价离谱不离谱？

肉疼归肉疼，但是真心好用。

我是在真格基金戴雨森的播客里面听他推荐过一次就入坑了。

作为一个居家办公的文字工作者，这的确是一个输入的神器。

Typeless的牛逼之处在于：它并非直接语音转文字，它会去掉你的口水词之后还会智能地帮你调整文字。

我的口头表达一般，有时候还会卡住。

但经过Typeless的处理，立马变成干净清爽，在任何应用里通吃，体验丝滑得一批。

唯一的问题——贵。

免费版每周只有4000词额度，我一天就能干完，Pro版月付30美金肉疼，但找不到替代品。

一

有人可能会说，你就是矫情，你为什么不用豆包输入法和微信输入法呢？

没错，这两款输入法的语音识别能力其实都不差。

尤其是豆包输入法，背靠字节的语音技术，识别准确率相当能打，方言支持也没毛病。

微信输入法就更不用说了，很多细节打磨得非常到位。

但它们对我的痛点在于——它们步子迈得太小，只做了识别这一步，没有做改写。

或者说它只去掉了“嗯”、“噢”、“那个”之类的语气词干掉，不会做结构化改写。

简单来说就是不够聪明，所以用起来没有那么得心应手。

那么问题来了——有没有一个既免费、又具备AI改写能力、还对中文友好的语音输入工具？

二

还真有。

最近，千问电脑端上线了一个新功能——千问语音输入法。

我第一时间试用了一下，结论是：超出预期，我基本确认：我可以退订Typeless了。

简单地说，有了千问语音输入法的加持，千问电脑版就变成一个靠动嘴就能安排AI干活的全能助手。

不用打字，口喷就能布置任务，写东西、查资料、写ppt、处理杂活，不在话下。

此外，千问语音输入法也做到了我挺在意的一个点——智能语义优化。

它除了识别你说了什么，更重要的是理解你想说什么，然后帮你重新组织语言。

最基础的能力是自动过滤语气词和修正口误，语气词全部抹掉，自动识别口误。

废话少说，咱们直接看东西——

比如我要给AI写一条生成视频的prompt，脑子里有画面但还没组织好语言。

我可以直接双击Mac笔记本的Command键直接对着麦克风口喷：

“帮我生成一个AI视频，就是三体里面那个场景，古筝行动，就是纳米丝切割轮船那个，嗯，我想要那种从远处拍的镜头，就是巴拿马运河上那艘巨轮，叫审判者号，不对，是审判日号，看起来一切正常，然后突然之间那个船就开始一片一片地滑落，像切豆腐一样，对，要有那种反差感，就是很安静很平静但是又很恐怖。”（原文版）

屏幕下方就会出现一个正在识别的示意条，说完后再次单击Command键，千问就立马帮我整理后输出：

可以看到，我说的“就是”、“嗯”、“对”全被抹掉了。

“审判者号”的错误也被改过了，重新嵌入了通顺的句子里，最后还帮我把我的感受提炼成了一个风格要求。

注意，使用那个键启动语音输入是可以自定义的。

我设置的是Command键，默认是按住说话，松开识别，也可以设置成按一下说话，再按一下识别。

这两种方式照顾到了不同用户的使用习惯，简单直观。

千问电脑端的语音输入在处理中英文混输的能力也拿捏得很到位。

我写科技评论经常需要中英文夹杂，“Vibe Coding”、“AI Native”之类的词，千问都能准确识别并保留英文原文，不会硬翻成中文。

千问的语音输入法还有一个特色功能——场景感知。

千问能识别你当前在用什么应用，打开权限后它可以读取屏幕内容，让AI输出的语气自动匹配场景。

举个例子。

我要回一封不太想回的商务邮件，对着麦克风说：

“嗯这个合作我觉得目前可能时机不太合适，因为我这边最近确实太忙了，手上同时有好几个项目在推进，要不等到六月份再说？到时候我主动联系你。”（原文版）

千问整理后：

“感谢你的合作邀请。目前时机可能不太合适，我这边近期有多个项目同步推进中，精力有限。不如我们六月份再对接？届时我会主动联系你。”

很显然，它的回复在语气上更加商务一些。

还有一个场景值得单独说。

当你的光标不在任何输入框里，比如你正在浏览网页，这时候按住设定键说话，千问会弹出三个选项：复制到剪贴板、记为便签、或者直接问千问。

我试了一下说——

“我突然想到一个选题，就是对比一下全球主要AI公司的广告策略，OpenAI已经开始做了，Google肯定也会做，Anthropic说不做，这三家的路径对比应该挺有意思。”

选择记为便签，这段话被整理成结构化内容，完整保存下来。

这对内容创作者来说这一点挺重要的，毕竟，灵感来了不记就溜走了。

三

千问语音输入法还有一个挺实用的模式——语音指令。

双击设定的快捷键，就可以发指令了。

这个模式下，你说的话不会被当作输入内容，而是被当作一条指令。

千问会理解你的意图，然后直接执行操作并把结果贴到光标位置。

比如以前找资料，我要打开ChatGPT打字搜。

现在我只需要双击一下快捷键说：

“帮我详细解析一下Hermes Agent的记忆系统是如何工作的？”

千问就会直接输出答案，省去了在特定AI里搜索的过程。

再比如，你在任何输入框里选中一段文字，然后双击快捷键说：“帮我让这段话更简练一些”，千问会返回修改后的版本，直接替换。

它能干的活，远远比我想象中更多。

比如我今天看到 OpenAI 和微软重新签订协议的新闻，我就立即给千问下了这样一条语音指令：

“2026年4月，OpenAI 和微软签署了合作协议，标志着他们之间出现重大分歧。请帮我生成一个网页，展示从开始到现在 OpenAI 和微软之间的关系进展图。”

可以看到，收到指令后，千问电脑版立马开始干活。

1分钟之后，一个简洁清晰的关系进展图网页就生成好了。

再比如，我最近又要给温泉镇的老人去讲 AI 的科普知识了。

我就可以通过语音立马给千问发一个指令：帮我生成一份给老年人科普 AI 的 PPT。

3分钟完稿，我就可以在这个 PPT 的基础上去做进一步的延展了。

事实上，我还可以通过语音指挥它进行相应的修改。

这其实已经超越一个语音输入法了，它已经是一个嵌入到操作系统层面的AI助手了，只不过它的唤醒方式是语音。

四

从体验的角度，千问语音输入法的反应速度让人印象深刻。

在我的实际体验中，千问的响应速度是很快的。

整体延迟很低，偶尔会有零点几秒的卡顿，但在体验上非常丝滑，高频使用，完全没有问题。

第二个体验是千问的改写会比Typeless更大胆一些。

Typeless倾向于保留你的原始表达，只做较小限度的修饰——去掉语气词、修正口误和重复、结构化组织。

千问则会更积极地重组句子结构、调整措辞、甚至帮你加上衔接词。

这一点见仁见智。

有人喜欢微调，更原汁原味一些，有人喜欢更进一步，这样就省了二次编辑的功夫。

我个人用下来觉得千问的改写程度是刚刚好的——反正最后发出去之前我都会过一眼。

如果某个改动不满意，修改一下就行，比从口水话开始重写高效多了。

五

讲完产品体验，我想跳出来聊一个更大的话题：

为什么最近语音输入突然成了AI行业的兵家必争之地？

除了去年发力的豆包语音输入法和微信输入法的语音功能，先看看今年发生了什么——

3月3日，Anthropic在Claude Code里加入了语音模式，开发者可以在终端里直接用语音下达编程指令。

OpenAI的CodeX也不甘落后，在桌面端App里，CodeX上线了全局的语音输入。

CodeX的全局语音功能

更抽象的是硬件层面的跟进。

国外有极客搞出了一个叫VibeKeys的6键蓝牙机械键盘，专门为AI编程设计。

6个按键分别对应：Yes、No、Stop、Full output、Dictate，以及一个自定义键，一只手就能搞定所有AI交互动作。

最抽象的得数脚踏板——有开发者把USB脚踏板映射成Tab键，用脚来确认Copilot的代码补全建议。

双手完全不用离开键盘，博主Napolux在他的技术博客里详细记录了这个方案。

我的Feed流利有人专门研究Vibe Coding用什么麦克风最好？

Insta360推了一款Wave桌面麦克风，卖点是AI降噪——宣称能过滤掉机械键盘的敲击声，只捕捉人声。

你会发现一个趋势：当AI能写代码之后，人类的角色从写代码的人变成了描述需求的人。

而描述需求最快的方式是什么？

是说话。

六

我有一个小暴论：语音输入可能是比我们想象中更重要的AI产品入口。

这个判断的逻辑是这样的——

过去十年，键盘输入法一直是一个非常成熟、几乎没什么创新空间的品类。但AI改变了输入法的逻辑。

输入法开始具备理解能力——理解你在什么场景、想表达什么意图、需要什么样的输出格式。

当输入法有了理解能力之后，它就从一个工具变成了一个入口。

通过千问的语音输入法，用户的意图直接通过语音传达给AI，AI理解后直接执行，结果直接出现在你正在操作的界面上。

整个过程没有切换应用、没有复制粘贴。

这毫无疑问减小了摩擦。

这意味着什么？

意味着你不需要打开AI应用才能用千问的能力，你只需要在任何地方按一个快捷键、说一句话，AI的能力就到了。

这恐怕也是各家把语音输入法做进PC端的深层动机。

语音输入法可能是产品更高渗透链路上的重要形态，因为它满足两个条件——

第一，全局可用（任何应用里都能唤起，一个快捷键，不需要离开当前应用）；

第二，天然适合AI（语音本身就是更天然的人机交互方式，智能程度越高，AI会更倾向于更自然的交互）。

从商业角度看，这也是一个非常聪明的卡位策略。

当用户习惯了在任何应用里通过千问的语音输入来完成AI操作，千问就成了一个隐形的默认AI。

这个无疑是千问的一个阳谋。

七

回到语音输入这件事本身。

有一个常见的误解需要澄清：很多人觉得语音输入只适合不方便打字的场景。

但实际上，语音输入最大的价值不是在不方便的时候替代打字，而是在方便的时候也比打字更好。

为什么？

因为人的思维速度远远快于打字速度。

你在脑子里组织好了一段话，打字输出可能需要2分钟，而说出来只需要30秒。

这1分30秒的差距，意味着你的思路在打字过程中有可能被打断。

语音输入的本质优势并非快，更重要的是同步——它让你的输出速度和思维速度同步了。

这也解释了为什么Vibe Coding社区对语音输入如此狂热。

Andrej Karpathy在2025年初提出Vibe Coding的概念，核心就是用自然语言描述需求。

那么自然语言最自然的输出方式是什么？

显然是说话，不是打字。

一个做语音输入工具的公司Willow在它的博客里写过一句话，我觉得很精准——

“Vibe coding in 2026 isn't limited by what AI can build. It's limited by how fast you can describe what you want.”

“2026年Vibe Coding的瓶颈不在于AI能造什么，而在于你能多快地描述你想要什么。”

语音就是那个把瓶颈打破的锤子。

八

说到底，语音输入法的竞争才刚刚开始。

从全球市场来看，专业的AI语音输入工具已经有不少玩家——

Typeless、Wispr Flow、Superwhisper、Willow、Aqua Voice、Voibe、闪电说，还有智谱做的AI输入法。

而在AI编程领域，Claude Code和OpenAI Codex都内置了语音模式。

从国内市场来看，千问此次入局意味着大模型公司开始把语音输入视为一个战略级功能，而非是一个小特性。

竞争正在快速升温。

一个值得关注的趋势是：语音输入正在从消费级工具向C端基础设施演进。

Claude Code的/voice和CodeX的全局语音就是一个信号。

我的预测是：2026年下半年，语音输入+AI改写会成为主流AI产品的标配功能。

理由很简单——用户一旦习惯了，就再也回不到一顿口喷只能得到口水话的时代了。

这就像你用惯了智能手机就回不去功能机一样。

体验的升级是不可逆的。

没错，PC端是生产力工具。

从目前看，AI对生产端的加成远大于消费端的加成，从这个意义上，优化PC端、减少PC端的摩擦，本质上就是给白领的工作提效。

这一点，千问的团队显然理解很深刻。

总体而言，作为一个免费产品，千问语音输入法的完成度已经相当高了。

结语

这篇文章大约5000字，其中大约70%的初稿是我用语音输入完成的。

先用千问的语音输入法口述大纲和各段落的核心观点，然后在此基础上进行文字修改和逻辑梳理。

整个过程大约花了3个小时。

如果全部用键盘打字，以我的打字速度（大约每分钟70个中文字，加上思考停顿的时间），光是输入就需要将近90分钟。

语音输入帮我把这个时间压缩到了大约30分钟。

这就是价值。

对于我的另一个副作用是——我对机械键盘彻底退烧了。

我之前会买很多不同的轴体，会专门去研究一下不同轴体的压力克数，也烧过静电容键盘。（不喜欢静电容的踩屎感，之前用的最多的还是金粉轴V2，压力克数小，方便文字输入）

现在，真的下头了，毕竟，我使用键盘的频率真的低了很多。

没错，键盘统治人机交互持续了40多年。

而当AI能听懂人话的时候，口喷，可能才是效率最高的输入方式。

感兴趣的同学可以复制下面的链接从官网下载来试一试，口喷一时爽，一直口喷一直爽。

1.千问客户端：

https://www.qianwen.com/download?ch=tongyi_redirect

2.千问网页版：

https://www.qianwen.com/

——End——