百亿规模的无障碍技术:用户想要的和你给的可能完全不一样 | 播客 E10

 

 

智幻

播客

 

 

在科技圈,我们习惯了听企业家描绘未来蓝图,习惯了看权威学者分析技术趋势。但真实用户的声音,却很容易被淹没在营销话术和产品发布会中。

 

“我们能帮科技公司筛选出更多的真需求,企业有时候通过用户调研、网络数据,很可能看到的不是真实的东西,或者只能看到一些网红博主的营销需求。”在这次智幻时刻的播客节目中,中国盲文图书馆的软件工程师张军军表示。

 

最近,我们和盲人开发者张军军一起组成了一个mini焦点小组。作为阳光读屏软件的核心开发者,张军军不仅是技术的使用者,也是应用的创造者。

 

他对AI、语音合成、脑机接口等前沿技术有着独特的理解和体验。在交流中,我们听到了许多打破第一反应的观点。

 

这些观点反驳了许多习以为常的产品判断,比如:人们想当然地觉得建立在自然语言上的AI Coding就很无障碍;拟人化、有感情的语音生成一定比机械化的好;视觉描述越全面越详细越好......

 

而张军军的答案和我们原本的设想都是不一样的。

 

另外,一款应用的无障碍功能到底是应该融入其中,还是推出特别版,对于企业来说也是商业选择的难题。

 

如果你也对这些问题感兴趣,欢迎和我们一起从这期播客中聊到的细节出发,重新认识技术包容性设计的新世界。

 

 

本期节目已于7月11日登陆小宇宙、Apple Podcasts、Spotify等音频平台,欢迎收听

 

 

 

 

 

本期主播

 
  • Zhuoran:智幻时刻主播,AI治理研究者,重点关注科技法和STS方向

     

  • 张军军:软件工程师,目前在中国盲文图书馆工作

 

 

 

本集内容包括

 

 

00:03 开场:相比拟人化,我更喜欢机械的声音

 

03:24 回看2023——2025的AI应用,从“玩具”到“工具”的转变

 

06:23 盲人开发者的“听觉编程法”

  • 揭秘:如何用读屏软件写出高质量代码

  • 快捷键的艺术:在代码树状结构中自由穿梭

     

12:12  AI coding天然无障碍吗?

 

21:56 科技企业真的在乎无障碍设计吗?

  • 微信PC版4.0的无障碍修复

  • 有些公司做大量宣传,有些默默解决问题?

  • 特别版APP的困境:投入巨大,维护困难

29:32 盲人用户的"黑屏模式”

 

31:17 AI出行工具的尴尬现实:环境噪音让AI识别效果大打折扣

 

36:30 Be My Eyes应用进化史:从社交到AI

  • 志愿者服务的社交压力问题

  • AI助手如何解决"不想麻烦别人"的心理负担

  • 洗衣机旋钮识别:生活细节中的价值

     

40:59 机械语音的巨大市场

  • 视障用户的高速语音需求

  • 苹果在iOS 16中重新引入Eloquence语音

     

46:07 AI的“冗长好心”是一种打扰吗?

 

50:06 科技产品该不该替用户做判断?设计哲学的分歧:发霉面包案例

 

54:10 Neuralink:这玩意儿让我觉得恐怖

 

01:06:05 智能产品的“功能堆叠”迷思

  • AI眼镜、超声波盲杖、避障腰带...都不好用?

  • 专注单一功能vs大而全的产品策略

     

01:13:26 硬件触觉的不可替代价值

 

01:18:36 无障碍的价格区间:无障碍不是“成本点”,而是“增长点”

 

01:20:54 包容性设计的细节:物理咖啡机、触屏咖啡机,没语音功能的咖啡机......

 

01:24:30 我们已经无法生活在一个没有电子音的世界

 

 

 

 

Key Takeaways

 

 

传统TTS的稳定市场和忠诚用户

 

ZHUORAN: 拟人化的语音为你带来更好的体验了吗?

 

JUNJUN: 相比拟人化,目前我更喜欢机械的声音。大多数盲人用户都仍然在用老版的机械语音。因为我们有高速播放语音的需求,而机械感在高速播放时更清晰。

 

我们现在都叫它“老头儿”,是IBM大概2000年左右的版本。拟人化语音加快语速后,会有喘气声,每个字的时长都不一样,你可以试试看把Siri调到最快,听起来很不正常。

 

从获取信息的角度来说,机械化的声音更好。尤其是阅读时,我不太希望声音有感情色彩,这样我就可以脑补这个色彩。

 

AI编程≠无障碍编程

 

ZHUORAN: 上周我看到文心快码帮助全盲码农编程的故事。AI Coding是否更无障碍?它能帮助你Vibe Coding吗?

 

JUNJUN: 很多人看到“AI Coding”就觉得天然无障碍,但我想说,AI Coding 并不等于无障碍,这是两个完全不同的概念。

 

在无障碍的场景下,首先要考虑的事这个工具本身能不能被读屏软件正常识别。微软的VSCode,它基础的无障碍做得就很好,微软自己做的,有很多辅助接口的实现,读屏软件可以正常浏览使用。当它加入AI功能后,我就可以正常使用,这就OK了。

 

但很多其他工具就不行——AI功能做得天花乱坠,结果连基础的读屏兼容都没有,那对我们来说就是零。

 

关于“vibe coding”,目前这个概念对我来说还没太 体会到。可能我学习代码的时候还是比较传统的方式,是高度结构化的,现在也是通过读屏软件逐行读取、用快捷键在代码树状结构中跳转、通过波浪线提示识别错误……每一步都需要精确的定位。

 

AI确实能提高效率,这个我承认。比如它可以总结代码,告诉我一个框架是怎么实现的、流程控制是什么样的。过去我们用读屏需要一行一行地读,或者参考开发文档,效率非常低。通过AI总结后,就能找到重点,知道要关注哪些部分。

 

但这和“无障碍”是两回事。我们最终还是得去写代码,还是要通过键盘、快捷键、读屏软件完成实际开发工作。

 

当然对于刚入门的孩子或者新人开发者,AI确实降低了门槛。我当年学C++卡了很久都入不了门,想想如果那时候有AI帮助理解代码结构,可能会轻松很多。

 

真实用户需求与产品想象的差距

 

ZHUORAN:  你会觉得因为新技术的出现,你的工作方式发生了一些变化吗?

 

JUNJUN: 我除了开发以外还会写一些东西,就是我们需要测试,测试无障碍,我们需要测试APP的无障碍,这种就是给一些企业做这种应用的无障碍测试,在这个过程当中需要记录,需要录屏、需要截图,需要发送一些各种各样的这种媒体的内容。

 

在这个过程当中我现在就很依赖AI,为什么呢?比如说举个小例子,我们盲人用手机会开启那种黑屏模式,我用手机的时候,我的屏幕是黑的,以防别人看到我屏幕上内容,出于这种隐私考虑,但是因为这是我的常态,所以我有时候录像或者录屏就会录成黑的。

 

好几次我给人家提交的报告里边截图是黑的,后来我就每次我都会用这种AI的识别一下,这是一个非常小的点,但是这个点很好。如果没有它我可能就比较繁琐了,用AI很简单。

 

嵌入生活场景的技术

 

ZHUORAN: 对什么类型的AI应用最为依赖?目前体验如何?

 

JUNJUN:视觉描述类的应用。

 

ZHUORAN: 之前你有跟我讲过像这一类的应用它有一个很大的问题,就是它的描述为了追求“智能”所以非常详细、具体、生动。但是这个东西放在你的生活场景里,反而变成了一个不好用的体验?

 

JUNJUN:对,问题的核心是——AI 并不知道我拍这张照片的目的是什么。比如我可能只是想知道一个很简单的点:这里是不是出口?哪个按钮能按?但 AI 为了表现出它“很聪明”,就会把所有能识别到的信息都塞给你。

 

这也是为什么我们会更依赖 Be My Eyes 或者专门面向视障用户的工具。它们知道我们关心的是客观信息,是视觉上的功能性描述,不是那些花哨的、主观的、情绪化的表达。


很多通用 AI 工具,它描述得越丰富,反而越干扰我们判断。如果我想要获取重点信息,可能还得不断追问它,比如“请你只告诉我按钮在哪”,但这就要一轮轮问,效率一下就被拉低了。

 

ZHUORAN: 能否举一个具体的生活案例?比如出行是不是一个好的AI应用场景?

 

JUNJUN: 这是一个误区,出行恰恰是做得最不好的场景。现在如果说没有导盲犬的话,盲杖肯定是最有用的工具。地图我们确实一直在用,高德、腾讯、百度地图都依赖,因为大概位置我得知道,步行导航跟着走一般没问题。但是AI目前一般,因为效率太低。

 

AI在出行里的环境噪音很大,比如我要找目的地,来到附近后用AI识别门牌,识别了半天没找到,可能角度不对或者距离太远。这种情况下能用,但比较费劲,没那么自由。

 

ZHUORAN: Be My Eyes从真人志愿者发展到AI助手,你的使用体验有什么变化?

 

JUNJUN: 现在我基本只用它的AI功能了。比如看洗衣机屏幕的旋钮,不知道现在拧到30分钟还是40分钟,过去会找志愿者看,现在直接用AI就知道了。AI效率更高,我随时都可以自主完成这样的小任务。

 

用真人服务的一个点是存在社交压力,总觉得尽量不要麻烦别人。有些时候找家人也不合适,其实用be my eyes的志愿者素质已经比较高了,问问题比较流畅,他们可能也是年轻人,更了解我用的工具。比如我调咖啡机的磨豆机刻度,问家人他可能会反问“你买这个干什么?”,但对志愿者就直接问问题就OK了。

 

有趣的是,AI出来后我还跟志愿者聊过,说以后你们接到的视觉请求可能会越来越少。他们很正面,说通过技术改变这种状态也挺好的。

 

ZHUORAN:从产品设计哲学上来说,你觉得 AI 应该只提供客观事实,还是也应该给出建议?比如识别到一个发霉的面包,它应该说“这是发霉的面包”,还是直接说“建议别吃”?

 

JUNJUN:我个人更倾向于——AI 应该告诉我客观事实,而不是给我建议。比如你说的这个面包,如果它能准确识别出“这是一块发霉的面包”,那这个信息就已经非常有用了。

 

我们每个人的情境不同,尤其是像我这样的视障用户,更依赖 AI 提供精准、未加工的信息,然后根据自己的需求做判断。


ZHUORAN:你讨厌它剥夺了你的自主权?

 

JUNJUN:我没有想太深。但我需要的是客观信息,技术能识别异常信息本身就不容易了,因为我通过正常的图像描述可能获取不到,所以需要AI告诉我"上面有虫咬的洞"这样的异常信息。

 

ZHUORAN: 马斯克说Neuralink要在一年内改写全球失明历史,你怎么看?

 

JUNJUN: 说实话我没有第一时间打开这个新闻,直到它后来刷屏。我觉得有点恐怖。我是前两年才失明的,所以我知道颜色是什么样的。

 

脑机接口目前实现的是像素点组成的图形,很抽象,马赛克那种,可能颜色也没那么丰富,可能是黑白。对我个人来说,这跟我过去印象中的真实世界是冲突的。

 

2026年实现这个愿景肯定就不用想了。即使是黑白,如果信息量够大也可以,但它显然目前还做不到。

 

对于从小失明的人来说,他们也需要训练这种视觉的接受度,并不是想象中那么容易。我还是更相信传统医疗手段,直接给我一个真实的眼睛,而不是依赖算力角度的科技解决方案。

 

ZHUORAN: 你和我说过你更喜欢智能硬件,因为触摸对于盲人来说是很重要的。你会想买什么硬件产品?

 

JUNJUN: 重点是目前做不好。他们没有考虑当下技术能不能达到,但会尽可能地塞功能,最后发现产品根本没法用。

 

比如超声波盲杖,理论上可以提前探测障碍物,但实际很不稳定。我面前可能是自行车或树,我可能撞到树枝,自行车中间有空隙,在实验室环境下能探测到,但实际上不好用,我用盲杖直接一戳就知道了。

 

很多产品想替代盲杖,比如智能腰带、机器导盲犬、智能电梯......但技术只是一方面,很多时候搭把手就解决的事,非要用技术手段去解决,是资源的一种浪费。就像开火关火,一个旋钮本身就能控制,为什么需要用手机遥控?

 

硬件更有意思一些,至少能摸到,可以互动。我会买智能眼镜,一定要有一个,但现在技术还不够成熟,等再发展好一点。

 

 

定价区间

 

ZHUORAN: 你倾向于接受什么价格区间的产品?无障碍用户是价格敏感的用户吗?

 

JUNJUN: 一部iPhone 5000块钱基础价格,我们会为了这个而买苹果。很多盲人依赖苹果,熟悉了这个环境,一定会买下一代,即使是大学生没有收入也会用苹果,因为长期使用下来可能比其他的更好。

 

如果有一个类似导盲犬的设备,电子导盲犬,能够带我出去,我觉得几万块钱是可以接受的,因为我买不了车。我会觉得1万块钱当然是最好了,但如果真的能解决我的需求,一辆车的价格我是可以接受的。

 

但是技术还做不到,所以现在还得等等。目前这个价格还做不到什么,期待的功能实现不了。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2025-07-20
首页    我们的播客    百亿规模的无障碍技术:用户想要的和你给的可能完全不一样 | 播客 E10
点击收藏