深耕语音输入12载:讯飞输入法走向万物智能新世界
科目二考试不慎挂科后,我爸在微信上向我抱怨道:
“整天都在说人工智能,可人工智能到底在哪里呢,为什么到了2022年,自动倒车入库的功能都没普及,导致科目二考试还是那么难。”除了文字上的抱怨,还特意加了张某自动驾驶企业的宣传图。
我没有正面回答我爸的疑问,而是问了他另外一个问题:“你连拼音都打不好,为什么能给我发这么长的一段文字?”大约过了一分钟后,我爸回复了这样一段话:“我用的是讯飞输入法的语音输入,直接对着手机说话就能生成字。”
可能在很多人的认知里,人工智能的价值在于颠覆性的改变,而选择性忽略了生活中那些潜移默化的影响。
就像语音输入的例子,我爸夹杂着普通话与河南方言的输入习惯,五年前还是难以想象的场景,那时候语音输入的准确率已经达到95%以上,但方言的识别准确率让人难以直视,普通话和方言混合输入的话,可能会直接让系统“宕机”,如今语音输入已经成为许多人最常用的输入方式。
同样被忽略的是,在语音输入这件“小事”上,讯飞输入法已经走了12年,创造了一个又一个里程碑。
01 被“语音”解放的长辈们
大约从五年前开始,“下沉市场”逐步成为外界讨论的焦点,不但延长了人口红利消失的时间周期,也为互联网巨头们找到了新的流量来源,甚至是说在某种程度上左右了当下的互联网商业格局。
有人将其归功于“华米OV”,因为智能手机价格的下降和渠道的密集覆盖,加速了智能手机在下沉市场的渗透;也有人认为是微信、拼多多、抖音等杀手级应用的功劳,以一种特殊的魔力唤醒了“五环外人群”的参与感。
应该被铭记的还有语音输入。
如果说拼音输入法是打开中文互联网的钥匙,一度是PC时代最普及、调用频次最高的产品;语音输入就是移动互联网走向下沉市场的捷径,原本被隔离在互联网围墙外的中老年人,正是靠“语音输入”的流行,才打破了他们与互联网之间的藩篱,所扮演的角色不亚于智能手机的普及。
故事听起来并不复杂,可想让“语音输入”被普通话都说不利索的中老年人用起来,并不是一件容易的事。就拿讯飞输入法来说,为了提升语音输入的效率和普适性,在技术上下了很大一番功夫。
比如讯飞输入法12.0版本中推出的语种可控方言免切换系统,无须手动调整语音识别模式是普通话还是方言,就能实现普通话和23种方言的自由说。像我爸这类普通话中有着明显的河南口音,时不时说几个方言词汇的用户,语音输入时不需要人为切换输入方式,极大地提升了用户体验。
再比如讯飞输入法对离线方言语音输入和复杂环境语音识别的优化,不仅解决了高噪、远场混响等环境下的识别准确率,即使是在离线的情况下,也能使用方言进行语音输入。语音输入不再是一种新奇的体验,而是满足用户全场景需求的通用输入方式,正在无形中重构人机交互的底层逻辑。
把视角再放大一些的话,随着语音输入效率的升维,被讯飞输入法“征服”的绝不只有中老年人。驱动输入法进化的源动力,始于“效率”二字,不管是拼音对五笔的替代,还是九宫格、手写等输入方式的流行,都离不开效率的提升。进一步解放生产力的语音输入,自然是所有群体都无法拒绝的选项。
可以佐证的是,讯飞输入法的用户画像中,包含了Z世代游戏人群、效率人群、银发人群以及视障人群,他们的需求各有不同,或是青睐于游戏语音键盘、或是钟情跨屏输入模式、或是看到了长辈模式和无障碍模式的贴心……在语音输入赛道上长跑了12年的讯飞输入法,早已成为“个性多元需求”的代名词。
02 万物智能的输入逻辑
当互联网的用户规模逐渐饱和,万物智能被证实是下一个十年的核心命题,输入法也需要与时俱进:所需要解决的不单单是人与人之间的沟通,还要为人与物的“对话”给出效率更高的解决方案。
在讨论这个话题前,似乎有必要回答一个出现频次很高的问题,即在万物智能的秩序和规则里,输入法是否属于刚需产品?毕竟语音识别并不是输入法的专属,而作为“第三方”产品的输入法,需要在万物智能中找到自己的生态位。
这也是讯飞输入法想要回答的拷问。刚刚结束的2022科大讯飞全球1024开发者节上,科大讯飞的输入法总经理程坤在演讲中多次提到“万物皆智能”的理念,并给出了讯飞输入法的应对之策。
首先是创新能力的输出。正如前面提到的,讯飞输入法针对语种免切换、离线方言、复杂场景下的语音识别等进行了深度优化,同样的能力也适用于复杂多变的人机交互,用于解决人与机器之间的感知和表达难题。
一个直接的例子,当前用户的智能产品列表中,已经出现了智能汽车、智能家居、穿戴式设备等不同产品,想要满足不同场景下的人机交互需求,考验的不只是语音识别的准确率,还有经过用户实际使用验证的差异化方案。而有着亿万活跃用户的讯飞输入法,已经为手表等小屏设备提供流畅的手写、面向折叠屏设计了“分裂键盘”、更大显示的智慧屏提供跨端流转的输入等等,可以说是离用户和真实场景最近的玩家。
其次是内容表达的满足。在用户和智能化产品的交互中,“语音输入”本质上只是入口,深层次的需求在于内容表达,通过语音输入连接各种各样的服务,譬如网购、社交、外卖等消费和生活的场景需求。
记忆中,讯飞输入法在11.0版本中推出了“AI助手”,仅仅1年时间,这个平时不起眼的小助手已经拥有22种AI功能,覆盖聊天、发布、搜索、评论、评价、个性表达等场景;并在讯飞输入法12.0版本中,进一步搭载了全新AI智能化输入引擎,在聊天、音乐、综艺、影视、生活服务等场景下,都能赋以高效和准确。简单来说,讯飞输入法的切入口是输入服务与用户连接的需求,也是智能化时代用户交互的根基。
至于讯飞输入法的路线是否正确,现阶段还无法给出确切的答案。不妨来重温一个屡试不爽的产品逻辑:更低的使用门槛,更直接的交互方式,是一切产品发展的方向,万物智能时代也不例外。
再确切一些的话,包括讯飞在内的第三方输入法,正在不断向金融、教育、司法、医疗、车载等场景渗透,输出定制化的解决方案,为用户带来更好体验的同时,也为自身找到了新的增长空间。
03 输入法的生态化破局
从最早的语音输入到赋能万物智能,输入法作为人工智能技术的天然载体,不可或缺性已经毋庸置疑,却仍要面临商业化的挑战:在工具型产品整体式微的局面下,输入法的想象空间到底在哪?
回到文初的例子,像我爸这样的用户不在少数,他们是语音输入的直接受益者,以润物细无声的方式深切改变了他们的体验感,一旦养成了语音输入的用户习惯,就是讯飞输入法的护城河。可不同于智能驾驶等技术的话题性,语音输入的大众化普及,反倒制约了讲述资本故事时的吸引力。
为了改变传统的市场认知,讯飞输入法代表的输入法头部玩家进行了多种尝试。典型的例子就有To B探索,面向不同的行业打造场景化的输入解决方案,降低用户在垂直场景里的输入门槛;同时还有增值服务的尝试,利用个性化皮肤、字体、表情包等吸引用户付费,事实上,好的产品和有价值的服务,用户是乐于付费的。
在讯飞输入法12.0的发布现场,面对输入法在万物智能时代遇到的新考题,讯飞输入法产品总监赵明路给出了生态化的破局思路。
相对应的就是“i-Blocks”输入个性化内容开放平台,旨在搭建开放内容与服务的载体,以生态开放的理念,将创作者、IP方、设计师、普通用户串联在一起,形成生产、消费、价值创造的生态闭环。
个中逻辑并不难解释。
进入到万物智能时代后,人机交互势必会出现复杂多样的一幕,不同的产品有着不同的交互界面,不同的场景有着不同的输入偏好,不同的用户群体有着不同的需求,想要解决新的输入问题,既需要产品功能的持续创新,也需要内容生态的不断壮大,“i-Blocks”输入个性化内容开放平台担纲的正是内容生态的建设。
以当前最为热门的智能车机为例,首先要解决的是输入效率,然后是个性化的满足。比如定制化的皮肤提升品牌的用户认知;再比如车机、手机、电脑的多端联动,需要表情包、字体等元素进行表达……当输入法的连接对象由过去的用户和服务,衍生到终端客户、品牌方、创作者、用户差异化需求等更多层面,内容生态将是输入法承接客户诉求、满足用户需求的重要支撑。
找到的最新一组数据是:目前讯飞输入法个性化内容服务使用者中年轻用户占比达48%,吸引了内容创作者过万人,内容使用量多达100亿次。而在万物智能时代,内容使用需求注定会爆炸性增长。
做一个总结的话,讯飞输入法的优先级、竞争壁垒和技术优势,决定了其行业地位短期内不会被挑战,进一步拓宽语音输入场景,并在内容生态上不断积蓄力量,不失为一种正确且有前瞻性的打法。
04 写在最后
按照官方公布的数据:目前讯飞输入法的日活用户已突破1亿,语音渗透率达到75%,日语音调用量较2021年提升45%。
不难给出合理的解释,语音为主、键盘触摸为辅、肢体语言动作为补充的混合交互,满足了万物智能时代的基本特征,既是讯飞输入法语音调用量逐年增长的诱因,也是其走向万物智能新世界的战略基石。
在语音赛道深耕十二载的讯飞输入法,正在让越来越多用户摆脱人机交互的种种烦恼,改变不同代际用户群体的交互习惯,沿循着“效率为王”的初心和恒心,赋以输入生态新势能、新方向、新动能。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)