这是半佛仙人第239篇原创文章
1个
今年是小米成立十周年。 十年前的4月6日,小米成立之日,智能手机的价格从此天翻地覆。 后来,那一天就成了小米的节日“米粉节”。
在小米内部,还有一个重要的日子,那就是8月16日,MIUI第一次正式发布。 2011年8月16日,小米正式发布MIUI。 国产安卓系统终于来了。 一群认真做事的人,当时的MIUI可以说是最好的三方UI之一。
时至今日,业界谈起小米手机,还得加上一个笑话。
这个MIUI值300元。
在这个10周年节点,小米发布了全新手机小米10青春版,同时发布了自家定制UI系统MIUI 12。
我觉得这个系统最有趣的是两个方面:
一是“空信息授权”。
在这个时代,获取用户信息已经成为APP认可的明确规则。 只要你安装一个新的APP,不管好用与否,都会先问你通讯录、短信、相机、录音机、地理位置的权限。
你不给它也行,但它不会为你提供服务。 如果要使用它,则必须打开所有权限。
从逻辑上讲,一些权限是必要的。 比如地图app有位置权限是完全合理的,否则量子玄学就无法指导你。
但是地图应用程序需要短信做什么? 想要指导我进行多人运动吗?
MIUI 12的“空信息授权”功能可以对APP生成空信息授权,在保证用户使用的前提下,为授权APP提供空信息循环。 这在国内系统中应该是首创,很有用心。
第二个是“小米听到了声音”。
小米文声是一款语音交互模块,对于推出“小爱同学”的小米来说并不算新鲜,不过这次小米特别给这款产品定位:无障碍服务。
在知乎上看到一个国内视障人士用读屏软件控制手机的帖子。 看完后深感太难了。 视障人士使用手机太困难了。
很多普通人一目了然的UI,对于视障人士来说却是复杂且麻烦的怪异设计,尤其是那些APP中无处不在的广告,普通人可以视而不见,视障人士却不得不去听和看 软件需要阅读一次才能下滑。
听力障碍患者也是如此。 在这个短视频时代,听障患者只能猜测没有字幕的视频发生了什么。 很难接听外卖电话。 手机可用于发送短信,但不能发送语音。 .
小米闻声而动,致力于解决这些问题。 对于视障人士,小米文胜可以直接通过语音交互进行操作,省去摸手机靠耳朵找APP的时间; 对于听力障碍者,它可以直接将别人的话转换成文字,让听力障碍者多出一双耳朵,也可以帮助语言障碍者将文字转换成语音,回应陌生人的来电。
会关注一个小众市场,帮助这些听障、视障人群更方便的使用手机,可见小米是一家有温度的公司。
但要完成这种温馨的服务,不仅需要理念,更需要技术。 小米听力背后的技术来自科大讯飞。
2个
讯飞听力是小米听力的核心技术提供商。
国内很多人应该都听说过讯飞这个名字,因为在中文语音交互领域,讯飞是王者。 只要稍微有点这个行业,想不跟讯飞打交道都难。
去年,美国商务部发布了一份“实体清单”,其中包括八家中国顶尖科技公司,科大讯飞就位列其中。 它已经是一家备受关注的顶级科技公司。
讯飞Hear是科大讯飞推出的以语音转文本和翻译为核心功能的系列产品和服务。
如果你没有见过讯飞听力的产品,你很难想象“语音转文字”技术会是多么的科幻。
在科幻电影中,经常会出现戴上就能听懂另一种语言的耳机。 我们一般认为它们是科幻产品。 要十几年才能见到,而且价格不菲。
但实际上,具有该功能的同声传译软件早已出现。 只要在手机上安装讯飞听力APP,普通手机就可以变身为同声传译机。 支持中英文录音转文本,轻松输出文本结果。
有了这个工具,去英语国家旅游就不用带翻译了,更不用说跳上跳下打手势了。 直接对着手机说话,就可以实时翻译,然后给老外看。 老外的回答也可以录音并翻译成中文,让你完全不懂英语也能和老外交流。
就算玩游戏被老外骂,也可以拿出手机,让魏国人体验智能翻译的赞安文化。
全世界都在学习祖安方言,祖安方言也越来越国际化。
3个
几年前,我开始接触讯飞。 那时,我饱受肩周炎和颈椎病的折磨。 我曾经梦想拥有一台可以躺在床上写稿子的设备。 试过Word内置的语音,试过人工智障的Siri,惊奇地发现,这个地球上有一个宝物叫讯飞。
讯飞听觉充分满足了我用嘴巴码字的欲望,有效减少了手指的磨损,能说出的话从来不碰。 直到现在,讯飞听力出品的APP、M1等产品还是我的创作。 经常使用的工具。
虽然我在B站做视频追求的是简单粗暴,人生靠一张嘴,但再粗糙的视频也需要配字幕。 观看带字幕和不带字幕的视频时手机游戏全自动翻译器,是完全不同的体验。
如果你一个一个打字幕,光是调整时间轴就需要好几个小时。 如果按照这个效率去做,班老师就再也生产不出母猪了。
然而,这是一个高瞻远瞩、自我瞄准、高科技的时代。 聪明比努力更重要,所以为了偷懒,我开始使用讯飞听到的“听字幕”,可以自动添加成品视频。 对于字幕,讯飞官方数据识别准确率高达95%。 之后简单校对一下就可以直接上传了,很舒服。
最重要的是,这个过程中不需要一直看视频。 5分钟可以录制20分钟的视频。 时间管理能力堪比罗老师。
强烈建议自己制作视频内容的朋友可以尝试使用,加上字幕,观感真的会好很多。
4个
如果有什么比开会更痛苦的话,那就是听录音带了!
我们都知道大部分录音都是没有内容的,大部分会议都是钓鱼,但是大脑中残留的印象告诉你,有几句话特别重要,一定要找到。
你看半夜办公室冒出蓝色的火光,那是我们头顶上拼命拉进度条的烦恼。
后来才知道讯飞听说有个专门为会议服务的系统,华为和联想都用过这个系统。
扔到一边,大家在会议室里聊天,说多少就记住多少,并实时转换成文本生成会议纪要。 还支持中英互译,效果非常科幻。
录制成文本还有压缩时间的效果。 一个小时的会议记录可以在十分钟内转换。 如果事后想找什么,只要记住大概的关键词就可以自己搜索,不用再反复听你的尴尬演讲。
这个功能不仅可以在公司会议上使用,在课堂上也可以使用。 上课记笔记不好也没关系,把每节课的课文输出,然后一一编辑,筛选出重点。 比起拿着相机拍PPT,录完再听录音,像梦游一样做笔记要爽多了。
不过我最喜欢的还是他们的展览服务,看起来太逼真了。
此服务专为新闻发布会、公众会议和展览而设计。 除了会议记录,最闪亮的功能是大屏幕上的实时字幕。
比如世界人工智能大会、中国国际进口博览会、博鳌论坛、深圳卫视春晚、国际电信联盟……都用上了科大讯飞听说过的智慧会展服务。
去过传统发布会的人都知道,台上的嘉宾有时候说漏嘴,又没法弥补,尤其是一些名词。 你只能猜测他刚刚说的是什么,不可能当着数百人的面去弥补。 举手请客人重复。
这个展览服务可以在大屏幕上实时放上双语字幕,边看边听,对梳理思维过程很有帮助。
如果你平时关注新闻发布会,你会发现,智慧会展提供的实时双语字幕已经成为越来越多展会的标配。 不要以为有人在后台高速录音,那是技术。
5个
在技术上,讯飞取得了一定的成绩:
2016年,在国安智能语音高难度技术测评中,讯飞综合测评效果排名第一。
2019年3月,科大讯飞在国际权威机器阅读理解测评SQuAD 2.0任务中再次夺冠,并首次在EM和F1指标上全球超越人类平均水平,刷新了竞赛记录。
但是讯飞为什么会有这种技术,这是一个比讯飞的技术更有价值的故事。
科大讯飞董事长刘庆峰是一个了不起的人。
我看过柳清风的采访。 谈起企业管理,他虽然言辞诙谐,但眼神却很平静,气质也像是一个普通的企业家。 但是说到技术,说到那些年的技术,你会突然觉得他整个人都在发光。
当一个男人像孩子谈论自己心爱的玩具一样谈论自己的事业时,油腻腻的中年脸上洋溢着青春的活力。 你会情不自禁地被他感染,相信他眼里有未来。
1999年,刘庆峰离开中国科学技术大学,和一些合伙人一起创业,科大讯飞诞生了。
很难想象,早在21年前,就已经有这样一群人计划部署语音交互等近期技术。 更让人难以想象的是,就是这样一群人,在穷困潦倒的情况下,一步步取得了今天的成就。
柳青峰有一段话我很喜欢。 他说:
“你找风是不对的,只有你自己喜欢,坚持到风来的那一天,说不定你就会成为最大的赢家。”
这几年,出现了太多的风口,太多追风口的故事,但这种追风口,却只制造了一个又一个泡沫。 泡沫破裂后,什么都没有了。
真正推动世界,推动科技进步的,往往是那些能够坚持自己热爱的事业的人。
科大讯飞成立于1999年,一直专注于语音。 其整个业务链都是建立在语音识别的核心之上。 讯飞听力是科大讯飞在语音识别方面最专业的部分。 因此,当世界需要一种新的人机交互方式,世界需要语音操控时,它们自然会脱颖而出。
柳清风还说:“很多科研需要传承,他可能三年什么都不做,甚至十年板凳,甚至一辈子板凳。你必须让这个革命火种和科学信仰代代相传。传世)。
华为、小米、字节跳动、360……讯飞之所以能赢得众多顶级企业的青睐,正是因为他们过去的积累,也正是因为这些坚持,才能掌握核心技术,在技术上处于领先地位升级状态。
有技术的企业值得敬畏,但为了获得这些技术,他所坚持的理念或许更值得更多创业者学习。
6个
过去,语音识别技术被国外垄断。 他们的中文语音识别技术一塌糊涂,但是在国内没有好的竞品,所以在国内横着走。 调戏siri是很多中国人对语音交互的唯一理解。
经过20年的追赶,科大讯飞逐渐赶上国外,在中文语音识别领域处于领先地位,甚至在与国外语音识别系统对抗的过程中。
讯飞听说在短短19年的时间里就斩获了数十个奖项,在中文语音转文本领域占据了领先地位。
这种领导看似不起眼,但科技的发展总是由一些零散的发明创造而成。 这些分散的发明单独使用时是很弱的,但组合起来就会发挥出几何倍数的威力。
当语音交互只能作为打字的语音输入方式时,恐怕大多数人都不会意识到它也可以是一款优秀的文字创作即时转录翻译软件。
当讯飞听说春晚有字幕的时候,恐怕大多数人都没有意识到,它会成为听障人士的耳朵。
当会议纪要可以利用人工智能技术快速输出时,大多数人都意识不到这种精准同步背后的技术积累。
小米一直致力于打造自己的AIoT系统,而这套AIoT系统的核心关键就是交互入口。 过去这个入口多是通过手机,现在一定程度上转向了语音。 未来势必会彻底转向语音。 .
在人机交互的道路上,人类走了很长一段路,从打孔纸带,到键盘鼠标,再从键盘鼠标到触摸屏。 语音交互可能是下一个人机交互的入口。 它将彻底改变我们使用电子产品的方式。
而讯飞在语音方面的投入,为我们赢得了人机交互时代的入场券。
如果你问我科大讯飞是什么,我会告诉你,他们是一群妄想的人,因为他们要重建禁忌的巴别塔。
上帝用语言将人分开,人类将用智慧冲破语言的障碍,重建通天大厦。
这一次,我们不仅要建造一座全人类都可以自由交流的巴别塔,还要让这座塔直达云霄手机游戏全自动翻译器,成为真正的巴别塔,连接我们从未见过的世界。 我们会让计算机听懂人类的语言,将AI引入我们的生活。
这座塔的结局是什么?
或许那不是天堂,而是更广阔更遥远的宇宙,是科技发展的无尽想象,是科学家心目中遥远的神秘未知,是追梦人的倔强执着。
但这并不重要,因为我们知道。
通天塔,就在那里。
----------------------