邵阳市家电网_家电信息网站_家电资讯网

邵阳市家电网_家电信息网站_家电资讯网

王小川只要把握言语AI才干具有创造力和推理才能

时间:2021/11/15 13:12:24来源:本站 作者:admin 点击:0次
语言 AI 是人工智能皇冠上的明珠。 作者:沈知涵 如果用一句话概括搜狗一直在做的事情,那就是让表达和获取信息更简单,而这两件事情又都起源于一点——语言。 过去,搜狗用搜索和输入法以语言为核心帮助用户做输入和输出。 如今,这两条线正在无限延伸

    语言 AI 是人工智能皇冠上的明珠。

      作者:沈知涵

      如果用一句话概括搜狗一直在做的事情,那就是让表达和获取信息更简单,而这两件事情又都起源于一点——语言。

      过去,搜狗用搜索和输入法以语言为核心帮助用户做输入和输出。

      如今,这两条线正在无限延伸,构成了搜狗的语言 AI 战略。

      其一,是以语言为核心的自然交互。王小川称这是机器通过深度学习之后产生人的「感知」能力。

      王小川在现场展示了搜狗新的降噪算法,传统录音硬件对于噪音的识别更多是通过麦克风矩阵来实现的,而今天搜狗的工程师通过对现实场景中 4 万种真实噪音的学习,让机器有了分辨噪音的能力。王小川表示这项降噪技术也将会应用在新一代的录音笔中。

      得益于在 OCR 识别、唇语识别和语音识别、语音合成、语音变声多项技术上的积累,搜狗的自然交互能力已经逐渐实现了在 AI 录音笔、合成主播等方面的实际商业使用。

      其二,是在语言之上提取出跟语言的关联关系,让机器产生人的「认知」能力,王小川称之为知识计算。搜狗在 GeekPark IF X 发布了行业首创的多模态同传,在听的过程中,机器能够实时阅读 PPT,将它所看到的内容拓展成知识网络,在听和看的基础上,又多了思考的一步。随着知识计算能力的提升,搜狗未来将在知识性问答、医疗助诊、智能助理等领域里面注入更多 AI 能力。

      在 GeekPark IF X 上,王小川分享了围绕着 AI 战略搜狗近期的探索和积累,以及他所构想的语言 AI 的未来。而他又将如何一步步驶向那个终点?

      以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演讲,经极客公园编辑整理:

      张鹏说今天要谈一下未来 10 年(2020-2030 年),还要求我带来一些硬货,谈未来 10 年一定会谈到 AI。

      首先从我们最近发布的一个硬货开始,就是搜狗出品的 AI 录音笔,录音笔是今年上市的,我很高兴这个录音笔已经被市场接受了,极客公园基本上人手一支,不是我赠送的,是他们掏钱买的,同时也有了很多的复购率。

      录音笔是一个很小众的市场,但是因为有了人工智能的加持,录音笔变成今年电商中间的一个小爆款。搜狗 AI 录音笔相对传统录音笔,不仅有麦克风的矩阵,同时还有 AI 降噪、实时转写文字、云端的存储和搜索、智能编辑、同声传译等功能。所以,这个产品上线之后把整个市场改变了,像索尼、爱国者、纽曼都跟搜狗成立了一个联盟,而搜狗成为了联盟的盟主。

      这个产品上线之前,整个录音笔市场销量逐年下滑,市场保有量只有 400 万支,但是今年 3 月份的时候,搜狗上线录音笔第一代产品,出现了一个奇怪的现象,主流电子商务平台的录音笔搜索量开始有了上升,到 12 月份我们发布了第二代录音笔,也得到了很多好评,所以搜狗开始一点点的变硬。这件事情就像之前手机从传统走向智能一样,而且有了 AI 能力的注入,会带来一个新的改变,AI 注入之后对于 C 端消费品有了一些变化。

      谈到硬件我个人有一些观点,大家谈的比较多的是音箱,我基本的判断是人工智能对于硬件的助力,使得硬件方向有两大趋势:

      第一,会变得更便携。以前放在桌上的 PC 机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向穿戴,因此未来个人硬件的趋势是越来越移动化、便携化。

      第二,更强的 IO 能力。从之前的计算能力走向传感器能力、基于 AI 的处理能力,从人去适应机器变成机器去适应人,最后机器开始接管你的感官成为人的助力。

      智能硬件从以前的手机开始走向手表、耳机、到未来走向眼镜,这是我对于未来 10 年路径的一个畅想。这有一定的概率会改变我们以手机为中心的方式,我相信在 10 年时间里面,有很大的可能性眼镜和耳机会取代手机作为我们接触外界信息的通道,这就是 AI 未来对硬件产生影响的变化。

      硬件背后,是人去接受这样一个世界。除了有图像和语音之外,很重要的一个事情就是语言。其实一只猫或者狗都会有图像和声音的处理能力,但是惟有人能够处理语言,语言是我们与世界交互的一种抽象的方式。

      就像亚里士多德讲到的,语言是心灵印象的符号,而且是人类思维的工具,是知识的载体,并且有了语言,人类社会才能沟通交流。不管是我们生产语言,还是计算机处理语言,语言是最难的一件事情,语言是人工智能皇冠上的明珠。

      在图灵测试里面提到,机器能够用语言与人交流,就代表它拥有智能,今天我们的人工智能还不具有创造力和通用的推理能力,但是我们大家可以去做这样的一个猜想,只有当它掌握了语言之后,它才能够完整的拥有创造力和推用的推理。如果有机器能够跟你对话,你就会觉得它具有智能,因此语言在智能当中是有极其重要的位置,也是人跟动物一个重大的区别。

      我们会看到以语言为核心变成了我们去思考人工智能发展路径的关键节点。搜狗做输入法、搜索,实际上的意思就是处理语言的,也是帮你更好的表达、更好的获取信息。今天我们虽然提到有语音、图像,但是别忘了核心是语言。

      语言往下我有两部分分享:

      第一,自然交互。自然交互让人跟机器之间能够用语音、图像、手势各种方式产生交流,其中用到了语音、图像技术,包括视觉的技术。

      第二,认知问题,我们叫做知识计算。基于语言,机器能够做问答和对话,机器翻译是认知技术入门的门槛。有了更好的感知技术,机器会从手机走向新的智能硬件,有了更好的认知技术,机器对知识产生理解和推理,尤其是在垂直领域拥有问答的能力。新的硬件形式和新的对话和问答能力,智能硬件未来会走向智能助理,这也是整个 AI 行业在产品层面上面最明珠的地方,苹果大概在 2006 年就开始推出这样的能力。到今天 Google、百度、阿里、小米做这样的音箱产品,其实内核都是在做智能助理,只是外壳上我认为不是最好的方向。

      布局的时候,从语音图像有大量的技术要去做,包括语音识别、语音合成,包括了搜索独有辨识的能力,往下可当作展开,我把一些搜狗走在行业最前沿的点,给大家做一个简单的汇报。

      语音识别这是自然交互里面最自然的事情。搜狗输入法今天我们做到了每天超过 8 亿次的使用量,而且上升的很快。我最近批了一批服务器,在春节期间的时候可能就会超过 9-10 亿次的日请求量。我们也积累了大量的数据,包括了语种、方言各种能力。

      语言识别听着很简单的一件事情,其实并不是纯粹的单点技术,在识别过程中,对于语音、语义的理解还有哪些点需要攻克的呢?

      在刚刚播放的视频中,首先,大家感觉到有人声的分离,机器能识别不同的人,能动态的去判断这是第一个人还是第二个人。第二,做掌声、笑声或者其它声音的识别,帮助我们理解内容。第三,中英文混合,这是非常难的事情,从传统的深度学习网络数据中,得不到一个混合的模型,这里面会加入一些特定知识,来改变这个系统。

      在这个识别背后还会有更复杂的技术要求我们解决,我们做录音笔时会考虑很多问题,其中一件事是在嘈杂环境里怎么让机器听清人的声音,帮助后面的识别,这是我们最前沿的技术。

      传统的硬件是用麦克风矩阵实现的,用多个麦克风进行中间的数字计算、信号处理,今天依靠人工智能,我们有了新的方法,搜狗的工程师在现实场景中对 4 万种噪音进行了学习,使得机器有能力分辨噪音。

      在这个视频中,原始的机器识别、处理是不够的。为了让录音笔、声音的交互更好,我们有了新的算法,(降噪)技术在实验中已经完成了,期待在以后新款的录音笔当中能给大家带来极致的 AI 体验。

      从语音识别里面我们往前做了很多前沿的事情,除了语音识别还有一个重要的领域,就是语音的合成,在语音合成的时候,今天大家听过了林志玲、高晓松的声音,语音可以惟妙惟肖,用人的音色做表达。

      但是,当你做长篇演讲、音频付费节目的时候,传统机器所合成的声音情感是不足够的,搜狗是全球首次实现用机器模拟人,在得到音频课程的整节课程中完全用机器合成,大家听一下这个声音。

      (播放视频)这个不只是声音跟梁宁很像,更难得的是让一半的听众没有意识到整篇文章不是她本人读的。因为一篇文章在音频付费节目里面,已经是一个表演了,对节奏把握、情感的输出要求很高。

      技术做的多的同学都知道,以今天的 AI 能力,机器不会有如此精准的认知理解,所以这个里面我们用了另外一种技术,其实是一种声音的皮肤,把梁宁的声音变成一种声音皮肤,技术上称为特征的提取能力,可以让另外一个人读这篇文章,再把声音皮肤附到这个声音里面来,使得合成的声音可以表达他的情感,经过合成之后,最后由梁宁来呈现。

      这种做法之后可以改善整个音频节目生产的环节,表演者和生产者做到一定的分离,以避免人员离职等等带来的各种困难。加上声音皮肤,你们可以假想有蜡笔小新、高晓松,也可以模仿一些带有方言的声音。

      这种情况下,有个电影叫《头号玩家》,使得我们现在每一个人在互联网上,不但可以换成其它的形象,也可以换成自己想要的一个声音的形象。在生活中也有实际的用处,我们马上开年会了,如果我要表演唱歌,作为一个五音不全的人怎么来做呢?这是我自己的声音做的提取,然后可以加上《蓝精灵》里面唱的一首歌,比我自己唱的好听。

      这样一些技术,也使得在交互中间能够做到了人机本身的结合,使得这样的制作能力能够有放大。在这里面除了我们提到声音的识别、合成以外,我们也做了一些更前沿的工作,是从语音走向了视觉,因此我们提到了搜狗分身,这是我们产品上一个重大的进展。这个产品发展到现在经历了多次的技术迭代,从最早的给新华社所做的主持人,到后来能做到央视的主持人,到第二代能够让它更丰富的表达,第三代能够站起来有手势,到第四代之后就开始做到了多语言、多场景的播报能力,然后到了第五代之后开始能够做交互,比如平安普惠的保险项目,后面的服务人员已经被机器取代了。实际你在保险签约的时候,是机器人更你做交互回答。我们很快发布的是第六代拥有大角度、大幅度的动作能力,这是天气预报的播报,你们可以看一下。

      这样的技术在今年发布之后已经得到了全球 200 多家媒体的的广泛报道,也是机器在取代人上面的一次重大应用。所以,这里面我们大家可以看到,从语言为核心,背后配上了语音、人的表情、肢体、唇语,能够使得人机的交互,走到更自然的状态。

      除了最简单的感知问题以外,我们也在认知里面做了非常多的积累,刚才我们提到了翻译是中间最简单、入门的门槛,这里面我们做了很多的积累,这样的一个问题很重大,而且我们现在做的也非常的努力。全球 20% 的人口是说中文的,中文是第一母语的国家,英文作为母语的人口只占全球的 4%,是第四大语言,印第语和葡萄牙语也比英语大。

      但是,在这种情况里面,我们全球 95% 的信息是用英文所写的,100% 的国际商贸活动是用英文的,因此如何帮助中国人跟外国人进行更好的交流,这变成了一个重大的技术课题,我们作为做输入法、搜索以语言为核心的公司,投了很多的力量来做相关的积累。

      所以,2016 年在第三次世界互联网大会上我们行业首家发布了大会的同传,2017 年搜狗发布了英文搜索,你用中文词能搜索全球的英文信息,搜索结果用中文展示出来。在第四届互联网大上,我们首个实现了深度学习的离线翻译,以及有英译中功能的同传,2019 年 1 月份在极客公园大会上英中同传首次发布。

      到今天我们会发布新一代的同传给大家,从 2017 年的同传到 2018 年的个性化,今年我们做的是这样一个多模态和自主有学习能力的同传,真的同传人员不仅是听声音的,他会去看你的这样一个 PPT,我们今天这场会的同传就是机器实时阅读我的 PPT,同时识别中间的文字,并且把它转化成知识图谱,拓展它的知识边界,就好像一个人一样,看到我说了深度学习,就想到你可能会说卷积神经元网络,随后是在知识库查表,能找到中英对话实时加载的知识。

      所以,从以前能听、会看的多模态,到现在这样一个同传系统,它带有?raqu (责任编辑:admin)

本文由邵阳市家电网整理发布,转载请注明出处:http://www.bohemianbythesea.com/shaoyangshijiadianwang/128.html

顶一下
(0)
0%
踩一下
(0)
0%
0
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
热门评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
  • 白银市家电网
    支持[0] 反对[0] 引用 2021/11/10 15:40:08发表

    2021年,彩电上半年成绩单出炉:不出意外,国内彩电市场累计销量1781万台,同比下降14.7%历史性的大惨!虽然有,售额594亿元,同比增长15.1%的数据支撑,但是每个人都知道,高端彩电不是每个品牌都能占优的。 因此,行业人士纷纷提出品牌业…

  • 通化市家电网
    支持[0] 反对[0] 引用 2021/11/11 12:41:49发表

    近日,小米发布第二季度财报。财报显示2021年第二季度,小米集团总收入达到人民币878亿元,同比增长64.0%;期间利润达到人民币83亿元,同比增长83.9%;经调整净利润达到人民币63亿元,同比增长87.4%。 营收和利润取得双增长,小米手机…

  • 宁波市家电网
    支持[0] 反对[0] 引用 2021/11/15 13:12:24发表

    (原标题:生态学家预算:澳大利亚森林火灾致约5亿只动物丧生) 参考消息网1月3日报导…

  • 资阳市家电网
    支持[0] 反对[0] 引用 2021/11/12 17:36:54发表

    加图立大学成立于1855年,是韩国第一个西欧式高等教育机构,拥有4个学院、33个专业和大学院,在校生约为1.4万人。药学、经营学、心理学、媒体技术学、服装学等是该校的传统强专业。尤其是该校的医科大学及其8家附属医院,更是代表了韩国最高水平。最近该校新…

  • 韶山市家电网
    支持[0] 反对[0] 引用 2021/11/12 12:01:04发表

    央广网北京8月4日消息(记者牛谷月)科技部官网8月4日披露,美国能源部劳伦斯伯克利国家实验室(伯克利实验室)和加州大学伯克利分校的科学家开发了一种世界上最薄的二维磁性材料,这一突破可能为计算和电子领域带来新的可能性。这种磁铁只有一个原子的厚度,与…

  • 共 1 页/5条记录
发布者资料
芭乐app下载 查看详细资料 点击这里添加好友 用户等级:209级 注册时间:2021/11/15 最后登录:2021/11/15 13:12:24