汇创农发（宁夏）管理有限公司【官网】

智能音箱行业发展研究报告

发布者：管理员 2018/6/1 16:34:17

一、智能音箱定义

智能音箱是在传统音箱基础上增加了智能化功能，这功能体现在两方面：一是技术上具备WiFi链接可语音交互；二是功能上可提供音乐、有声读物等内容服务、互联网服务以及场景化智能家居控制能力。

智能音箱可以分为两种，一种是以亚马逊Echo为代表的智能助手类音箱，以语音交互技术为重点，成为智能家居的控制中心，国内厂商中京东的叮咚音箱，阿里巴巴天猫精灵和小米智能音箱同属这种类型，另一种是以内容分享为主的内容智能音箱，将音箱作为音乐、有声读物等流媒体内容的载体，国内厂商以喜马拉雅的小雅为代表。

（一）智能音箱发展历程

2014年11月正式发布2年多的时间里，亚马逊Echo智能音箱已经成为市场上最火热的智能家居产品之一，人们通过Echo可以用语音控制家电、购买商品、查询咨询。根据研究机构eMarketer的调查数据显示，在美国，大约有3600万用户每月会用到一次语音操控的音箱，并且这个数字还在扩大。

（二）智能音箱市场发展图

智能音箱将经历四个发展周期：

1.探索期。该阶段，人工智能及物联网技术发展为其爆发奠定了基础;

2.启动期。经过探索期对消费者的普及，消费者认知提升，厂商开始探索较为清晰的盈利模式;

3.高速发展期。待智能音箱产业引得大量资本涌入，入局玩家大幅提升，产品更加满足消费者需求，智能音箱过渡到高速发展期;

4.成熟期。此阶段内，智能音箱业务模式成熟，市场格局稳定，智能音箱进入千家万户。

（三）智能音箱主要功能

智能音箱主要功能

来源：公开资料，汇创资本整理

二、智能音箱行业发展现状分析

（一）国外智能音箱行业发展现状

近年来智能家居市场进入快速拓展期，用户渗透率快速增长。根据调查数据显示，2017 年美国智能家居市场规模将达 146 亿美元，渗透率提升至 32.5%，预计 2021 年将达到 60.7%。而中国智能家居市场规模也超过 20 亿美元，渗透率为 2.6%，与美国相比差距较大，未来发展空间广阔。随着语音识别技术不断成熟，智能音箱作为语音交互载体，在控制智能家居的便捷度和体验上都将逐步优于智能手机。未来智能音箱有望成为智能家居的控制中枢，成为一个开放性的平台，可以让客厅的智能电视、电灯、空调等链接起来，通过语音交互来实现对于其他智能家居产品的控制，掌握了智能音箱便掌握了智能家居的入口。

全球智能家居市场规模增长预测

来源：公开资料，汇创资本整理

2017年对智能音箱的发展而言是关键性一年。从全球看，四大科技巨头悉数入场，全球智能音箱市场规模达到3000万台。

全球智能音箱市场规模

来源：公开资料，汇创资本整理

细分到产品，2017年，行业先驱者亚马逊Echo依旧稳坐智能音箱市场的头把交椅。智能音箱的核心是语音交互，准确的唤醒率和流畅的交互体验是一款好的智能音箱所必须具备的。而在美国的智能音箱用户中，有44%（约2200万）的用户表示经常会与音箱进行语音交互；有70%（约3600万）的用户表示每月至少会用到一次语音操作，并且这个数字还在不断扩大中。而据美国另一家权威信息技术研究与分析公司Gartner Group预测，到2020年，美国75%的家庭将拥有智能音箱。

2017年美国智能音箱产品市场占有率

来源：公开资料，汇创资本整理

（二）国内智能音箱行业现状分析

根据权威调研机构GfK（全球五大市场研究公司之一）于2017年10月公布的"中国智能音箱市场分析"报告，2015年中国智能音箱零售量只有1万台，2016年增至6万台，2017年1--8月共累计销售超10万台。而随着2017年第三季度众多新品的推出，智能音箱销售量更是有了明显的飞跃。仅在2017年8月，智能音箱市场就达到了同比178%的增长率。

根据艾媒咨询数据显示，2016年中国智能音箱销售规模为1.36亿元，预计2017年将突破两亿，达到2.01亿，增长率为47.8%；预计到2020年，智能音箱销售规模将超过10亿元。目前虽众多厂商已推出智能音箱产品，但市场总体销售规模仍处于较低水平，随着产品进一步优化升级及智能家居的推广，中国智能音箱消费市场潜力将得到释放，行业有望迎来爆发式增长。

2016-2020年中国智能音箱

销售规模及预测

来源：公开资料，汇创资本整理

通过对国内智能音箱用户属性进行调研得出，中国智能音箱用户主要集中于一二线城市，而在性别属性中，主要用户是集中于有品质生活需求的年轻男性。

智能音箱使用用户性别分析

来源：公开资料，汇创资本整理

从上述图表中可以看到在智能音箱使用上男性用户居多。

智能音箱使用用户年龄分布

来源：公开资料，汇创资本整理

从上述图表中可以看出，智能音箱用户主要集中在26-45岁人群，其中36-45岁人群占比高于智能硬件用户。

智能音箱使用用户地域分布

来源：公开资料，汇创资本整理

从上述图表中可以看出，智能音箱用户相较于智能硬件用户在一二线城市占比更大。

智能音箱使用用户消费能力分析

来源：公开资料，汇创资本整理

从上述图表中可以看出，智能音箱用户以小白领、蓝领等一定消费能力的人群为主，智能音箱小白领用户占比更高。

与此同时，购买智能音箱的家庭属性也非常明显，已婚有孩子的用户占比更高。

购买智能音箱用户的家庭属性

来源：公开资料，汇创资本整理

纵观2017年中国智能音箱整体市场我们不难发现，200元以下产品的市场占比正在不断下降，300到600元逐渐成为主流价格段（市场占比达到80%）。至于2018年的市场走向将怎样转变，目前来看还很难判断。但可以肯定的是，最终主导市场的必然是那些真正找到用户痛点并带来颠覆性体验的产品，且不论价格高低，能够做到让用户自发购买，对于行业来讲才是良性和持久的发展。

国内用户购买的智能音箱

价格区间分布图

来源：公开资料，汇创资本整理

2016年整体智能音箱呈京东叮咚垄断的趋势，占比高达65%，飞利浦与JBL占比分别为14%、20%。2017年随着更多厂商加入到智能音箱的市场，整体市场格局发生了改变，叮咚的市场份额降到38%，小米紧追其后，占比32%。

2016年及2017年1-8月

市场销量占比情况

来源：公开资料，汇创资本整理

三、国内外主流智能音箱产品及厂商情况分析

国内外巨头不约而同瞄准了智能音箱，音箱是语音的载体，是声音的播放端，那么，再给它赋予一个声音的“拾取”和“植入”功能，从逻辑上是说得通的，于是一波音箱发布呈井喷之势，新一轮风口诞生。

国外主要智能音箱产品分析

来源：公开资料，汇创资本整理

国内主要智能音箱产品分析

来源：公开资料，汇创资本整理

（一）亚马逊-Echo

亚马逊公司整合电商、硬件、平台、内容等资源，形成完整的生态布局。

来源：公开资料，汇创资本整理

1.亚马逊较早进入智能家居领域，通过Alexa语音平台，接入其他智能硬件及第三方服务，已形成一定的智能家居体系。

2.亚马逊具有深厚的电商基础，并在内容、硬件、平台、云计算、物流仓储等领域布局，通过智能音箱整合软件+硬件+平台+内容资源，进一步盘活电商资源。

3.亚马逊Alexa平台及云计算平台为打通多个服务链条奠定了基础，在硬件操作、软件应用及内容观看收听中的海量数据被有效收集并整理，实现内容和服务的个性化。

4.亚马逊在中文语音识别方面缺少布局，目前没有进入中国市场，但其发展为中国市场提供了借鉴，多数厂商以Echo为对标，布局智能音箱。

（二）京东-叮咚

京东融合电商、硬件、内容资源、智能平台、音频联盟，构建多场景多终端的无界零售。

来源：公开资料，汇创资本整理

1.京东在2015年推出叮咚音箱，占据国内智能音箱市场的先发优势，叮咚音箱先后迭代推新，在用户使用习惯、用户需求等方面，京东已掌握较多有用的用户数据，有利于进一步优化叮咚音箱。

2.通过强强联合的方式，京东通过电商平台优势，整合行业中的技术厂商、内容厂商及第三方服务厂商，并发起“京东智能音频联盟”，向联盟内成员输出“JD+智能音频解决方案”，实现叮咚音箱产品与优质内容、服务的结合。

3.京东通过京东智能打造智能生态体系，建立京东Alpha智能服务平台，以京东微联为平台接入多种智能硬件产品，最终实现叮咚和京东微联智能家居的打造，目前叮咚拥有150多项服务并且拥有自主的开发者平台。

4.京东布局较早，在众多巨头纷纷加入后，需要不断创新以及巩固生态布局，来抵抗市场竞争。

（三）阿里-天猫精灵

阿里打通内容资源、电商资源、O2O资源，发展消费级AI产品。

1.阿里巴巴依托电商平台建立相对完善的生态体系，在内容、技术、O2O服务等方向上都有所布局、但硬件产品较少，硬件实力相对薄弱。

2.阿里成立人工智能实验室，发展人工智能技术，开发消费级AI产品，智能音箱将打通阿里现有的产业资源，实现硬件与软件的有效结合。

3.阿里以阿里智能为基础，建立阿里智能联盟，接入其他智能家居产品，通过智能音箱产品实现对智能家居控制，进一步扩大阿里在智能家居领域中的布局。

4.相较于市场中其他智能音箱厂商，阿里在生态上较为完善，但在硬件及智能家居领域中的布局有限。随着巨头相继发布新品，智能音箱产品将趋向标准，行业将逐渐成熟。

四、智能音箱构成及技术介绍

（一）智能音箱硬件分析

下图展示了 Echo 拆解后的部件。可以看到，智能音箱的硬件并不算复杂（相对于无人驾驶等“重型”AI 产品）。

Echo 拆解后的部件

1、外观设计

音箱ID设计除了出于美学和交互设计的考虑外，还要和音腔设计（影响音效）、麦列方案（影响语音交互）等相互耦合，需要通盘考虑。

2、扬声器

智能音箱本质上还是一款音箱，因此，提供用户认可的音质是产品存在的前提。但是智能音箱在扬声器的选择上，除了受到音箱尺寸限制，还要考虑麦列的拾音及后续的信号处理。

以Echo音箱为例，Echo采用封闭式扬声器设计，高音和低音喇叭上下相对，声音各个方向是对称的，这有利于前端信号处理，但音效会受到限制。

仅就音效而言，音腔越大越有利于设计，但这会导致最后智能音箱非常笨重。也因此，许多设计上都有音腔部分略微鼓起的外观设计（如叮咚）。

为了支持双工（例如，在播放音乐的同时可以对音箱下达命令），扬声器的功率不能太大，这样就限制了音箱的最大音量。反过来，如果要确保音箱有较大的音量，可能会限制双工条件下的音箱理解用户语音的灵敏度。

3、麦克风阵列

麦克风阵列（以下简称麦列），是由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的系统。简单而言，使用麦列而非单个麦克风，是为了在用户距离音箱较远时，依然能够正常的收听用户的语音指令。

智能音箱多使用环状麦列，目前以 6（+1）麦为主流方案，也有2、4麦和8麦的产品。

麦克风阵列分布图

麦列方案主要受成本和算法两个因素限制。一方面，虽然麦克风本身成本并不是特别高，但增加麦克风数量需要配套的增加采样等后续硬件的投入，会大大增加成本。另一方面，麦列涉及一系列算法，算法设计难度和计算复杂度都会随着麦克风数量的增加而加大。

在选择麦克风时，除了指向性、灵敏度、信噪比、频响范围、失真度等常规的参数要求，其安放位置、开口设计也要考虑ID设计和扬声器的位置、功放等，需要全盘考虑。

4、主控板

本质上与手机等移动设备的主板并无差别，包括主板、CPU、存储器等。主控板的选择要在满足响应延迟的前提下，尽量压缩成本和功耗。

主控板内部结构

（二）智能音箱算法介绍

总体而言，音箱工作时，麦列始终处于拾音状态（持续对声音信号进行采样、量化）。经过基本的信号处理（静音检测、降噪等），唤醒模块会判断是否出现唤醒词。如果出现唤醒词，后续语音会进行更复杂的语音信号处理，（理想情况下）得到干净的语音信号，开始真正的语音交互流程。

智能音箱工作原理

1、前端信号处理

（1）语音检测（VAD）

语音检测（英文一般称为Voice Activity Detection，VAD）的目标是，准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段（静音或噪声）信号。由于能够滤除不相干非语音信号，高效准确的 VAD 不但能减轻后续处理的计算量，提高整体实时性，还能有效提高下游算法的性能。

VAD 算法可以粗略的分为三类：基于阈值的VAD、作为分类器的VAD和模型VAD。

（2）降噪

实际环境中存在着空调、风扇以及其他各种各样的噪声。降低噪声干扰，提高信噪比，降低后端语音识别的难度。

常用的降噪算法有自适应LMS和维纳滤波等。

（3）声学回声消除（Acoustic Echo Cancellaction, AEC）

AEC的目的是，在音箱扬声器工作（播放音乐或语音）时，从麦克风中收集的语音中，去除自身播放的声音信号。这是双工模式的前提。否则，当音乐播放时，我们的声音信号会淹没在音乐声中，不能继续对音箱进行有效的语音控制。

（4）去混响处理

混响对于人耳完全不是问题，但是，延迟的语音叠加产生掩蔽效应，这对语音识别是致命的障碍。对于混响，一般从两个方面来尝试解决：

1）去混响；

2）对语音识别的声学模型加混响训练。由于真实环境的复杂性，一定的前端去混响算法还是非常有必要的。

（5）声源定位（Direction of Arrival estimation, DOA）

声源定位是根据麦列收集的声音语，确定说话人的位置。DOA 至少有两个用途：用于方位灯的展示，增强交互效果；作为波束形成的前导任务，确定空间滤波的参数。

（6）波束形成（Beam Forming, BF）

波束形成是利用空间滤波的方法，将多路声音信号，整合为一路信号。通过波束形成，一方面可以增强原始的语音信号，另一方面抑制旁路信号，起到降噪和去混响的作用。

2、唤醒

出于保护用户隐私和减少误识别两个因素的考虑，智能音箱一般在检测到唤醒词之后，才会开始进一步的复杂信号处理（声源定位、波束形成）和后续的语音交互过程。

一般而言，唤唤醒模块是一个小型语音识别引擎。由于目标单一（检测出指定的唤醒词），唤醒只需要较小的声学模型和语言模型（只需要区分出有无唤醒词出现），声学打分和解码可以很快，空间占用少，能够在本地实时。

3、语音交互

语音交互基本流程

（1）语音识别（Automatic Speech Recognition, ASR）

语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前，基于近场信号的、受控环境（低噪声、低混响）下的标准音语音识别能够达到很的水平。然而在智能音箱开放性的真实环境，语音识别依然是一个不小的挑战，需要接合前端信号处理一起来优化。

（2）自然语言理解（Natural Language Understanding, NLU）

可以将基于框架的（frame-based） NLU 分为三个子问题去解决：

（3）对话管理（Diaglou Management, DM）

多轮对话对于自然的人工交互非常重要。比如，当我们询问“北京明天的天气怎么样？”，之后，更习惯追问“那深圳呢？”而不是重复的说“深圳明天的天气怎么样？”

（4）自然语言生成（Natural Language Generation, NLG）

目前完全自动化的 NLG 方法还不成熟。实际产品中，多采用预先设计的文本模板来生成文本输出。比如，播放歌曲时，生成语句为：“即将为您播放【歌手名】的【歌曲名】”。

（5）语音合成（Speech Synthesis）

语音合成又叫做文语转换（Text-to-Speech，TTS），更常见可能是 TTS 这一称呼。TTS 的终极目标是，使机器能够像人一样朗读任意给定的文本。

评价实用的语音合成系统的两个主要的标准是：可懂度（人能够听懂）和自然度（使人听着舒服）。目前，可懂度的问题基本得到解决。参数合成和拼接合成是TTS的两种主要合成方法，其中，参数计算量小，部署灵活，但自然较差；拼接接近真人发音，存储和计算资源高，一般只能在线合成。

（三）麦克风阵列研究

简单来讲，麦克风阵列是由2个及以上麦克风按一定规则排列组成，在特定空间对声音进行获取和处理的录音系统，它是远讲语音（超过1米以上）设备的一个关键部分。

麦克风阵列的功能就是拾音。在远讲语音设备中，麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法，有效拾取声音，从而保证具体场景中语音的识别率。而拾音又分为远场拾音（1米外）和近场拾音（20cm内）。

1、麦克风阵列中的关键技术

（1）声源定位

声源定位的任务就是在具体场景中，甚至从噪音中找到发出声音的“你”，以便后续的波束形成。它是基于麦克风阵列对目标信号（声源）的位置探测，确定在特定空间中说话者的位置关系。尤其是在移动场景中，实时的声源定位就显得重要。

（2）波束形成

波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理，从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰，不仅抑制噪声也包括其他方向的人声。

（3）噪声抑制

你在卧室中开着电视，是很难唤醒在你床上睡觉的iPhone中的Siri的，这就是它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱，这正是噪声抑制的作用。

简单来讲，噪声抑制就是在目标信号和干扰噪声中，保留目标声音，削弱周围的噪声，从而保证获取的目标声音信号相对清晰，再结合云端相匹配的语音识别算法，实现有效识别理解。

（4）抗混响

混响就是声源发出后，在空间中经过多次物体（墙壁）的反射和吸收，若干声波混合在一起所形成的现象，它会影响语音信号的处理，声源定位的精度以及语音识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。

（5）回声抵消

回声抵消简单来讲，就是不让语音设备自己发出的声音干扰到拾音过程。比如在智能音箱播放音乐时，你唤醒设备并下达命令，这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音，而回声抵消就是要去掉其中音乐的声音并保留人的声音，以供云端进行语音识别。

（6）语音增强

在家居环境中，存在着背景噪音、回声、混响等噪音干扰，这些噪音相互叠加严重影响语音识别效果。除了降低各种噪声外，还可以从语音增强进行改善。

远距离拾音的另一个问题就是获取的语音信号较弱，需要通过麦克风阵列进行噪声分离，提取目标信号，并增强语音信号的能量，从而提升语音识别效果。

2、消费级麦克风阵列主要企业介绍

（1）科大讯飞——国内语音龙头

科大讯飞是国内一家老牌智能语音公司，其有一个专门的团队在研究麦克风阵列技术。目前在讯飞开放平台上，提供二麦线性阵列、四麦线性阵列和六麦环形阵列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。

叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的，其中科大讯飞提供语音语义等技术支持。叮咚音箱A1是国内第一款真正意义上的智能音箱，于2015年8月正式推出，它采用7+1麦克风阵列，豪恩声学提供的ECM麦克风，并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能音箱置于顶部，而是位于主控电路板下面，并采用中空结构，麦克风向外侧倾斜拾音，颇具创意。

（2）科胜讯——国际语音方案巨头

科胜讯成立于1999年，曾是全球最大的独立通讯芯片提供商，后来几经波折被新思科技收购。在语音交互领域，它主要提供语音芯片和麦克风阵列技术，其方案最大优势在于降噪和语音增强算法，技术打磨也更加成熟。难怪科胜讯总裁Saleel Awsare会说，其双麦克风就可以实现友商5-8麦克风的解决方案的效果。

亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其客户、合作伙伴。科胜讯为Alexa Voice Service (AVS) 量身定做了AudioSmart 语音处理开发套件出货量已超过3000万套，涵盖智能音箱、智能家居、智能电视、机器人等多个品类。出门问问刚刚发布的智能音箱也采用科胜讯的方案，此外，苹果HomePod也可能采用了科胜讯AudioSmart开发套件。

（3）先声互联——阵列研究先行者

先声互联是一家成立于2016年的创业公司，主要提供麦克风阵列以及前端信号处理技术。其创始人付强曾在中科院声学所有10余年的声学研究，在语音信号处理领域有20余年的积淀。先声互联目前主要提供两麦、四麦、六麦等解决方案，在抗混响、回声消除、语音增强等方面表现不俗。

先声互联是百度的合作伙伴，其多麦克风硬件开发套件也应用在百度DuerOS平台中。目前，物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。此外，先声互联也正在和腾讯、联想、小米等公司就某些智能硬件产品展开合作。

（4）思必驰——成熟方案输出商

思必驰成立于2007年，是一家面向B端客户的语音语义技术提供商。其副总裁雷国雄告诉智东西，思必驰从2012年就开始研究麦克风阵列技术，并配备一个专门的团队研究语音信号处理，结合思必驰的语音进行优化。目前思必驰提供单麦、两麦、四麦、六麦等解决方案，经过5、6年时间的积累，在性能和稳定性上均表现不错。

近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列，模拟麦克风则来自敏芯微电子，天猫精灵在降噪、回声消除等拾音方面均有不错表现。此外，联想、小米、美的、360、DOSS等都是其客户。

（5）声智科技——新起之秀

声智科技也成立于2016年，提供麦克风阵列以及远讲算法，目前其推出了单麦、两麦、四麦、六麦、八麦的阵列解决方案，也有不错的表现。有趣的是其创始人陈孝良也来自中科院声学所。

最新发布的小米AI音箱，就采用了声智科技的环形6麦克风阵列和唤醒技术方案。声智科技也是百度的合作伙伴，推出了基于DuerOS的语音解决方案。此外，腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。五、麦克风阵列：两路分化

目前，智能音箱中的麦克风阵列呈现两路分化，主要包括环形和线性。亚马逊Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似，都使用6（+1）、7（+1）个麦克风的环形阵列，而Google Home、出门问问的问问音箱则采用了2麦克风的线性阵列。

3、麦克风阵列在远场交互中存在的问题

第一，误唤醒是一个问题。

表面看这个是唤醒的问题，但实际跟阵列有较强的关系，唤醒拿到的是阵列拾音的信号，阵列对信号噪声处理效果的好坏直接影响到误唤醒。

第二，声源定位需要提升。

在声学环境中，尤其是在反射较强、回声较强、噪音环境下，声源定位需要较大的提升空间。

第三，动态环境中对用户位置的跟踪也需要提升。

在家庭场景中，人会处于一种移动的状态，唤醒和指令可能不在同一个方位，在下一次人机交互中会重点处理刚刚那个方向的信号，如果房间存在多个音源，就可能无法执行指令。

第四，麦克风阵列无法同时进行多人声的识别和处理。

当下的波束形成和噪声抑制，会使阵列在同一时间处理同一个方向的声源，从而抑制其他声源，这就意味着当下的技术路线下，机器无法同时与多人进行交互。

（四）国内外主要智能音箱产品技术参数

国内外主要智能音箱产品技术参数

来源：公开资料，汇创资本整理

五、中国智能音箱产业未来发展趋势

（一）智能音箱市场未来发展机遇

来源：公开资料，汇创资本整理

（二）智能音箱市场发展瓶颈

中国尚未建立完全的智能家居生态体系，使用场景碎片化、硬件操作复杂等问题未解决，消费者无法体会智能家居的智慧和便捷。例如，西方使用开放式的厨房与客厅消费者本身有客厅使用音箱的习惯，而中国的厨房烹饪环境嘈杂、油烟重，厨房客厅相对封闭，家庭使用音箱频次并不高。

此外，智能家居缺乏配套法规和统一标准，产品良莠不齐，消费者体验较差。目前消费者使用智能音箱内容方面的功能偏多，中国智能家居的市场需要一个能直击消费者痛点的单品来颠覆消费者思维,让消费者形成智能家居思维。

厂商纷纷扎堆语音交互技术而忽略了消费者的体验，远场识别差、误唤醒率高、连续对话功能不稳定、语义理解能力差是目前消费者不满意的主要原因。

我国的智能音箱虽然数量上出现爆发式增长，但是产品同质化严重，家庭普及率并不高，许多消费者只是带着好奇的心态体验“新品”，更多是把智能音箱当做装饰品，而没有当作家居必备品。因此，企业应该注重消费者体验，解决消费者痛点，打造真正实用、居家必备的智能音箱才能突破市场瓶颈。

（三）2018年智能音箱市场七大预测

1、智能音箱整体向好

2018年市场规模成倍增长几乎成为行业共识，市场规模预计将突破500万。2017年各种唱衰、质疑的声音，随着智能音箱产业链的发展已逐渐褪去。

2、智能音箱持续爆发

互联网巨头接下来围绕抢占市场的持续补贴、用户认知度提升、整体产业链的成熟、用户体验的提升等，是2018年智能音箱持续爆发的主要动力。

3、音箱产业升级

智能音箱替代蓝牙音箱（传统音箱）已成为趋势，音箱产业迎来升级。

4、语音向人机交互界面演变

2018年会成为国内智能音箱的分水岭，智能音箱不再受限于现在的形态，语音交互会根据使用场景来满足用户独特的需求，语音向人机交互界面演变。

5、新的行业格局涌现

一方面互联网巨头之前可能会出现阵营的分化，另一方面创业公司会针对细分场景打造差异化的产品与服务。

6、语音交互生态发展

国内语音交互生态较弱，主要表现在语音交互技术和内容与服务两方面，这是2018年行业需要继续发力的部分，否则将限制智能音箱以及智能语音产品的发展。

7、解决用户痛点

寻找用户的刚需性场景，解决用户的痛点性问题将是下一阶段的重中之重，它事关用户粘性、用户口碑以及智能音箱的进一步爆发。

上一条: 直饮水行业研究报告

下一条: 半导体行业研究报告