智能音箱在传统音箱的基础上，添加语音交互能力和互联网、物联网协议能力，正在成为智能家居的交互入口。

智能音箱功能

为了支持以上能力，智能音箱应具备：

语音交互
提供本地/流媒体的内容服务
场景化智能家居的控制能力

硬件实现上，应支持：

Wi-Fi 连接（访问互联网服务）
蓝牙连接（访问手机本地媒体或本地智能设备）
物理接口连接（可选，如USB等支持本地媒体播放）
智能家居组网协议（如zigbee协议等）

智能音箱组网模式

一般地，用户通过手机端app进行全面操控，例如用户注册，登陆，各种基础和个性设置以及服务内容定制等。手机端app只和远程云服务器进行通信，云服务器，将用户指令转发给智能音箱，智能音箱响应云服务器下达的指令。响应结果再通过云服务器反馈到手机端并展示给用户。当然，用户可以通过语音交互直接和智能音箱交流，智能音箱接收到语音信息后，将语音信息打包转发给云服务器进行解析。云服务器将语言信息转义后形成指令再次返给智能音箱进行执行，执行结果通过云服务器再次反馈到手机端展示给用户。云服务器和智能音箱之间的通信协议，各家都不同。例如，小米之前使用过miio协议等。智能音箱作为智能家居中一个重要设备节点，当然也支持与第三方设备进行控制协议交互，使用的通信协议通常是自定义的。对于智能音箱本身，通常自身具备连接局域网WiFi的功能。下图为智能音箱组网模式。

智能音箱安全风险

智能音箱的安全风险主要存在于智能音箱设备端、智能音箱APP及智能音箱的第三服务及互联协议三部分。

启明星辰在对音箱的安全研究期间，共向CNVD（国家信息安全漏洞管理平台）及CNNVD（中国国家信息安全漏洞库）提交了十多个设备安全漏洞，部分设备的编号及说明如下表所示。

漏洞编号	漏洞危害	漏洞级别
CNVD-2019-13611	完全控制设备	高危
CNVD-2019-06254	完全控制设备	高危
CNVD-2019-05626	完全控制设备	高危
CNVD-2019-05625	完全控制设备	高危
CNVD-2019-07688	播放恶意音频	中危
CNVD-2019-09098	完全控制设备	中危
CNVD-2019-12775	内容窃听	中危
CNVD-2019-12111	信息泄露	低危
CNVD-2019-13278	信息泄露	低危
CNVD-2019-15526	播放恶意音频	低危

设备端风险

开放的调试接口

为了生产及维护环节的便利，许多智能音箱都开放了对外的调试接口，这些接口包括usb调试口、TTL调试口。通过这些接口，厂家可以对问题设备的固件进行更新。但是这些开放的调试接口同样为攻击者提供了分析固件和设备攻击提供了便利，更进一步的攻击者可以向设备安装恶意的固件，然后投放到市场销售。

内置的后门

在智能音箱的固件分析中，我们发现部分厂家在固件中设置了后门，使得厂家可以在用户不知情的情况下，可以远程地控制全网所有音箱，并执行任意系统命令，对用户隐私及设备安全造成了极大隐患。

未授权开放的端口

部分音箱开放了部分的开放端口，通过这些开放端口，利用未授权的开放端口，攻击者可以控制音箱播放恶意音频或者进行录音。
某智能音箱监听8080端口，如果攻击者通过向该8080端口发送相关的控制命令即可完全控制音箱设备。

开放未授权的 DLNA 服务

我们发现部分音箱开放了未授权的DLNA服务，局域网内的攻击者可以攻击者可以控制音箱播放恶意音频或者是中断音箱正在播放的内容。这种攻击对于运用于公共场所的音箱，有很大的安全隐患

代码缺陷

部分音箱在代码实现上存在缺陷使得攻击者可以通过命令注入漏洞开启telnet服务，并完全控制音箱设备实现对设备的录音等恶意操作。

APP侧风险

申请过多权限

APP申请权限过多的问题比较严重，在我们测试的国产音箱中，该问题全部存在。其中过度的权限包括但不限于APP读取短信，读取手机的识别码，发送/读取短信/彩信的权限，打开摄像头的权限，读取用户通话记录及已手机已安装应用信息，拨打电话，使用呼叫转移，读取运动数据的等敏感权限。

APP 通信

通信协议未加密问题，使得攻击者可以利用这些暴露的安全问题，获得设备的控制权。

设备互联及第三方服务风险

设备间互联互通协议

在智能家居的场景中，智能音箱起到了控制中心的地位，智能音箱通过识别用户的语音命令，通过智能家居的互联协议控制其他家居设备。我们在研究智能音箱的时候，发现部分厂家在智能家居设备的互联协议中没有采用必要的安全审核机制，特别是设备和设备之间合法性验证。攻击者利用这些设计缺陷就可以窃取音箱的语音命令内容或者非法控制其他智能家居设备。

声纹识别算法缺陷

在某款用于购物的音箱设备中，采用了声纹识别的技术用于用户的交易身份的鉴定，但是我们的测试中，发现声纹识别的误识率较高，在生物识别技术中（如虹膜，指纹，指静脉），由于声纹技术及设备成本的约束，声纹识别的识假率较低。有些厂家的声纹技术无法对抗录音及人声模拟的攻击，而这些攻击手段对于攻击者来说是较简单的。

本文摘自《启明星辰ADLab：智能音响网络安全与隐私研究报告》

SwordFaith's Blog

智能音箱安全风险概览