深度|当监控摄像头有了AI大脑,是福还是祸?
我们通常会把监控摄像头想作是电子眼。对此,不同的人看法也大相径庭,有人认为电子眼是在监控我们,有人认为它在帮助我们密切注意环境。但实际上,它们更像是舷窗:当有人通过舷窗看时,它们才有用武之地。有时候这意味着人们会从磁盘录像中查看现场画面。但是大多数监控摄像头都是被动观察者。它们只是用作震慑,或是在出现问题时提供线索。你的汽车被偷了?那就去查看闭路电视监控吧。
不过这一情况正在发生改变且以一种很快的速度。人工智能为监控摄像头配备了数字大脑来匹配眼镜,并让其无需人力参与就可自行分析现场视频。这对公共安全来说也许是好消息,它可以帮助警察以及第一目击者更容易得发现犯罪或事故。此外,它还可以广泛应用于科学和工业。但是这却会严重侵犯未来的隐私并对社会公平带来新的风险。
如果政府通过闭路电视能够追踪到大量人群,那会发生什么情况呢?如果警察在数据库中仅仅通过上传侧面照片,就能以这种电子方式在城市里跟踪你呢?如果在当地购物中心,摄像头运行的是一个具有偏见的算法,它会因为不喜欢某一类型的年轻人就去通知警察吗?
这些情况也许距离我们还很遥远,但当下我们已经发现人工智能结合监控会带来什么样的后果了。ICRealtime就是一个例子。去年十二月发布的旗舰产品被称作是闭路电视界的Google。有一个叫做Ella的应用及网页平台就是利用人工智能分析视频中发生的事情并且使其提供及时搜索。Ella可以识别成千上万种自然语言查询,用户可以搜索镜头从而找到呈现特定动物、穿着某种颜色衣物或是单个车型的片段。
在网页演示中,ICRealtime的首席执行官MattSailor向我们展现了Ella与大约40个摄像头连接起来对一个公园实施监控。他输入了各式各样的搜索内容红衣服的男士、UPS火车、警车几秒钟时间内,所有关键词都得到了相关的影像片段。之后,通过限定时间和地理位置,他将搜索结果的范围缩小了并展示了用户可以如何表达赞成或是反对从而优化结果就像Netflix一样。
举个例子,某地发生了一起抢劫,但你不知道实际情况到底如何。Sailor说道,但抢劫发生之后,有一辆Jeep牧马人向东加速驶去。所以我们就输入‘Jeep牧马人’,然后我们就可以获得影像片段了。屏幕上开始出现片段,显示出镜头前滑过的多辆Jeep牧马人。Sailor表示这是人工智能和闭路电视结合的第一大优势:更容易去找到你要寻找的内容。没有这项技术,除了摄像头,你什么都不知道。你需要连续数小时观看影像从而进行筛选。他解释道。
Ella在GoogleCloud上运行,它可以从几乎任何一个闭路电视视频系统中搜索镜头。Sailor表示:从单摄像头系统例如保姆摄像头或宠物摄像头到拥有成千上万摄像头的企业系统,Ella都能适用。用户每月支付费用,起价为大约7美元,总价会根据摄像头数量的增加而增长。
ICRealtime的目标受众是各种规模的企业,但它也认为这一技术能够吸引个人消费者。新兴市场上,亚马逊、Logitech、Netgear以及谷歌旗下的Nest智能家居已经让这些顾客开始广泛使用安防摄像头。但是Sailor表示这一技术要比ICRealtime简陋得多。这些摄像头连接到家庭WiFi上,通过应用程序提供实时视频流。当它们发现有东西在移动的时候,它们就会自动记录影像。但是Sailor表示它们无法区分闯入者和鸟类的区别,这就会导致很多误报。这是非常基础的技术,已经存在很多年时间了。他说道,这不含人工智能,也不包括深度学习。
这种情况不会持续太长时间了。虽然ICRealtime提供的云分析工具可以升级现有傻瓜式的摄像头,其他公司则是直接将人工智能嵌入在硬件里。BoulderAI就是这样一家初创企业,公司利用自己独立的人工智能摄像头推出视觉即服务。在设备中结合人工智能带来的优势在于,它们无需互联网连接就能工作。BoulderAI向各行各业出售产品,为每位客户量身定制机器视觉系统。
这些应用已经遍布各行各业了。创始人DarrenOdom在采访中这样说道,我们的平台出售给了银行业、能源业的公司。我们甚至有一个应用是去观察披萨,决定它们的形状和大小是否合适。
Odom还举了一个在爱达荷州建造水坝的客户例子。为了符合环保规定,他们正在监控设施顶部的鱼类数量。Odom表示:他们过去是安排了一个人坐在窗口看着鱼梯,数有多少条鲑鱼游过。(顾名思义,鱼梯就是一条阶梯式的航道,鱼类可以借此向上游。)之后,他们转而使用视频技术,有人(远程)进行监控。最终,他们联系到了Boulder公司,后者为其打造了一个定制化的人工智能闭路电视系统,从而识别通过鱼梯向上游的鱼的种类。我们真的可以通过计算机视觉来识别鱼的种类。我们现在能够100%的识别爱达荷州的鲑鱼。odom骄傲地说道。
如果ICRealtime代表的是市场的通用端,那么Boulder则呈现了精品承包商可以在这个市场上做些什么。这两种情况下,这些公司现在提供的服务不过也只是冰山一角。就像机器学习在识别物体能力方面取得迅速进步一样,它分析场景、活动和动作的能力也有望快速提升。一切准备工作都已经完成,包括基础研究、计算能力和训练数据集这是创建出色人工智能的关键要素。视频分析的两个最大数据集来自YouTube和Facebook,两家公司都希望人工智能帮助它们控制平台上的内容(不过两家公司也都承认现在还没有做好准备)。例如说,YouTube的数据集包含超过45万小时带标签的视频,公司希望这能够激发视频理解的创新和进步。参与构建此类数据集的机构有很多,这也让我们对该领域的重要性有了一些了解。谷歌、麻省理工学院(MIT)、IBM和DeepMind都参与进来并创建了类似的项目。
ICRealtime已经在致力于开发面部识别等高级工具了。之后,它想要分析屏幕上发生的情况。Sailor表示他已经和教育行业的未来顾客进行过交谈,对方希望当学生在学校遇到麻烦的时候,监控能够识别出来。比如说,他们对于发生打架的预先通知这一功能很感兴趣。他说道。所有的系统都需要注意聚集在一起的学生,之后提醒某个人,他就可以查看视频内容来看看发生了什么或是亲自去调查。
Boulder也在探索这类高级分析。公司正在开发的一个原型系统就是分析银行内人们的行为。我们专门寻找坏人,并且区分正常人的行为和越界者行为之间的区别。Odom说道。为了做到这一点,他们使用旧的安全摄像头拍摄的影像来训练系统来发现异常行为。但是这种视频大多低质,因此他们也会找一些演员来拍摄训练视频片段。Odom没有讲述具体细节,但表示这个系统会寻找特定的面部表情和行为。我们的演员会做一些类似蹲伏、推挤以及回头撇的动作。他说道。