[field:fulltitle/]

科技之窗 > 互联网 > 正文

我们教机器认识你的美
2018-06-29 14:05  未知    我要投搞

  作者:是深圳市赛为智能股份有限公司人工智能研究院 


    院长  王秋阳 

    算法工程师 吴亦歌

    宋代禅宗大师青原行思曾提出参禅的三重境界:参禅之初,看山是山,看水是水;禅有悟时,看山不是山,看水不是水;禅中彻悟,看山还是山,看水还是水。这三种境界,从本质上其实是展示了人“看见”的过程,以及思维与理解在这一过程中所起到的作用。 
     
    “看见”,首先是视觉识别的意思。对于人类而言,似乎是一个很简单、自然的事情,实则不然。从地球上第一个长出眼睛的三叶虫,到今天的人类视觉,中间经历了五亿四千万年的漫长旅程。人类获得今天的视觉能力,是大自然长期进化的结果。在漫长的过程中,大自然更多的是帮助我们进化大脑内用于视觉处理的器官,而不是眼睛本身。所以,“看见”不仅仅是从眼睛采集光线获得信息,还需通过大脑处理才能使这些信息产生正真的意义。       

    当今时代,风云变幻,在科技发展上的道路上,人类社会已取得了前所未有的进步。我们可以通过火箭将人类送上太空,可以通过手机和互联网随时随地的与人交流,也可以通过飞机在一日之内将人送往全球任意一个地方。但是,我们依然会面对这样的困境:即便是我们最先进的机器和超级计算机,也会在“看见”这个问题上手足无措。

    对于研发人员来说,前些年,我们开发了地铁综合监控系统,但是没有敏锐的机器视觉,帮我们对人流和突发事件进行最高效分析;我们的无人机可以携带重物飞越广阔的土地,却没有足够的视觉技术,去帮助我们追踪太阳能板的损坏情况;我们做过许多重大的安防项目,部署成千上万的安防摄像头,但当有险情发生时却不能百分之百实现及时报警。这都是我们在计算机视觉领域不得不面对的难题,和亟需突破的瓶颈。 
      
    这两年,包括百度、阿里、赛为智能、商汤科技等都相继成立了人工智能的研究机构,都在不断优化人脸识别技术,寻找适配场景。 
     
    人脑的视觉任务,本质上是人脑对外界视觉信号作出反应的过程,那么,通过对人脑的工作原理进行分析和模拟,是否能够为计算机视觉提供一些启发,让机器“看山是山”呢?基于上述的部分应用场景,我们组建了专业的研发团队,明知山有虎,偏向虎山行,集中优势资源和人才,重点对机器视觉领域进行专项研究。 

    “看见”为什么这么难,你可能在内心提出这样的疑问。其实,在我们的日常生活中,相机获取照片的方式是这样的:它通过捕获光线,转换成二维数字矩阵——像素来存储。但这些都是数字,本身没有任何意义。就像拍照和“看见”完全不同。通过“看见”,意味着我们实际上“理解”了这幅画。 
      
    教计算机去“看见”,如何“看见”,这就是计算机视觉和深度学习的主要研究领域,也是人工智能的重要分支领域。自从人工智能研究所成立以来,我们把重点放在让机器像我们一样看见事物上,例如识别物品、识别环境、辨别不同的人、推断人脸的姿态、理解人与人的关联、人的情绪、动作和意图。最终的目标就是,只需对一个画面看一眼,就能理清整个图片中的人物、动作和环境。 
      
    要实现这一目标,我们首先要教计算机“看到”对象,这是建造机器视觉的基石。这个人物看上去很简单,但是识别的过程确相对比较复杂。想象一下这个教学过程,首先给计算器进行特定物品图片的训练,例如人脸图片,让它从成千上万次的反复的训练中,总结特征,构建出对应的识别模型。 
      
    这有多难呢?人脸看起来,就是一些形状和特征拼凑起来的图形罢了。最传统的特征匹配识别方法,是告诉计算机:“人”有着圆脸、中间有鼻子、上面有眼睛,下面有嘴巴、两个耳朵分别在左右,而且这看上去挺美的!但在实际的场景中,我们还会遇到多种多样的人脸,例如倾斜的人脸、遮挡的人脸以及非活体的人脸(静态、或者动态的人脸照片)。简单的人脸,在计算机的视角下,有着无限种变化的外观模型。所以,我们采用新的识别方法,从新的视角来描述这个人脸。 
      
    大家都知道,没有人教婴儿如何“看”,尤其是在他们很小的时候,但是他们却可以从现实世界中学会这一点。简单来讲,我们可以把孩子的眼睛当成生物摄像机,大脑是后端的处理系统。他们一秒能就能拍5张照片,到三岁的时候,一个孩子已经看到了数亿张真实世界的照片。如果换成计算机,那么可以说所用于“训练照片”的数量是非常大的。这给予我们很大的启发。我们的研究方向不再是孤立地只关注算法的优化和再优化,而要同时去为算法提供海量的训练数据,用数据为机器视觉的算法提供训练和支持。 
      
    目前,国内应用的人脸识别的基础数据多数是国际上的通用数据,多数是西方的人脸数据。赛为智能做建筑、交通智能化起家,后来又涉足智慧城市,同BAT一样,积累了大量的数据,结合公司的业务,大量采集人脸数据,自主建立了标准的海量人脸数据库,数据库以亚洲人种为主,包含完整的人脸关键特征点、多角度的人脸姿势,同时覆盖了不同时间空间(时空)中的同一人群。无论是质量还是数量,都是一个非常丰富的人脸数据库,这对于我们人脸识别的研究大有裨益,特别在智慧城市的场景下,拥有良好的适配度。 

    有了用来培育计算机大脑的数据库,我们接着针对算法展开研究。赛为智能海量人脸数据库所包含的的信息数据,适用于一些特定类别的机器学习算法,即卷积神经网络。人类的大脑是由数亿紧密联结的神经元组成,为了模拟人脑,我们从神经网络中最基础的运算单元——“神经元节点”开始构建。计算机所模拟的神经元节点模型是一个包含输入、输出与计算功能的模型。每个节点从其它节点获取输入的信息,然后通过计算,将自己的输出信息传递给下一个节点。这些神经元节点就像大脑中的神经网络一样排列,最后组成卷积神经网络。在自主建设的海量人脸数据库的数据支持下,我们通过大量的GPU集群训练这个模型,最后得到人脸识别模型。  
      
    而为了训练计算机看懂图片并输出正确的结果,我们需要进一步结合大数据和深度学习算法。通过多次迭代和更新算法,我们的人脸识别sdk可以在分类输入图片的同时,采集和更新数据库,进行学习,不断的学习和总结所获得的视觉信息,让整个系统不断的优化自己。现在,赛为智能人脸识别sdk4.0项目,已阶段性结项。我们把所有技术结合在一起,研发出赛为智能的人脸识别sdk4.0和跨平台人脸识别系统。这些系统在看到图片的第一时间,就能自动检测和识别人脸,并且输出人脸的特征点和各类属性。同时,不断的采集和更新数据库,让人脸识别更精确,有效的对抗时间和空间的变化,性能更佳。 
      
    但这并不是我们的最终目标。计算机实现的功能尚未达到,或者超过人类的能力。到现在,我们还只是完成了让机器“看见”对象,而真正地实现让计算机“看懂”这个世界,我们仍然任重而道远,这也是整个行业正在不断努力前行的方向。 
      
    前路漫漫,真正的挑战,存在于未来的每一天,而我们将会倾注心血,与机器视觉技术一起成长。赋力机器,赋能技术,不远的将来,人类的眼睛将不再孤独地思考和探索我们的世界。我们将不止借助机器的视觉、听力以及智力,我们还要以一种前所未有的方式,与它们合作共生。这也是我们人工智能研究院全体同仁的追求。 
      
    赋予计算机智能,赋予机器智能,赋予未来智能。赋能世界,在人类科学技术的不断发展之下,我们终将为生存的家园,创造更美好的明天。      

关键词:

责任编辑:中国商业电讯