什么是百度ai的人脸识别软件客户端

480几天前,陆奇嫌硅谷的自行车不好骑,回到国内上了李彦宏的车。但,陆奇和李彦宏并没有熬过第二个年头的“5.20”。“从七月起,陆奇将不再担任百度总裁兼首席运营官。”李彦宏在周末来临的前两个小时给到的内部公开信。昨天,陆奇离职后的第三天,他再次出现在了百度的内部会议室,与会人员包括李彦宏在内的百度所有高管。陆奇用10分钟的参会时间回答了崔姗姗的“三问”,可以总结为:1.离开是因为个人以及家庭原因;2.百度的管理层完全没问题;3.Robin是我的朋友。10分钟后,陆奇便转身离开,坐上了去往下个目的地的航班。这一转身,宣告百度“决战AI时代”战役的正式易帅,而挂帅的正是李彦宏本人。百度能从O2O的泥潭里跳出来,陆奇功不可没。很少夸人的李彦宏也在那封内部信中对陆奇表示了充分的肯定,完全不吝溢美之词。回想在一年之前,百度还没有“ALL IN AI”,那时百度的市值在600亿美元来回徘徊;而就在上周五,李彦宏发出那封内部信时,百度的市值已超过980亿美元,直逼千亿级大关。但陆奇离职的第二天,百度股价应声下跌100亿美元。而最近百度事件频出,在今天的百度联盟大会上,李彦宏本人也没有亲自现身。而百度几乎就是靠着AI事业,将自己的市值一度上升到了近千亿美元。在“梭哈AI”之前,百度充分体现了规避风险的完美准则——不把鸡蛋放在同一个篮子里:O2O、医疗、外卖、金融……都是百度的大菜。如同赌博,“ALL IN AI”之后,要么盆满钵,要么连底裤都输光。但这次,李彦宏没选错,一年多的时间里,百度触底反弹,减负减重,熬过了寒冬。而这件御寒的外衣,便是百度的AI事业。下车的陆奇,执旗的李彦宏,百度“ALL IN AI”的下半场赌局将怎样继续。当更多的目光在关注百度轶事的时候,锌财经却跑到了一线,探访百度的AI下半场如何走。1百度的AI事业不能停陆奇转身离开后,李彦宏在会上明确表示:“夯实移动基础,决胜AI时代”的发展战略不会变。陆奇走了,百度的AI事业并不能停。而锌财经也探访正在巡演的百度AI开发者实战营杭州站,“ALL IN AI”的战略,依然并没有因为谁的离开而阻滞。从北京到深圳,再到杭州,以及接下来的成都,百度第二季AI开发者实战营依然按着计划在做着巡演。百度的AI生态链依然在向每一个角落。从李彦宏在去年7月份百度的AI开发者大会上,宣布“百度会把在AI领域积累的技术能力与业界共享”之后,百度的AI生态链布局一刻也没有停下来。开发者大会上,百度已经宣布语音和人脸识别生态开放。在正在巡演的百度AI开发者实战营中,百度又陆续宣布了新的开发平台:1:正式开放EasyDL,推进AI平民化;2:调整人脸识别商用借口,为企业减少40%成本;3:语义全无偿开放;4:全面开放人脸识别离线能力,所有能力仅需一个SDK;“百度AI的各个子平台都会以一个越来越开放的姿态展现给外界。”锌财经从百度AI技术生态部资深产品经理靳伟那里了解到。靳伟也表示,大部分的资源会以免费的方式开放。李彦宏说:人工智能会像电流一样普遍。而百度也把赌注压到了未来。作为巨人之一的百度,每一项技术和平台的开放,本身就明示了行业的发展方向。在百度的战略意识里,靠技术赚钱是不会长久的。技术本身不惧价值,最终的目的也一定是落入场景。百度“ALL IN AI”的押宝,也绝不是赌徒心态。做搜索引擎起家的百度,已经拥有了近20年的技术积累。作为AI的雏形,搜索业务本身就是深度学习的早期应用。近20年的运作,让百度也积累了一大波核心的技术人员以及数据积累。百度的“ALL IN AI”,看似像巨人转身,难免重心不稳。但实则把搜索业务链接到AI,是一个及其自然的过渡。而这些,也足以让百度在“ALL IN AI”的牌桌上不虚任何一个对手。2上半场的布阵,下半场的战役在百度正在巡演的“AI开发者实战营”杭州站中,百度AI生态部负责人谢康永在会上说:“百度的AI,依然在走一个开放的战略。”根据谢康永的介绍,在百度的AI生态体系中,百度智能云、百度大脑,以及深入智能家居和无人车的DuerOS,都会是一个越来越开放的状态。百度的AI生态布局而百度的PaddlePaddle平台开放所有的核心算法,在最大程度上降低了工程师深度学习的标准。百度对AI生态链的布局显得那么不遗余力。当年百度“ALL IN AI”,被一致地认为是孤注一掷之举。没了陆奇的百度,在今天的生态联盟峰会上,AI的戏份少了很多。只有百度高级副总裁、百度搜索公司总裁向海龙勉强介绍了百度的AI事业。“人工智能是一场革命。”在去年两会的时候,李彦宏这样说。在陆奇眼里,百度却是那辆最适合骑在AI赛道上的单车。他曾在一次公开演讲中说,以搜索业务为核心的百度,有大规模的计算能力、大规模的机器集群、极大规模的算法。陆奇说的不错,三个“大规模”,正是百度能够站住行业核心地位的最稳重心。但那时的百度正在风口浪尖,核心的搜索业务正遭受着严重的质疑。要突围,就必须有旗帜标杆,要汇集一处,合力出击。百度竖起的大旗就是“决战AI”,在这面大旗之下,百度也走出了O2O的泥淖。新的战略之下,百度奏响了到达“AI”高潮的前奏三部曲:一重奏:Feed依然是战略主航道,重塑手机百度在移动搜索端的绝对地位;二重奏:更加重视百度百科、百度地图、百度知道等优势业务;三重奏:砍掉百度医疗、百度外卖等负重部门。前奏过后,百度主打的AI旋律渐入佳境:2017年3月初,智能驾驶事业群组成立;同月底,百度AI技术平台体系成立;今年的3月份,智能生活事业群组成立。短短一年时间,百度就布局好了AI的初步生态系统。对百度而言,上半场的布局已经布好,而李彦宏也成为了下半场的直接指挥者。3百度,下半场不虚去年7月,AI开发者大会上,百度首次公布了其人工智能操作系统——DuerOS。这款系统发布前,就已有来自行业的声音,称之为“百度AI生态建设的关键第一步”。事实上,DuerOS的确是百度AI战略的重要支撑。AI,最终落入的一定是应用场景。在所有的场景中,人类获取信息最高效、最便捷的,依然是面对面的语音交流。因此,不论国外的苹果公司、亚马逊、谷歌,还是国内的阿里、腾讯,都在不遗余力地研发语音交互产品。在语音交互的前一代PC端的人机交互中,再到后来的移动端,百度通过搜索业务占得了巨大的先机。在新一波的以语音为交互媒介的AI浪潮中,百度也做到了“后来居上”。“百度做中文搜索引擎起家,在中文自然语言处理方面积累了许多的数据、算法和人才。”百度AI生态部负责人谢康永对锌财经说,在他眼中,百度才是最懂中文的那一个。其实,在百度的战略里,“IoT”早已先行一步。比去年的百度AI开发者大会早3个月时间,还是陆奇,在上海车展的一间只有教室大小的屋子里,对外宣布了Apollo计划的启动。在百度最新公布的Apollo2.5版本中,合作伙伴也已达到100个。但从去年4月份发布到现在,只有一年多的时间,更迭了3次的版本,百度“Apollo计划”的发展速度也超出预期。百度自动驾驶技术,也得到了官方层面的认可。在去年年底,百度宣布和雄安新区在智能出行、对话式AI应用、云基础设施等方面的合作,并且将和政府共同建立一个国家级的AI实验室。以DuerOS和Apollo为代表的基础AI平台的开放,让回过神来“ALL IN AI”的百度,又一次找到了主攻方向,并且占领了制高点。在上周的百度AI开发者实战营上,百度再一次强调了“开放”的概念:语法层面、句法层面以及篇章层面的十几个NLP的技术能力,全部开放出来,视觉能力、人体分析能力开放出来,软硬一体化套件、数据集开放出来……从“ALL IN AI”起,百度就遵循着“开放”的原则。“百度AI的各个子平台都会以一个越来越开放的姿态展现给外界。”百度AI技术生态部资深产品经理靳伟在会后告诉锌财经。靳伟也表示,大部分的资源会以免费的方式开放。百度如此高姿态的背后,是其对自身AI技术和平台稳定性的自信。从Apollo无人驾驶平台,到DuerOS,再到现在更加细致化的各类生态平台的开放,百度圈起了一大波合作伙伴,也无疑加快了其切入家庭、公共场所、汽车等高频率人机交互的场景。“开放”的策略,也进一步构建了百度想要的“放开”的AI生态圈。在技术绝对过关的前提下,这是一个良性的循环。上半场的陆奇走了,但对李彦宏和百度来说,还只是开局。而对百度来说,也不会虚任何一个对手,李彦宏的手里,也已经有足够多的好牌,来打赢下半场。文章
零柒 鬼车}
本文源自 太平洋证券 人工智能专题研究之一证券分析师 王文龙、徐中华信息化顾问团 杨凯 整理百度AI平台将逐步开放,助力构建百度AI生态圈“云+大脑”打磨升级构成百度AI平台百度AI开发者大会(Baidu Create 2017)上,百度AI平台架构图首次完整亮相,全新开放了视频、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力,此次开放的技术能力总共有60个,是目前最全面的AI技术开放平台。百度AI平台由百度大脑及百度云组成,分为云、大数据、算法层、感知层、认知层、平台层五大层次,核心能力的开放已达60余项。图表1:百度AI平台的架构作为百度AI平台的核心,百度大脑由算法层、感知层、认知层、平台层共同组成,是业界第一个完整清晰地把认知层和感知层放在一起的人工智能平台。算法层包括大数据、深度学习,是百度大脑的底层基础。感知层包括语音识别、图像识别、视频理解和增强现实/虚拟现实4大核心技术能力,赋予机器“听懂、看懂”的能力;认知层包括领先的自然语言处理、知识图谱、用户画像能力,赋予机器“理解”能力。平台层即百度AI开放平台,集合了百度所有的AI能力并将逐渐开放给所有开发者。图表2:百度大脑各层次能力多领域在人工智能方向进行战略构建百度自2013年1月组建专注于Deep Learning(深度学习)的研究院—Institute of Deep Learning(简称IDL)开始,百度便已经积极布局人工智能:技术落地方面:语音开放平台上线(2013年)、DeepSpeech深度语音识别系统(2014年)、小度机器人(2014年)、全球首个基于深度学习的大规模在线翻译系统(2015年)、机器人助理“度秘”(2015年)、无人驾驶汽车相关技术(2015年)、AR技术帮助伊利等零售商进行营销(2016年)、针对移动设备打造的增强现实平台“度视”(2016年)、医疗大脑等百度大脑(2016年)、百度输入法4.0引入人工智能(2016年)、百度AR先后与欧莱雅合作,带来全新广告营销方式(2016年)、与KFC合智能推荐点餐(2016年)、与神农架合作AR观山(2016年)、《但丁密码》AR面具海报(2016年)、G-1智能高清机顶盒(2016年)、乌镇世界互联网大会人脸识别闸机(2016年)、海尔与美的搭载DuerOS打造智能家居(2017年)、家庭陪伴型机器人“分身鱼”(2017年)、国航用人工智能进行人脸识别(2017年)。资本投入方面:自2016年开始,公司先后投资美国科技公司ZestFinance、激光雷达公司Velodyne LiDAR、人工智能语音助手平台开发商Raven Tech、计算机视觉公司xPerception、以色列视频捕捉技术公司Pixellot、投资上海汉枫科技及室内导航公司IndoorAtlas、参股新西兰VR/AR/3D成像公司8i、收购专注于语音唤醒和自然语言理解的人工智能创业公司KITT.AI(2017年)等。2017年1月,陆奇先生加入百度担任集团总裁兼CEO,围绕人工智能在集团架构、业务以及人事方面大刀阔斧进行改革,包括将自动驾驶事业部(L4)、智能汽车事业部(L3)、车联网业务(Car Life etc)合并组建新的智能驾驶事业群组(IDG),并向汽车行业及自动驾驶领域的合作伙伴提供一款名叫Apollo的开放软件平台。国外方面,Amazon、Facebook布局人工智能主要是为了智能其各自的传统主业以使自身在各自领域保持竞争力,而Google及IBM则是从集团层面对其人工智能生态建设进行了整体规划。国内方面,阿里巴巴在人工智能方面的行动主要是针对具体的应用场景进行智能化,而腾讯则主要是通过在各事业部组建AI团队来推进集团人工智能的发展。图表3:其他科技巨头在AI的布局概况公司名称布局细节Google1、谷歌大脑:创建于2011年,目标是创造更智能的软件和系统,从而改善人的生活。研究领域包括机器学习算法和技术、用于机器学习的计算机系统、自然语言理解、感知、医疗、机器人、音乐与艺术生成等。TPU、TensorFlow均来自谷歌大脑。2、谷歌NLU:专注于自然语言理解的团队,与谷歌大脑是并列存在的关系。最新研究兴趣包括句法、语篇、对话、多语言建模、情绪分析、问答、概述、使用有标记和未标记的数据与最先进的模型和间接监督来构建更好的学习系统。目前公开的最重要的成果就是被称为“世界准确度最高的自然语言解析器SyntaxNet”。这是一个基于TensorFlow的自然语言理解神经网络。谷歌在该平台上训练的模型的语言理解准确率超过90%。3、谷歌欧洲研究院:2016年6月在苏黎世成立,研究领域为机器学习、自然语言理解、机器感知及数据压缩。4、DeepMind:2010年在英国成立,2014年被谷歌以4亿英镑收购,收购后仍保持独立运行,专注于深度强化学习,研究目标是通用人工智能。AlphaGo是DeepMind最知名的项目。2017年7月5日,DeepMind表示将在加拿大埃德蒙顿开设第一家AI研究中心。5、机器学习忍者项目:从谷歌内部团队挑选有天赋的约20名程序员,为期6个月的人工智能人才培养项目。与谷歌大脑有合作关系。6、工程师团队:谷歌25000名工程师中,有数以千计的人熟练掌握机器学习。7、应用:谷歌云机器学习API、翻译、Waymo(前谷歌无人车部门,现在是Alphabet子公司)、Inbox等。8、收购:语言与图像识别、生物识别、深度学习、智能家居、机器人领域的公司。Facebook1、Facebook人工智能实验室(FAIR):2013年12月成立,是Facebook的AI基础研究实验室,目标是推动机器智能领域的进步。这是Facebook人工智能技术的核心部门。2、工程团队:直接负责对接到Facebook的核心功能,比如广告、搜索、新闻流、密钥和Instagram。3、FBLearner Flow平台:于2014年底在FAIR内部研究,后转交给AML团队,是Facebook研发基于AI的产品的支柱。这个平台能帮助任何工程师轻松地开启和管理机器学习实验,而无需处理硬件基础架构。每月运行约120万的实验。4、应用机器学习部门(AML):成立于2015年9月,是科学突破与产品使用连接起来的部门。包括4个主要团队:核心机器学习、计算摄影、语言技术及自然语音识别。5、Language Technology团队:该团队在AML保护伞下,专注于开发翻译、语音识别和自然语言理解,是部署实际软件的地方,而FAIR是推动Facebook人工智能实验的地方。6、Lumos:2016年11月首次披露,构建在FBLearnerFlow之上,是专用语图像和视频理解的AI平台。7、收购:图像和语言理解领域的公司。IBM1、商业解决方案Watson:2014年1月初,IBM宣布组建“Watson Group”,旨在进一步开发、商用及增强“Watson”及其他认知技术。同时,IBM还推出了两项Watson数字顾问服务,一项用于帮助企业从海量数据获得洞见,另一项则旨在使得数据可视化。2014年3月,Waston开始与纽约基因中心合作。5月,IBM通过Watson收购了人工智能创业公司Cognea,该公司为用户提供个性化虚拟助手服务。2015年,Watson被部署在IBM 2014年收购的云计算基础设施业务Softlayer上。2016年,以肿瘤为重心,Watson在慢病管理、精准医疗、体外检测等九大医疗领域中实现了突破。2、AI技术:语音语义、深度学习神经网络(收购了AIchemyAPI)3、云平台:IBM Bluemix开放云技术平台(PaaS+7种IBM Watson服务)、机器学习平台SystemML4、硬件:TrueNorth(SyNapse成果)5、产业布局:深蓝、与苹果、软银进行智能机器人合作、VR游戏、物联网、医疗服务6、收购:认知计算、搜索、人机对话、数据分析领域的公司Amazon1、服务:Amazon Lex、Amazon Polly以及Amazon Rekognition,分别定位于可编写自然人机交互、语音转换服务以及图像识别。2、平台:Amazon ML、Spark & EMR、Kinesis流数据处理平台、Batch批次处理、ECS3、引擎:MXNet、TensorFlow、Caffe、Theano、Pytorch、CNTK4、基础设施:GPU、CPU、IoT、移动5、1492团队:旨在发掘医疗行业中的新机会,同时关注软件和硬件项目。目前,他们正在试图从传统电子医疗档案中挖取和整合数据;希望建立一个远程医疗的平台;探索基于Echo和Dash Wand的医疗应用等6、收购:图像识别、图像与语言理解领域的公司阿里巴巴1、AI部门:iDST(数据科学与技术研究院)、阿里人工智能实验室、NASA计划、参与“工业大数据应用技术国家工程实验室”、与清华北大一起搭建大数据系统软件国家工程实验室2、AI产品线:ET大脑(工业、医疗、环境)、ET基础服务(机器学习、智能语音、人脸识别、印刷文字识别、人机对话)3、资本布局:战略投资日本机器人公司SBRH、入股山西嘉世达机器人腾讯1、AI机构:人工智能实验室(AI Lab,负责基础性研究工作)、各个事业部都有AI团队(负责AI应用研究)2、应用方向:游戏AI、社交AI、内容AI、工具型AI3、智能产品:小冰、小微、云搜和文智、优图人脸识别、QQ物联、微信硬件平台、叮当智能语音助手、绝艺(类似AlphaGo)、深度学习平台DI-X4、资本布局:投资Diffbot、iCarbonX(碳云智能)、CloudMedX、Skymind、Scaled Inference;战略入股搜狗;购买特斯拉5%股票。可以看到,百度在AI方面的布局已经相对完善,无论是从AI部门的设置、集团战略定位,还是从开放的各类技术平台,均能够帮助百度更快地构建生态圈,以此带来更多场景应用的落地。AI平台开放、百度生态建设延伸至端百度AI平台以百度智能云为基础、百度大脑为核心,目前开放DuerOS和Apollo两大平台向终端下沉,与云端一起初步构建起AI生态圈。同时,深度学习开放平台PaddlePaddle具备易用、高效、灵活和可伸缩等特点,使程序员可以快速应用深度学习模型来解决各种实际问题,加快实验室技术在各类场景的应用落地,促进百度AI生态的扩散。图表4:百度AI平台与生态构建百度AI平台的开源有助于百度吸引更多优秀的开发者参与进来,在帮助完善AI平台功能的同时,培养用户的使用习惯,构建起开发者生态。此外,还可以通过开发者使实验室技术更快地在具体场景落地。百度可凭借开放的平台寻找到更多的合作者,构建起合作伙伴生态,共同推出行业解决方案和生态合作方案。DuerOS:开放的对话式人工智能系统百度在2017CES上推出了DuerOS。此外,百度还发布了DuerOS智慧芯片,具有:“三低、三高”的特点—低成本、低门槛、低消耗、高安全、高集成、高附加。这款DuerOS智慧芯片已将DuerOS与紫光展锐RDA5981完美集成;还采用了ARM公司mbed OS内核及其安全网络协议栈,实现了与云端的安全连接,降低了设备商应用开发门槛。7月15日,在Baidu Create 2017上,度秘事业部总经理景鲲发布了DuerOS开放平台。该平台以DuerOS对话系统为核心层,应用层为智能设备开放平台,能力层为技能开放平台。其中技能开放平台目前已经拥有10大品类、100多项原生技能且支持第三方资源和内容接入。作为中国版Alexa,未来百度将以DuerOS为切入点,进一步推动集团人工智能生态的构建。图表5:DuerOS开放平台整体架构【参考资料:Alexa】Alexa是Amazon推出的一款语音助手,可以对语音指令进行处理并做出语音回复或执行相应操作,截止2017年6月底,Alexa语音助手已拥有超过1.5万项技能,比官方2月份公布的1万多项增长了一半多。图表6:语音助手技能数量(单位:项)目前Alexa主要应用于智能音箱、智能家居、可穿戴设备、购物助手等。亚马逊允许设备制造商通过使用Alexa语音服务(AVS)将Alexa不断增长的语音功能集成到自己的连接产品中。该语音服务(AVS)是一种云服务,提供基于云的自动语音识别(ASR)和自然语言理解(NLP)。Alexa的语音识别系统框架主要包括四大块:信号处理(Signal processing)、声学模型(Acoustic model)、解码器(Decoder)和后处理(Post processing)。首先将收集来的声音进行一些信号处理,将语音信号转化到频域,每10毫秒的语音生成一个特征向量,发送到后面的声学模型。声学模型把音频分成不同的音素。接下来解码器可以解出概率最高的词串。最后一步是后处理,把单词组合成易读取的文本。图表7:Alexa语音识别步骤其中,声学模型就是一个分类器,输入的是向量,输出的是音频类别对应的概率。该模型是一个典型的神经网络,底部是输入的信息,隐藏层将向量转化到最后一层里的音素概率。一个美式英语的Alexa语音识别系统,会输出美式英语的音素。以美式英语为基础的Echo,录了几千小时的美式英语语音来训练神经网络模型,这个成本非常高。但是,世界上还有很多其它的语言,比如德语,如果再从头用几千小时的德语语音训练,成本太高。所以,这个神经网络模型有趣的地方就是可以“迁移学习”,它可以保持原有模型中其它层不变,只把最后一层换成德语。两种不同的语言,音素大部分是不一样的,但是仍然有不少相同的部分。因此,仅使用少量的德语语音数据,就可以在稍作改变的模型上得到较准确的德语结果。现在,DuerOS可以将搭载Alexa的智能音箱变成能听懂中文。未来,百度将把DuerOS打造成AI时代的“安卓”,为AI开发者铺垫好技术基础,帮助其更方便快捷地开发智能语音交互设备,从而打造以DuerOS为入口的智能语音生态链。Apollo:自动驾驶开放平台百度AI的核心突破口当属自动驾驶,首先是成立智能驾驶事业群组(IDG)。紧接着于今年4月在上海车展上发布了“Apollo”计划,向汽车行业及自动驾驶领域的合作伙伴提供开放的、完整的、安全的软件平台,帮助他们快速搭建一套属于自己的自动驾驶系统。Apollo开放平台的发布标志着百度在人工智能的系统级开放进程更进一步,这也是全球范围内自动驾驶技术的第一次系统级开放。百度将致力于将Apollo打造成汽车工业时代的安卓,但是比安卓更开放、能量更大。7月5日百度AI开发者大会上,百度首次对外公布Apollo详细的路线图、技术框架以及首期开放Apollo 1.0的能力。会上,百度宣布Apollo生态合作伙伴联盟规模超50家,目前Apollo生态合作伙伴联盟已辐射OEM、Tier1、地图公司、芯片公司、基金投资、个人开发者、创业公司、研究机构及政府机构等,成为全球最强大的自动驾驶生态。Apollo将提供一套完整的软硬件和服务系统,包括车辆平台、硬件平台、软件平台、云端数据服务等四大部分。此外,百度还将开放环境感知、路径规划、车辆控制、车载操作系统等功能的代码或能力,并且提供完整的开发测试工具。并且,百度还会在车辆和传感器等领域选择协同度和兼容性最好的合作伙伴,推荐给接入Apollo开放平台的第三方合作伙伴使用,进一步降低自动驾驶的研发门槛。Apollo核心技术的总体技术框架由4个部分组成:Apollo的服务平台:图表8:2017年7月发布的Apollo路线图图表9:Apollo平台开放情况(紫色为Apollo1.0开放部分,红色部分为Apollo1.5开放部分)2017年9月20日,百度宣布Apollo1.5正式开放,包含障碍物感知、决策规划、云端仿真、高精地图服务、端到端的深度学习(End-to-End)等五大核心开放能力,并支持昼夜定车道自动驾驶。其中,原本计划于年底开放的端到端的深度学习(End-to-End)在9月20日宣布提前开放。能力一:障碍物感知感知模块的目标是在给定从激光雷达传感器获得的三维点云数据后提供感知障碍的能力。它能检测、分段和跟踪以高精度地图ROI方式定义的障碍。此外,它预测障碍物的运动和姿态信息(如航向、速度等)。核心的3D感知模块是基于大规模点云数据训练的深度卷积神经网络(CNN)的障碍物检测和分割算法,包括高精地图ROI过滤、基于CNN的障碍物检测与分割、MinBox障碍物框构建和HM物体跟踪。图表10:3D感知模块的组成部分模块子模块描述感知核心模块高精地图ROI过滤高精地图ROI过滤算法根据地图定义的ROI,对其外部的点云进行过滤。它的主要目标在于过滤掉一些无人车不关注的背景物体(例如道路周围的建筑物、树木等),以便让后续算法只关注道路上的障碍物。基于CNN的障碍物检测与分割经过高精地图ROI过滤后,不在ROI区域内的背景障碍物(比如建筑物,树木等)已去除。因此,对ROI内部(比如可行驶道路和交叉口)的点云进行物体检测和分割,从而得到前景障碍物例如小轿车、卡车、自行车、行人等。该算法基于全卷积深度神经网络学习点云特征并预测障碍物的相关属性,并根据这些属性建构邻接图进行基于连通片分析的障碍物分割。该算法将先进的深度学习技术引入到点云障碍物检测领域,能够从大量数据中学习有效特征进行障碍物的检测与分割,其分割精度远远优于传统方法。MinBox障碍物框构建MinBox障碍物框构建3D框构架算法为检测和分割出的障碍物建立相应的边界框。由于遮挡和离LiDar距离较远问题等问题,障碍物的点云可能非常稀疏或者只覆盖某一部分。inBox障碍物框算法能够根据检测到的障碍物点构建出最符合其朝向的边界框。HM物体跟踪HM目标物体算法用于跟踪ROI中检测和分割得到的障碍物。该算法将当前帧检测到的障碍物与之前跟踪到的物体进行关联、删除老的跟踪物体、生成新的跟踪物体,形成最终的跟踪表输出,并预测障碍物的位置,速度和朝向等信息止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主机厂、Tier1供应商、开发者生态公司。同时百度宣布Apollo基金“双百计划”,将在三年内投入100亿资金,完成超过100家项目的投资,未来将进一步壮大Apollo平台的生态联盟。能力二:决策规划决策规划模块根据实时路况、感知模块输出的信息、道路限速等信息做出相应的轨迹预测和智能规划,同时兼顾安全性和舒适性,提高行驶效率。决策规划模块主要由障碍物检测、路径规划、选择与控制三部分组成。图表11:决策规划模块的组成部分模块子模块描述决策规划模块障碍物预测将位置模块得到的定位信息(车辆的位置、速度与加速度)与感知核心模块中得到的障碍物信息(如位置、方向、速度、加速度)结合,预测障碍物之后一系列可能的运动方式(如速度和路径)及各种运动方式对应的概率。目前预测方式有三种:路径预测、自由(随机)移动预测、障碍物运动区域预测。路径规划基于定位信息、感知核心模块提供的障碍物信息、对障碍物运动的预测,同时考虑安全与舒适度,计算出车辆运行的无障碍路径。选择与控制根据当前车辆的状态、规划功能给出的路径以及车上人员发出的指令,运用不同控制算法生成指令(如转向、减速、刹车)并传递给汽车。能力三:高精度地图高精度地图与普通电子地图的主要区别是高精度地图拥有更精确的车辆位置信息和更丰富的道路元素数据信息,起到构建类似于人脑对于空间的整体记忆与认知的功能,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,更好地规避潜在的风险。是实现自动驾驶的关键所在。此外,高精度地图还起到了车辆间共享路况信息、识别交通标志的作用。能力四:云端仿真其中开放云端仿真功能作用极为重要,在正常的产品开发过程中,良好的仿真测试环境将方便产品开发者在模拟环境中快速测试产品的性能、可靠性等,加快产品的迭代测试周期从而提高产品测试效率:图表12:云端仿真功能的作用开放内容功能模块功能子模块描述开放功能内置高精地图的仿真场景基于不同的路型,基于不同的障碍物类型,基于不同的道路规划,基于不同的红绿灯信号。场景上传调试支持同时多场景的高速运行,支持单算法模块的上传运行,支持系统整套算法和运行环境的上传与运行。智能场景通过判别系统本期开放5个判别标准:碰撞检测,闯红灯检测,限速检测,在路检测,到达目的地检测3D展示功能提供实时路况,算法模块输出的可视化信息,以及无人车本身状态的全局信息。开放能力核心能力智能陪练该功能可以让自动驾驶路测更安全。真实场景重建和多算法认证在真实交通流复现的基础上,支持感知、规划、控制多算法模块验证,让自动驾驶算法验证更为严谨。日行百万提供不间断的仿真测试,通过多次快速迭代来自动优化算法结果,让自动驾驶技术的发展更高效。解决方案发现问题允许开发者定义和选择各类评判打分标准,在云端仿真器中运行场景并发现问题。解决问题查问题场景反映出的现象,进而改进或替换系统里的相应模块,再次运行场景,直到问题解决。验证问题可自动拉取核心场景资源,针对测试中产生的问题,快速验证新算法,并支持单步调试与验证。此外,还提供不间断的仿真测试,通过多次快速迭代来自动优化算法结果,做到研发全流程支持。能力五:端到端按照2017年7月百度发布的规划,端到端深度学习能力比原定的2017年12月提前了3个月,开放速度有所加快。本次开放的障碍物感知和决策规划能力使车辆能够实现不分昼夜的精准障碍物识别,并能通过深度神经网络精准预测行驶路径,从而做出最终的驾驶决策。百度IDG部门的郁浩在百度技术沙龙上的演讲中提到,和Apollo中端到端学习相对的是传统无人驾驶项目中主要使用的规则式系统,这是过去二十多年无人驾驶研究的主流方向。规则式系统从车辆开始是一个闭环:从车辆到车上的传感器,获取输入信息,这些信息经过感知层处理,提取出道路、行人和车辆等各种信息。在感知到的信息的基础之上,再加入高精地图等一些静态信息,把动态信息和静态信息结合到一起形成较完备的世界模型(World Model)——对外部环境的完备描述。在此基础之上就可以进入到决策模块产生决策,然后控制模块把决策信号传递给车辆。图表13:规则式系统上图是一个很简单的闭环模式,也有很多人提出了相关的或类似的架构,比如国际汽车工程师学会(SAE)在上边闭环的基础上,更细化分成大环、小环和各个模块之间的关系。图表14:国际汽车工程师学会(SAE)推荐的系统架构图为了使规则式系统能够满足自动驾驶的需要,需要不断细化、得到更复杂的功能模块图,真正系统落地时往往有上千个模块。因此规则式系统有3个特点:简单地归纳一下,与规则式系统相比,端到端学习更像是在模拟、贴合人的思考过程,包括人的下意识思考。相对规则式系统而言,端到端学习成本更低,但需要大量优质数据来让机器进行学习、筛选各种情况下有效的路径。图表15:Rule based与End-to-End比较端到端的已有案例Apollo1.5的合作者Momenta基于定车道昼夜自动驾驶能力,很快完成了实车验证。实际道路测试表明,搭载了Apollo1.5的平台即使在夜间可视度不佳的情形下,依旧能完成各种复杂的交通场景识别。另一个合作伙伴智行者科技在Apollo平台上打造的无人驾驶扫路车,目前已经在北京一家园区正式落地,开创了Apollo自动驾驶作业车的先例。2017 CES Asia展会上,百度联合长城汽车、NVIDIA,在哈弗H7展示了基于单目摄像头+百度深度学习技术的端到端自动驾驶解决方案,进行了公开试乘。图表16:封闭园区的固定路线的接驳Apollo平台目标实现生态,开源广纳合作者参与自Apollo1.0发布2个多月后,其在知名开源平台Github上已经聚集了6000多的开发者,位居开源平台前列。Apollo GitHub将自己定义为一个开放的、完整的、安全的自动驾驶平台,以灵活和高性能的技术架构,为全自动驾驶提供支持。Apollo开源代码资源可以分为三部分,分别是apollo、apollo-platform、apollo-kernel。第一部分,apollo该部分有入门文档,介绍了Apollo的基本信息。modules文件夹中是各个模块(如感知模块perception,预测模块prediction,端到端e2e)的开源内容。还有一些其他文件夹:docker沙箱,scripts脚本,third_party第三方开源代码,tools工具。说明文档推荐使用已经设置好的沙箱模式。第二部分,apollo-platform该部分内容用来提供平台支持,目前主要是一套经过修改的ROS(机器人操作系统)。第三部分apollo-kernel,该部分内容用来提供核心支持,目前Apollo核心使用的是修改过的Linux Kernel 4.4.32。Apollo生态链及标的公司无人驾驶快速落地,行业生态起到了关键性作用,对比手机的Android系统来看,在Android系统2009年面世之前,各个手机厂家都有自己的操作系统,而在Android系统出来后,短短几年内,各大手机厂商操作系统都统一在开源的Android系统之下(苹果公司的IOS除外),而没有跟上这个趋势的厂商(如诺基亚、摩托罗拉等)很快就销声匿迹了。现在Apollo平台,正如Android系统初生之时,在国内有一统平台的潜质,Apollo目前已经拥有70多家合作伙伴,已有多家合作伙伴采用公司的平台进行产品研发,未来前景良好。因此,如果关注A股上市公司,建议投资者重点关注参与到Apollo产业链的公司,尤其是那些细分行业的龙头,具有良好的爆发性机会。图表17:Apollo合作伙伴分类分类合作伙伴当前及潜在合作机会高校(5家)北京航空航天大学、北京理工大学、清华大学、上海交通大学、同济大学前沿技术探索及研发合作等政府相关(5家)北京亦庄等场地支持及政策支持等。如在北京亦庄示范区封闭试验场预计将于2017年底建成并对外提供服务,其一期建设内容为占地面积600亩的模拟特大城市交通场景的智能网联汽车测试基地,将容纳国内外各类车型进行研发试验与测试。汽车制造商(19家)北京汽车、北汽新能源等在智能汽车的多领域进行合作,重点在于Apollo平台在各个汽车厂的汽车产品上的落地,这需要车厂提供相关的接口和研发支持。如何北京汽车的合作内容包括在智能汽车、车联网、L3级智能驾驶、高精度地图及车载地图、联合品牌运营等领域展开合作等。分类合作伙伴当前及潜在合作机会汽车租赁、打车企业一嗨租车、首汽租车等智能驾驶汽车的终端用户自动驾驶相关企业AutonomouStuff利用Apollo开放能力改装自动驾驶车地平线机器人基于车机或自动驾驶系统合作路畅科技MOMENTAVIRES智行者科技合作的无人驾驶扫路机已投放芯片供应商英特尔提供自动驾驶相关芯片紫光展锐英伟达软件及解决方案供应商微软基于自动驾驶相关系统软件及解决方案合作中科创达博世车联网企业博泰合作提供更为安全、便捷、经济的智能驾驶方案同行者远特科技通讯供应商中兴通讯综合通信解决方案提供商IT学习、社区极客帮技术学习、交流服务优达学城CSDNApollo保持着每周数十次频率的代码更新,从2017年7月到9月两个多月时间新增6.5万行代码。同时,Apollo获得全球开发者的积极响应。截止2017年9月20日,共有1300多个合作伙伴下载使用了Apollo开源代码,近百个合作伙伴通过Apollo官网申请开放数据。上线当月,在全球最大的开源社区Github的全球C++类项目中排名第一,6000多个开发者推荐使用Apollo开源软件。PaddlePaddle:深度学习开放平台PaddlePaddle前身是百度于2013年自主研发的深度学习平台,一直为百度内部工程师研发使用。2016年9月,百度宣布其深度学习平台PaddlePaddle在开源社区Github及百度大脑平台开放。2017年年初,PaddlePaddle可在Google开源的Docker容器集群管理系统Kubernetes运行,并成为目前唯一官方支持Kubernetes的深度学习框架,两个开源项目的结合意味着深度学习对于广大开发者正变得“触手可及”。PaddlePaddle具备5大优势:灵活:PaddlePaddle支持大量的神经网络架构和优化算法,支持任意复杂RNNs结构。高效:PaddlePaddle会每一级的计算、内存、架构及通信进行优化,以充分利用异构计算资源。可扩展:PaddlePaddle能通过优化通信,获得高吞吐量和性能。易用:Paddlepaddle可以使开发者更加专注于模型的高层结构。可快速部署:由于PaddlePaddle简单、可扩展的特性,因此可被快速部署到各类应用场景中。图表18:几类深度学习平台的比较TensorFlow:大部分功能可以通过从库里直接调取代码实现,不需要手动编程。内存占用较大,且不支持时间序列的卷积。Theano:相较于深度学习,其更适合数值计算优化。它允许自动功能梯度计算。但目前不具备多GPU支持和水平功能。Caffe:注重计算机视觉,灵活性不够,安装过程较繁琐。如果有新的改动,需要使用C++和CUDA进行编程;对于较小的改动,可以使用其Python或Matlab来完成。Torch:是一个很好的平台,但是开发语言Lua较小众,学习成本大。实现并且优化了基本的计算单元,使用者可以在此基础上编写自己的算法。MXNet:支持Python、R、C++等多种语言,特别受R语言使用者的欢迎,并且有独特的多GPU扩展功能。PaddlePaddle:使用界面类似于Caffe,并且较好地支持RNN与NLP以及多CPU/GPU并行计算。相较于较TensorFlow,PaddlePaddle能帮助开发者聚焦于构建深度学习模型;相较Caffe,PaddlePaddle支持更多应用场景。图表19:Paddle与TensorFlow在RNN下的表现目前,PaddlePaddle已经被应用于百度的30多个主要产品,如外卖菜品识别、预估出餐时间、海量图像识别分类、字符识别(OCR)、机器翻译和自动驾驶等领域。百度“能听会看”作为触手、带动技术领域的商业化落地从“能听”走向“能听懂”的学习之路1、百度以语音识别为切入点,构建人工智能生态圈。2017年,百度语音开放生态2.0。目前,百度语音开放生态已经构建起包括模型层、功能层、交互层、接入层的四层开放架构,已有近25万开发者纳入生态圈,日调用总数达20亿次。在开放生态2.0中,百度将开放远场识别及唤醒技术、定制化语音合成、语音合成音色等技术:远场语音识别及唤醒技术:百度通过数据增强技术,复用百度积累的海量搜索语音数据和世界领先的语音模型识别,将近场语音技术完整迁移到远场。此外还适配包括Intel、科大讯飞、科胜讯在内的主流麦克风陈列。同时对家居场景进行定向噪声优化;定制化语音合成技术:包括定制化文本转语音技术、语音合成标注语言标签语言、基础标签及百度扩展内容;开放音色合成:包括自然音色和个性化及明星合成音色;图表20:语音技术开放现状目前,百度已与联想、中兴、长虹、索尼、iReader、携程、特斯拉等品牌合作,构建包含模型层、功能层、交互层、接入层的语音开放架构。语音识别的目标是以电脑自动将人类的语音内容转换为相应的文字,其应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。直到第三次人工智能热潮来临,深度学习的崛起、高性能计算和大数据的迅速发展才使语音识别从实验室走出并开始实现商业落地。近年来语音识别准确率得到了极大的提升。2016年11月,搜狗、百度、科大讯飞相继宣布其中文语音识别率达到了97%。图表21:语音识别错误率在近几年得到了极大降低语音识别作为人工智能核心技术之一,目前各科技巨头都将其作为切入点,积极布局人工智能。在智能语音领域方面的布局,科技巨头和初创公司的打法有所差异,具体表现为:科技巨头:围绕主业,开放应用平台,同时通过收购、战略合作等手段补齐短板,打造人工智能生态圈;智能语音成熟公司:基于原有技术优势,从单一技术厂商向人工智能产业生态构建者进军;其他创业公司:深耕细分领域,重点布局家居、车载、机器人。2、自然语言处理技术赋予机器认知能力人类语言与计算机之间相互作用的研究领域称为自然语言处理(简称NLP)。它结合了计算机科学、人工智能和计算语言学。开发人员利用NLP可以组织和构建知识,执行自动总结、翻译、命名实体识别、关系提取、情感分析、语音识别和主题分割等任务。目前,中国在自然语言处理领域的专利数量占比仅次于美国。自百度诞生之日起,中文分词这种的基础NLP技术便已经应用于搜索引擎。自然语言处理专家王海峰博士加入百度后对百度NLP工作进行了重新梳理。在加强分词、专名识别、query需求分析、query改写等传统方向的同时还拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技术方向。在他的带领下,NLP团队已经包括了算法开发、系统实现、学术研究、语言学、产品设计和架构、前端、客户端工程开发等多领域的人才,全面支持百度各种产品应用。图表22:百度自然语言处理技术概要历经17年的积累,2013年百度首次开发了NLP Cloud平台,拥有20多种NLP模块,每天的请求数超1000亿次,每日流量达数十亿次,已为超2万个企业和开发者提供百度翻译API,应用于百度搜索、Feed、O2O和广告等业务与产品方向。此外,百度还提供语音翻译及利用字符识别技术进行的图片内容翻译。在Baidu Create 2017上,百度开放了基于百度自然语言处理技术的理解与交互技术平台UNIT(Understanding and Interaction Technology Platform),包括词法分析、情感分析、机器翻译、语义表示、语言模型、语义相似度等技术,为机器赋予“理解”能力。图表23:UNIT整体框架UNIT基于百度海量的搜索数据、问答数据、网页数据等为对话系统的开发提供大数据保障,为每个不同的对话任务智能推荐相关数据,以供进一步的训练数据标注。并首次推出理解与交互“对话训练师”模式让普通开发者乃至零编程基础的人都能成为训练师。对话系统通过与训练师对话便可不断完善系统功能、提升对话能力。目前,UNIT已经应用于车载、客服、家居等场景。图表24:训练师模式全方位视频理解技术使机器不仅“会看”,还会理解在Baidu Create 2017上,百度发布了全方位视频理解技术,包括视频分割技术、语义理解、人脸识别及机器人视觉等。视频分割技术是无人驾驶/机器人的核心技术,对数据和精度要求很高,需要像素级别的输出信息和更多的视频训练数据。目前百度具有世界第一个室外语义分割RGBD视频数据集。语义理解技术包括视频封面选摘技术、视频分类/标签技术、视频智能对比技术、视频审核色情识别技术、视频公众人物识别技术、视频结构化分析技术,并将上线视频细粒度识别技术。人脸识别:百度已经运用200万人的2亿张照片进行人脸识别基础模型训练,实现人脸检测、人脸对比及人脸查找,并已应用于百度魔图、百度网盘、百度识图等产品中。此外,百度人脸识别还具备活体识别功能。机器人视觉开放平台由摄像机IMU模组、SLAM、障碍物检测、地图重建、语义识别5大部分构成且已开源。其中,SLAM采用双目视觉惯性算法,定位结果延迟小误差低;云端API提供人脸识别、物体检测和字符识别功能。计算机视觉是最主要的人工智能基础技术之一,主要包括信息采集、模型训练及识别。目前,计算机视觉在图像识别和人脸识别两大领域的准确率都已经超过人类极限。计算机视觉技术主要包括图像及视频处理、人脸识别、文字识别、智能监控等,其中人脸识别已经广泛应用于安防、公安、金融等行业。在计算机视觉领域,我国与国外的差距较小。2014年3月,香港中文大学汤晓鸥教授团队的GaussianFace算法在人脸识别数据库LFW上准确率达98.52%,在全球首次突破人眼识别能力。目前,中国在计算机视觉方面的专利已跃居世界第一,占当前全球专利公开数量的55%,并且增长势头强劲。图表25:计算机视觉专利数量分布(单位:%)今年1月,百度研究院成立AR实验室,同时推出AR开放平台DuMix供开发者及内容创作者使用。在Baidu Create 2017上,百度发布全新DuMix AR开放平台,提供基础的AR技术,包括AR SDK、内容制作工具、云端内容平台和内容分发服务4大部分:Dumix AR SDK:支持本地识别跟踪、语音交互、SLAM等20多项功能,帮助移动APP集成AR。内容制作工具:开发者可以使用素材模版库和制作工具开发AR内容,也可以使用百度认证的内容供应商体系,快速为开发者提供全面专业的内容制作服务。云端内容管理平台:通过云平台方式,提供内容管理、更新,渠道管理,数据统计等多种内容管理服务;内容分发服务:百度还会在手机百度APP、搜索/Feed等百度系入口上提供优质AR体验的分发服务,通过Dumix AR制作和接入的AR,将可以触达百度的亿级用户。图表26:DuMix AR的能力特点和技术优势未来,DuMix AR开放平台将通过打通手机百度上内容分发渠道,提供更多场景的AR行业解决方案,赋能各行各业,共同探索AR价值。总结:人工智能仍在探索阶段,各家技术方向并不完全趋同,又涉及整个产业链的融合能力,因此,最终落地形态和成熟的商业场景存在较大的不确定性。}

我要回帖

更多关于 人脸识别软件 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信