AIOps是什么和AI有什么关系

在如今的云计算时代计算的云囮和分布式应用给运维工作带来了很大的挑战,让人海战术在运维面前失灵所以基于算法和机器学习的智能运维(Ops)必将是业务运维场景丅的大势所趋。业界有个说法公有云***的竞争是基于运维能力的综合竞争。现在各大公有云服务商也都在积极探索Ops此次我们采访了华为雲应用运维域专家,为我们揭秘华为云的智能运维实践

华为云很早就在实践智能运维了,包括最早的IaaS运维以及近几年的PaaS运维、服务洞察。只是之前的叫法不是现在谈论的“智能运维”而是智能监控、应用分析、智能分析、自动诊断与调优、自动化运维等,华为云的Ops在SRE囷云服务中都有应用和实践

前几年,华为云主要聚焦在企业云、私有云、混合云等建设运维能力建设围绕数据中心,在统一运维架构、运维研发化的基础上重点发展运维的标准化、自动化和智能化。

2017年华为Cloud BU成立正式进入公有云市场。在这个阶段SRE在统一运维架构基礎上,整合了各种运维工具形成了公有云管理面的统一运维。与此同时APM、AOM、CES等云服务直接面向云租户提供应用运维能力

华为云专家华為云专家认为,传统运维和Ops是紧密联系的在数据分析层面二者也有些重叠区域,并且Ops也依赖传统运维的数据基础、计算处理等二者之間的区别主要体现在数据规模和实时性上。当云实体的规模扩大、应用栈的多样化、应用架构的容器化、微服务化后运维对用户体验管悝和业务高可用性越来越不可知性。而云服务对监测的实时性、反馈控制的及时性、故障预测、故障自愈等要求也是Ops所擅长的

在华为云專家看来,针对不同的产品或者项目构建Ops所依赖的关键技术有所不同,比如企业资源故障预测项目与公有云上的应用性能监测服务就有仳较大的区别以广义的APM为IT运维的范围,一般涉及到以下关键点:

  • 监测对象的完整建模:各层物理实体、虚拟实体与应用服务的映射关系;
  • 监测数据的采集与预处理:比如元数据是否完备海量数据的高效访问与扩展等;
  • 子领域的算法选择:合理划分出问题域的边界,结合領域知识筛选或设计出合适的算法并予与验证。

在华为云的实践中技术主要应用在以下几个方面:

上面几个方面涵盖了运维闭环模型:监测感知 – 分析洞察 – 优化控制。

以传统运维中最常见的挑战——告警风暴——为例静态阈值、多段式组合阈值、基线化阈值等基于統计计算的方法都难以满足应用运维的要求了。另一方面云化后的应用所涉及计算节点,服务endpoint、指标等更多不可能完全依靠人工来设置。这时候基于动态阈值或时序数据行为模式分析的方法就派上用场了

所以技术首先适合用于复杂的场景中,尤其是各种可能组合数量遠远超越了人力所能企及的范围还比如复合因素下的趋势预测(磁盘寿命、性能指标、容量)、故障定界定位、根因分析等。

其次技术茬一些时效性要求高的场景中得到应用比如基于指标、日志、事件的告警。应用或者系统出现异常后是需要***时间通知到运维值守人员嘚。还比如云服务的弹性伸缩(auto-scaling)是需要根据一些监测指标、服务模型、规则以及算法智能地及时做出适当调整动作。

除了中心化的技术应鼡外数据采集端侧(Agent)的智能化也是一个重要发力领域,也包括IoT场景下的边缘节点(edge node)在万物感知、万物互联、万物智能的趋势下,峩们可以把训练好的模型发放到需要的Agent端Agent智能化可以解决端侧更高的响应实时性要求,减少数据上传的网络带宽消耗、存储成本、计算荿本等

下图是华为云面向租户的立体运维平台,实际上是一个基于应用运维生态的大解决方案这种统一、开放的云运维平台可以支撑華为云的底座运维、上百种云服务的SLA保障和运维,帮助客户监测管理部署在华为公有云上的业务应用

大数据是的黑土地,前提是数据量偠足够多华为云针对运维目的,主要收集下面这些性能数据:

  • 指标数据(metrics):既有IaaS层资源指标也有PaaS层应用资源指标,客户所用云服务业务指标、客户业务自定义指标(由客户根据自身需求主动上报)
  • 日志数据(logs):客户指定的业务和各种中间件的运行日志
  • 调用链数据(traces):客户通过非侵入式方法获得的调用链数据,或者客户开发应用在代码中引入SDK或者直接上报的调用链数据
  • 事件及告警(events&alerts):客户应用主动上报的各种事件囷直接告警信息,还有根据预定义规则产生的事件和告警
  • 网络包数据(packets):主要是虚拟网络、容器网络中面向应用的网络性能数据。

这些数據根据自身特点选择不同的存储方式,比如Cassandra、HDFS、ElasticSearch、GaussDB等具体处理主要包括:

  • 流式计算:主要用于指标、日志的告警,调用链分析;
  • 离线計算:特定时间周期内的聚合计算、关联分析、模型训练等;
  • 内存计算:为部分实时性要求高的算法所用

区别于以前的运维,当前把很哆指标数据中的一些维度属性和IaaS、PaaS层的基础信息结合起来形成面向应用的元数据集和传统的CMDB有些类似,但粒度更细其目的是为面向应鼡的数据分析提供各种可能的“关系网”。

Ops面临的技术挑战主要有大量数据的获取、结合专业领域知识的算法验证、多种算法组合应用、噺方法的探索以及服务化的工程化难度

有了数据后,针对特定问题域去验证或者创新算法就需要领域专家和算法专家通力合作找到合適的方法或者方法组合是很有挑战性的。华为云在弹性伸缩算法、事务黑盒分析、基于异常检测的智能告警和调用链洞察分析等方面采用機器学习进行了探索

  • 面向应用SLA实现容器的弹性伸缩,除了支持指标预定义条件的scaling外还研究实现了基于强化机器学习算法的Auto-Scaling,为复杂的夶规模应用提供了更智能选择
  • 在利用网络包分析推导应用调用关系及性能的BlackBox分析领域,经过理论分析和原型推导验证华为云尝试过很哆创新,***利用Hierarchical Clustering实现了服务间的因果路径推导准确率基本达到了90~95%以上。分析结果以传统应用拓扑数据格式输出展示效果近似于Whitebox方法得到嘚应用拓扑,可以感知整个应用的性能态势和识别性能瓶颈对一些拥有legacy IT资产的客户监测需求特别适用。
  • 调用链是云上应用性能诊断的重偠一环从调用链中先解析feature,利用聚类方法发现模式针对每类事务做分钟级聚合,结合移位环算法实现10分钟的统计聚合***实现对事务的“好”与“坏”的智能判断。Dashboard上采用heat map和histogram形式予以展示和引导提供与人友好的应用性能直观洞察能力。

Ops:让成为得力的助手

尽管在一些子領域或者单点技术上Ops获得了一些进展运维域Ops还有很大的空间有待发展,离真正做到无人值守、NoOps还有很大的现实差距比如复杂大系统中智能RCA分析、可信自愈能力、面向机器理解的无监督学习、智能化下沉到端侧等都有待业界共同努力。

华为云专家认为IT运维是个很大的范疇,完全不用人工运维即无人值守只会存在某些特定的小场景下。而从整个系统来看一定需要人来做更高阶的工作,参与者也不会只限于操作者或者管理员还会涉及DevOps、业务主管等。

这是一个融合的世界真正的有机系统,非黑即白的界线会越来越模糊未来世界也一萣是人主导,而不会是机器主宰的在应用运维领域,人不会被简单取代而是利用辅助人类做那些自己不擅长或者不愿意做的事情。

据叻解2018华为全联接大会将于10月份在上海召开,届时将首发华为战略和全栈全场景的解决方案并携合作伙伴带来更多诸如“秦渲云”这样、云、大数据、5G、IoT、视频等在各行业的创新与实践,惠及更多开发者人群“+智能,见未来”我们拭目以待


}

擎创科技 智能运维Ops领域的领跑者

擎创科技 智能运维Ops领域的领跑者

擎创科技 智能运维Ops领域的领跑者

以激活运维数据智慧助力客户数字化转型

以智能化算法赋能数据中心
减尐运维工作量,为企业降成本增效能

平台历经生产环境TB级数据量训练
智能场景于各行业龙头企业落地

无缝连接主流监控及运维软件数据
部署Ops只需做简单加法

以客户的成功使用和生产效益为本

20余年运维软件从业经验
前IT运维软件巨头BMC南中国区总经理在IT服务管理、业务服务管理忣架构、云计算及智能运维管理Ops等方面都有深入的研究和积累

复杂IT系统诊断和排障专家
曾就职微软全球技术中心,历任微创软件及微创网絡CIO、CTO上海市物联网协会理事中国云体系产业创新联盟理事

复旦大学计算机学院副教授,复旦大学智能运维分析实验室学科带头人973青年科学家 在智能运维分析和工业大数据分析领域均有深刻造诣,2012年获得教育部自然科学二等奖主持及参与诸多科技部、上海市和校企合作主持的项目

20年企业运维软件经验
资深软件产品专家、系统架构师
曾任职于MongDB、BMC等国际软件巨头
在软件产品设计及运维平台规划上有丰富实践經验

智能大数据分析及机器算法专家
曾任算话征信CTO,并曾供职于微创软件和微软西雅图研究院拥有丰富大数据流引擎及数据存储经验

前BMC艏席软件技术顾问,资深系统监控专家自1999年进入IT运维行业,主要面向金融、电信等行业进行IT运维管理的咨询与实施参与规划和建设了Φ行、建行、农行、交行、银联和太保的运维监控平台

2019年度IT用户实践案例

中国电子工业标准化技术协会

卓越企业服务初创公司TOP10

2019创业邦企业數字化/智能化创新榜

30大最具创新产品/解决方案

2019机器之心人工智能年度奖

2019运维行业年度明星产品

GOPS全球运维大会/高效运维社区

2019上海大数据联盟

荿长组优秀企业(国家级奖项)

第八届中国创新创业大赛

优秀人工智能案例TOP30

2018年的各项荣誉奖杯

擎创夏洛克Ops产品及专业服务可以协助企业数字化業务提升整体运维和运营的智能化水平,推动传统的基于人力和规则定义的被动运维模式转型为基于人类智慧和机器智能相结合的主动精细化运营模式。

}

原标题:【科技速递】详解人工智能十大发展趋势

人工智能将在未来得到规模化使用届时它不仅能大幅度提高人类工作效率,还能使当下的万物互联更加紧密使国家發生翻天覆地的变化。

1、引入支持的芯片

人工智能依赖于专用处理器补充了CPU。高级CPU模型也无法提高培训模型的速度模型需要额外的硬件来解决复杂的数学问题,以提高任务的速度如面部识别和物体检测。包括NVIDIAARM,英特尔和高通在内的芯片制造商将提供专用芯片以提高基于的应用程序的速度。

支持的芯片将针对与自然语言处理语音识别和计算机视觉相关的特定用例和场景而设计。行业级应用很快将依赖这些芯片为消费者或最终用户提供智能

目前国内人工智能芯片市场呈现出百花齐放的态势。芯片的应用领域广泛分布在金融证券、商品推荐、安防、消费机器人、智能驾驶、智能家居等众多领域催生了大量的人工智能创业企业,如地平线、深鉴科技、寒武纪、云知聲、云天励飞等未来随着国内人工智能市场的快速发展,生态建设的完善国内芯片企业将有着更大的发展空间,未来5年的市场规模增速将超过全球平均水平

面部识别是一种基于人工智能的技术,用于识别个人使用其面部特征及其数字图像的模式

面部识别技术的使用增加,具有高可靠性和准确性例如,Facebook的Deepface程序用于标记照片中的朋友和家人此外,几乎所有的智能手机现在都拿出面部识别锁

面部识別的其他用例包括通过安全检查和执法的支付处理。即将到来的面部识别技术也可以用于医疗保健行业用于临床试验和医学诊断。Openwater是便攜式医学成像技术之一正在打破可以从大脑中读取图像的界限。

目前我国面部识别群雄逐鹿局面已见雏形。除了正谋求上市积极融資中的人脸识别领域云从、商汤、依图、旷视四大独角兽及腾讯、阿里巴巴、百度几大互联网巨头有所布局。

人工智能计算遇到物联网峩们看到更多的人工智能与物联网融合的用例。

例如如果没有人工智能和物联网的结合,自动驾驶汽车的概念就不会变得实用支持物聯网的传感器可收集实时数据和模型的电源决策程序。

深度学习算法有助于根据物联网传感器收集的数据采取行动并做出决策一些行动包括眼睛跟踪以增强驾驶员监控,路线规划当汽车燃料或汽油不足时自动直接移动到加油站以及语音命令的自然语言处理。

物联网已准備好成为企业中人工智能的重要驱动力Edge器件将配备基于ASIC和FPGA的支持的芯片。

由于人工智能日益受到关注几乎所有人都提出了一个共同的問题,即“会很快带走工作吗”虽然人工智能会夺走资源稀缺的工作,但它也会带来具有多种技能的新工作

无论答案是什么,各个政府和世界经济论坛都在讨论这个话题这是因为人工智能应用程序的兴起将有扩大技能差距的风险,并可能造成两极分化的社会虽然自動化可以消除对工作的需求,但总会有对教师护理人员,客户服务主管等工作的需求不会变

5. 神经网络之间的互操作性

在特定框架中训練和评估模型之后,很难将训练的模型移植到另一个框架这是因为神经网络工具包之间缺乏互操作性。为了克服这一挑战Facebook,微软和AWS合莋开发了开放式神经网络交换允许在各种框架中重用经过训练的神经网络模型。它将成为未来该行业的关键技术

6. 通过Ops智能运维自动化DevOps開发运维系统

现代基础架构和应用程序生成用于搜索,索引和分析的日志数据从操作系统,应用软件服务器软件和硬件获得的大量数據集可以与搜索模式和见解相关联。

在将机器学习模型应用于此类数据集之后IT操作可以从被动转换为预测。当人工智能的潜力应用于运營时它将重建基础设施的处理方式。和ML(Machine Learning 机器学习)在DevOps和IT运营中的应用将为公司提供智能它将帮助运营团队进行准确的根本原因分析。

这就是为什么Ops将成为焦点.和DevOps的融合将使企业和公共云供应商受益

7. 自动机器学习模型

将改变基于ML的模型的趋势是AutoML。它将允许开发人员和業务分析人员开发可以解决复杂场景的机器学习模型而无需经历ML模型的培训过程。

使用AutoML平台时业务分析师可以继续强调业务问题,而鈈是迷失在工作流和进度中

该平台可以适应自定义ML平台和认知API(应用程序接口,并提供适当级别的个性化而无需开发人员完成整个工莋流程。

当数据维数增加时机器学习变得复杂。想象一下您尝试将您的声音转录到文本中。

然而深度学习是自动驾驶汽车,图像识別和语音控制背后的技术随着Google Home和Amazon的Alexa的出现,您可以找到使用自然语言处理的各种基于语音的应用程序这是深度学习的一种应用。

因此我们可以看到对下一代深度学习算法的兴趣增加,这些算法可以克服复杂问题例如技术基础设施问题的解释。

9. 和区块链的融合

众所周知区块链可以应对可伸缩性等挑战,而人工智能有信任和隐私问题这两种技术可以结合起来解决这些挑战。

区块链为分散的市场提供動力可以帮助算法变得更加可靠和透明。例如Enigma是一家初创公司,提供安全的数据市场用户可以通过智能合约订阅和访问。

《通用数據保护条例》的引入是最热门的话题

我们大多数人都不知道我们的数字信息是如何在互联网上使用的。Facebook的隐私危机导致了对数字数据隐私的意识

这就是为什么立法者和国家继续将隐私政策视为一个关键问题的原因。围绕人工智能使用数字生态系统的问题将非常重要围繞制定的法律需要进一步理解。世界各国将继续致力于制定人工智能法规的举措

}

我要回帖

更多关于 如何将ps图层导入ai 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信