如何评价alphago 围棋教学工具自我对弈的50盘棋

点击联系发帖人 时间：2017-06-04 13:12

alphago zero棋谱讲解

&figure&&img src=&https://pic3.zhimg.com/v2-ed904bc78e703efb0178bfd_b.jpg& data-rawwidth=&575& data-rawheight=&300& class=&origin_image zh-lightbox-thumb& width=&575& data-original=&https://pic3.zhimg.com/v2-ed904bc78e703efb0178bfd_r.jpg&&&/figure&&p&过去的一周，丑闻、性侵、财务纠纷、抛妻弃子这些本是娱乐圈专属的名字，牢牢盘旋在日韩棋界上空，困扰着每一位热爱围棋的人们。&br&&br&相较于韩国那边，金成龙九段从解说一哥到强奸犯的剧烈反差。日本的依田纪基九段本就以个性强烈、不擅与人相处闻名，这一次爆出所谓“抛妻弃子”，“3000万日元”纠纷，性质与金九段亦不可同日而语。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-fe5bcead34ffaebc1e1f663c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&646& data-rawheight=&725& class=&origin_image zh-lightbox-thumb& width=&646& data-original=&https://pic3.zhimg.com/v2-fe5bcead34ffaebc1e1f663c_r.jpg&&&/figure&&p&&br&&/p&&p&截至目前，这一事件的全部公开报道，均来自女方原幸子四段。既是棋迷也是围棋从业者的我们，非常感兴趣、也有义务为大家呈现依田九段本人的观点和看法。非常荣幸的是，我们很顺利的与依田先生取得联系，并得到了专访许可。于是便有了您即将看到的，为您全面剖析依田纪基九段近况的深度专访。&br&&br&&br&采访开始前，依田纪基委托我们向中国棋迷带来一则简单的问候。&br&&br&——依田纪基九段（以下简称为依田）：这次在日本《文春周刊》的报道给大家带来了不好的影响，首先我在此表达歉意。&br&《文春周刊》的报道里的内容有许多不符合事实，我目前正在准备自己的手记（就是自己的声明），会在近期发布。&br&&b&我自从1981年15岁第一次去中国以来，到中国交流的次数多的我自己都数不清了。与中国的交流年代也是我的青春时代。在此我也感谢关心我的所有人。&/b&&br&&br&【名词注释】《文春周刊》：如果您关注娱乐圈，听说过卓伟这个人，那解释起来就简单多了。卓伟老师名声鼎盛时号称“中国文春”。作为一本创刊近60年的杂志，文春乃日本八卦届权威，令全日本知名人士闻之色变。上至天皇豪奢，下至艺人绯闻，都在周刊文春爆料范围内。即便身为“受害者”，日本艺人在节目中也会用“文春从来不说假话”作为武器互相伤害。&br&&br&&/p&&p&&br&&/p&&p&【事件简述】4月19日发行的周刊文春，刊登了依田纪基夫人原幸子四段的“讨债控诉”。文章中除去对依田婚姻生活中种种不当行为的指责，焦点集中在三年前即与妻儿分居的依田，将价值2亿日元的别墅变卖、清还债务后，私吞原计划用于三个孩子学费的3000万日元。原幸子以妻儿名义要求依田归还这笔钱。&/p&&p&&br&&/p&&p&——野狐小编：依田老师您好，早在30年前，您就是全中国家喻户晓的棋手。去年末，您出了一本名为《最底层的名人》的自传，仅仅是书名，已经带给棋迷极其强烈的冲击，更不必说书中一些看上去非常悲观的内容。中国棋迷对您的近况非常关心，可否谈一谈这本自传的一些情况。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c327ac54b476c93e5300_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&908& data-rawheight=&1333& class=&origin_image zh-lightbox-thumb& width=&908& data-original=&https://pic1.zhimg.com/v2-c327ac54b476c93e5300_r.jpg&&&/figure&&p&&br&&/p&&p&——依田：&b&《最底层的名人》这本书就像我的遗书一样&/b&，把我所经历的人生，尽我所能的、一一诚实的描述出来。我认为每个人看完这本书，都有不同的观点。在此同时也有许多读者反馈给我，诸如“这本书很有意思”、“从这本书里学到了东西”之类的好评。&br&&br&——野狐小编：最近《文春周刊》等媒体爆出关于您的一些消息，舆论对您很是不利，是否已经影响到您现在的生活。&br&&br&——依田：“周刊文春”的报道出来以后，对我的生活没有特殊的影响。这次得知中国棋迷对我的关心，我感觉十分惭愧。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-a0fde0b525ac_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&810& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-a0fde0b525ac_r.jpg&&&/figure&&p&&br&&/p&&p&——野狐小编：从《文春周刊》的报道看，这本自传似乎加重了您和夫人关系的恶化。&br&&br&&b&——因为我已经有2年以上没有跟原（幸子）直接沟通&/b&，所以不知该如何表达跟她是什么样的关系。但我也不否认跟她的关系越来越恶化……&br&原（幸子）本身是一个很好的女性。头脑非常聪明，对孩子深深注入感情，还听说过她帮助过穷困的人。当然以前她也是这样对我的，所以我们在20年前结婚了。&br&然而相处许多年后，原（幸子）和我的感情开始出现裂痕。从1998年结婚最初开始到2004年失去名人头衔期间，我对金钱的浪费应该是最根本的原因。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-0a4dd6ca647add1b12f580b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&1440& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic3.zhimg.com/v2-0a4dd6ca647add1b12f580b_r.jpg&&&/figure&&p&&br&&/p&&p&——野狐小编：您在社交平台上表示自己的做法“问心无愧，但确有不妥之处”，方便的话能否向中国棋迷透露自己对本事件的看法。&br&&br&——依田：一言难尽！想把问题完全说明白，需要庞大的信息量。在那一个时期有过什么样的事实。我如何去面对和思考。又怎样的决断和行动。要把这一切经历的过程，真实的描述出来才能明白。&b&当然我知道就算是说明了一切，我的所作所为也会得到许多人的批评。&/b&回顾往事，或许现在的我能做的更好、因为我已经知道了感情出现裂痕之后的结果。&br&&b&3年前，发生了一个令我后悔一生的事情。因为工作上引起的纠纷，我的决断令我失去了跟家庭（包括孩子）唯一能够一起交流的平台。&/b&原（幸子）在这件事情上处理的很好，而我对不住她和孩子们。这件事情我会在我的手记（声明）里再次说明。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-d885dc4daddd4e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&599& data-rawheight=&733& class=&origin_image zh-lightbox-thumb& width=&599& data-original=&https://pic3.zhimg.com/v2-d885dc4daddd4e_r.jpg&&&/figure&&p&&br&&/p&&p&20年前，新婚燕尔的依田夫妇&br&&br&——野狐小编：日本棋手中，有张栩、羽根直树这样家庭幸福美满，也有您和山下敬吾这样与夫人发生了一些不愉快的例子。您觉得对棋手来说家庭、或者说妻子的支持意味着什么。听说您对苏格拉底的名言“结婚的好处是成为哲学家”感触很深。&br&&br&——依田：不光是棋手的妻子，所有夫妻的想法和价值观都要互相尊重和理解。这是我现在回首往事，深刻领会到的，非常重要的一点。&br&&b&不管多么强的棋手，也不可能赢一辈子。不管收入好或是差，任何状态中都能找到乐趣，能做到在一起愉快的生活，这样的妻子我觉得非常好。&/b&&br&&br&【往事闪回】“老虎”、“擂台狂人”、“李昌镐克星”，如雷贯耳的外号下，印刻着几代中国棋迷对依田纪基这位棋手的回忆。在这里我们采用一种独到、深锐的角度，希望帮助您对这个耳熟能详的名字，能有更透彻的了解。&br&&br&1996年末，首届三星杯决赛三番棋决胜局，依田纪基执白1目半击败刘昌赫，在首局半目惜败的不利局面下逆转夺冠，加冕世界冠军。&br&这是依田唯一一座世界冠军，却令当时的韩国人耿耿于怀。三星杯创办之际，拍出了对标应氏杯的40万美元冠军奖金，意欲打造世界第一棋战，最终被连胜五名韩国棋手的依田纪基尝了鲜。最令韩国人没齿难忘的是，如下图所示，比赛期间依田纪基一律以日本民族服装示人，穿着和服木屐捧起三星杯。了解过两国之间的历史恩怨后，你简直无法想象韩国人该如何面对这一幕。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-885a4e8dcaa_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&550& data-rawheight=&301& class=&origin_image zh-lightbox-thumb& width=&550& data-original=&https://pic2.zhimg.com/v2-885a4e8dcaa_r.jpg&&&/figure&&p&&br&&/p&&p&三年后，依田纪基来到中国南京参加第2届春兰杯时，特意要求去南京大屠杀纪念馆祭拜。他也是唯一一位勇于直面这段历史的日本棋手。&br&&br&&br&——野狐小编：今年正好是您和原幸子结婚20周年，20年来您获得了名人，也陆续失去了所有头衔。现在发生了这样不愉快的事情，您如何评价这段婚姻对您的影响。&br&&br&——依田：在我和原（幸子）的婚姻当中，唯一留下的宝贝就是3个孩子。这是我的经验和回忆，&b&现在想起孩子我就会难受心疼&/b&。&br&&br&——野狐小编：您和原幸子共生下三个孩子，最大的儿子才上高二，最小的仅有8岁。您平时是否参与对孩子们的教育，听说您曾经代替生病的长子，去下学生双人赛。&br&&br&——依田：自从3年前的事情发生之后我几乎没有见过孩子。现在后悔也改变不了现状，我会以我所能为孩子做出一切。&br&【编者注】：2015年末，当时还不到50岁的依田，在接受中国《围棋天地》记者采访时，曾流露出“希望再活20年，看到三个孩子都能长大成人、找到工作就满意了”的悲凉之语。&br&&br&【往事闪回】上世纪90年代初，依田纪基在刚刚兴起的世界大赛中打出“韩国克星”名号，一度15胜2负。96—99年李昌镐君临天下，依田又在那个棋界人人“谈李色变”的年代，让李昌镐“谈依田色变”。&br&&br&事实上，韩国李曹刘徐四天王，中国聂马常古四代领军，八位超一流棋士与依田纪基争斗一生，竟无人能在总比分上取得领先。如果不是依田“刀下不死无名之鬼”的脾气屡屡发作，甚至爆出过不敌德国棋手的冷门，他的外战成就绝不应该只有一个世界冠军。&br&&br&2006年，已逐渐从巅峰期滑落的依田纪基，在农心杯三国擂台赛上终结了李昌镐伟大的擂台14连胜，一波三连胜率领日本队捧起第一座，也是唯一一座农心杯冠军，摇摇欲坠的李昌镐王朝，在依田纪基最后的虎威下土崩瓦解。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-878afd6083bbe7de2c92_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&545& data-rawheight=&753& class=&origin_image zh-lightbox-thumb& width=&545& data-original=&https://pic3.zhimg.com/v2-878afd6083bbe7de2c92_r.jpg&&&/figure&&p&&br&&/p&&p&&br&——野狐小编：您对此事件有何预期，希望以怎样的方式收场。&br&&br&——依田：会是什么样的结局我也完全无法预测，因为原（幸子）也有自己的想法。我会和律师商量后一件一件来处理，只能相信这辈子的事能够在这辈子做个了断。&br&&br&——野狐小编：原幸子目前担任日本棋院常务理事，是否会因此导致本事件对您更为不利……&br&&br&——依田：我完全没有这么想。我认为原（幸子）很有能力，对工作是一个完美主义者。对于日本棋院也是需要的人才。我希望原（幸子）能够继续当常务理事。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-0bbb83b9b2b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&749& data-rawheight=&493& class=&origin_image zh-lightbox-thumb& width=&749& data-original=&https://pic4.zhimg.com/v2-0bbb83b9b2b_r.jpg&&&/figure&&p&&br&&/p&&p&配图为依田纪基讲解日本前首相小泽一郎的对局&br&&br&【背景介绍】原幸子四段自2016年4月起，担任日本棋院常务理事。不过早在10余年以前，原幸子便是日本棋界的保守派代表人物，执政理念与改革派大相径庭，且作风强势。面对当今棋坛中韩日新月异，日本独步自封的现状，保守派毫无开放之意，甚至希望进一步闭关锁国。就在去年，原幸子还出台了“禁止日本棋手在可能暴露身份的网站下棋”的禁令。&br&&br&时至今日，原幸子向陌生人自我介绍时，依然会用“依田纪基的夫人”做开场白。对比原幸子通过媒体对依田纪基的猛烈攻讦，如今蜗居30平米出租屋的依田，始终不肯对正在高档小区里照顾着三个孩子的妻子流露半句恶言。或许在依田心目中，20年的夫妻之情，无论如何都不应以争吵和抹黑收场。&br&&/p&&p&&br&&/p&&p&——野狐小编：您在《最底层的名人》中自称“最后的无赖派”，仿效的是“传说中的无赖派棋士”藤泽秀行先生。您觉得自己和秀行老师有哪些相同之处？&br&&br&——依田：和秀行老师相提并论，实在是愧不敢当，我连秀行老师的背影都追不上。第一次见到秀行老师的时候我是14岁，秀行老师是55岁。&b&现在我越来越接近当时秀行老师的年龄，越发的能理解秀行老师的伟大。我会以秀行老师为目标而努力。&/b&&br&&br&【背景介绍】或许在已经习惯了棋手30岁后走下坡路的中国棋迷眼中，知天命之年的依田纪基依然不肯放弃在一线征战，是一件不可理解的事情。然而深受日本棋道文化熏陶的依田纪基，是发自内心的相信、并竭尽全力争取获得头衔。三年前依田纪基与妻儿分居，一个人搬去30平米的出租屋单独生活，从棋手角度亦是希望能有一个安心练棋的环境。&br&&br&——野狐小编：之前的开场问候中，您提到15岁时第一次来中国，那次就是跟随“秀行军团”，此后与中国棋界结下深厚的友谊，可否谈谈您对中国、中国围棋界，还有中国90后棋手们的印象和看法。&br&&br&——依田：现在的中国年轻棋手非常优秀，而且有厚度。我认为这是中国围棋界的前辈、历代指导者（教练）用很长的时间，建立了培养优秀棋手的基础和体系。这个体系可以说是中国围棋的历史底蕴，和了不起的前辈们送给现代棋手们的馈赠。&br&&br&【往事闪回】说到擂台赛，怎能不提激励了整整一代中国人的中日擂台赛。1984年首届中日围棋擂台赛开幕，年仅18岁，出任日方先锋的依田纪基豪言要取得六连胜，结果首局击败汪见虹后次局即被江铸久打下擂台。随后聂卫平一己之力改写历史，率领中国连胜三届擂台，是为中国围棋腾飞的起点。&br&&br&三年后的第4届擂台赛，卧薪尝胆的依田纪基复出再领先锋印，这一次依田真的连胜六局，一口气打到聂卫平主帅账下，也让中国棋迷彻底认识了这个如猛虎下山般威武的帅小伙，“老虎”美名不胫而走。先锋VS主将的第7局，日本NHK电视台全程直播，如日中天的聂卫平，终究没有让依田一个人串烧中国全队。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-36ffc5cfbb92abb8cd767_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&488& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic4.zhimg.com/v2-36ffc5cfbb92abb8cd767_r.jpg&&&/figure&&p&&br&&/p&&p&——野狐小编：最近您用“tiger”这个ID登录野狐，并和实力极其强大的围棋AI“BensonDarr”（昵称金毛，腾讯微信翻译团队开发）交手多次，可否与腾讯野狐棋友交流您的网棋体验，以及对“BensonDarr”的评价。&br&&br&——依田：现在在野狐下棋已经是我的一大乐趣。特别是跟AI下棋的时候、每盘棋都会给我带来新的思路。所以我每天都会以开心的心态向AI学习。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-cd7fec4f1ff2a911c238_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&486& data-rawheight=&560& class=&origin_image zh-lightbox-thumb& width=&486& data-original=&https://pic1.zhimg.com/v2-cd7fec4f1ff2a911c238_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&【往事闪回】第4届擂台赛进行期间，为了激励依田将连胜进行到底，日本棋界对依田许下“若一杆清台，满足你任何愿望”的承诺。依田回复“愿望我有，就怕你们做不到，我想和吴清源大师下一盘棋”。虽然最终止步聂卫平账下，日本棋界为嘉奖依田的表现，依然如约请出已经13年不曾与人交手的吴清源。本局是为吴清源棋士生涯最后一局，依田纪基也荣幸的成为吴清源的最后一个对手。这一则往事，引出了我们的下一个问题——&br&&br&——野狐小编：作为吴清源大师最后一盘公开对局的对手，我们非常想知道您对AI与吴大师之间棋力、棋风对比的看法&br&&br&——依田：出于尊重，我无法把吴老师和AI作直接对比。&br&只能说伟大的吴老师也赢不了现代厉害的AI。当然任何人类棋手都赢不了。但是看到吴老师提倡的许多手法和AI有共同点时，我对吴老师的先见之明真是敬佩之极！&br&&br&——野狐小编：您觉得AI带来的变革，对于老棋手有着怎样的影响，能否改变当前棋界巅峰棋无法维持超过三十岁的现状。&br&&br&——依田：现在的围棋界已经受到了AI的巨大影响，以后也会持续。因为我们棋手会无条件的努力接近比自己强的存在，这是一名职业棋手的本能。至于不同年龄段的棋手会有怎样的影响，我看还是会因人而异，一律以年龄段来划分并不好衡量。&br&不过，以前我个人以为假如有围棋之神的存在（每步棋都是最完美的），人类的顶级棋手被让两子的话，会是一盘好胜负。&br&现在才知道这是一个天大的错误！&b&AI把围棋的奥妙教导给了我们，给人类带来了对围棋的理解和进步的机会，我认为这个成长也是我们人类棋手的责任。&/b&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-caeb8b8edede_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&729& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic3.zhimg.com/v2-caeb8b8edede_r.jpg&&&/figure&&p&&/p&&p&&/p&
过去的一周，丑闻、性侵、财务纠纷、抛妻弃子这些本是娱乐圈专属的名字，牢牢盘旋在日韩棋界上空，困扰着每一位热爱围棋的人们。相较于韩国那边，金成龙九段从解说一哥到强奸犯的剧烈反差。日本的依田纪基九段本就以个性强烈、不擅与人相处闻名，这一次爆…
&figure&&img src=&https://pic1.zhimg.com/v2-eddc0ad3caf90_b.jpg& data-rawwidth=&620& data-rawheight=&349& class=&origin_image zh-lightbox-thumb& width=&620& data-original=&https://pic1.zhimg.com/v2-eddc0ad3caf90_r.jpg&&&/figure&&p&先强调，本文标题绝无虚言，别玻璃心，不信去问问柯洁...&/p&&p&&br&&/p&&p&事情是酱紫的，昨天，Google 旗下的 Deepmind 又双叒叕在围棋界搞出了一个大新闻（它搞得新闻还不够多吗！！）。还记得被 AlphaGo 击败后不断为其打 call 的棋手&b&樊麾&/b&吗？这回，他又替阿尔法狗公布了一个重磅消息，&b&吓得柯洁留言表示要重新学下围棋了。&/b&这到底是怎么回事？今天就给大家详细八一八。（文末附赠本次的论文，大家可以好好学习） &/p&&p&&br&&/p&&p&昨天晚上八点不到三十分，樊麾老师在微博上发布消息称，&b&采用 AlphaGo Master 人工智能制作的 AlphaGo 教学工具正式上线。&/b&据说，他本人已经在这个工具里通过 AlphaGo 的视角，分析研究了许多围棋开局的下法优劣，现在每一个感兴趣的人都可以亲自来体验一下，还能直观地看到 AlphaGo 对每步棋的胜率分析！是不是很厉害！&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-bf64b9d3b446_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&552& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-bf64b9d3b446_r.jpg&&&/figure&&p&&br&&/p&&p&至于很多人会担心今后布局的标准化，棋手李喆也给出了定心丸：&b&其实不必担心。&/b&教学工具并不是告诉大家“只能这么下”，而是告诉大家“有些下法不太好”以及“可以这么下”。有些图中没有的下法只是因为模拟的随机性而未被收录，它们之中包含很多高胜率的选点，仍可以大胆尝试。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3ce55ee27cf94aacae101fe58e7bcd42_b.jpg& data-size=&normal& data-rawwidth=&555& data-rawheight=&588& class=&origin_image zh-lightbox-thumb& width=&555& data-original=&https://pic4.zhimg.com/v2-3ce55ee27cf94aacae101fe58e7bcd42_r.jpg&&&figcaption&上图：妖刀定式&/figcaption&&/figure&&p&&br&&/p&&h2&&b&// 教学工具介绍&/b&&/h2&&p&&br&&/p&&p&关注这方面的读者可能记得，在不久之前，Google 的 CEO Sundar Pichai 就曾表示，他们将开放围棋学习工具 AlphaGo Tools。现在最终放出的这个工具中，不但收集了 231000 个人类对局棋谱，还包含了 75 场 AlphaGo 与人类对战的棋谱，而且从中总结出了约 6000 个近代围棋史上的主要开局变化。&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-e3b8b5f193ad967b842af86a_b.jpg& data-size=&normal& data-rawwidth=&640& data-rawheight=&214& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-e3b8b5f193ad967b842af86a_r.jpg&&&figcaption&图为AlphaGo采用的蒙特卡罗树搜索&/figcaption&&/figure&&p&&br&&/p&&p&在教学工具中，每一步都能看到 AlphaGo 评估的对应着法的胜率，以及 AlphaGo 给出的推荐下法。这些数据都是 AlphaGo 经过1000万次模拟后得到的数据。对于每一个特定的开局，AlphaGo 都将固定向后延伸20步棋。加上 AlphaGo 自身的下法，整个教学工具约有 2 万种分支变化，37万个盘面。开发团队的&b&黄士杰博士&/b&表示，&b&希望大家享受 AlphaGo 教学工具中的创新下法，也能从中有所收获。&/b& &/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-2461bda8fbd51a867dba6f16c06327d8_b.jpg& data-size=&normal& data-rawwidth=&640& data-rawheight=&456& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-2461bda8fbd51a867dba6f16c06327d8_r.jpg&&&figcaption&图为 AlphaGo 和樊麾的对局中，决定某一步下法时的决策流程&/figcaption&&/figure&&p&&br&&/p&&p&&br&&/p&&h2&&b&// 试玩体验&/b&&/h2&&p&&br&&/p&&p&这么带劲的大玩具，怎么能不玩一下过过瘾？在 Deepmind 放出的这个工具页面上（&a href=&https://link.zhihu.com/?target=http%3A//alphagoteach.deepmind.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&alphagoteach.deepmind.com&/span&&span class=&invisible&&&/span&&/a&），&b&简单地点击棋盘上的彩色圆圈，或使用棋盘下方的导航工具，即可探索不同的开局变化，并能直观地看到 AlphaGo 对于每一步棋的【黑棋胜率】预测。&/b&&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-b56e313b8ab367cd7d5cee38debca19f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&262& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-b56e313b8ab367cd7d5cee38debca19f_r.jpg&&&/figure&&p&&br&&/p&&p&&b&如下图所示，棋盘中紫色实线的圆圈代表过去的棋谱中，职业棋手曾经下过的着法，青色虚线圆圈代表 AlphaGo 推荐的下法，圆圈中的数值代表 AlphaGo 对该着法的评估。&/b&当轮到黑棋落子时，数值越接近 100 表示黑棋优势越大；当轮到白棋落子时，数值越接近 0 表示白棋优势越大。 50 则表示均势。这样，即使对围棋定式不甚了然的玩家，通过选择某一手，并观察局面和概率分析的演变，就能大致了解 AlphaGo 对当前局面的分析结果。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d8f9df73b8955_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&528& data-rawheight=&528& data-thumbnail=&https://pic4.zhimg.com/v2-d8f9df73b8955_b.jpg& class=&origin_image zh-lightbox-thumb& width=&528& data-original=&https://pic4.zhimg.com/v2-d8f9df73b8955_r.jpg&&&/figure&&p&&br&&/p&&p&也许有人会问，&b&那为什么 AlphaGo 不选择胜率最高的下法呢？&/b&Deepmind团队对此的说明是：“这是因为每一个下法的胜率都是得自于单独的一个 1000 万次模拟的搜索。 AlphaGo 的搜索有随机性，因此 AlphaGo 在不同的搜索可能会选择胜率接近的另一种下法。”&/p&&p&&br&&/p&&h2&&b&// 微博上的评论 &/b&&/h2&&p&&br&&/p&&p&一石激起千层浪，微博上的围棋大咖们对这个大新闻也议论纷纷，九段棋手世界冠军&b&常昊&/b&认为，“&b&教学工具不一定是标准答案，更多的是给予了我们无限的思考空间&/b&”，&b&周睿羊&/b&兴奋地称他“&b&看到工具一些高级下法之后感觉到又可以起飞了”&/b&，甚至还有人觉得&b&“仿佛跟柯洁站在了同一起跑线上”&/b&…而&b&人类第一棋手柯洁呢&/b&？柯洁直接表示要&b&重新学围棋&/b&……&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-a010cbcc0c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&165& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-a010cbcc0c_r.jpg&&&/figure&&p&&br&&/p&&a href=&https://link.zhihu.com/?target=https%3A//cn.udacity.com/course/deep-learning-nanodegree-foundation--nd101-cn%3Futm_source%3Dzhihu-oa%26utm_medium%3Dsocial%26utm_campaign%3Ddlnd& data-draft-node=&block& data-draft-type=&link-card& data-image=&https://pic3.zhimg.com/v2-6c8b4a97b0857dd7beac2_ipico.jpg& data-image-width=&300& data-image-height=&300& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度学习 | Udacity&/a&&p&&br&&/p&&p&&b&最后双手奉上此次热腾腾的论文《Mastering the game of Go with deep neural networks and tree search》PDF，有需要的同学可以关注我们微信订阅号（id：youdaxue），回复关键字【阿尔法狗】&/b& 获取。&/p&&p&&br&&/p&&p&&b&想看更多关于阿尔法狗的文章，戳&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzI0NzE3NTAzOA%3D%3D%26mid%3D%26idx%3D1%26sn%3Dd6f0e85c8a5a%26chksm%3Df254ac2ac490aaaea25ca393b8fb3e567b5ef332d595b3a8faaf2594%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&阿尔法狗逆天超进化！8小时碾压3大棋类无人能敌！&/a&&/b&&/p&&p&&br&&/p&&p&&b&本文首发于微信订阅号优达学城Udacity（id：youdaxue），关注订阅号，回复关键字“学习资料”，获取来自硅谷的包括“机器学习”、“深度学习”、“数据分析”和“前端开发”在内的独家学习资料。&/b&&a href=&https://link.zhihu.com/?target=https%3A//cn.udacity.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&优达学城 (Udacity) - 传授硅谷的名企官方课程&/a&&/p&&p&欢迎大家踊跃投稿~可以通过私信联系优达菌~&/p&
先强调，本文标题绝无虚言，别玻璃心，不信去问问柯洁... 事情是酱紫的，昨天，Google 旗下的 Deepmind 又双叒叕在围棋界搞出了一个大新闻（它搞得新闻还不够多吗！！）。还记得被 AlphaGo 击败后不断为其打 call 的棋手樊麾吗？这回，他又替阿尔法狗公布了…
&figure&&img src=&https://pic4.zhimg.com/v2-c7d382d0a4fb9ca012dd72_b.jpg& data-rawwidth=&1920& data-rawheight=&1078& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&https://pic4.zhimg.com/v2-c7d382d0a4fb9ca012dd72_r.jpg&&&/figure&&p&选自DeepMind&/p&&p&&b&机器之心编译&/b&&/p&&p&&br&&/p&&blockquote&在今年五月击败柯洁之后，AlphaGo 并没有停止自己的发展。昨天，DeepMind 在《自然》杂志上发表了一篇论文，正式推出 AlphaGo Zero——人工智能围棋程序的最新版本。据称，这一版本的 AlphaGo 无需任何人类知识标注，在历时三天，数百万盘的自我对抗之后，它可以轻松地以 100 比 0 的成绩击败李世乭版本的AlphaGo。DeepMind 创始人哈萨比斯表示：「Zero 是迄今为止最强大，最具效率，最有通用性的 AlphaGo 版本——我们将见证这项技术很快应用到其他领域当中。」 &/blockquote&&p&&br&&/p&&p&人工智能研究已经在多个领域取得飞速进展，从语音识别、图像分类到基因组学和药物研发。在很多情况下，这些是利用大量人类专业知识和数据的专家系统。&/p&&p&但是，人类知识成本太高，未必可靠，或者只是很难获取。因此，AI 研究的一个长久目标就是跨过这一步，创建在最有难度的领域中无需人类输入就能达到超人性能的算法。在我们最近发表在 Nature 上的论文中，我们展示了通往该目标的关键一步。&/p&&p&这篇文章介绍了 AlphaGo Zero，AlphaGo 的最新版本。AlphaGo 曾打败围棋世界冠军，Zero 甚至更强大，可以说是历史上最强的围棋选手。&/p&&p&之前的 AlphaGo 版本首先基于数千场人类围棋比赛来训练如何学习围棋。但 AlphaGo Zero 跳过了这一步，从自己完全随机的下围棋开始来学习围棋。通过这种方式，它快速超越了人类棋手的水平，并且以 100:0 的比分打败了之前战胜世界冠军的 AlphaGo。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2aec4ba81c2e_b.jpg& data-caption=&& data-rawwidth=&900& data-rawheight=&479& data-thumbnail=&https://pic1.zhimg.com/v2-2aec4ba81c2e_b.jpg& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic1.zhimg.com/v2-2aec4ba81c2e_r.jpg&&&/figure&&p&&br&&/p&&p&AlphaGo Zero 利用新型强化学习完成这样的壮举，在训练过程中它是自己的老师。该系统的神经网络最初对围棋一无所知，然后它通过将该神经网络与强大的搜索算法结合进行自我对弈。神经网络在下棋过程中得到调整和更新，来预测棋招和比赛的最终胜者。&/p&&p&更新后的神经网络重新与搜索算法连接，创建新的更强大的 AlphaGo Zero，然后重复上述流程。每次迭代中，系统的性能取得小幅上升，自我对弈的比赛质量不断上升，带来更加准确的神经网络和历史最强的 AlphaGo Zero 版本。&/p&&p&这项技术比起前几个版本的 AlphaGo 更加强大，因为它不再受人类知识极限的约束。相反，它从一张白纸的状态开始，和世界最强的围棋选手 AlphaGo（它自己）学习下棋。&/p&&p&它与之前的版本在以下几个方面存在差异：&/p&&ul&&li&AlphaGo Zero 只需要围棋棋盘中的黑子和白子作为输入，而前几个版本的 AlphaGo 还包括少量手工设计的特征。&/li&&li&它只有一个神经网络，而再不是两个。早期几个版本的 AlphaGo 使用「决策网络」选择下一步棋的位置，使用「价值网络」预测每一个位置上决定的胜者。这两个网络在 AlphaGo Zero 中被结合起来，从而使其更高效地训练和评估赛况。&/li&&li&AlphaGo Zero 不使用「rollouts」（其它围棋程序使用的快速、随机的下棋方式，以从当前的棋盘位置分布预测哪一个棋手会赢），取而代之，它依靠其优质的神经网络评估下棋位置。&/li&&/ul&&p&所有这些区别都有助于提高系统的性能，并使其更加一般化，然而算法上的变化才是系统更加强大和高效的重要原因。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8b06d02cfa925a1c18b98af0f1b2af07_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&325& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-8b06d02cfa925a1c18b98af0f1b2af07_r.jpg&&&/figure&&p&由于硬件和算法的进步才使得 AlphaGo 能持续地变得越来越高效——Zero 版本只需 4 块 TPU 即可运行。&/p&&p&仅仅经过三天的自我对抗训练，AlphaGo Zero很干脆地以100:0的战绩打败了之前的AlphaGo版本（它击败曾经获得过18次世界冠军的李世石）。又经过40天的自我对抗训练，AlphaGo Zero变得更加强大，甚至优于打败世界头号选手柯洁的AlphaGo版本「Master」。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-6a51dd349b2b20c9061fc6baaf9e9184_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&311& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-6a51dd349b2b20c9061fc6baaf9e9184_r.jpg&&&/figure&&p&等级分排名（在围棋等竞争性比赛中对选手的相关技巧的水平的度量）：显示 AlphaGo 如何在发展过程中逐渐变得强大。&/p&&p&在几百万盘 AlphaGo 自我博弈的竞赛之后，系统在尝试中逐渐学会了围棋游戏，在短短几天内积累了人类数千年的知识。AlphaGo Zero 同时还发现了新的知识，发展出非常规和具有创意性的下法，这些技术已经超越了此前 AlphaGo 与李世石和柯洁对弈时展现的水平。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-fd375bbcbfcb_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&352& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-fd375bbcbfcb_r.jpg&&&/figure&&p&AlphaGo 展现的创造力让我们有理由相信人工智能将会成为人类智慧的放大器，帮助我们实现自己的使命，去解决人类面临的最具挑战的问题。&/p&&p&尽管 AlphaGo Zero 仍然在发展初期，但是它完成了通向该目标的关键一步。如果类似的技术可以应用到蛋白质折叠等其他结构化问题中，减少能量消耗或搜索最新的材料，则它带来的突破有可能给整个社会带来积极的影响。&/p&&p&&br&&/p&&p&&b&论文：Mastering the game of Go without human knowledge&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-855b870dd906d_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&206& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-855b870dd906d_r.jpg&&&/figure&&p&论文地址：&a href=&https://link.zhihu.com/?target=https%3A//deepmind.com/documents/119/agz_unformatted_nature.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&deepmind.com/documents/&/span&&span class=&invisible&&119/agz_unformatted_nature.pdf&/span&&span class=&ellipsis&&&/span&&/a& &/p&&p&&br&&/p&&p&长期以来，人工智能有一个目标就是算法能够在难度较高的领域从零开始学得超人的性能。近期，AlphaGo 成为在围棋领域第一个打败人类世界冠军的程序。AlphaGo 中的树搜索使用深度神经网络评估位置，选择棋招。这些神经网络通过监督学习从人类专家的棋招中学习，然后通过强化学习进行自我对弈。本文，我们介绍一种算法，该算法仅依靠强化学习，不使用游戏规则以外的人类数据、指导或领域知识。AlphaGo 成为自己的老师：我们训练一种神经网络来预测 AlphaGo 的下一步以及 AlphaGo 游戏的获胜者。该神经网络提升树搜索的能力，带来下一次迭代中更高质量的棋招选择和更强大的自我对弈。新程序 AlphaGo Zero 从头开始学习，并达到了超人的性能，以 100-0 的比分打败曾经战胜人类世界冠军的 AlphaGo。&/p&&p&AlphaGo Zero 所采用的神经网络是一种新颖的强化学习算法，即自我对抗（self-play）的竞争性训练。此前，OpenAI 曾发表论文表示自我对抗训练可以在简单环境下产生远超环境复杂度的行为。而这一次 AlphaGo Zero 和此前 AlphaGo Fan 与 AlphaGo Lee 的很大区别就是采用了这种自我对抗式的训练策略。&/p&&p&图 1：AlphaGo Zero 中的自我对抗强化学习&/p&&figure&&img src=&https://pic4.zhimg.com/v2-cc61e50eae7bbb8f0a3d92e23b446720_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&572& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-cc61e50eae7bbb8f0a3d92e23b446720_r.jpg&&&/figure&&p&a：AlphaGo Zero 和自己进行 s_1,...,s_T 对弈。在每一个位置 s_t 处使用最新的神经网络 f_θ执行蒙特卡罗树搜索（MCTS）α_θ（见图 2）。根据 MCTS 计算的搜索概率选择棋招（a_t ~ π_t）。最终位置 s_T 的得分根据游戏规则计算，进而计算游戏获胜者 z。b： AlphaGo Zero 中的神经网络训练。神经网络使用原始棋盘位置 s_t 作为输入，使用参数θ将其传播通过多个卷积层，然后输出代表棋招概率分布的向量 p_t，和代表当前选手在 s_t 获胜的概率标量值 v_t。神经网络的参数θ得到更新以最大化策略向量 p_t 和搜索概率π_t 的相似性，并将预测获胜者 v_t 和获胜者 z 之间的误差最小化（见公式 1）。新的参数将在下一次迭代的自我对抗中使用。&/p&&p&&br&&/p&&p&根据神经网络 f_θ，在每一个位置 s 处执行 MCTS 搜索。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-0c5ecd6ca5e3c29204bd62_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&234& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-0c5ecd6ca5e3c29204bd62_r.jpg&&&/figure&&p&图2：AlphaGo Zero中的MCTS。&/p&&p&&br&&/p&&p&a：每一次模拟通过选择最大化行动价值Q的边来遍历整棵树，加上上面的（依赖于一个已储存的先验概率P）置信边界U，并访问边的总数N（每遍历一次增加1）。&br&b，叶结点得到扩展，并且相关的位置由神经网络 (P(s, ·),V(s)) = f_θ(s)评估；P值的向量存储在s的外向边（outgoing edges）中。&br&c，行动价值Q被更新以追踪当前行动下的子树的所有评估V的平均值。&br&d，一旦搜索完成，会返回搜索概率值（search probabilities）π，和N^(1/τ)成比例，其中N是每一次行动自根状态（root state）以来的访问总数，τ是控制温度（temperature）的参数。&/p&&p&原文链接：&a href=&https://link.zhihu.com/?target=https%3A//deepmind.com/blog/alphago-zero-learning-scratch/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&deepmind.com/blog/alpha&/span&&span class=&invisible&&go-zero-learning-scratch/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&b&本文为机器之心编译，转载请联系本公众号获得授权。&/b&&/p&&p&&/p&
选自DeepMind机器之心编译在今年五月击败柯洁之后，AlphaGo 并没有停止自己的发展。昨天，DeepMind 在《自然》杂志上发表了一篇论文，正式推出 AlphaGo Zero——人工智能围棋程序的最新版本。据称，这一版本的 AlphaGo 无需任何人类知识标注，在历时三天，…
&h2&AlphaGo 再进化，以己为师，人类会变得多余吗？&/h2&&p&&b&从零开始纯自学的 AlphaGo&/b&&/p&&p&根据 DeepMind 的官方网站，AlphaGo 推出了最新的升级版，名为 AlphaGo Zero，这个版本完全依靠机器自己进行强化学习，在摆脱了大量的人类棋谱后，机器根据围棋的规则左右互搏，在三天之内就超越了去年三月对阵李世乭的版本，接着在第 21 天战胜了对阵柯洁的版本，到第 40 天，在对阵此前最先进的版本时，已经能保持 90% 的胜率。&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-a24fe2ea0cc_b.jpg& data-caption=&& data-rawwidth=&750& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&https://pic2.zhimg.com/50/v2-a24fe2ea0cc_r.jpg&&&/figure&&p&DeepMind 官方表示，这毫无疑问是史上最强的围棋棋手。&/p&&p&但你也知道，&b&仅仅是棋艺的升级不足以让它一夜之间霸占中外媒的头条，是什么让再次升级的 AlphaGo 吸引了这么多人的关注呢？&/b&&/p&&figure&&img src=&https://pic2.zhimg.com/50/v2-dceac7f3afb2c_b.jpg& data-rawwidth=&750& data-rawheight=&454& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&https://pic2.zhimg.com/50/v2-dceac7f3afb2c_r.jpg&&&figcaption&柯洁和古力纷纷转发微博感慨机器的强大&/figcaption&&/figure&&p&DeepMind 在自己的官网上发表了一篇博客文章，同时表示新版本 AlphaGo 的研究论文已在权威学术期刊《自然》上发表。对学界来说，这是一个非常重磅的消息，总结来说这个版本特别的原因有三：&/p&&blockquote&1、AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而 AlphaGo 之前的版本中包含了少量人工设计的功能。&br&2、它使用的是一个神经网络而不是两个。AlphaGo 的早期版本使用「走棋网络（policy network）」来选择下一个动作和一个「价值网络（value network）」来预测游戏的赢家。AlphaGo Zero 合并了两者，使其能够更有效地进行训练和评估。&br&3、AlphaGo Zero 不使用「Rollout」——其他围棋程序使用的快速、随机的游戏来预测哪个玩家将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估棋局。&/blockquote&&p&以上这三点大大改善了 AlphaGo 的表现。&/p&&p&&br&&/p&&p&&b&摆脱人类经验后下得更好&/b&&/p&&p&但 DeepMind 同时指出，是算法的改变让这个系统更加强大且高效。&/p&&p&72 小时自我对弈，AlphaGo Zero 就以 100-0 的成绩战胜了此前对阵李世乭的版本；40 天训练之后，它成功超越了击败柯洁的改良后的 Master 版本。&/p&&p&从下面的动图可以看到，因为从零开始的缘故，AlphaGo Zero 的初期表现非常糟糕，但水平提高的速度也非常快，仅仅三天就超越了对阵李世乭的版本。&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-de130b663cb888f2ade18ef_b.jpg& data-caption=&& data-rawwidth=&900& data-rawheight=&479& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic4.zhimg.com/50/v2-de130b663cb888f2ade18ef_r.jpg&&&/figure&&p&「它比此前的版本更强大，是因为灭有使用人类的数据，也不使用任何形式的人类经验，我们已经消除了人类知识的局限，它能够创造知识本身，」AlphaGo 的首席研究员 David Silver 说道。&/p&&p&这个系统通过强化学习来提高它自身的技巧水平。每当 AlphaGo Zero 走了一步好棋时，它就会获得系统的「奖励」，反之则有损失。&/p&&p&系统的核心是一组软件上的「神经元」，这些「神经元」连接在一起，形成一个人工的神经网络。在游戏的每一个回合中，神经网络会查看棋盘上棋子的位置，然后计算下一步棋的位置，并计算出每一步的可能性，做出最可能获胜的选择。在每一场比赛之后，它会更新它的神经网络，使它在下次比赛中更加强大。&/p&&p&尽管比以前的版本好得多，但 AlphaGo Zero 其实是一个更简单的系统，它需要的数据更少，硬件要求也更低（对阵李世乭的 AlphaGo 使用了 48 个 TPU，而 AlphaGo Zero 只用了 4 个 TPU），但它仍能够更快地掌握游戏。Silver 表示，如果有更多的时间，它甚至可能会发展出一套自己的规则。&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-c558dfd85aec2b_b.jpg& data-caption=&& data-rawwidth=&750& data-rawheight=&381& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&https://pic3.zhimg.com/50/v2-c558dfd85aec2b_r.jpg&&&/figure&&p&根据一些外国棋手的观察，AlphaGo Zero 在棋局的初期表现仍与人类千年来的套路相同，但到棋局中期就会变得令人难以理解。&/p&&p&&br&&/p&&p&&b&围棋之外，AlphaGo 还能带来更多&/b&&/p&&p&这也是这次 AlphaGo 再次刷屏的原因之一。身为该研究重点的强化学习是机器智能领域一个非常重要的技术，它从深度学习中延伸出来，进一步摆脱人类的干涉训练机器，而 DeepMind 也一直致力于「深度强化学习（Deep Reinforcement Learning）」的研究。&/p&&p&此前他们就发表了一篇论文，研究如何让一个 AI 系统自学「跑酷」。该 AI 系统在没有输入人类经验的前提下学习翻越障碍物，最终发展出自己翻越的方法。&/p&&p&机器能够发现人类无法发现的一些东西，这在人工智能界是一个普遍的共识，早先就有人颇为异想天开地尝试让人工智能根据图片来辨别人的性取向，虽然这样的研究遭到了不少的批评，但它确实反映了人工智能研究者们对 AI 的一些期待。&/p&&p&人类自己的知识是有局限的，而本质是计算机程序的人工智能往往与大多数人类的视角不同，他们能够在人类的固有思维和司空见惯的事物中发现人类找不到的规则和破解问题的方法。&/p&&p&AlphaGo Zero 就是一个很好的证明。&/p&&p&所以让 AlphaGo Zero 再次刷屏的并不是它多强的围棋技巧，也不是「100-0」、「3 天」和「40 天」这样惹人眼球的数字，而是它所证明的&b&技术理论的可行性&/b&。&/p&&p&在围棋以外，得到论证的理论其实还能做到更多。&/p&&p&「尽管目前仍处于早期阶段，但 AlphaGo Zero 构成了朝着这个目标迈进的关键一步。如果类似的技术可以应用到其他结构问题上，比如蛋白质折叠、减少能源消耗或者寻找革命性的新材料时，那么这些突破就有可能对社会产生积极的影响。」DeepMind 在官方博客中如此说道。&/p&&p&所以，有关&b&「让机器下围棋，下得再好又有什么用」的看法其实是非常幼稚的。&/b&&/p&&p&当 DeepMind 和 OpenAI 等公司开始研究让 AI 打 Dota、星际争霸等游戏时，收获的往往也是社会上的嘲笑声。&/p&&p&在大多数人的设想中，他们希望人工智能帮他们开车、打扫房间、完成这样那样简单且重复性的工作。事实上，这也是那些拥有着最顶尖技术的科技公司想要的，但在达到这些终极目标之前，他们也需要棋牌、游戏等训练算法的土壤，在这些模拟的棋局、比赛中，打造 AI 系统的模拟器（simulator），这也是为什么当 DeepMind 表示要挑战星际争霸时，他们表示这会比围棋更有挑战性——因为 MOBA 类游戏的场景更加复杂。&/p&&p&责任编辑：王伟 ■&/p&&p&&b&本文出自 &a href=&//link.zhihu.com/?target=http%3A//www.geekpark.net/users/2f26665b-e6dc-4f3d-8c56-b996fa9842e0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&宋德&/a&，源自极客公园。&/b&&/p&
AlphaGo 再进化，以己为师，人类会变得多余吗？从零开始纯自学的 AlphaGo根据 DeepMind 的官方网站，AlphaGo 推出了最新的升级版，名为 AlphaGo Zero，这个版本完全依靠机器自己进行强化学习，在摆脱了大量的人类棋谱后，机器根据围棋的规则左右互搏，在三…
&p&老实说这篇Nature要比上一篇好很多，方法非常干净标准，结果非常好，以后肯定是经典文章了。&/p&&p&Policy network和value network放在一起共享参数不是什么新鲜事了，基本上现在的强化学习算法都这样做了，包括我们这边拿了去年第一名的Doom Bot，还有ELF里面为了训练微缩版星际而使用的网络设计。另外我记得之前他们已经反复提到用Value network对局面进行估值会更加稳定，所以最后用完全不用人工设计的default policy rollout也在情理之中。&/p&&p&让我非常吃惊的是仅仅用了四百九十万的自我对局，每步仅用1600的MCTS rollout，Zero就超过了去年三月份的水平。并且这些自我对局里有很大一部分是完全瞎走的。这个数字相当有意思。想一想围棋所有合法状态的数量级是10^170（见&a href=&http://link.zhihu.com/?target=https%3A//tromp.github.io/go/legal.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Counting Legal Positions in Go&/a&），五百万局棋所能覆盖的状态数目也就是10^9这个数量级，这两个数之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好，只能说明卷积神经网络（CNN）的结构非常顺应围棋的走法，说句形象的话，这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说，CNN的inductive bias（模型的适用范围）极其适合围棋漂亮精致的规则，所以稍微给点样本水平就上去了。反观人类棋谱有很多不自然的地方，CNN学得反而不快了。我们经常看见跑KGS或者GoGoD的时候，最后一两个百分点费老大的劲，也许最后那点时间完全是花费在过拟合奇怪的招法上。&/p&&p&如果这个推理是对的话，那么就有几点推断。一是对这个结果不能过分乐观。我们假设换一个问题（比如说protein folding），神经网络不能很好拟合它而只能采用死记硬背的方法，那泛化能力就很弱，Self-play就不会有效果。事实上这也正是以前围棋即使用Self-play都没有太大进展的原因，大家用手调特征加上线性分类器，模型不对路，就学不到太好的东西。一句话，重点不在左右互搏，重点在模型对路。&/p&&p&二是或许卷积神经网络（CNN）系列算法在围棋上的成功，不是因为它达到了围棋之神的水平，而是因为人类棋手也是用CNN的方式去学棋去下棋，于是在同样的道路上，或者说同样的inductive bias下，计算机跑得比人类全体都快得多。假设有某种外星生物用RNN的方式学棋，换一种inductive bias，那它可能找到另一种（可能更强的）下棋方式。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点，在侧面上印证了这个思路。在这点上来说，说穷尽了围棋肯定是还早。&/p&&p&三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问题，机器通过采用有相同或者相似的inductive bias结构的模型，可以去解决。但是人不知道它是如何做到的，所以除了反复尝试之外，人并不知道如何针对新问题的关键特性去改进它。如果能在理论上定量地理解深度学习在不同的数据分布上如何工作，那么我相信到那时我们回头看来，针对什么问题，什么数据，用什么结构的模型会是很容易的事情。我坚信数据的结构是解开深度学习神奇效果的钥匙。&/p&&p&另外推测一下为什么要用MCTS而不用强化学习的其它方法（我不是DM的人，所以肯定只能推测了）。MCTS其实是在线规划（online planning）的一种，从当前局面出发，以非参数方式估计局部Q函数，然后用局部Q函数估计去决定下一次rollout要怎么走。既然是规划，MCTS的限制就是得要知道环境的全部信息，及有完美的前向模型（forward model），这样才能知道走完一步后是什么状态。围棋因为规则固定，状态清晰，有完美快速的前向模型，所以MCTS是个好的选择。但要是用在Atari上的话，就得要在训练算法中内置一个Atari模拟器，或者去学习一个前向模型（forward model），相比actor-critic或者policy gradient可以用当前状态路径就地取材，要麻烦得多。但如果能放进去那一定是好的，像Atari这样的游戏，要是大家用MCTS我觉得可能不用学policy直接当场planning就会有很好的效果。很多文章都没比，因为比了就不好玩了。&/p&&p&另外，这篇文章看起来实现的难度和所需要的计算资源都比上一篇少很多，我相信过不了多久就会有人重复出来，到时候应该会有更多的insight。大家期待一下吧。&/p&
老实说这篇Nature要比上一篇好很多，方法非常干净标准，结果非常好，以后肯定是经典文章了。Policy network和value network放在一起共享参数不是什么新鲜事了，基本上现在的强化学习算法都这样做了，包括我们这边拿了去年第一名的Doom Bot，还有ELF里面为了…
&figure&&img src=&https://pic1.zhimg.com/50/v2-e2a9fb69df666_b.jpg& data-rawwidth=&1242& data-rawheight=&1242& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic1.zhimg.com/50/v2-e2a9fb69df666_r.jpg&&&/figure&&p&图1：这是DeepZenGo（以下简称zen)执黑负于王昊洋的对局。实战进行至此，是黑取外势，白取实地的局面。黑1在右边连片是超级大场，黑棋右边阵势和左边外势遥相呼应，非常生动，虽然局势尚早，但是这种格局是zen相对比较擅长的。&b&但接下来，zen突然毫无缘由的下了一串大损的交换......&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-58bf5815_b.jpg& data-rawwidth=&640& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/50/v2-58bf5815_r.jpg&&&/figure&&p&图2：黑1至白14，黑棋在左上的一串交换，不仅白白损失了实地，还损失了许多宝贵的劫才！交换完这一串后，最后黑15还是回到右边连片。这有点像足球比赛中先往自家大门踢进一个，然后再接着比赛。&/p&&p&当然，人工智能在对局中出现这样无谓损失的交换并不罕见，但通常都会在赢定的情况下通过“剪枝”来简化局面，或者在输定的情况下抱着对手“叫吃看不见”这样孩童般天真的想法时才会出现。&/p&&p&&b&今天这盘棋，在局势还远远未定局的情况下，zen为什么突然会这样“疯狂”呢？真让人百思不得其解......&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-d8f5f391bd5e75c2df44f_b.jpg& data-rawwidth=&1242& data-rawheight=&1246& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic4.zhimg.com/50/v2-d8f5f391bd5e75c2df44f_r.jpg&&&/figure&&p&图3：加藤先生局后说：“zen下着下着突然发现在左边的死活对杀判断上出现误判，混乱之际，从而突然跑到左上角下了一大堆损棋！”&/p&&p&&b&那zen在左边的对杀中到底是哪里出了问题？出了问题后为何会跑到左上去下那么损的棋？下面我们来分析一下这两个问题：&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-3ddaeded726_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/50/v2-3ddaeded726_r.jpg&&&/figure&&p&先来聊一下zen的决策思考机制，按照我的理解来比喻一下：&b&zen的每一步棋背后都有两位长老帮他做决策，一位长老叫做“策略网络”。&/b&因为围棋的变化太多，不可能被穷尽，zen虽然计算力惊人，但是也不可能把每一步棋都深度计算，那样它肯定会累死的。所以他让“策略网络”这位长老来负责“直觉”这一块的任务，当一个局面出现时，“策略网络”在短时间内迅速把盘面上那么多可选的点中以一种人类直觉的方式筛选出几个点，这样就可以使zen思考的效率大大提高。&b&当“策略网络”这位长老筛选出几个点推荐给zen的时候，另一位长老登场了。&/b&&/p&&p&&b&这位长老叫做“价值网络”。&/b&当zen收到“策略网络”推荐的几个点后，就把这几个点交给“价值网络”，价值网络再对这几个点进行深度的计算和判断，这相当于人类的理性计算。当“价值网络”通过理性深入的计算后，确认“策略网络”的推荐的点没有问题后，就把最终方案给zen看，zen一般都会选择第一推荐点。这个运行机制其实和我们人类下棋时的思考方式很像。我们思考的时候，也是先凭感觉经验大概觉得要下这几个点，然后再深入计算来理性确认。&b&直觉（策略网络）保证了计算的效率；深度计算（价值网络）验证了直觉的正确性和可行性。&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-431afc8aee4cfd7db69b_b.jpg& data-rawwidth=&1242& data-rawheight=&1244& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic4.zhimg.com/50/v2-431afc8aee4cfd7db69b_r.jpg&&&/figure&&p&图4：&b&这盘棋，zen前面在两位长老的辅助下，一直有条不紊的顺利工作着，直到白58手扑的出现！我觉得，白58扑之后，zen的直觉（策略网络）不仅推荐了黑A提，而且还把黑A提放到了“推荐榜前几名”中。&/b&当策略网络得意得把这步棋推荐给价值网络（深度计算）后，价值网络一计算，发现这步棋不对啊，不仅上不了推荐榜，而且还是胜率超低的一手棋啊！两位长老这下“打起来了”，那到底谁是对的呢？&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-6f7cc2499db8dff24af071_b.jpg& data-rawwidth=&1242& data-rawheight=&1236& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic3.zhimg.com/50/v2-6f7cc2499db8dff24af071_r.jpg&&&/figure&&p&图5：黑1提，白2一冲，黑3只有粘上，白4再一小尖，黑收气，以下至白8，黑棋慢一气被杀。前图的白58扑跟黑1提交换白白便宜了一口气！这就是王昊洋白58扑的用意！&b&所以，“价值网络”这位长老的判断是对的。&/b&由于黑1这步自杀似的一手上了推荐榜前几名，而且排名太靠前&b&！“价值网络“不得不花巨大的资源对这步棋进行验证，并说服”策略网络“，这步棋真的不能上榜，在这个内部斗争的过程中，大量的计算资源被耗费！导致zen的计算资源大减！&/b&&/p&&p&而这个时候，zen又必须要落子了（zen每步棋都在很快时间内下的），可左边的对杀两位长老还没争明白呢！左上又是zen需要解决的地方（局部对杀是zen思考最紧急的地方），但这时候zen的“脑力”已不足，只好在没有成算的情况下在左上行棋，结果就下成了图2实战的样子。&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-b45f7c5efea_b.jpg& data-rawwidth=&1242& data-rawheight=&1240& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic3.zhimg.com/50/v2-b45f7c5efea_r.jpg&&&/figure&&p&图6：问题还在延续，左边白58扑的这个局部一直都没有定型解消，当白136尖的时候，zen的两位长老再次出现了冲突！导致zen在左上又下出了一步超级损棋，终于将自己陷入绝境。&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-b4b0efad2e51fa_b.jpg& data-rawwidth=&1242& data-rawheight=&1246& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic3.zhimg.com/50/v2-b4b0efad2e51fa_r.jpg&&&/figure&&p&图7：黑167送死，这步棋太损了！本来由于白棋气紧，黑A位接上是先手，现在这一交换，黑A位接顿时变成了后手。黑棋明显亏损，局势已经不可挽回。&/p&&figure&&img src=&https://pic4.zhimg.com/50/v2-cab7fab291cb81a11e3bea52fecfb648_b.jpg& data-rawwidth=&1280& data-rawheight=&960& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic4.zhimg.com/50/v2-cab7fab291cb81a11e3bea52fecfb648_r.jpg&&&/figure&&p&&b&如果把围棋AI计算力的资源比作人类的体力，算法比作代步工具的话。&/b&排名前三的AI比赛长跑，新版阿尔法狗不仅体力超好，关键还有个滑板车代步节省体力；相比之下，绝艺和zen都还得靠跑步，不过绝艺至少还有充沛的体力，而只使用了4gpu的zen则相当于两样都没有。&/p&&p&虽然zen的资源最少，但加藤先生的的敬业精神让我钦佩！上图中加藤先生的工作状态，以及他胸前一直佩戴着的开幕式28号抽签号码牌，让我感受到他半辈子花在围棋，花在zen身上的热情！祝福加藤先生和他的zen！&/p&&br&&p&欢迎关注我的微信公众号：“耀宇围棋”&/p&
图1：这是DeepZenGo（以下简称zen)执黑负于王昊洋的对局。实战进行至此，是黑取外势，白取实地的局面。黑1在右边连片是超级大场，黑棋右边阵势和左边外势遥相呼应，非常生动，虽然局势尚早，但是这种格局是zen相对比较擅长的。但接下来，zen突然毫无缘由的…
&figure&&img src=&https://pic3.zhimg.com/v2-052dace1_b.jpg& data-rawwidth=&563& data-rawheight=&655& class=&origin_image zh-lightbox-thumb& width=&563& data-original=&https://pic3.zhimg.com/v2-052dace1_r.jpg&&&/figure&&figure&&img src=&https://pic2.zhimg.com/v2-31b1dd47ddbcac15096eebeb_b.jpg& data-rawwidth=&493& data-rawheight=&321& class=&origin_image zh-lightbox-thumb& width=&493& data-original=&https://pic2.zhimg.com/v2-31b1dd47ddbcac15096eebeb_r.jpg&&&/figure&中国围棋的第三代领军人物，世界冠军常昊，是我的良师益友。我们由于都效力于上海队，所以经常一起出行征战围甲联赛，常昊非常的健谈，每次旅途中会给我讲好多围棋界的趣事。有一次他给我讲的一件趣事非常有意思，我来跟大家分享一下：&figure&&img src=&https://pic1.zhimg.com/v2-18fff8a6ac5e6e7ecad09_b.jpg& data-rawwidth=&429& data-rawheight=&560& class=&origin_image zh-lightbox-thumb& width=&429& data-original=&https://pic1.zhimg.com/v2-18fff8a6ac5e6e7ecad09_r.jpg&&&/figure&那是1999年，当时的围棋界泰斗藤泽秀行老师已经74岁高龄了，这一年，秀行老师准备金盆洗手退出江湖，大家专门为秀行老师举办了一场与中日韩三位顶尖棋手各下一局的隐退棋活动，当年的常昊，是秀行老师指定的中方对手。&figure&&img src=&https://pic4.zhimg.com/v2-88f1aed90c0afa8fbb58a89_b.jpg& data-rawwidth=&801& data-rawheight=&1169& class=&origin_image zh-lightbox-thumb& width=&801& data-original=&https://pic4.zhimg.com/v2-88f1aed90c0afa8fbb58a89_r.jpg&&&/figure&图1：那时候的比赛为了保证比赛质量，棋手都是提前两天到达参赛城市，常昊在比赛的前一天拜访了围棋界又一位泰斗吴清源大师。吴老先生虽然已是85岁高龄，但对围棋依然非常痴迷，见到常昊来访，就拿出棋盘，与常昊一起研究起棋来。两人摆到了一个序盘的局部，&strong&局部至黑10告一段落，黑在右下角取得了现实的实地，而白外围五颗子形成了等待估值的厚势。&/strong&常昊问吴大师：“这棋您喜欢哪一方？&b&吴大师回答：“我肯定喜欢黑棋，这棋断然是黑棋好！”然后吴大师极力推荐黑6三路托的手法！吴清源大师的棋风讲究轻灵快速，他显然觉得这个局部白棋外围五颗子未来的估值不大。&figure&&img src=&https://pic4.zhimg.com/v2-6b24ed795f1a80a32b21d_b.jpg& data-rawwidth=&1242& data-rawheight=&1242& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic4.zhimg.com/v2-6b24ed795f1a80a32b21d_r.jpg&&&/figure&&/b&图2：第二天，常昊与秀行老师的隐退棋开始了，常昊执黑棋。&strong&非常的巧！一开始双方就下出了昨天常昊与吴大师摆的那个局部！&/strong&比赛结束后，双方开始复盘，当摆到这个局部的时候，秀行老师突然问常昊：“这个局部你觉得怎么样？常昊其实是觉得黑棋不错，但他从秀行老师的语气中，感觉到秀行老师可能觉得白棋不差，出于礼节性，所以比较含蓄的反问：“双方差不多吧？”，据常昊回忆，&strong&秀行老师当时非常斩钉截铁的说：“这棋黑棋怎么能行？当然是白棋&strong&好！”&/strong&&/strong&&p&&b&秀行老师的棋风讲究厚积而薄发，显然他认为右下五颗白子非常厚！未来的估值不可限量！常昊说他一听就有点懵圈了，两位老师的意见，差别也忒大了吧？&figure&&img src=&https://pic4.zhimg.com/v2-ffbcc24e77beccf87e25c6_b.jpg& data-rawwidth=&319& data-rawheight=&224& class=&content_image& width=&319&&&/figure&&/b&&/p&&p&序盘一个同样的局部，吴清源老师认为白棋太凝重，不行。而秀行老师则认为白棋太厚，黑棋不行。大家肯定在想，这也太夸张了吧，&strong&两位大宗师居然在同一个局部得失上的判断差别如此之大！这是为什么呢？&/strong&&br&&/p&&p&&strong&两位大师的分歧点在于对右下五颗白子厚势效率的认识上。&/strong&这五颗白子就好比一个投资项目，吴清源老师觉得这个投资项目很难兑现之前付出的实地代价。而秀行老师则认为，这个投资项目前景一片看好，肯定能把之前付出的实地代价连本带利的收回。&strong&吴清源老师是化解厚势的高手，而秀行老师则是运用厚势的高手，两位大师风格的特点决定了他们在这个局部判断上的巨大差异！&/strong&&/p&&p&&strong&这个故事告诉了我们，围棋的序盘中，一个局部，一个定式的好坏，有时是相对的，现实的实地好？还是等待估值的厚势好？很难去判断。关键是看之后你如何去运用和发挥这个局部子效的优势。&/strong&吴清源老师和秀行老师已骑鹤西去，不过估计最近他们两位在天上一定很忙，阿尔法狗在序盘下出那么多新招，两位大师一定在边研究这些新招，边争论每一个局部的优劣得失。享受着围棋的不确定性带来的空间和博弈的乐趣。&/p&&br&&p&欢迎关注我的微信公众号：“耀宇围棋”&/p&
中国围棋的第三代领军人物，世界冠军常昊，是我的良师益友。我们由于都效力于上海队，所以经常一起出行征战围甲联赛，常昊非常的健谈，每次旅途中会给我讲好多围棋界的趣事。有一次他给我讲的一件趣事非常有意思，我来跟大家分享一下：那是1999年，当时的围…
&p&大家好，今天开始我会陆续对阿尔法围棋内战序盘阶段的变化作一些研讨和分享，希望会带给大家很多有益的思考和启迪。&/p&&p&这是阿尔法围棋内战第一局——&/p&&figure&&img src=&https://pic4.zhimg.com/v2-82de78a63e397d2433aca4f_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-82de78a63e397d2433aca4f_r.jpg&&&/figure&&p&
【基本型】现在白棋12手碰试应手，黑棋面临选择。&/p&&p&&figure&&img src=&https://pic1.zhimg.com/v2-7f97ef657abf60f2bf5d08b1ce29fbf1_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-7f97ef657abf60f2bf5d08b1ce29fbf1_r.jpg&&&/figure&
实战进行，黑棋13选择了扳这边，白棋14,16两扳后走到18拆，不能说黑棋不好，但是感觉白棋轻快，作为人类的直观感觉白棋舒适。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-90c0cdaa3a370b7b93b118_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-90c0cdaa3a370b7b93b118_r.jpg&&&/figure&&p&【变化图1】所以黑棋可以考虑扳这个，如果白2只是普通的下扳，则并没有什么值得称赞的地方，如图白棋局促。&figure&&img src=&https://pic3.zhimg.com/v2-82aa70f58a0d_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic3.zhimg.com/v2-82aa70f58a0d_r.jpg&&&/figure&&/p&&p&【变化图2】
这是我想分享的后续下法，保留右边的种种可能性，把棋下在上边。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-5b62f8fffaaba1d742e1e_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-5b62f8fffaaba1d742e1e_r.jpg&&&/figure&&br&&p&【变化图3】如果黑棋只是打完粘，虽然获得了一些实空，但白棋达成了目的，既对外面的影响。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-b3bcb2dfea9e827ffb19_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic1.zhimg.com/v2-b3bcb2dfea9e827ffb19_r.jpg&&&/figure&&p&【变化图4】如果黑2长，则白3扳下有利，接下来黑棋无论A或者B的下法都不能满意。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-e30e4b3b4549faacfb6732d5_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic4.zhimg.com/v2-e30e4b3b4549faacfb6732d5_r.jpg&&&/figure&&p&【变化图5】所以黑棋可能会想到黑1连扳争头，但白2冷静粘住把选择权交给对手，黑棋依然很难抉择。&figure&&img src=&https://pic2.zhimg.com/v2-e6be3e78e78d57ee59d7eb13e0caa7ea_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-e6be3e78e78d57ee59d7eb13e0caa7ea_r.jpg&&&/figure&&/p&&p&【变化图6】如果黑棋1位强硬的长出，这样白棋留有A位的打吃，以后有很多的先手可以利用，白2空断黑棋已经无法处理。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-da3c0bc9aa50ab_b.jpg& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic3.zhimg.com/v2-da3c0bc9aa50ab_r.jpg&&&/figure&&p&所以黑棋可能会走3位长，这样白棋4位扳掉走到先手后，6,8打过来一气呵成形成外势也是极具冲击力。&/p&&br&&p&今天这篇文章，只是分享出我经过思考的一些想法，可能离正解有很长的距离，希望大家也能在提出自己的观点。有兴趣的也可以下载弈客APP找到这篇文章进行留言&/p&
大家好，今天开始我会陆续对阿尔法围棋内战序盘阶段的变化作一些研讨和分享，希望会带给大家很多有益的思考和启迪。这是阿尔法围棋内战第一局—— 【基本型】现在白棋12手碰试应手，黑棋面临选择。实战进行，黑棋13选择了扳这边，白棋14,16两扳后走到18拆…
&figure&&img src=&https://pic2.zhimg.com/v2-ea388ed80accd3_b.jpg& data-rawwidth=&900& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&https://pic2.zhimg.com/v2-ea388ed80accd3_r.jpg&&&/figure&&p&&b&他面无表情，他冷静镇定，他会出现在对手的梦里，他是AlphaGo人肉臂。他热情幽默，多才多艺。他很少登台演讲。他不被允许接受采访。他是AlphaGo真正的创造者。他是Aja，黄士杰。&/b&&/p&&br&&blockquote&舒石发自凹非寺&br&量子位报道 | 公众号 QbitAI&/blockquote&&p&许峰雄绰号“CB”。&/p&&p&1980年，许峰雄（Feng-Hsiung Hsu）从台湾大学本科毕业，1985年考入卡内基梅隆大学。1988年，CB制造出国际象棋程序Deep Thought（深思），后来经过学弟李开复介绍，1989年加盟IBM继续展开研究。&/p&&h2&&b&1997年&/b&&/h2&&p&这一年5月11日，卡斯帕罗夫与Deep Blue（深蓝）的第二次国际象棋人机大战落幕，最终人类棋王以2 1/2 -3 1/2 的总比分，不敌IBM的超级电脑。&/p&&p&这是载入人类历史的一战。&br&&/p&&p&Deep Blue，就是CB许峰雄在IBM开发出的新一代国际象棋电脑程序，棋力数百倍于早先的Deep Thought。&figure&&img src=&https://pic4.zhimg.com/v2-8e628e04b6e10bf99afd36_b.jpg& data-rawwidth=&1920& data-rawheight=&1249& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&https://pic4.zhimg.com/v2-8e628e04b6e10bf99afd36_r.jpg&&&/figure&
△ 卡斯帕罗夫与深蓝的国际象棋人机大战&/p&&p&同年7月，台北成功高中的黄士杰参加联考。当年国文试题第15题，B选项是：现代电脑的优点多得「罄竹难书」令人不得不叹服。&/p&&p&黄士杰最终考入台湾交通大学，四年后获得计算机与信息科学学士。2001年，黄士杰考入台湾师范大学攻读研究生学位。&/p&&p&2003年，黄士杰硕士毕业。毕业论文：《电脑围棋打劫的策略》。在学校当了一年的研究助理后，2004年，黄士杰再次考入师大资讯工程研究所博士班。&/p&&h2&&b&2007年&/b&&/h2&&p&这年2月28日，台湾师范大学的学生组织了一次围棋同好聚会。随后这个定期的聚会，发展为师大围棋社，黄士杰是其中年纪最大的学长，并担任首届社长。3月，黄士杰拟定了首次对战分组表，比赛地点在男生宿舍地下餐厅。&figure&&img src=&https://pic2.zhimg.com/v2-c730b936bddfbac637d5b2_b.jpg& data-rawwidth=&600& data-rawheight=&450& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic2.zhimg.com/v2-c730b936bddfbac637d5b2_r.jpg&&&/figure&&strong&
△&/strong& 左一是师大就读期间的黄士杰&/p&&p&同年5月，黄士杰带领师大围棋社参加台湾大专杯围棋赛。曾经有台湾媒体报道称黄士杰曾经带领师大围棋社在这项比赛中夺冠。不过量子位仔细查找后发现，师范大学仅在2009年获得过第五名，其他年份均榜上无名。&/p&&p&同一赛事15个级别的个人战中，前八名也没有看到黄士杰的名字。年间，黄士杰一直博士在读，而他的棋力水平是业余六段。&/p&&p&虽然没能在人类的围棋赛中获得瞩目成绩，但黄士杰在另一条路上继续进发。他的一个主要战场是国际计算机游戏协会（ICGA）组织的电脑棋类程序竞赛。顾名思义，来自全世界的电脑高手，在象棋、围棋等领域展开斗法。&/p&&p&在这个比赛中，黄士杰的名字写作：Shih-Chieh Huang。&/p&&p&2006年，黄士杰独自开发的第一款围棋程序AjaGo，获得围棋大赛第11名；他参与的中国象棋程序Elephant（大象），获得大赛的铜牌。此后几年，黄士杰开发的围棋程序参赛成绩一直没有亮眼的成绩。&/p&&h2&&b&2010年&/b&&/h2&&p&这一年9月，哈萨比斯（Demis Hassabis）等三人在英国伦敦合伙成立了一家新公司，名字叫做DeepMind。&figure&&img src=&https://pic3.zhimg.com/v2-9c84e3c2a14e80e73d49af_b.jpg& data-rawwidth=&768& data-rawheight=&432& class=&origin_image zh-lightbox-thumb& width=&768& data-original=&https://pic3.zhimg.com/v2-9c84e3c2a14e80e73d49af_r.jpg&&&/figure&&strong&
△&/strong& 2010年黄士杰开发的Erica击败Zen获得冠军&br&&/p&&p&同一个9月，黄士杰在Rémi Coulom的指导下，开发出围棋程序Erica，并在围棋比赛中击败日本的Zen，获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。&/p&&p&因为Erica的夺冠，让黄士杰在参加博士毕业答辩前，就已经获邀前往加拿大阿尔伯塔大学做博士后，并担任电脑围棋程序的研究员。他的博士论文题目是：《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。&/p&&p&2011年6月，黄士杰博士答辩通过，7月1日，黄士杰飞赴加拿大。&/p&&p&此时，他后来会遇到的席尔瓦（David Silver），早于一年前从阿尔伯塔大学离开，前往伦敦大学学院。在伦敦，席尔瓦会遇到哈萨比斯。&/p&&p&到阿尔伯塔大学后，黄士杰继续研究蒙特卡洛树搜索。他还浅度参与了Fuego的开发，这个团队里还有Markus Enzenberger、Martin Müller等人，这个围棋参加了当年的ICGA大赛，不过可谓一无所获。&/p&&p&当年11月，夺冠的还是Zen。&/p&&p&时间再过一年，2012年11月，黄士杰也来到伦敦，加入DeepMind担任高级研究员。至少从这个时候开始，黄士杰开始用新的英文名：&/p&&p&Aja Huang。&br&&/p&&h2&&b&2014年初&/b&&/h2&&p&加入DeepMind的两年里，黄士杰似乎没有重大的研究成果。从论文发布量上看，也是如此，2014年前几乎搜不到他发的论文。&/p&&p&然而事情很快有了转机。&/p&&p&日，Google宣布5亿美元收购DeepMind，拿下这家日后会大放异彩的初创公司。&figure&&img src=&https://pic4.zhimg.com/v2-b12dc7d1f2ce2ac8_b.jpg& data-rawwidth=&2041& data-rawheight=&1360& class=&origin_image zh-lightbox-thumb& width=&2041& data-original=&https://pic4.zhimg.com/v2-b12dc7d1f2ce2ac8_r.jpg&&&/figure&&strong&
△&/strong& 左为哈萨比斯，右为席尔瓦&/p&&p&有一天，席尔瓦走到黄士杰面前说：“Aja，我们准备启动一个围棋项目。最开始只有你和我”。2014年2月，AlphaGo项目正式启动，团队三个人：哈萨比斯、席尔瓦、黄士杰。哈萨比斯是整个公司的老板，席尔瓦是黄士杰的经理。所以，这个团队真正干活的只有黄士杰一个人。&/p&&p&AlphaGo项目，就是想搞出一个强大的围棋程序。而且从一开始，这个团队就决定不会尝试所有的方法，他们只有一个方向：沿着深度学习和强化学习的方向探索。也是从一开始，他们就知道这是一个非常困难的挑战。&/p&&p&哈萨比斯说，希望通过AlphaGo的研究，让机器获得直觉和创造力。&/p&&p&而更现实的困难是，与国际象棋相比，围棋的计算空间巨大，而且电脑无法理解一盘棋到底谁获得了胜利。&/p&&p&但他们就这样出发了。&/p&&h1&&b&2014年6月-2015年6月&/b&&/h1&&p&这年夏天，AlphaGo的第一个重要武器出现了。在卷积神经网络的帮助下，AlphaGo学习了很多人类高手的棋谱，能在3毫秒内做出比肩人类的下棋直觉。后来黄士杰给这个武器命名：“策略网络”，并且持续进行训练优化。&/p&&p&这个时候，AlphaGo的训练还是在GPU上完成的。&/p&&p&时间再过一年。2015年6月，AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升，可以检索多种局面变化，并且找到最佳的应对方式。这个时候的AlphaGo，可以算出后续40-60步棋。&/p&&p&（量子位注：击败柯洁的最新版AlphaGo，也只算到50步棋就停止了。）&/p&&p&当时在相同的硬件条件下，AlphaGo对另一个围棋程序Crazy Stone取得了70%的胜率，换句话说棋力领先了一个子。这个成就让整个DeepMind都很受鼓舞，哈萨比斯这时候对黄士杰说：&/p&&p&“Aja，咱们要组一个团队，你不用再单打独斗了”。&br&&/p&&p&从这时候开始，逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班，普及基本的围棋规则。&figure&&img src=&https://pic1.zhimg.com/v2-e9818c7aff5e3fad1f8319_b.jpg& data-rawwidth=&1500& data-rawheight=&991& class=&origin_image zh-lightbox-thumb& width=&1500& data-original=&https://pic1.zhimg.com/v2-e9818c7aff5e3fad1f8319_r.jpg&&&/figure&&/p&&h2&&b&2015年8月&/b&&/h2&&p&与此同时，另一个重要的节点已在不远。两个月后，AlphaGo将掌握称霸围棋世界最关键的能力：形势判断。&/p&&p&“事实上，形势判断是围棋过程中最难、最令人头疼的环节，要进行准确的判断，必须具备精确测算双方目数的能力，同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋，形势判断十分必要。”&/p&&p&上面这段话，来自李昌镐。这位绰号“石佛”的韩国棋手，从1992年夺得第一个世界冠军开始，到2007年为止共获得18次个人冠军、13次团体冠军，开创了“李昌镐时代”。&/p&&p&AlphaGo如何获得形势判断的能力？&/p&&p&解决这个问题的人是席尔瓦。有天他对黄士杰说：“Aja，我有一个主意，我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑，他回复说：“能管用么？咱们试试吧。”&/p&&p&价值网络也是一个卷积神经网络，输入是落子位置，输出0-1之间的数字，0代表对手胜利，1代表自己胜利，如果差不多就输出0.5。（量子位注：Google最近公布的数字是-1~1，略有不同）。&/p&&p&总之，AlphaGo通过自我对弈，训练出价值网络，进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。&/p&&p&价值网络的出现，让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中，AlphaGo胜率达到95%，也就是达到让两子的水平。&/p&&p&“当时AlphaGo已经可以碾压我了，我已经感觉到它的强大”黄士杰回忆说。&/p&&h2&&b&2015年10月&/b&&/h2&&p&也是8月，樊麾在参加欧洲围棋大会，回到法国的家中。他收到一封电子邮件，发件人是AlphaGo团队的Maddy。邮件内容非常简单：我们是一家伦敦的公司，希望邀请你来我们公司。也没有更多信息。&/p&&p&樊麾一度认为是垃圾邮件。但鬼使神差，他回了邮件说：“可以呀”。然后他们用Skype进行了在线沟通，席尔瓦当时也参加了，他们给樊麾讲述正在做有趣的项目，也讲述了自己是一家Google收购的公司。&/p&&p&随后樊麾上了DeepMind的官网，确定有这么一家公司，以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。&/p&&p&双方第一次见面是9月底，当他确定自己要跟一个围棋程序对弈时，整个人一下就放松了，心说：“对付一个软件，还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示，他跟AlphaGo的下棋时间，只需要一个小时就够了。&/p&&p&当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。&figure&&img src=&https://pic2.zhimg.com/v2-41c5c143c4feffe6ce6fe_b.jpg& data-rawwidth=&941& data-rawheight=&622& class=&origin_image zh-lightbox-thumb& width=&941& data-original=&https://pic2.zhimg.com/v2-41c5c143c4feffe6ce6fe_r.jpg&&&/figure&
△ 最后一局樊麾为自己的失误懊恼不已&/p&&p&日-9日。樊麾再赴伦敦，跟AlphaGo大战五回合，当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道，樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。&/p&&p&和樊麾的比赛结果，DeepMind一直到2016年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天，樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话：“千万不要上网看评论，说的可难听了。”&/p&&p&聂卫平当时评价说：“樊麾水平太低，给我们丢脸了。”&/p&&h2&&b&2016年&/b&&/h2&&p&1月27日，《自然》杂志以封面论文的形式，介绍了DeepMind团队开发的AlphaGo，以及它击败了欧洲冠军樊麾的消息。&/p&&p&席尔瓦和黄士杰，并列作为这篇论文的第一作者。&/p&&p&在击败樊麾之后，AlphaGo的价值网络、策略网络和搜索能力都在继续增强，使用的硬件也从GPU换成TPU。TPU让AlphaGo的计算能力获得极大提升。&/p&&p&3月9日-15日，AlphaGo和李世乭大战五场。最终AlphaGo以4:1取得胜利。当时坐在李世乭对面，代替AlphaGo落子的还是黄士杰。&figure&&img src=&https://pic1.zhimg.com/v2-ac95cd996d631f1c93f6810_b.jpg& data-rawwidth=&1180& data-rawheight=&842& class=&origin_image zh-lightbox-thumb& width=&1180& data-original=&https://pic1.zhimg.com/v2-ac95cd996d631f1c93f6810_r.jpg&&&/figure&&/p&&p&黄士杰第一次出现在全球观众的视线里。&/p&&p&黄士杰像机器人一样，出现在李世乭和全球观众的视线里。&/p&&p&李世乭后来回忆说：“黄士杰是此次人机对弈中最辛苦受累的人，他担心我会受到影响，对弈期间，他一直面无表情，甚至连一次洗手间都没去过”。&/p&&p&一次对弈，最长可能耗时近6个小时。在与李世乭的无论对弈中，黄士杰只喝过一口水。黄士杰的这种表现，甚至走进了对手的梦里。&/p&&p&有次酒店的早餐送来后，李世乭的妻子唤醒他起来吃早饭。没想到李世乭竟然回答说：“嗯，我要和Aja一起吃。”&/p&&p&与李世乭的比赛之后，黄士杰有过短暂的休假，几乎没有采访报道留下。一位}

叫爱嘘网络