“学习的环节,是一个始终发生偏向和调整的环节”
学习的环节是一个学习——验证——再学习——再验证的环节。
在此之前也有写过对于强化学习的文章,但那时更多的是逗留在概念形容和称号解释的阶段,便捷来说就是知道有强化学习这个概念,但不知道它是用来处置什么疑问,以及怎样来处置这些疑问。之前的文章 大模型的训练与调优,SFT(监视微调)和RLHF(基于人类反应的强化学习)究竟是什么?
学习一门新技艺或技术的最好形式,就是从运行场景中学习,发现疑问而后学习。
对于强化学习
大模型技术中有多种学习形式,比如监视学习,无监视学习,强化学习等;但对刚开局学习大模型技术的人来说,只管网络上有各种各样的解释,但对咱们来说究竟只是一个概念,并不是自己亲身材验的物品。
因此,很多时刻学习这些概念都处于懵糊涂懂的阶段,觉得自己如同懂了,又如同什么都没懂,特意是过了一段期间之后就遗记了,这就说明咱们必需没懂。
所以,接着学习具身智能这个概念的时机,又加深了自己对强化学习的了解和运行,只管或许最终发现这个了解并不是准确的,但也算是自己学习环节的记载。
首先,咱们还是从概念开局,什么是强化学习?
强化学习(Reinforcement Learning, RL),又称再励学习、评估学习或增强学习,是机器学习的范式和方法论之一,用于形容和处明智能体(agent)在与环境的交互环节中经过学习战略以达成报答最大化或成功特定指标的疑问。
下面是百度百科对于强化学习的定义,Ok看了这个定义是不是还是觉得一脸懵。
所以,如今咱们从运行场景或许说从疑问开局,来了解强化学习。
以咱们人类自身来说,咱们接触一个新事物或许新环境是怎样做的?
比如说某一天你突然见到一个之前没见过的事物,这时猎奇心驱使你想了解一下它是什么。这时你有哪些方法?
首先,第一就是假设你身边有了解的人,那么最便捷的方法就是问他,而后对这个事物有一个初步的了解,比如它会不会攻打人,能不能摸,能不能吃,会不会有毒等等,这个就叫做阅历。
而在几千年之前的后人,他们那时刻对环球了解甚少,很多物品都不知道,那他们是怎样做的?
首先,就是观察看看这玩意有什么外貌特色,是生物还是植物,缓缓接近它会不会被攻打,而后会尝试用手碰它,到最后或许会试试能不能吃。
从下面这段你能看出什么?
下面这段就是一个典型的人与环境交互的场景,也是一个始终依据反应调整交互形式的场景。比如说第一次性见到一头牛,你不意识它而后观察它的时刻,它也没什么反响;但假设你突然接近它的时刻,或许就会惹起牛的敌意,甚至是攻打。
这时假设牛攻打你,那么你就会明确这玩意不能随意接近;而假设它不攻打你,你就会逐渐尝试接近它。那假设是狮子老虎呢?又或许是鸡鸭鹅呢?
所以,依据不同的环境人类会做出不同的反响。
如今再来看强化学习的定义,形容和处明智能体在与环境交互中经过学习战略到达最优或成功特定指标。
因此,强化学习的运行场景是什么?或许说强化学习要处置的疑问是什么?
智能体与环境交互,取得反应,而后取得最优解或到达某个目的。
那又一个疑问发生了,怎样才知道是不是最优解?
大家应该都听过一个麦穗通常,相传苏格拉底带着他的在校生到一块麦田,让他们找到一个最大的麦穗,并且不能回头,只能摘一只。
麦穗通常最难的一点是什么,你不知道最大的麦穗是在前面还是在前面,也就是说你不知道那个麦穗才是最优解。
而强化学习是怎样做的呢 ?
还是那两个字——反应。
强化学习的环节并不是苏格拉底要求的那种无法以走回头路,强化学习是可以走回头路的;它可以一次性一次性的尝试,而后找到其中最大的麦穗。
而在强化学习的运行通常中,强化学习会经过取得正反应的形式来启动优化;比如,给你一个草莓,你吃了一口很甜,而后还想再吃一个,这个叫正反应;而假设给你一碗中药,喝一口很苦都不想喝了,这个叫负反应。
而强化学习就是经过始终增强某方面的正反应,来让大模型在某个方面变得愈加弱小。
比如说在智能驾驶畛域,可以让大模型驳回强化学习的形式,经过始终的对路面环境启动感知,增强其在路线行驶中对复杂环境的判别才干。
再比如,在围棋畛域谷歌开发的阿尔法狗就是应用强化学习的形式来优化棋艺,经过模拟与环球顶尖棋手的对弈,让阿尔法狗始终学习人类棋手的下棋形式和技艺,最终到达打败人类棋手的目的。
而在强化学习中,这个环节被叫做鼓励机制;比如说你考试考一百分,妈妈就给你买玩具,也是这个情理。
前面了解了强化学习的概念以及运行场景,那么究竟怎样才干成功强化学习呢?就相似于,妈妈说你考一百分就给你买玩具,那么怎样才干考一百分呢?
这就要了解一下强化学习的成功形式了,强化学习的模型十分的便捷,大脑就是智能体(大模型),地球就是外部环境,大脑经过与地球的交互取得不同的反应。
强化学习的准则
强化学习基本依照两个准则启动分类:
在这两种准则之下,还细分为多种方法:
基于战略和价值分类
基于环境分类
总结
以上是团体对强化学习的一些了解和学习的环节记载,或许是对的,也或许是错的,或许随着对大模型技术的深化,某一天会发现如今对强化学习的了解还是台艰深了。
原文链接: