“学习技术之前,咱们首先要搞明确的是咱们想要什么,想做什么,而不是稀里懵懂的去学习技术”
大模型技术作为目前比拟火的技术之一,有很多技术人员想从事大模型方面的开发,但又不知道该怎样入手,应该学点什么。当天咱们就依据作者团体的感触来提供一些倡导或许说认识。
对想从事大模型畛域开发者的倡导
首先,作为一个技术人员来说咱们首先要明确一件事,大模型畛域的开发关键分为两个局部;一个是基于大模型的运行开发,二是大模型技术自身的开发,这两者是齐全不同的开发路途,也是齐全不同的技术路途。
上方咱们就从这两点开展来说一下其中的异同点和所须要的技术基础。
大模型运行开发
严厉来说大模型运行开发和传统的业务开发没什么区别,技术栈也基本相反,都是经过调用接口的形式来成功配置;惟一不同的中央就是,传统的开发是调用的一些其它的配置接口,而大模型运行调用的是大模型开明的接口;而从技术的角度来说这个没什么区别,基本上都是经过http/s或socket等网络协定成功的接口调用。
所以传统的技术开发者转大模型运行开发,基本上没有什么门槛,哪怕你对大模型技术无所不通,也可以间接转;只不过假设你有人工智能或机器学习的基础,会让你更容易了解大模型的运作机制,但从运行的角度来说这个并没有特意大的作用。
因此,对从事大模型运行开发的技术人员来说,须要的是和传统开发简直一样的才干,那就是你的架构才干,代码开发才干,设计才干,两边件的经常使用和处置疑问的才干。
总之一句话,大模型运行开发就是在配置模块中多参与了一个大模型配置的接口,其它的和传统的开发形式如出一辙,没有任何区别。
哪怕是基于你们自己公司的大模型做下层运行的开发,你们公司也会选用组建两个团队,一个是开发业务配置,另一个开发和保养大模型的配置,而这也是第二种大模型畛域开发人员须要做的事件,那就是大模型技术的开发。
关于大模型运行开发者来说,所须要的技术基本上还是属于之前的那一套,比如java , 微服务,接口开发,数据加解密,数据库,缓存,信息队列等。
大模型技术开发
假设说上一种基于大模型的运行开发是思考怎样把大模型的配置运行的更好,那么大模型技术开发就是怎样把大模型做的更好。
为什么这么说?首先只管咱们感觉大模型的配置曾经很弱小,但从技术的角度来说大模型技术还处于高级阶段,其作用范围有限,其才干也有限,更关键的是其不稳固,间接运行到上班中会有很大的安保性疑问。
因此,这也是为什么大模型技术目前关键的运行场景都是以一些边缘化的业务为主,还无法把大模型技术运行到企业的**消费体系中;这也是之前马斯克在一次性采访中说目前还没有把人工智能技术运行到智能驾驶中,要素就在于此。
而对大模型技术开发者来说,须要的关键才干包含,编程言语关键以python为主,要素就在于python是大模型开发的支谣言语;其次,包含大数据处置,算法,神经网络,自然言语处置,计算机视觉等。
由于大模型关键特点就是规模渺小,触及到少量的算法和计算疑问,而python 在大数据处置方面具有自然的长处;由于关于之前从事大数据开发的技术人员来说,转战大模型技术开发具有必定的技术长处,但也不是相对的;毕竟数据处置只是大模型技术开发中的一个过程。
其次,大模型由于须要模拟人类大脑的神经网络模型,并且须要依据不同的场景成功不同的复杂义务,而这就须要很多弱小的算法来成功;因此算法工程师是大模型技术中无法或缺的一环。
之后,由于大模型庞大的参数和神经网络体系;因此传统的系统架构很难满足大模型训练和运转的需求,因此散布式计算技术,比如并行计算就成了大模型运转的基础,所以散布式计算也是其无法或缺的一环。
最后就是,大模型技术与不同运行场景的联合局部;比如基于大模型的自然言语处置,就须要你对自然言语处置有必定的了解;而关于图像和视频的处置就须要你具有基本的计算机视觉技术的基础。
当然,大模型技术栈远不只这一点,其中还触及到很多其它的技术,比如说向量计算,少量量数据的存储与加载,基于链式结构等成功的逻辑推理才干等。
总之,对大部离开发者来说,大模型运行开发相对比拟便捷,当然竞争也愈增强烈;其次就是大模型技术自身的开发,对技术要求相对较高;关于后者来说,单纯的计算机技术或许曾经无法满足这种需求,更多须要的是数学,物理,动物等其它学科的佼佼者介入出去。就拿算法来说,在算法畛域成就较高的人基本上都是数学出身的,而不是计算机出身的。
最后,每团体可以依据自己的喜好以及才干去选用适宜自己的开展方向;而不是稀里懵懂的不知道自己在干什么。
原文链接: