在最近的一项钻研中,来自美国宇航局和IBM的一组钻研人员协作开发了一种模型,该模型可运行于地球迷信,天文学,物理学,天体物理学,太阳物理学,行星迷信和动物学以及其余多学迷信科。的模型,如 SCIBERT、BIOBERT和SCHOLARBERT仅局部笼罩了其中的一些畛域。现有的模型没有充沛思考一切这些关系畛域。
在这项钻研中,Indus特意关注与地球、天体、太阳和太阳系内的行星关系的跨学科畛域,如物理学、地球迷信、天体物理学、太阳物理学、行星迷信和动物学。只管现有的特定畛域模型(如 scibert、biobert和scholarbert)的训练语料库局部涵盖了其中一些畛域,但目前还没有一个特定的模型可以独特涵盖一切感兴味的畛域。Indus,这是一个基于llm Encoder的合集,专一于这些感兴味的畛域,经常使用来自不同起源的精心筹划的语料库启动训练。
详细而言,Indus做到了:
1. 应用字节对编码算法IndusBPE,从精选的迷信语料库中定制的分词器。
2. 应用精心筹划的迷信语料库和IndusBPE标志器预训练了多个 encoder-only的大模型 (Indus-base)。经过微调这个编码器模型,经常使用 对比学习 指标来学习“通用”句子嵌入(粉色的局部),进而创立了sentence-embedding模型。最后还经常使用常识蒸馏技术训练了这些模型的更小,更高效的版本(Indus-small)。
3. 本次还创立三个新的迷信基准数据集,即气候变动ner(实体识别义务)、nasa-qa(抽取式问答义务)和 nasa-ir(检索义务),以进一步减速这一多学科畛域的钻研。
4. 经过试验结果标明模型在这些基准义务以及现有的特定畛域基准上具备很强的功能,与原始模型相比,在大少数基准义务中,常识提炼的小模型在提后方面成功了显着提高,同时坚持了弱小的阅历功能。
至于训练数据方面,下图左侧是本次的训练语料库的组成局部,右侧对比RoBERTa和IndusBPE Tokenizer的效率,标志越少,计算老本越低。下文为两者切词的对比。
模型的全体架构如上,没有太复杂的中央。惟一值得关注的是应用了常识蒸馏和对比学习,训练出更小的模型,和检索器。
试验结果标明,这些模型在最近创立的基准义务和经常使用的畛域特定基准上都体现良好。它们的功能优于特定畛域的编码器(如 SCIBERT)和通用模型(如 RoBERTa),主要是全体的体积很小!
本文转载自,作者: