AI Scientist爆火面前的技术详解以及优缺陷剖析

当蠢才享一篇最近比拟抢手的日本守业公司Sakana AI的一篇文章，题目为《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一种名为“AI Scientist”的框架，旨在成功端到端齐全智能化的迷信发现，成功从Idea构建，试验跑取，文章撰写的齐全智能化。验证了AI智能化探求新疑问，处置新疑问，甚至撰写Paper的可行性。同时还提出了一个能与人类评委水准凑近的Review Agent，能够给出高水准的评审意见。

总体来说，其还是一个多agent系统，应用了reflection机制迭代优化成果，同时也联合Semantic Scholar等工具验证翻新性，应用Aider工具来降级代码和Paper，来口头相关试验。同时也要看到其只是搭了一个基础的Baseline通道，如何优化Idea生成的深度以及多样性，如何让LLM能成功更复杂，更有应战性的Idea，如何降落Review Agent的False Positive Rate（FPR）都值得进一步探求。

本文将对其面前的技术，优缺陷启动详细的剖析～

一、概述

1. Motivation

文章引见了“AI迷信家”框架，该框架包含三个重要阶段：

1.想法生成：AI迷信家首先“头脑风暴”出一系列陈腐的钻研方向，而后在此基础上启动翻新性迭代优化，最后挑选翻新性较高的idea。

2.试验迭代：依据想法和模板，AI迷信家首先口头提出的试验plan，而后依据试验结果，迭代优化试验，最后降级plot代码，可视化其结果以供后续撰写，代码经过AIder工具来降级。

3.论文撰写：AI迷信家经常使用LaTeX撰写完整的迷信论文，形容其停顿。

•输入：总体就两个输入，Baseline Code，以及论文Latex模板，加上init paper的一些消息。

• Baseline code：a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

• Latex模版：LaTeX folder that containsstyle files and section headers, along with simple plotting code.

•输入：完整的Paper

1 Idea generate环节

•输入：code template

•输入：some ideas

•代码：

• generate_ideas：idea生成

• generate_next_idea：在seed的基础上继续生成新的idea

• search_for_papers：调用api search paper

• check_idea_novelty：审核并优化翻新性

1.1 Idea Generation Prompt

•好处：对diversity做了优化和限度，引入了COT机制。

•缺陷：idea全靠LLM外部消息想进去，思索的常识有限，降级也不迭时，不太能及时follow最新常识，不过外部常识能做到什么粒度其实还不太确定，另外外部常识其实是不足新常识的，这对迷信钻研十分致命。

1.2 Idea Novelty Prompt

•缺陷：还是翻新所有源于LLM外部常识。

2 Experiments环节

•输入：idea + template

•输入：experiment result + experiment figures

•成功模式：经过Aider降级代码，而后口头命令行跑取模型结果。

• Aider平台，可以经过命令降级代码：•

2.1 Experiment Running Aider Prompt

•特点：先也会有一个plan，而后区分成功experiments

•缺陷：没详细讲如何成功Experiment的，Aider看着是个平台，或者可以间接用，然而改代码很容易出错，稳固性存疑。

2.2 Plotting Aider Prompt

•特点：生成plot，还有description，后续用于减少到论文中。

3 Paper Writing流程

•输入：Latex模版 + Experiments recorded notes + plots，Latex模板图如下，也是用Aider工具来修正•

•输入：paper

3.1 Paper Writing Aider Prompt

•特点：提供每个section的倡导+latex的template+plan

•缺陷：Aider是个啥，觉得writing比拟有用的样子。

4 Reviewer Agent流程

•输入：PDF manuscript

•输入：Paper Review Result

•好处：参考了neurips ReviewerGuidelines，同时引入reflection，few-shot来优化成果。

4.1 Paper Review Prompt

•特点：引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

•特点：经过多轮迭代 + COT思索

4.3 Paper Review Ensembling Prompt

•特点：还有个汇总的，好处self-consistant的觉得

5 反思和迭代次数

3. Coclusion

文章搭建了一个AI Scientist，经过三个子义务验证了其可行性：分散模型、Transformer和Groking。并且每种想法的成功和开发老本不到15美元。标明了该框架在Research钻研和清楚减速迷信提高方面的后劲。

•搭建了一个完整的科研链路Agent：idea -> Experiments -> Paper，还真work了。

•附带送了一个凑近人类水平的Paper Review Agent，成果也还不错。

4. Limitation

•生成的Idea经常十分相似，甚至不同模型，不同run都会有很相似的idea。

• Aider成功ideas有艰巨，GPT-4o写Latext常不能编译，有些idea成功challenging比拟大。

• plot的图像也或者有疑问，而且还不止是vision，或者看不出成果。

• Latext的cite和reference或者有疑问。

• LLM数学才干不太好，对metric不敏感。

•幻觉。

二、详细内容

1 LLM Paper Review水平在ICLR2022数据集上曾经凑近人类水平

•特点：精度和人类比拟凑近（balanced 0.65 vs 0.66），False Negative Rate（FNR）更低，False Positive Rate（FPR）偏高，说明也有打分偏高的状况。

2 Reflexion和one-shot能优化Reviewing成果

•论断：从0.66优化到0.70，看着还不错。Ensemble后精度没有优化，然而variance有降落。

3 Diffusion Modeling优化成果

•**论断1:Sonnet3.5看着比GPT-4o好很多啊，而且还更廉价，成功Paper率居然凑近80%**，还是很凶猛。

•论断2:DeepSeek Coder是性价比之王。

•其余：DIffusion Modeling觉得都是比拟老的模型了，应用LLM生成的idea或者都是训练过的了，或者并不能代表真正的翻新。

4 Language Modeling优化成果

•论断: 这次成功率只要40%了，这个差异好大，跟猜想的一样，coding或者十分不稳固，另外DeepSeek Coder确实凶猛。

5 Grokking优化成果

•论断：不同paper，不同LLM基座的Noval Ideas居然都超越90%，然而Experiments的成功率差异十分大。

本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Copilot #盘古 #4 #GPT #AI #人工智能 #ChatGPT #Sora #云雀 #OpenAI #Bard #技术 #言犀 #开源大模型 #大模型 #混元 #多模态 #悟道 #日日新 #Agent #LaMDA #清言 #孟子 #紫东太初 #LLM #通义千问 #文心一言 #AIGC运行 #AIGC