AI大军接管六大科技巨头老板打工人皆是AI效仿微软组织结构工作效率惊人
发布时间:2024-08-14 19:04:37

  【新智元导读】你有没有想过,或许未来某天,AI大军完全能够承担公司重任,人类是否会沦为配角?

  几个月前,OpenAI曾被曝出,内部定义了五级AGI路线——组织者:可以完成组织工作的AI。

  此前,一项研究表明,拥有30+AI智能体系统,在几乎任何任务中,都优于简单的LLM调用,同时还减少了幻觉,提高了准确性。

  在探索改善AI在软件工程任务中的表现的方法时,Alex Sima突然有了灵感:

  如果将AI智能体之间互动机构化,让其类似于科技巨头的「组织架构图」,会怎样?

  接下来,Alex让AI接管了6大科技巨头——亚马逊、谷歌、微软、苹果、Meta、Oracle,看看它们如何协作。

  以下是,Alex将AI智能体,组织成类似苹果、微软、谷歌等公司结构后,得到的一些关键要点:

  - 有多个「竞争」团队(即竞争生产最佳最终产品)的公司,如微软、苹果,表现优于集中化的层级结构。

  - 具有单点故障(比如一个领导者做出重要决策)的系统,如谷歌、亚马逊和Oracle,表现不佳。

  之前通过简单增加AI智能体数量,来提升性能的方法,比如SWE-bench,并未取得显著的成效。

  三周前,Alex偶然看到了James Huckle关于「康威定律」的一篇文章——软件和产品架构注定会反映创造它的组织结构。

  James展示了一幅插图,揭示了亚马逊、谷歌、Facebook、微软、苹果和Oracle的戏剧化组织结构,并提出了一个想法:

  作者将AI智能体组织成不同的公司结构,在SWE-bench-lite的13个实例「mini」子集上,评估了六种不同的组织结构。

  为了复制这一结构,Alex使用了大量执行代码库搜索的智能体,和一个最终执行代码库更新的单一智能体。

  Alex通过在单一层内聚合复制所有智能体结果,并将其传递给下一层的智能体。

  本质上,Alex重新调整了亚马逊的结构(减少智能体数量),并使用向量相似性投票方法,从三次单独运行中选择「最佳」解决方案(每次运行对层级结构略有调整)。

  Alex使用了与微软相同的「最佳解决方案」方法,但进行了更多没有智能体层级的运行(每次运行有不同的转换)。

  Alex将法律团队解释为,搜索代码库和检索关键上下文的智能体,而工程团队由实际编写代码的智能体组成。

  两个团队的结构类似于亚马逊,顶层有一个单一智能体协调「法律」和「工程」之间的信息传递。

  表现最佳的两个(微软和苹果)都有多个团队在竞争解决问题,而其他公司似乎只有一个巨大的团队生成单一patch。

  提到单点故障,是指是那些有高层管理者/智能体可以完全改变运行结果的公司(如谷歌、亚马逊和甲骨文)。

  在协调多个智能体之间的互动时,一个常见问题是某个智能体失败——导致可能出现一个智能体改变团队问题解决策略方向的情况。

  另外,表现最好的两家公司,微软和苹果,恰好是世界上市值最大的两家科技公司。

  总的来说,似乎在一个像软件工程这样复杂的任务中,增加更多的智能体,或改变这些智能体的组织方式,只会带来边际性能的提高。

  虽然论文More Agents Is All You Need 发现,准确率有相当大的提高(约20%),但在GSM8K(小学数学)测试中,30个智能体后性能明显趋于平缓。

  研究还发现,过于复杂的任务(如SWE-bench中的任务)可能超出模型的推理能力,导致性能增益递减。

  坐着在SIMA中同样验证了这一发现,最多只比基础架构提高了2-3%(使用40多个智能体)。

  作者认为,若想在基准测试上取得更大进步,需要改变智能体的实际逻辑推理能力,或者它们可以采用(或被给予)的解决软件问题的策略和方法。

  这可以通过更强大的基础模型(GPT-5)或给予智能体更广泛的工具来实现。

  归根结底,如果你不雇用更聪明的员工,或给他们更好的资源,无论你如何组织他们或有多少人,他们的产出都不会提高。

  仅在这个mini子集中的差异就足够显著,值得关注(从谷歌到苹果提高了约50%)。

  基础模型/工具可能是智能体软件工程的限制因素,但随着基础模型的改进,探索智能体通信结构(无论是否在公司组织中)绝对应该被测试。

  正如James Huckle所说,这个概念可能成为AI智能体设计中的「关键超参数」,不同的组织结构可能更适合不同的任务。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。