(起原:MIT TR)hongkongdoll 露脸
非牟利参议机构艾伦东说念主工智能参议所(简称 Ai2)正在推出名为“Molmo”的开源多模态话语模子,据称该模子的性能可与 OpenAI、Google 和 Anthropic 的顶级独有模子相失色。
该组织宣称,其最大的 Molmo 模子领有 720 亿个参数,在测量雄厚图像、图表和文档等推行的测试中,其性能优于 OpenAI 的 GPT-4o(GPT-4o 领有越过一万亿个参数)。
与此同期,Ai2 默示,一个较小的 Molmo 模子(领有 70 亿个参数),其性能接近 OpenAI 最先进的模子,这一配置主要归功于更高效的数据网罗和检修步伐。
Ai2 首席引申官 Ali Farhadi 默示,Molmo 标明,开源东说念主工智能开导与封锁的独有模子不相高下。开源模子具有显贵的上风,因为它们的绽放性意味着其他东说念主不错在其上构建应用设施。Molmo 演示可点击并吞检察(https://molmo.allenai.org/),开导东说念主员也不错在 Hugging Face 网站上对其进行修改。(最苍劲的 Molmo 模子的某些元素仍被屏蔽。)
其他大型多模态话语模子是在包含从互联网上赢得的数十亿图像和文本样本的精深数据集上进行检修的hongkongdoll 露脸,何况它们不错包含数万亿个参数。Ai2 的高档参议主宰 Ani Kembhavi 默示,这个流程给检修数据带来了好多杂音,并随之产生了幻觉。比较之下,Ai2 的 Molmo 模子是在一个更小、更“全心操办”的数据集上进行检修的,该数据集仅包含 60 万张图像,何况具有 10 亿到 720 亿个参数。Kembhavi 默示,这种对高质料数据的顾惜,而不是不加分手地执取数据,用更少的资源完了了更好的性能。
Ai2 通过让东说念主类谛视者在多页文本上以极其预防的形势描绘模子检修数据聚首的图像来完了这一策动。他们条件谛视者琢磨他们所看到的推行,而不是打字。然后,他们使用东说念主工智能技能将语音疗养为数据,这使得检修流程更快,同期裁减了算力需求。
如若咱们念念要灵验地管制用于东说念主工智能开导的数据,这些技能可能会相称有用。Hugging Face 的机器学习和社会崇拜东说念主 Yacine Jernite 默示,他莫得参与这项参议。
斯坦福大学基础模子参议中心主任 Percy Liang 也莫得参与这项参议,他说:“一般来说,用更高质料的数据进行检修不错裁减策动资本,这是有道理的。”
另一个令东说念主印象深入的材干是,该模子不错“指向”图像联系部分,这意味着它不错通过识别回话查询的像素来分析图像的元素。
在与《麻省理工科技挑剔》共享的演示中,Ai2 参议东说念主员在西雅图的办公室外拍了一张相片,并条件模子识别图像中的各式元素,举例躺椅。该模子胜仗地描绘了图像中包含的推行,策动了躺椅的数目,并按照参议东说念主员的条件准确地指出了图像中的其他事物。关联词,它也并不完好。比如它无法找到特定的泊车场。
Farhadi 说,其他先进的东说念主工智能模子擅长描绘场景和图像。然则,当您念念要构建更复杂的智能体,不错与寰球交互,举例预订航班时,这还不够。他说,“指向”不错让东说念主们与用户界面进行交互。
Jernite 默示,与咱们在其他东说念主工智能公司看到的比较,Ai2 的运营愈加绽放。他说,固然 Molmo 是一个致密的首先,但它的信得过真理真理在于开导东说念主员在其基础上构建的应用设施,以及东说念主们校阅它的形势。
Farhadi 对此默示应许。畴昔几年,东说念主工智能公司眩惑了数万亿好意思元的多量投资。但在畴昔的几个月里,投资者对这项投资能否带往复报默示怀疑。他以为,大型、精湛的独有模子无法作念到这少许,但开源模子不错。他说,这项责任标明,开源东说念主工智能也不错以灵验讹诈资金和时刻的形势构建。
文爱电报群“咱们很欢笑能为其他东说念主提供救济,并望望其他东说念主会用它来构建什么。”Farhadi 说。
https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/