Talk:随机鹦鹉

本條目有内容譯自英語維基百科页面“Stochastic parrot”（原作者列于其历史记录页）。

未通过的新条目推荐讨论

本主題或以下段落文字，移動自Wikipedia:新条目推荐/候选。

哪个比喻描述大型语言模型只能根据随机概率“鹦鹉学舌”？
随机鹦鹉条目由ItMarki（讨论 | 貢獻）提名，其作者为ItMarki（讨论 | 貢獻），属于“technology”类型，提名于2024年5月22日 11:28 (UTC)。
- (＋)支持--Banyangarden（留言） 2024年5月23日 (四) 02:18 (UTC)[回复]
- (！)意見：
  真的有必要在引言和正文里两次把所有作者的全名都写上吗？
  
  我认为格伯鲁和米切尔被Google解雇的事件不应该放在“起源和定义”章节内。弱相关内容。
  
  一些词句存在错译，例如“2023 AI-related Word of the Year”中的“word”应当取的是广义的含义（因为Stochastic parrot明显是个复合词），不能翻译为“单词”，而应该译为“词”或“词语”。

另外，Science News（英语：Science News）的主编Nancy Shute在该杂志的一篇文章中提出，真正的鹦鹉，及研究它们的科学家，或许会感到被这个概念冒犯，因为近年的动物智能研究认为一些鹦鹉可能有能力理解一些语言的含义（Real parrots, and the scientists who study them, may take offense at that term. ... Now, scientists are discovering that parrots can do much more, ... and sometimes even understanding what we say.），或许可以添加到“争论”章节中。 ——🦝Interaccoonale_{（留言・贡献）} 2024年5月23日 (四) 04:03 (UTC)[回复]

- - 页面的内容一字不漏取自英维，但是我同意您的建议。 已完成--ItMarki^探討人生 2024年5月23日 (四) 06:03 (UTC)[回复]
- 「哈佛引用格式錯誤：此sfn模板連結並未指向任何有效引用。」—WiTo🐤💬 2024年5月23日 (四) 05:33 (UTC)[回复]
  - 已完成--ItMarki^探討人生 2024年5月23日 (四) 06:03 (UTC)[回复]
- 中维一般还是可以做到页面标题在第一段段首第一个字就出现吧，虽然「在机器学习中，“随机鹦鹉”（英语：stochastic parrot）是一个理论的比喻...」不是不能接受，但是总给人一种不是非常本地化的感觉？此外(▲)同上，我认为作者全称不用重复提及，我会如此写，仅供参考。
  “随机鹦鹉”（英语：stochastic parrot）是机器学习领域中一个理论的比喻，指大型语言模型虽然能够生成合理的文句，但其实不能理解所处理的语句。它由蒂默妮特·格伯鲁、安杰利娜·麦克米伦-梅杰和玛格丽特·米切尔在2021年人工智能研究论文《论随机鹦鹉的危害：语言模型太大有坏处吗？🦜》（On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜）中提出。
  以上，由𝘿𝙖𝙧𝙚𝙙𝙚𝙢𝙤𝙙𝙖𝙞𝙨𝙪𝙠𝙞 𝟭𝟭𝟰𝟱𝟭𝟰—好耶~ 书于 2024年5月23日 (四) 13:49 (UTC)[回复]
  - 已完成--ItMarki^探討人生 2024年5月23日 (四) 15:14 (UTC)[回复]
- (－)反对，存在诸多生硬的翻译。一是英文原文来自维基课程教育项目（南加州大学WRIT 340课程作业），诸多叙述质量（先后逻辑，用词，引用来源选择）并不高，请查证各种引用文章后写；二是各类机器学习术语（还有概率论术语，语言学术语）使用不准确。举例，条目根据的paper“Can Language Models Be Too Big?”被翻译为“语言模型太大有坏处吗？”；“环境和金融损失、不可理解性导致的未知而有害的偏见，以及用作欺骗的可能性，又说它们不能明白所学习事物的深层概念”，这段英文wiki原文写的就不行，请阅读原paper和引用的MIT Tech Review后再写，不要直译wiki原文；“stochastic”这是词实际上是反映了概率论的背景，在阐述“随即鹦鹉”该词时除了提及以前的希腊文定义，也要讲明这一点；“机器学习专家林霍尔姆、瓦尔斯特伦、林斯滕和舍恩”，这几位人只是合写了一本介绍性的书籍，算不上有影响力的研究者；“法律、[10]语法、[11]叙事、[12]和人文学”这几类不算是并列关系了；“该论文的作者”，我想英文wiki里指的是这一批引用文章的作者，不是单个论文；Mechanistic Interpretability不叫“机械可理解性”，实际上“Mechanistic refers to the emphasis on trying to understand the actual mecahnisms and algorithms that compose the network”，是机制/机制性的意思；“发现符号算法，模拟大型语言模型的推论过程，借此将它逆向工程”，英文wiki作者的叙述不清楚，需要参考引用文献解释；此参考“Machine Reading, Fast and Slow: When Do Models "Understand" Language?”和叙述不太相关；Othello-GPT的解释不清楚，“将黑白棋棋盘转化为线性表达”，直白的话，这个实验是输入走棋移动序列，然后模型能推测出是在8x8的棋盘上走的，换句话说，这个模型自己在训练时隐式地建立了一个8x8的平面模型，以此试图说明LLM不只是统计数据式的鹦鹉学舌，而是真的理解世界构成；“快捷学习（shortcut learning），即是不使用类似人类的理解，从数据中作出不相关的联系”，这段对shortcut learning（捷径学习）的阐述不清楚，简单的说应该是使用一些捷径特征（像下面举例中的捷径词“不”）进行预测，而不是真正地像人类一样去理解；“难以分辨随机鹦鹉和有理解能力的物体”——> 难以分辨随机鹦鹉式的模型和有理解能力的模型。--桃花影落飞神剑（留言） 2024年5月24日 (五) 17:26 (UTC)[回复]
  - 你提出的意见，我大部分都同意，但我还是想说几句：
    - 我觉得把“can……be too big”翻译成“xx可以太大吗”，反而令句子词不达意。如果你有意见，那我还是直译好了。
    - 请问“法律、[10]语法、[11]叙事、[12]和人文学”这几类不算是并列关系了是什么意思？
    - “该论文的作者”，我想英文wiki里指的是这一批引用文章的作者，不是单个论文。所附来源的确指的是讲随机鹦鹉的那篇论文。
  - 另外，有人在英维条目修改了一些内容。我可以参考一下。--ItMarki^探討人生 2024年5月25日 (六) 10:17 (UTC)[回复]
- (＋)支持--Benho7599 | Talk 2024年5月28日 (二) 13:29 (UTC)[回复]