2023年底,《纽约时报》起诉ChatGPT的开发者OpenAI和其伙伴微软公司的案件引发了全球关注,近日OpenAI基金会在公司网站发布博客《OpenAI与新闻业》,称:我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼毫无根据。今天就结合该博客的内容,跟大家分享一下笔者的看法:
OpenAI称:我们的目标是开发人工智能工具,让人们有能力解决那些遥不可及的问题。世界各地的人们已经在使用我们的技术来改善他们的日常生活。如今,数百万开发人员和超过92%的财富 500 强企业都在使用我们的产品。虽然我们不同意《纽约时报》诉讼中的说法,但我们认为这是一个澄清我们的业务、意图以及我们如何构建技术的机会。我们的立场可以概括为以下四点:
我们在技术设计过程中努力为新闻机构提供支持。我们已经与数十家新闻机构以及新闻/媒体联盟等领先的行业组织会面,探讨机会,讨论他们的担忧,并提供解决方案。我们的目标是学习、教育、听取反馈并进行调整。
我们的目标是支持健康的新闻生态系统,成为良好的合作伙伴,创造互惠互利的机会。有鉴于此,我们寻求与新闻机构建立合作伙伴关系,以实现这些目标:
部署我们的产品,通过协助分析大量公共记录和翻译报道等耗时的任务,为记者和编辑提供帮助和支持。通过对更多历史、非公开内容的训练,让我们的人工智能模型了解世界。在ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式。我们与美联社、阿克塞尔-施普林格(Axel Springer)、美国新闻项目(American Journalism Project)和纽约大学(NYU)的早期合作让我们了解了我们的方法。
使用公开可用的互联网资料训练人工智能模型是合理使用,这一点得到了长期广泛接受的先例的支持。我们认为这一原则对创造者是公平的,对创新者是必要的,对美国的竞争力也是至关重要的。
最近向美国版权局提交意见的众多学者、图书馆协会、民间社会团体、初创企业、美国领先公司、创作者、作者等都支持允许将训练人工智能模型作为合理使用的原则。其他地区和国家,包括欧盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律--这是人工智能创新、进步和投资的优势。
尽管如此,对我们来说,法律权利并不重要,重要的是做一个好公民。我们在人工智能行业中处于领先地位,为出版商提供了一个简单的退出程序(《纽约时报》于 2023 年8月采用了这一程序),以防止我们的工具访问他们的网站。
我们设计和训练模型的目的是学习概念,以便将其应用于新问题。死记硬背是学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,这种故障就比较常见了,例如,如果这些内容的片段出现在许多不同的公共网站上。因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。我们也希望我们的用户能够负责任地行事;故意操纵我们的模型进行反流(反流,英文为Regurgitation,医学名词,也称“反刍”,指经过咀嚼的食物从胃返回到嘴里,笔者注)不是对我们技术的适当使用,也违反了我们的使用条款。
正如人类接受广泛的教育以学习如何解决新问题一样,我们也希望我们的人工智能模型能观察到世界上的各种信息,包括来自各种语言、文化和行业的信息。由于模型是从人类知识的巨大集合中学习的,因此任何一个领域--包括新闻--都只是整个训练数据的一小部分,任何一个数据源--包括《纽约时报》--对模型的专门学习都没有意义。
在 12 月 19 日的最后一次沟通中,我们与《纽约时报》的讨论似乎取得了建设性进展。谈判的重点是围绕 ChatGPT中的实时显示和归因建立高价值的合作伙伴关系,《纽约时报》将通过这种新方式与他们的现有读者和新读者建立联系,而我们的用户则可以访问他们的报道。我们曾向《纽约时报》解释说,与任何单一来源一样,他们的内容对我们现有模型的训练没有任何意义,对未来的训练也没有足够的影响。他们在 12 月 27 日提起的诉讼--我们是通过阅读《纽约时报》得知的--让我们感到意外和失望。
一路走来,他们曾提到看到一些重复他们内容的情况,但一再拒绝分享任何实例,尽管我们承诺调查并解决任何问题。我们已经证明了我们是如何认真对待这一优先事项的,例如在 7 月份,当我们得知 ChatGPT功能可能会以非预期的方式复制实时内容后,我们立即关闭了该功能。
有趣的是,《纽约时报》诱导转载的内容似乎来自多年前的文章,而这些文章已在多个第三方网站上泛滥。为了让我们的模型进行反流,他们似乎有意篡改了提示语,通常包括冗长的文章节选。即使在使用此类提示时,我们的模型通常也不会像《纽约时报》影射的那样,这表明他们要么是指示模型进行反流,要么是从众多尝试中挑选出的例子。
尽管《纽约时报》声称,这种误用并非典型或允许的用户行为,也不能替代《纽约时报》。无论如何,我们正在不断提高我们系统的抗逆性,以抵御反流训练数据的攻击,并已在我们最近的模型中取得了很大进展。
我们认为《纽约时报》的诉讼毫无根据。尽管如此,我们仍希望与《纽约时报》建立建设性的合作关系,并尊重其悠久的历史,其中包括 60 多年前报道第一个工作神经网络和捍卫第一修正案规定的自由。
我们期待与新闻机构继续合作,通过实现人工智能的变革潜力,帮助提升他们制作高质量新闻的能力。