近日,OpenAI宣布推出一款网络爬虫工具GPTBot,能够自动抓取网站的数据。加之,此前OpenAI向美国专利商标局 (USPTO)提交了“GPT-5”的商标申请。这使许多业内人士猜测,OpenAI正在训练更高级的AI系统。
OpenAI从GPT-4开始就对技术细节完全保密,最初只用一份Tech Report来展示基准测试结果,闭口不谈训练数据和模型参数。但是,不难想象,训练GPT-4需要海量的数据支持,这也不是付费购买能够解决的问题。大概率,OpenAI使用了网络爬虫。
此次,OpenAI直接公布了从整个互联网爬取数据的网络爬虫——GPTBot。OpenAI 表示:“使用GPTBot爬取网络数据是为了改进AI模型的准确性、功能性和安全性。”不过,网站所有者可以根据需要允许和限制GPTBot爬取网站数据。
另外,OpenAI 还在7月18日提交了“GPT-5”的商标申请,并且已经被美国专利商标局接收(满足最低申请要求),后续将由审查人员进一步审批。这些迹象都在暗示,GPT-5的发布或许并不遥远。
而结合业界的讨论,GPT-5将有一些新的特性包括多模态。目前GPT-4只能处理文本和图像两种类型的数据,人们希望GPT-5能够在语音、视频等其他模态上有所突破。此外,结合GPT-4的更新趋势,人们预测GPT-5将朝着软件即服务(SaaS)平台的方向发展。也即GPT-5将不仅是一款软件,而是可以集成到各个网站、移动应用程序和计算机系统中,并且拥有多个垂直领域的插件。
不过,GPT-5的训练将会消耗更大规模的算力。有文章预测,GPT-5可能需要30000-50000张集成H100的显卡。人们预测GPT-4可能在10000到25000张A100上进行了训练。Meta拥有约21000张A100,特斯拉拥有约7000张A100,Stability AI拥有约5000张A100,Falcon-40B在384张A100上进行了训练。