总部位于旧金山的人工智能初创公司Writer周三首次推出大型人工智能模型,与OpenAI、Anthropic等公司的企业级产品展开竞争。但与其中一些竞争对手不同的是,它不需要花费那么多钱来训练自己的人工智能。
该公司提到,它花费了约70万美元来训练最新的模型,包括数据和GPU,而竞争对手的初创公司则花费了数百万美元来建立自己的模型。该公司的策略引起了投资者的注意。
据一位熟悉情况的人士接受采访时透露,Writer正在以19亿美元的估值筹集最多2亿美元的资金。这几乎是该公司2023年9月估值的四倍,当时该公司以超过5亿美元的估值融资1亿美元。
该公司利用合成数据或人工智能创建的数据削减成本。它旨在模拟现实世界的信息,这些信息通常被输入到模型中,同时又不损害隐私,正在成为一种更受欢迎的训练方法。
人工智能研究人员在6月份修订的一项研究发现,如果目前的人工智能发展趋势继续下去,科技公司将在2026年至2032年间“完全耗尽”公开可用的训练数据,并写道:“人类生成的公共文本数据无法在这十年之后继续扩展。”
亚马逊在训练Alexa时使用了合成数据,Meta在微调其Llama模型时使用了合成数据,而根据该公司发布的职位描述,微软支持的OpenAI正在将合成数据纳入其模型。
不过,一些专家警告说,合成数据应谨慎使用,因为它有可能降低模型性能,加剧现有偏差。
Writer的联合创始人兼首席技术官Waseem Alshikh提到,Writer多年来一直在开发合成数据管道。
“业内对‘合成’数据的定义有些混淆。”Alshikh说,“明确地说,我们不会用虚假或幻想的数据来训练我们的模型,也不会用模型来生成随机数据......我们采用真实的事实数据,并将其转换为合成数据,这些数据以更清晰、更简洁的方式进行专门的结构化,以便进行模型训练。”
该公司的生成式人工智能允许企业客户使用其大型语言模型(或LLM),为从领英(LinkedIn)帖子到职位描述再到任务说明等任何内容生成人声文本,分析和总结数据或文本,并为市场分析等建立定制的人工智能应用。该公司拥有250多家企业客户,其中包括埃森哲、优步、Salesforce、欧莱雅和Vanguard,他们在支持、IT、运营、销售和营销等领域使用该技术。
生成式人工智能市场有望在十年内突破1万亿美元的收入。根据PitchBook的数据,到2024年为止,投资者已向498笔生成式人工智能交易注入了268亿美元,该领域的公司在2023年筹集了259亿美元,比2022年增长了200%以上。