Blo半岛APPombergGPT在金融领域有多厉害? 高金智库
发布时间:2023-05-10
 半岛APP随着人工智能技术的快速发展,大型语言模型(Large Language Model,下文简称LLM)已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力,但市场上暂未有专攻金融领域的LLM。  报告说明,对BloombergGPT的评估显示,其在金融任务上的表现显著优于现有模型,同时不会牺牲通用LLM的基准性能,因此BloombergGPT在金融领域具有不可替代性。

  半岛APP随着人工智能技术的快速发展,大型语言模型(Large Language Model,下文简称LLM)已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力,但市场上暂未有专攻金融领域的LLM。

  报告说明,对BloombergGPT的评估显示,其在金融任务上的表现显著优于现有模型,同时不会牺牲通用LLM的基准性能,因此BloombergGPT在金融领域具有不可替代性。

  因评估方式以及模型本身的局限,BloombergGPT是否会对金融业带来颠覆性的变革还有待商榷,但不可否认的是,随着技术的进步,BloombergGPT在不同金融业务场景下都将具有广泛的应用和可观的潜力。

  *本文作者:毛诗倩上海交通大学中国金融研究院研究助理潘 薇上海交通大学中国金融研究院CAFR-信也科技联合研究实验室研究助理

  自然语言处理(Nature Language Processing,下文简称NLP)是计算机科学和人工智能领域的重要方向,研究如何让计算机读懂人类语言,目前NLP在金融领域应用越来越广泛而复杂。随着人工智能技术的快速发展,LLM已经成为NLP的佼佼者,是当下AI和NLP研究与产业中最重要的方向之一。

  LLM是指包含数千亿(或更多)参数的可以通过处理大量自然语言数据的深度学习模型。目前火爆的ChatGPT模型就是一种LLM,证明了训练非常大的LLM的强大优势。但目前的LLM大多是通用性的,而因金融行业的复杂性以及大量的金融术语,市场上需要一个专攻金融专业的模型。

  彭博社是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。彭博社精于以创新的技术来快速、精准地传递数据、新闻和分析,这也是彭博终端的核心优势所在。

  今年3月30日,彭博社最新发布的报告显示,其构建了迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM——BloombergGPT,以支持金融行业内的各类任务。

  彭博社依托其四十多年来积累的大量金融数据源,创建了一个包含3,630亿词例(token)的金融数据集FinPile,又与公共数据集叠加成为了包含超7,000亿词例的大型训练语料库。利用庞大的数据集,并基于通用和金融业务的场景进行混合模型训练,训练了包含500亿个参数的大规模生成式人工智能模型BloombergGPT,以全方位支持并改善金融领域的NLP任务。

  BloombergGPT的推出意味着这项新技术在金融领域的发展和应用已经迈出了第一步。

  报告中将BloombergGPT与其他两个参数量级等相匹配的模型GPT-NeoX,OPT66B和一个参数更大的模型BLOOM176B在金融领域和通用领域分别进行了比较评估:金融领域评估以验证对高质量的金融特定数据进行训练将在金融任务中产生更好的结果;通用领域评估以与市场上其他模型在通用任务上做对比。

  结果表明,BloombergGPT模型在金融任务上的表现远超类似规模的开放模型,在通用任务上优于其他相同参数量级的模型,并在某些任务上甚至超过了参数量更大的模型,证明了其专注于金融领域的不可替代性。

  外部金融任务以衡量BloombergGPT在金融领域的有效性,主要测试为以下五项:

  1) ConvFinQA:输入标普500收益报告,任务是回答需要对输入进行数字推理的对话问题,以测试模型对金融领域相关问题的理解和推理能力。

  2) FiQA SA:测试其对英文金融新闻和社交媒体标题中的特定情绪理解,将消息按照任何可能有利于或伤害投资者的分成积极、中性、消极三类。

  4) Headline:输入黄金商品领域的英文新闻标题,测试其对新闻标题是否包含特定信息的判断,例如价格上涨或价格下跌等。

  5)NER:命名实体识别任务,测试从向SEC提交的金融协议中收集金融数据,进行信用风险评估。

  测试结果显示,BloombergGPT在以上五项测试中的四项在测试的所有模型中表现得最优,在NER表现为第二。在所有模型中的胜率(Win Rate)也是最高的,其中ConvFinQA与同等大小模型的差距尤其明显。由此证明BloombergGPT对金融业复杂性的深刻理解。

  Bloomberg金融任务中的情绪三分类的数据集包含来自彭博社的英文新闻报道、付费内容和网络内容,以检验BloombergGPT对金融语言的深刻理解是否能够准确衡量其中的情绪,帮助投资者根据市场情绪做出明智的决定。主要测试为以下五项:

  1) Equity News Sentiment:测试其对新闻报道中表达的对公司的情绪按可能会增加、减少或保持不变长期投资者对公司的信心进行分类。

  4) ES News Sentiment:测试其对新闻报道中表达的反映公司环境和社会政策的好消息、坏消息或中性消息进行分类。

  5) Country News Sentiment:测试其对新闻报道中暗示某国经济的增长、萎缩或中性进行分类。

  测试结果显示,BloombergGPT在以上五项测试中在测试的所有模型中均表现得最优,且远超于其他模型。

  3. Bloomberg金融任务(Bloomberg Financial Tasks)——探索性任务:NER尽管NER在NLP中的应用已经十分成熟,但在LLM中十分艰巨,是尚未开发的任务。NER任务以检验BloombergGPT是否能够识别和分类实体,例如公司名称、股票行情和金融工具,以简化数据提取和分析过程,为分析师和研究人员提供更高效的工作流程。同时探索性任务NER+NED以检验BloombergGPT是否能够识别出实体后再将实体与其股票代码联系起来。

  这两类任务主要测试为以下七项彭博社内部NER数据集:分别为BN(英文长篇彭博新闻内容)、BFW(Bloomberg First Word上的短篇内容)、Filings(公司强制性财务披露)、Headlines(英文彭博新闻标题)、Premium(彭博收录的第三方英文新闻内容)、Transcripts(公司新闻发布会的通稿)、Social Media(英文金融相关的社交媒体)。

  测试结果显示,虽然BloombergGPT在NER任务下,BloombergGPT仅在Headlines这一个数据集上得分最高,但所有模型的结果都相对接近。而且在NER+NED任务下,BloombergGPT在除了Social Media测试的其他测试上均得分第一。这些结果进一步强调了BloombergGPT在金融任务方面的优势。

  四组的测试结果均表明,BloombergGPT在开发金融专用的大语言模型并没有明显牺牲其通用能力,在许多通用领域,除略微落后于GPT-3外,BloombergGPT的表现优于其他参数量相同的模型,甚至在个别测试中超过了参数量更大的模型。

  值得注意的是,虽然BloombergGPT在众多情绪分析和命名实体识别任务中表现出色,但该论文在金融领域的评估并未与GPT-3或GPT-4做对比,且从目前大众对于ChatGPT的测试来看,GPT-3和GPT-4在理解和生成金融相关内容方面也表现出了非凡的能力。因此,尚不清楚BloombergGPT是否能够在各种金融任务中真正优于ChatGPT。

  从模型设计目的来看,与市场上通用GPT以聊天机器人为目标不同,BloombergGPT的训练目标是在金融领域内提供高质量的NLP服务,包括信息检索、文本生成、问答等,具有针对金融领域的专业术语、行业趋势、经济数据等方面的高度准确性和适用性,可以为用户提供专业的高质量的信息和分析服务。

  2. 适配性BloombergGPT有一个独特的功能,它可以生成彭博查询语言(BQL)。BQL是彭博终端用户使用的专有语言,使用户能够更轻松地根据需要提取、筛选和操作财务数据。基于彭博社良好的客户基础与应用基础及其海量数据,这将大大提高投资者和金融从业人员的工作效率。

  一方面,不同于通用LLM的传统网络爬取数据,网络上的数据总有重复和错误,BloombergGPT的训练数据基于彭博社四十余年的积累,其数据来源广泛、全面、可靠,输出的金融领域结果的准确性和实用性都将高于通用LLM。

  另一方面,BloombergGPT可以根据客户的需求和使用场景进行特定的模型训练和参数设置,同时提供专业的技术支持、安全性保障和稳定的服务保障,全方位满足用户各种金融需求。

  一方面,BloombergGPT训练中从公开渠道及彭博社内部抓取的所有文件均为英文,缺少了多语言的训练将导致该模型难以被全球用户使用。另一方面,BloombergGPT的训练数据主要来自彭博社的金融数据,相对其他领域的数据来说较为局限,这可能会导致模型对其他领域的文本处理效果不佳。

  报告中提到,量化有害语言产生的可能性仍然是一个悬而未决的问题。尽管FinPile包含的公开偏见或有毒语言更少,降低了模型生成不适当内容的倾向,但毒性和偏见对金融领域影响不容小觑,微小的错误也可能带来巨大的投资损失,只有保证BloombergGPT的准确和真实性才能对市场进行合理的预测从而被用户使用。

  彭博社表示在使用LLM前后都会做好风控以保证生成内容的安全性,同时将会继续研究以实现最终遏制不适当内容的产生。

  除了参数和一般信息外,该研究论文中没有提到模型权重等细节。同时文中表示,由于该模型基于数十年的彭博数据,基于其信息的敏感性,以及考虑到模型被滥用的潜在危害,彭博社将不会公开发布BloombergGPT,这决定将显著影响其对更广泛的金融行业及其他行业的潜在好处和可及性。

  同其他LLM一样,随着技术的发展带来的诸如工作流离失所的可能性、数据隐私以及权力集中在少数大公司手中等问题需要谨慎应对。要确保以负责任的方式开发技术,以最大限度地发挥其效益并最大限度地减少其潜在危害。

  报告表明,BloombergGPT将协助彭博改进现有的金融NLP任务,如市场情绪分析、命名实体识别(Named Entity Recognition,简称NER)、新闻分类和问题回答,同时将整合彭博终端上的海量数据,释放更多新机遇,以更好地帮助客户,将人工智能蕴藏的全部潜力带到金融领域。

  报告虽未对其的应用做出太多的展开,但作为一个专门针对金融领域的LLM,依托彭博四十余年金融数据积累,其对投资者和金融从业人员在投研、投顾、营销、客服、运营、风控等各类金融业务场景下都将具有广泛的应用和可观的潜力。

  从对该模型金融领域的评估中的外部金融任务(Public Financial Tasks)及Bloomberg金融任务探索性任务NER评估可以看出该模型识别和分类实体(例如公司名称、股票代码和金融工具)的能力优异,该能力可以简化数据提取和分析过程,从而为分析师和研究人员提供更高效的工作流程。

  从对该模型金融领域的评估中的Bloomberg金融任务(Bloomberg Financial Tasks)内部任务:情绪三分类评估可以看出,BloombergGPT对金融语言的深刻理解能够使其能够准确衡量新闻文章、研究报告和社交媒体帖子中的情绪,可以帮助投资者和交易者根据市场情绪做出明智的决定。

  在风险防控阶段,BloombergGPT可以帮助评估投资组合中不同资产的风险,并提供风险管理建议。在信息快速集成和分析的基础上,可以快速给出风险提醒及风险管控意见,有效帮助投资者快速对风险事项进行应对。在风险应对阶段,可以快速识别和分析怀疑欺诈的数据,并在接收到异常请求时进行快速反应,以确保投资者在资金交易过程中的安全。

  一方面,BloombergGPT可以及时获取全球范围内的最新趋势和动态,智能高效的分析金融领域的文本及数据,分析市场情绪,提取有价值的信息和洞察,同时利用历史数据和市场趋势,结合当前市场形势,预测未来的市场走势和变化,帮助投资者和机构把握市场机会。

  另一方面,BloombergGPT在金融领域有更深入的数据分析和交易知识,在问答方面的熟练程度可以作为一个金融智能助理,理解复杂的查询并以相关、准确的信息做出响应,对投资者提出的问题进行快速准确的回答,为投资者提供各种金融相关的服务及协助投资者获取其所需的金融相关知识,帮助投资者更快速地获取所需信息和洞察以大大提升决策效率。

  首先,BloombergGPT可以根据投资者的投资偏好和风险偏好,为他们推送个性化的新闻摘要并提供定制化的投资建议及实时调整。

  第二,BloombergGPT支持BQL生成,即使用自然语言完成Bloomberg数据库查询,类似NL2SQL,可以让投资者在终端的使用更为便利。

  第三,基于BloombergGPT依托的海量金融数据与案例,BloombergGPT还可以作为一个金融教育和培训的工具,根据投资者需求定制化提供各种金融相关的课程培训和案例讲解,提升投资者金融素养,进一步提升投资者的用户体验。

  从降本的层面,在金融机构投研、研发编程、风险控制及流程管理等方面引入BloombergGPT减少基础人员投入以控制金融机构的成本。

  从增效的层面,一方面,BloombergGPT可以根据给定的主题和语境,根据实时数据自动生成高质量的金融和商业报告、新闻文章等文本内容,同时能够辅助金融机构生成基础的财务分析报告和招股书,辅助会计和审计方面的工作。

  另一方面,BloombergGPT可以协助金融分析师快速高效地将复杂的财经新闻文章提炼成简洁的摘要,简化分析财务信息的任务,释放专业人士的劳动力到更需要人工专业判断的领域。

  一方面,协助金融从业人员对市场和客户的情绪进行分析,同时保证投资的纪律性避免在市场情绪的影响下做出非理性的判断,以便做出正确的投资决策。

  另一方面,通过使用数据和算法来确定执行交易时的最佳时机和定价,以减少人为错误,提高了投资效率和稳定。