表格数据表示学习(tabular representation learning):2024年现状与展望
概念和背景
Tabular 数据(表格数据)是最常见的结构化数据形式,广泛存在于金融、医疗、零售、制造等领域。其承载形式主要是关系数据、online spreadsheet、csv、excel等。在数据仓库中,绝大多数数据集都以表格格式(如 CSV 文件,parquet文件)存在,这充分说明了表格数据在数据生态系统中的主导地位。尽管如此,相较于图像和文本等非结构化数据,表格数据在表示学习领域的研究却长期以来被忽视。早期表示学习的研究重心主要受到计算机视觉和自然语言处理领域突破性进展的驱动,导致更多的关注和资源投入到这些领域。表格数据虽然普遍存在,但其独特的性质带来了需要专门方法才能解决的挑战,而这些方法是相对较新的发展。因此,与图像、文本、语音等领域相比,使用深度学习模型对表格数据的大规模应用起步较晚,这是由于其研究具有以下特点:
- 数据特性复杂:表格数据通常包含多种类型的特征(数值、类别、schema等),不同特征之间可能存在复杂的交互关系,传统方法难以捕捉这些特征间的深层联系。表格数据的特征分布通常是稀疏和异构的(数值型、类别型共存),同时也没有明显的空间或时间结构,深度学习模型难以直接利用其特性。
- 数据规模的制约:表格数据通常规模通常较非结构化数据更少,而深度学习模型需要大量的数据来训练,因此,表格数据表示学习在数据规模上存在一定的制约。
- 数据质量的挑战:表格数据通常需要人工整理,而人工整理的数据通常存在错误,这些错误可能会对模型的训练和预测产生负面影响。
- 传统的DNN不适应表格数据:例如CNN和MLP在表格数据上通常表现不佳,这是因为它们的参数相比表格数据来说,过度参数化(over-parameterized),缺乏归纳偏差(inductive bias)。
正是由于表格数据的这些特点,使得树模型(tree-based model,如GBDT、XGBoost、LightGBM)在表格数据上表现优秀,而深度学习模型在表格数据上整体表现不足。表格数据表示学习作为一个专门的领域应运而生,致力于从表格数据中提取有意义的、低维度的表示。这些表示旨在促进更轻松的处理、理解以及与各种下游机器学习任务的集成,从而提高在各种应用中的性能 。TRL 的目标是弥合表格数据的固有结构与先进人工智能模型的能力之间的差距,从而更好地利用这种普遍存在的数据格式 。通过学习有效的表示,我们可以将复杂的表格数据转换为更适合机器学习算法的格式,从而提高预测准确性,更好地理解数据,并执行以前具有挑战性或不可能完成的任务。
表格数据表示学习进展
近年来,多篇综述论文对TRL领域的最新进展进行了全面的回顾,尤其关注了2020年以来的发展 。这些综述突显了该领域技术的快速发展以及日益增长的研究兴趣。短时间内涌现出多篇综述论文表明,TRL领域已经积累了大量的研究成果,值得进行系统的组织和总结 。综述论文的发表有助于定义当前的研究状态并识别未来的发展方向。
例如,下图展示了截止到2024年,表格数据表示学习领域的进展,其中,横轴表示时间,纵轴表示代表性论文或模型 [1]。
表格表示学习可以认为是一个交叉学科/领域,主要涉及到数据库、数据分析、深度学习、图算法等领域,从发展过程整体来看,主要聚焦在这几个研究方向:
- 特征工程自动化:通过表征学习减少手工特征工程工作量,提升模型效率。
- 可解释性:在高效建模的同时,提升表征学习的可解释性,以增强信任和合规性。
- 小样本学习与迁移学习:在有限样本和领域迁移场景中,开发高效的表征学习方法。
- 异构数据融合:结合表格数据与图、文本、图像等异构数据,提升多模态分析能力。
- 在线学习:针对流式数据进行实时表征学习,提高动态系统的适应性。
如今,表格表示学习领域已经有很大程度的发展,已经慢慢成为一个独立的研究领域,例如在今年(2024年)的NeurIPS会议上,表格表示学习(Tabular Representation Learning)的workshop已经是第三届了; 在2024年的VLDB会议上也有Tabular Data Analysis (TaDA)的workshop,足以说明表格表示学习领域已经发展成为一个独立的研究领域。
与此同时,我注意到表格表示学习领域在最近也出现了一些非传统意义上的内容,例如一些workshop中也call for一些相关领域的论文,如 text-to-SQL(NL2SQL), table anomaly detection, 以及一些传统的数据库领域的论文,如 query optimization, data integration, data cleaning, data quality, etc. 这些内容的出现,说明表格表示学习领域正在逐渐与其他领域进行融合。
表格表示学习的研究进展
表格数据的深度学习模型的发展历程经历了从早期尝试使用全连接网络(FCNs)到更复杂的架构的演变,这些架构旨在解决表格数据特有的挑战。早期的FCNs在性能上通常不如传统的机器学习方法,如梯度提升树。深度学习在表格数据上的早期应用在性能上难以超越传统的机器学习模型,这表明需要专门的深度学习架构。表格数据与深度学习最初擅长处理的数据类型(图像、文本)之间固有的差异意味着通用深度学习模型并不十分适合。这促使研究人员开发专门为表格数据设计的架构。在本领域的发展中,涌现出非常多的优秀作品,这里我针对一些具有代表性的创新进行介绍。这些工作之所以被认为是里程碑式的工作,主要是引入了一些后来被广泛使用的架构或者方法,奠定了后续本领域的一个发展思路和方向。
2020年前:深度学习在表格表示领域浮现萌芽
2019年,TabNet和NODE等模型的出现标志着重要的突破,它们分别引入了用于特征选择的注意力机制和决策树集成的端到端梯度优化。TabNet通过实例级的特征选择引入了可解释性,这对于深度学习在表格领域的实际应用来说,是一个十分重大的进步。可解释性在许多实际应用中至关重要,在这些应用中,理解模型做出特定预测的原因与预测本身同样重要。TabNet的注意力机制提供了对驱动模型决策的特征的洞察。
TabNet 的核心思想是通过一种可学习的注意力机制,动态地选择输入特征的子集,并利用深度学习模型来捕捉复杂的特征交互,其主要创新点包括:
- 特征选择的稀疏注意力机制
TabNet 通过稀疏注意力机制(Sparse Attention Mechanism),在每个决策步骤动态地选择重要特征。这种选择机制可以让模型专注于数据中最相关的特征,从而提高效率并减少过拟合风险。
注意力机制的稀疏性是通过引入 Gumbel-Softmax 技术实现的,使得特征选择具有离散性(近似硬选择),同时保持可微性。 - 决策步骤(Decision Steps)
TabNet 的网络结构分为多个决策步骤(类似树的层次结构),每一步根据上一阶段的结果更新注意力分布,并提取出新的特征表示。
这种逐步建模的设计类似于 GBDT 的迭代过程,每一步在前一步基础上进一步优化。 - 可解释性
TabNet 可以通过注意力分布来量化每个特征的重要性,从而实现内置的模型可解释性。这种方法不仅直观,还可以对不同决策步骤的特征贡献进行分解和可视化。
2020 - 2021年:混合架构和注意力机制被进一步发展
在2020-2021年间,混合架构和注意力机制的使用增加,包括TabTransformer、FT-Transformer和SAINT 。TabTransformer将最初用于自然语言处理的Transformer架构应用于类别特征,而FT-Transformer则通过特征标记化将其扩展到数值和类别数据。SAINT引入了样本间注意力以捕获行之间的关系。Transformer架构最初在自然语言处理领域取得了成功,其在表格数据上的应用表明,通过将特征或行视为序列,人们正在尝试利用序列建模技术来处理表格数据 。Transformer通过注意力机制建模长距离依赖关系的能力使其成为捕获表格数据中特征之间复杂交互的强大工具,即使没有明确的顺序关系。FT-Transformer使用特征标记器来嵌入数值和类别特征的方法突显了一种创建适用于Transformer网络的同质输入表示的策略 。Transformer最擅长处理相同类型的序列数据。特征标记化可以将异构的表格特征转换为嵌入序列,从而能够应用Transformer层。
2021 - 2024年:LLMs和Graph为本领域提供了新的探索路径
更近期的研究探索了基于图(graph)的模型,如GNN4TDL和GANDALF,以及用于合成数据生成的基于扩散的模型,如TabDDPM。利用预训练语言模型(LLMs),如TabPFN和Ptab,是另一个新兴趋势。将图神经网络应用于表格数据标志着人们正在努力将数据点或特征之间的关系显式地建模为图结构。图神经网络非常适合从实体之间关系重要的数据中学习。将表格数据表示为图可以捕获那些独立处理每一行的模型可能遗漏的复杂依赖关系。使用扩散模型生成合成表格数据解决了某些领域中数据稀疏和隐私问题带来的挑战。当真实数据有限或无法直接访问时,合成数据对于训练机器学习模型非常有价值。扩散模型提供了一种强大的方法来学习表格数据的潜在分布并生成逼真的合成样本。探索利用预训练语言模型表明了一种趋势,即从大型文本语料库中学习到的知识被用于改进表格数据建模。大型语言模型在理解和生成语言方面表现出了卓越的能力。将它们应用于表格数据任务可能会利用这些知识来完成预测、问答和数据生成等任务。
技术方法总结和对比
基于深度学习的方法
TabNet采用序列注意力机制来执行实例级的特征选择,通过识别每个预测最相关的特征来增强可解释性。它可以直接处理原始表格数据,而无需进行大量的预处理。TabNet通过注意力机制实现的可解释性在理解模型推理过程非常重要的领域提供了显著的优势。识别哪些特征对预测贡献最大,使得用户能够信任模型的输出并从数据中获得洞察。
FT-Transformer通过使用特征标记器嵌入类别和数值特征来适配Transformer架构,使模型能够学习所有特征类型之间的复杂交互 。它在各种表格任务中表现出强大的性能。FT-Transformer证明了通过将特征视为序列中的标记,将序列模型(如Transformers)应用于处理表格数据的非序列性质是有效的。通过将特征转换为嵌入,FT-Transformer可以利用Transformer通过自注意力机制捕获不同特征之间复杂关系的能力。
其他先进的架构,如SAINT、TabTranSELU和MambaNet,也结合了注意力机制、特征嵌入和混合方法来解决表格数据的复杂性 。例如,MambaTab集成了结构化状态空间模型,以高效地捕获长距离依赖关系。各种深度学习架构的持续发展突显了人们正在不断努力寻找建模表格数据独特特征的最有效方法。不同的架构选择迎合了表格数据的不同方面,例如处理混合数据类型、捕获特征交互以及提高可伸缩性和效率。
优势: 深度学习模型可以学习数据中复杂的非线性关系,并且在大型数据集上表现出有竞争力的性能。特征标记化允许使用统一的方法处理不同的数据类型。
劣势: 深度学习模型可能需要大量数据,可能需要仔细的超参数调整,并且有时缺乏可解释性(尽管像TabNet这样的模型解决了这个问题)。与传统方法相比,它们在小型数据集上可能表现不佳。
基于图神经网络(GNN)的方法
图神经网络(GNNs)提供了一种通过将表格数据表示为图来建模数据实例和特征值之间潜在相关性的方法 。图中的节点可以表示实例(行)或特征(列),边则捕获它们之间的关系。将表格数据表示为图允许显式地建模那些在表格格式中通常是隐式的关系和交互。图神经网络擅长从实体之间连接重要的数据中学习。通过从表格数据构建图,我们可以利用GNNs来捕获复杂的依赖关系并改进表示学习。
存在不同的图构建策略,包括同构实例图(其中每一行都是一个节点)、同构特征图(其中每一列都是一个节点)、二部图(连接行和特征值)以及包含不同类型节点和边的异构图。超图神经网络可以建模更高阶的关系。表格数据可以灵活地表示为图,这使得GNNs能够捕获各种类型的关系,从实例相似性到特征相关性。不同的任务和数据集可能受益于不同的图表示。选择合适的图结构是使用GNNs进行表格数据学习的关键优势。
GNNs已应用于各种表格数据学习任务,展示了其在欺诈检测、精准医疗和处理缺失数据等领域的通用性和影响力。GNNs在不同领域的成功应用突显了其作为表格数据学习强大工具的潜力。GNNs从关系中学习的能力使其非常适合那些理解数据点或特征之间连接至关重要的任务。
优势: GNNs可以有效地建模表格数据中复杂的联系和交互,超越了传统机器学习中常做的独立同分布(i.i.d.)假设。
劣势: 为给定的表格数据集构建合适的图结构可能具有挑战性。对于非常大的表格,GNNs也可能面临可伸缩性问题,并且对图架构和超参数的选择很敏感。
基于对比学习的方法
对比学习已成为一种强大的自监督技术,通过创建数据的相似(“正”)和不相似(“负”)视图,并训练模型区分它们,从而从无标签的表格数据中学习鲁棒的表示。对比学习提供了一种从大量无标签表格数据中学习有意义表示的方法,减少了对昂贵标签数据的依赖。在许多现实世界的场景中,无标签的表格数据非常丰富,而有标签的数据却很少。像对比学习这样的自监督学习技术可以利用这些无标签的数据来学习有用的表示,然后可以使用有限的标签数据针对下游任务进行微调。
SubTab等方法通过特征子集化创建多个视图,而SCARF通过随机替换特征值来生成负样本。最近的方法,如TabContrast,使用局部-全局对比和类别条件增强来创建有效的正负样本对。为表格数据专门开发各种数据增强技术对于对比学习在该领域的成功至关重要。与图像或文本存在标准的增强技术不同,表格数据需要专门的方法来创建语义相似但不同的数据视图,以进行有效的对比学习。
EConTab等框架将正则化引入到表格数据的对比学习中,以实现特征选择和可解释性。将可解释性融入表格数据的对比学习可以提供对哪些特征对于学习表示重要的洞察。虽然对比学习对于学习表示是有效的,但理解这些表示捕获了数据的哪些方面对于可解释性和信任非常重要。
优势: 对比学习可以从无标签数据中学习到鲁棒且泛化的表示,通常优于基于手工制作的预训练任务的方法 。
劣势: 由于表格数据的异构性,设计有效的表格数据增强策略可能具有挑战性。正负样本选择策略的选择也会显著影响性能 。
挑战和瓶颈
处理表格数据固有的异构性,及其数值型、类别型和文本型特征的混合,仍然是一个重要的挑战,至少目前来看(2024年末),并不是一个容易解决的问题。不同的特征类型可能需要不同的编码和处理策略。表格数据中特征的多样性要求开发灵活且适应性强的表示学习技术,这些技术能够有效地处理不同的数据类型及其交互。对于表格数据来说,一刀切的方法可能不是最优的。模型需要能够处理和学习数值、离散类别,甚至同一表格中的自由文本。
有效利用表格中存在的结构信息,例如行和列之间的关系、函数依赖和元数据,仍然是一个开放的研究问题。许多当前的方法主要关注单个行或列。挖掘表格内部和表格之间丰富的结构信息是开发更强大和准确的TRL模型的关键。表格不仅仅是独立数据点的集合。它们通常包含固有的结构和关系,这些结构和关系可以提供有价值的上下文并改进学习过程。
扩展到大量表格数据(在许多实际应用中很常见)对一些表示学习模型提出了计算挑战,特别是那些具有高复杂性的模型,如Transformers。平衡性能和效率至关重要。开发能够有效处理和学习大规模表格数据集的TRL模型对于其在许多行业的实际应用至关重要。许多现实场景中数据的庞大规模要求TRL模型具有计算效率和可扩展性,以满足处理和学习的需求。
提高学习到的表示的鲁棒性和泛化能力,尤其是在面对分布外(OOD)数据时,仍然是一个持续的挑战。模型在训练数据上通常表现良好,但在未见过的数据分布上表现不佳。确保TRL模型学习到的表示具有鲁棒性并且能够很好地泛化到新的、未见过的数据,对于其在实际系统中的可靠性和适用性至关重要。现实世界的数据通常是动态的,并且会随着时间的推移而变化。模型需要能够适应这些变化并在新的数据分布上保持其性能。
在处理稀疏高基数字段、执行精确数值推理以及有效处理包含大量列的表格方面仍然存在挑战。表格数据的特定特征,例如稀疏性、高基数和宽表,为表示学习模型带来了独特的挑战。这些特征可能导致维度增加、难以学习有意义的模式以及计算成本高昂等问题。
2024年后的研究方向
进一步探索自监督学习技术对于利用大量可用的无标签表格数据至关重要。需要为表格数据开发更有效的预训练任务和对比学习策略。自监督学习通过无需依赖大量标签数据即可学习有用的表示,为推进TRL提供了巨大的潜力。许多领域中都存在大量的无标签表格数据,这使得自监督学习成为预训练模型的一个很有前途的方向,这些模型随后可以使用有限的标签数据针对特定的下游任务进行微调。
研究将表格数据与其他模态(如文本、图像和知识图谱)相结合的多模态数据融合方法可以产生更丰富和更具信息量的表示。这在信息分布在不同数据类型中的应用中尤其有益。将表格数据与其他模态相结合可以提供对数据的更全面的理解,并提高在各种任务上的性能。在许多现实世界的场景中,信息并不局限于单一的数据类型。例如,产品信息可能既包含表格中的结构化属性,也包含文本描述或图像。融合这些模态可以带来更完整的理解。 这在2024年下半年已经有一些探索,例如Databricks的LOTUS等
集成知识图谱可以通过提供关于表格中存在的实体、关系和概念的外部知识来增强对表格数据的语义理解。这可以改进实体解析、表格理解和问答等任务。整合来自知识图谱的外部知识可以显著丰富从表格数据中学习到的表示,从而更好地进行语义理解并提高在知识密集型任务上的性能。知识图谱提供了关于世界的结构化信息,可以用来消除歧义、理解实体之间的关系并推断表格数据中缺失的信息。
进一步研究大型语言模型(LLMs)在表格数据任务中的应用和适配是一个很有前途的方向。需要探索将表格数据有效编码到LLMs中并利用其推理能力处理结构化数据的方法。将大型语言模型的强大功能应用于表格数据可能会彻底改变我们与结构化信息交互和分析结构化信息的方式,但这需要仔细考虑表格数据独特的特征。大型语言模型在自然语言处理领域表现出了卓越的能力。探索它们在预测、生成和理解等结构化数据任务中的潜力可能会带来显著的进步。
开发更高效和可解释的表格数据模型仍然是一个关键的重点。在性能、计算成本和理解模型预测的能力之间取得平衡对于实际应用至关重要。对于TRL在各种应用中的广泛采用,尤其是在敏感领域,对既准确又易于理解的模型的需要至关重要。在许多现实世界的场景中,用户需要理解模型做出某些决策的原因,并且可用的计算资源可能有限。
总结
TRL不是一个非常纯粹的技术领域,相反地,这个技术概念里面融合和掺杂了很多周边的相关技术,是一个多领域交叉的方向,可以应用到数据库、数据集成、数据增强、特征工程、提升模型可解释性等领域。
同时,在各个行业中也可以得到广泛的应用,包括医疗健康领域,用于预测患者预后和诊断疾病;金融领域,用于风险评估和欺诈检测;交通运输领域,用于安全监控和预测分析;以及电子商务领域,用于推荐系统和客户行为分析。TRL有效处理和学习结构化数据的能力正在推动其在表格数据普遍存在且对决策至关重要的广泛行业中的应用。许多行业严重依赖表格数据进行运营和决策过程。TRL提供了从这些数据中提取更多价值和洞察力的潜力,从而提高效率、改进预测并增强服务。并且通过与现有的数据管理软件或平台(例如Unity Catalog、各种云上的数据治理平台等)进行融合,端到端地为客户提供实用的功能。
从领域研究上看,近年来,TRL取得了显著的进展,包括开发了专门的深度学习架构、图神经网络的应用以及自监督和对比学习技术的出现。TRL具有很大的潜力,可以彻底改变我们处理、理解和利用各种领域中大量结构化数据的方式。持续的研究对于解决现有挑战和进一步探索有希望的未来方向至关重要,特别是在多模态融合、知识图谱集成和大型表格模型的开发等领域,以充分释放人工智能时代表格数据的力量。
参考文献
[1]. A Survey on Deep Tabular Learning, 2024, https://arxiv.org/pdf/2410.12034
[2]. TabNet: Attentive Interpretable Tabular Learning, 2019, https://arxiv.org/abs/1908.07442