本文转自:Coggle数据科学。 数据发掘的中心是是对海量数据进行有用的挑选和剖析。传统上数据挑选依赖于数据驱动的办法,如包裹式、过滤式和。嵌入式。挑选。跟着大模型的开展,本文将讨论怎么运用大模型进行特征挑选。 挑选思路。数据驱动办法依赖于数据会集的样本点进行计算揣度,而根据文本的办法需求描绘性的上下文以更好地在特征和方针变量之间树立语义相关。 这种办法运用了大型言语模型(LLMs)中丰厚的语义常识来履行特征挑选。大模型将运用数据集描绘(d。esd。)和特征描绘(desf),描绘特征的重要性。
试验设置。
完成细节:关于每个数据集,固定特征挑选份额为30%,并在16-shot、32-shot、64-shot和128-shot的不同数据可用性装备下进行评价。运用下流L2赏罚的逻辑/线性回归模型来衡量测验功能,并运用AUROC和MAE作为评价目标。 试验成果。将LLM-based特征挑选办法与传统的特征挑选基线办法进行比较,包含LassoNet、LASSO、前向序贯挑选、后向序贯挑选、递归特征消除(RFE)、最小冗余最大相关性挑选(MRMR)、根据互信息(MI)的过滤和随机特征挑选。
GPT-4根据LLM-Score在folktables数据集上全体体现最佳,在MIMIC-IV数据集上显着优于LassoNet和随机特征挑选基线。LLM-Score在挑选前10%和30%的特征时,与最佳数据驱动基线的功能相媲美,且显着优于随机挑选。在医疗保健等杂乱范畴,LLM-Score即便在没有拜访练习数据的情况下,也能有用地进行特征挑选。 参考文献。https://arxiv.。or。g/pdf/2408.12025。
内容来源:https://harmonyscentsg.com/app-1/flop là gì,https://chatbotjud-hml.saude.mg.gov.br/app-1/futplay |