Kaggle知识点：运用大模型进行特征挑选-锐评时讯

本文转自：Coggle数据科学。

数据发掘的中心是是对海量数据进行有用的挑选和剖析。传统上数据挑选依赖于数据驱动的办法，如包裹式、过滤式和。嵌入式。挑选。跟着大模型的开展，本文将讨论怎么运用大模型进行特征挑选。

挑选思路。

数据驱动办法依赖于数据会集的样本点进行计算揣度，而根据文本的办法需求描绘性的上下文以更好地在特征和方针变量之间树立语义相关。

这种办法运用了大型言语模型（LLMs）中丰厚的语义常识来履行特征挑选。大模型将运用数据集描绘（d。esd。）和特征描绘（desf），描绘特征的重要性。

LLM生成的特征重要性得分（LLM-Score）。
LLM生成的特征排名（LLM-Rank）。
根据LLM的穿插验证挑选（LLM-Seq）。

试验设置。

模型：试验中运用了不同。参数。规划的LLMs，包含LLaMA-2（7B和13B参数）、ChatGPT（约175B参数）和GPT-4（约1.7T参数）。
比较办法：将根据LLM的特征挑选办法与传统的特征挑选基线办法进行比较，包含互。信息。过滤（MI）、递归特征消除（。RF。E）、最小冗余最大相关性挑选（MRMR）和随机特征挑选。
数据集：运用了多个数据集进行分类和回归使命的评价，包含。Ad。ult、Bank、Communi。ti。es等。

完成细节：关于每个数据集，固定特征挑选份额为30%，并在16-shot、32-shot、64-shot和128-shot的不同数据可用性装备下进行评价。运用下流L2赏罚的逻辑/线性回归模型来衡量测验功能，并运用AUROC和MAE作为评价目标。

试验成果。

将LLM-based特征挑选办法与传统的特征挑选基线办法进行比较，包含LassoNet、LASSO、前向序贯挑选、后向序贯挑选、递归特征消除（RFE）、最小冗余最大相关性挑选（MRMR）、根据互信息（MI）的过滤和随机特征挑选。

发现1：在小规划数据集上，根据文本的特征挑选办法比数据驱动的办法更有用。在简直一切的LLM和使命中，根据文本的特征挑选办法的功能都超过了数据驱动办法。
发现2：运用最先进的LLMs进行根据文本的特征挑选，在每种数据可用性设置下都能与传统特征挑选办法相媲美。
发现3：当样本数量添加时，运用LLMs的数据驱动特征挑选会遇到困难。特别是当样本巨细从64添加到128时，分类使命的功能显着下降。
发现4：与数据驱动特征挑选比较，根据文本的特征挑选显示出更强的模型规划扩展性。

GPT-4根据LLM-Score在folktables数据集上全体体现最佳，在MIMIC-IV数据集上显着优于LassoNet和随机特征挑选基线。LLM-Score在挑选前10%和30%的特征时，与最佳数据驱动基线的功能相媲美，且显着优于随机挑选。在医疗保健等杂乱范畴，LLM-Score即便在没有拜访练习数据的情况下，也能有用地进行特征挑选。

参考文献。

https://arxiv.。or。g/pdf/2408.12025。

https://arxiv.org/pdf/2407.02694。