亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)Python特征選擇最全面的解答

數(shù)據(jù)分析與開發(fā) ? 來源:開源博客 ? 作者:算法進(jìn)階 ? 2021-03-19 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 特征選擇的目的

機(jī)器學(xué)習(xí)中特征選擇是一個(gè)重要步驟,以篩選出顯著特征、摒棄非顯著特征。這樣做的作用是:

減少特征(避免維度災(zāi)難),提高訓(xùn)練速度,降低運(yùn)算開銷;

減少干擾噪聲,降低過擬合風(fēng)險(xiǎn),提升模型效果;

更少的特征,模型可解釋性更好。

2 特征選擇方法

特征選擇方法一般分為三類:

2.1 過濾法--特征選擇

通過計(jì)算特征的缺失率、發(fā)散性、相關(guān)性、信息量、穩(wěn)定性等指標(biāo)對(duì)各個(gè)特征進(jìn)行評(píng)估選擇,常用如缺失情況、單值率、方差驗(yàn)證、pearson相關(guān)系數(shù)、chi2卡方檢驗(yàn)、IV值、信息增益及PSI等方法。

2.1.1 缺失率

通過分析各特征缺失率,并設(shè)定閾值對(duì)特征進(jìn)行篩選。閾值可以憑經(jīng)驗(yàn)值(如缺失率《0.9)或可觀察樣本各特征整體分布,確定特征分布的異常值作為閾值。

特征缺失率

miss_rate_df = df.isnull().sum().sort_values(ascending=False) / df.shape[0]

2.1.2 發(fā)散性

特征無發(fā)散性意味著該特征值基本一樣,無區(qū)分能力。通過分析特征單個(gè)值的最大占比及方差以評(píng)估特征發(fā)散性情況,并設(shè)定閾值對(duì)特征進(jìn)行篩選。閾值可以憑經(jīng)驗(yàn)值(如單值率《0.9, 方差》0.001)或可觀察樣本各特征整體分布,以特征分布的異常值作為閾值。

分析方差

var_features = df.var().sort_values()

特征單值率

sigle_rate = {}

for var in df.columns:

sigle_rate[var]=(df[var].value_counts().max()/df.shape[0])

2.1.2 相關(guān)性

特征間相關(guān)性高會(huì)浪費(fèi)計(jì)算資源,影響模型的解釋性。特別對(duì)線性模型來說,會(huì)導(dǎo)致擬合模型參數(shù)的不穩(wěn)定。常用的分析特征相關(guān)性方法如:

方差膨脹因子VIF:

方差膨脹因子也稱為方差膨脹系數(shù)(Variance Inflation),用于計(jì)算數(shù)值特征間的共線性,一般當(dāng)VIF大于10表示有較高共線性。

from statsmodels.stats.outliers_influence import variance_inflation_factor

截距項(xiàng)

df[‘c’] = 1

name = df.columns

x = np.matrix(df)

VIF_list = [variance_inflation_factor(x,i) for i in range(x.shape[1])]

VIF = pd.DataFrame({‘feature’:name,“VIF”:VIF_list})

person相關(guān)系數(shù):

用于計(jì)算數(shù)值特征兩兩間的相關(guān)性,數(shù)值范圍[-1,1]。

import seaborn as sns

corr_df=df.corr()

熱力圖

sns.heatmap(corr_df)

剔除相關(guān)性系數(shù)高于threshold的corr_drop

threshold = 0.9

upper = corr_df.where(np.triu(np.ones(corr_df.shape), k=1).astype(np.bool))

corr_drop = [column for column in upper.columns if any(upper[column].abs() 》 threshold)]

Chi2檢驗(yàn)

395f0718-888c-11eb-8b86-12bb97331649.png

經(jīng)典的卡方檢驗(yàn)是檢驗(yàn)類別型變量對(duì)類別型變量的相關(guān)性。Sklearn的實(shí)現(xiàn)是通過矩陣相乘快速得出所有特征的觀測(cè)值和期望值,在計(jì)算出各特征的 χ2 值后排序進(jìn)行選擇。在擴(kuò)大了 chi2 的在連續(xù)型變量適用范圍的同時(shí),也方便了特征選擇。

from sklearn.datasets import load_iris

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

x, y = load_iris(return_X_y=True)

x_new = SelectKBest(chi2, k=2).fit_transform(x, y)

2.1.3 信息量

分類任務(wù)中,可以通過計(jì)算某個(gè)特征對(duì)于分類這樣的事件到底有多大信息量貢獻(xiàn),然后特征選擇信息量貢獻(xiàn)大的特征。常用的方法有計(jì)算IV值、信息增益。

信息增益

如目標(biāo)變量D的信息熵為 H(D),而D在特征A條件下的條件熵為 H(D|A),那么信息增益 G(D , A) 為:

398ea68a-888c-11eb-8b86-12bb97331649.png

信息增益(互信息)的大小即代表特征A的信息貢獻(xiàn)程度。

from sklearn.feature_selection import mutual_info_classif

from sklearn.datasets import load_iris

x, y = load_iris(return_X_y=True)

mutual_info_classif(x,y)

IV

IV值(Information Value),在風(fēng)控領(lǐng)域是一個(gè)重要的信息量指標(biāo),衡量了某個(gè)特征(連續(xù)型變量需要先離散化)對(duì)目標(biāo)變量的影響程度。其基本思想是根據(jù)該特征所命中黑白樣本的比率與總黑白樣本的比率,來對(duì)比和計(jì)算其關(guān)聯(lián)程度?!綠ithub代碼鏈接】

2.1.4 穩(wěn)定性

對(duì)大部分?jǐn)?shù)據(jù)挖掘場(chǎng)景,特別是風(fēng)控領(lǐng)域,很關(guān)注特征分布的穩(wěn)定性,其直接影響到模型使用周期的穩(wěn)定性。常用的是PSI(Population Stability Index,群體穩(wěn)定性指標(biāo))。

PSI

PSI表示的是實(shí)際與預(yù)期分布的差異,SUM( (實(shí)際占比 - 預(yù)期占比)* ln(實(shí)際占比 / 預(yù)期占比) )。

3a17fa34-888c-11eb-8b86-12bb97331649.png

在建模時(shí)通常以訓(xùn)練樣本(In the Sample, INS)作為預(yù)期分布,而驗(yàn)證樣本作為實(shí)際分布。驗(yàn)證樣本一般包括樣本外(Out of Sample,OOS)和跨時(shí)間樣本(Out of Time,OOT)【Github代碼鏈接】

2.2 嵌入法--特征選擇

嵌入法是直接使用模型訓(xùn)練得到特征重要性,在模型訓(xùn)練同時(shí)進(jìn)行特征選擇。通過模型得到各個(gè)特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小來選擇特征。常用如基于L1正則項(xiàng)的邏輯回歸、Lighgbm特征重要性選擇特征。

基于L1正則項(xiàng)的邏輯回歸

L1正則方法具有稀疏解的特性,直觀從二維解空間來看L1-ball 為正方形,在頂點(diǎn)處時(shí)(如W2=C, W1=0的稀疏解),更容易達(dá)到最優(yōu)解。可見基于L1正則方法的會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都為0。

from sklearn.feature_selection import SelectFromModel

from sklearn.linear_model import LogisticRegression

x_new = SelectFromModel(LogisticRegression(penalty=“l(fā)1”, C=0.1)).fit_transform(x, y)

基于樹模型的特征排序

基于決策樹的樹模型(隨機(jī)森林,Lightgbm,Xgboost等),樹生長(zhǎng)過程中也是啟發(fā)式搜索特征子集的過程,可以直接用訓(xùn)練后模型來輸出特征重要性。

import matplotlib.pyplot as plt

from lightgbm import plot_importance

from lightgbm import LGBMClassifier

model = LGBMClassifier()

model.fit(x, y)

plot_importance(model, max_num_features=20, figsize=(10,5),importance_type=‘split’)

plt.show()

feature_importance = pd.DataFrame({

‘feature’: model.booster_.feature_name(),

‘gain’: model.booster_.feature_importance(‘gain’),

‘split’: model.booster_.feature_importance(‘split’)

}).sort_values(‘gain’,ascending=False)

當(dāng)特征數(shù)量多時(shí),對(duì)于輸出的特征重要性,通??梢园凑罩匾缘墓拯c(diǎn)劃定下閾值選擇特征。

2.3 包裝法--特征選擇

包裝法是通過每次選擇部分特征迭代訓(xùn)練模型,根據(jù)模型預(yù)測(cè)效果評(píng)分選擇特征的去留。一般包括產(chǎn)生過程,評(píng)價(jià)函數(shù),停止準(zhǔn)則,驗(yàn)證過程,這4個(gè)部分。

(1) 產(chǎn)生過程( Generation Procedure )是搜索特征子集的過程,首先從特征全集中產(chǎn)生出一個(gè)特征子集。搜索方式有完全搜索(如廣度優(yōu)先搜索、定向搜索)、啟發(fā)式搜索(如雙向搜索、后向選擇)、隨機(jī)搜索(如隨機(jī)子集選擇、模擬退火、遺傳算法)。(2) 評(píng)價(jià)函數(shù)( Evaluation Function ) 是評(píng)價(jià)一個(gè)特征子集好壞程度的一個(gè)準(zhǔn)則。(3) 停止準(zhǔn)則( Stopping Criterion )停止準(zhǔn)則是與評(píng)價(jià)函數(shù)相關(guān)的,一般是一個(gè)閾值,當(dāng)評(píng)價(jià)函數(shù)值達(dá)到這個(gè)閾值后就可停止搜索。(4) 驗(yàn)證過程( Validation Procedure )是在驗(yàn)證數(shù)據(jù)集上驗(yàn)證選出來的特征子集的實(shí)際效果。

首先從特征全集中產(chǎn)生出一個(gè)特征子集,然后用評(píng)價(jià)函數(shù)對(duì)該特征子集進(jìn)行評(píng)價(jià),評(píng)價(jià)的結(jié)果與停止準(zhǔn)則進(jìn)行比較,若評(píng)價(jià)結(jié)果比停止準(zhǔn)則好就停止,否則就繼續(xù)產(chǎn)生下一組特征子集,繼續(xù)進(jìn)行特征選擇。最后選出來的特征子集一般還要驗(yàn)證其實(shí)際效果。

RFE

RFE遞歸特征消除是常見的特征選擇方法。原理是遞歸地在剩余的特征上構(gòu)建模型,使用模型判斷各特征的貢獻(xiàn)并排序后做特征選擇。

from sklearn.feature_selection import RFE

rfe = RFE(estimator,n_features_to_select,step)

rfe = rfe.fit(x, y)

print(rfe.support_)

print(rfe.ranking_)

雙向搜索特征選擇

鑒于RFE僅是后向迭代的方法,容易陷入局部最優(yōu),而且不支持Lightgbm等模型自動(dòng)處理缺失值/類別型特征,便基于啟發(fā)式雙向搜索及模擬退火算法思想,簡(jiǎn)單碼了一個(gè)特征選擇的方法【Github代碼鏈接】,如下代碼:

“”“

Author: 公眾號(hào)-算法進(jìn)階

基于啟發(fā)式雙向搜索及模擬退火的特征選擇方法。

”“”

import pandas as pd

import random

from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, roc_curve, auc

def model_metrics(model, x, y, pos_label=1):

“”“

評(píng)價(jià)函數(shù)

”“”

yhat = model.predict(x)

yprob = model.predict_proba(x)[:,1]

fpr, tpr, _ = roc_curve(y, yprob, pos_label=pos_label)

result = {‘a(chǎn)ccuracy_score’:accuracy_score(y, yhat),

‘f1_score_macro’: f1_score(y, yhat, average = “macro”),

‘precision’:precision_score(y, yhat,average=“macro”),

‘recall’:recall_score(y, yhat,average=“macro”),

‘a(chǎn)uc’:auc(fpr,tpr),

‘ks’: max(abs(tpr-fpr))

}

return result

def bidirectional_selection(model, x_train, y_train, x_test, y_test, annealing=True, anneal_rate=0.1, iters=10,best_metrics=0,

metrics=‘a(chǎn)uc’,threshold_in=0.0001, threshold_out=0.0001,early_stop=True,

verbose=True):

“”“

model 選擇的模型

annealing 模擬退火算法

threshold_in 特征入模的》閾值

threshold_out 特征剔除的《閾值

”“”

included = []

best_metrics = best_metrics

for i in range(iters):

# forward step

print(“iters”, i)

changed = False

excluded = list(set(x_train.columns) - set(included))

random.shuffle(excluded)

for new_column in excluded:

model.fit(x_train[included+[new_column]], y_train)

latest_metrics = model_metrics(model, x_test[included+[new_column]], y_test)[metrics]

if latest_metrics - best_metrics 》 threshold_in:

included.append(new_column)

change = True

if verbose:

print (‘Add {} with metrics gain {:.6}’.format(new_column,latest_metrics-best_metrics))

best_metrics = latest_metrics

elif annealing:

if random.randint(0, iters) 《= iters * anneal_rate:

included.append(new_column)

if verbose:

print (‘Annealing Add {} with metrics gain {:.6}’.format(new_column,latest_metrics-best_metrics))

# backward step

random.shuffle(included)

for new_column in included:

included.remove(new_column)

model.fit(x_train[included], y_train)

latest_metrics = model_metrics(model, x_test[included], y_test)[metrics]

if latest_metrics - best_metrics 《 threshold_out:

included.append(new_column)

else:

changed = True

best_metrics= latest_metrics

if verbose:

print(‘Drop{} with metrics gain {:.6}’.format(new_column,latest_metrics-best_metrics))

if not changed and early_stop:

break

return included

#示例

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y)

model = LGBMClassifier()

included = bidirectional_selection(model, x_train, y_train, x_test, y_test, annealing=True, iters=50,best_metrics=0.5,

metrics=‘a(chǎn)uc’,threshold_in=0.0001, threshold_out=0,

early_stop=False,verbose=True)

- EOF -
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8536

    瀏覽量

    136110
  • 特征選擇
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7365

原文標(biāo)題:Python特征選擇(全)

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    全網(wǎng)最全面介紹淘寶API接口指南

    注冊(cè)企業(yè)級(jí)淘寶開放平臺(tái)賬號(hào) 完成支付寶企業(yè)實(shí)名認(rèn)證 申請(qǐng)TOP(Taobao Open Platform)密鑰 環(huán)境準(zhǔn)備 ? # 安裝官方SDKpip install top-sdk-python ? **權(quán)限申請(qǐng) 接口類型
    的頭像 發(fā)表于 10-29 15:11 ?97次閱讀
    全網(wǎng)<b class='flag-5'>最全面</b>介紹淘寶API接口指南

    Python 給 Amazon 做“全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情爬蟲實(shí)戰(zhàn)

    一、技術(shù)選型:為什么選 Python 而不是 Java? 結(jié)論: “調(diào)研階段用 Python,上線后如果 QPS 爆表再考慮 Java 重構(gòu)?!?二、整體架構(gòu)速覽(3 分鐘看懂) 三、開發(fā)前準(zhǔn)備(5
    的頭像 發(fā)表于 10-21 16:59 ?334次閱讀
    用 <b class='flag-5'>Python</b> 給 Amazon 做“全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情爬蟲實(shí)戰(zhàn)

    termux調(diào)試python猜數(shù)字游戲

    用termux做一個(gè)猜數(shù)字游戲 下面是在Termux中創(chuàng)建猜數(shù)字游戲的步驟及完整實(shí)現(xiàn)方案,結(jié)合Python實(shí)現(xiàn)(最適配Termux環(huán)境): ? 一、環(huán)境準(zhǔn)備(Termux基礎(chǔ)配置) 1.
    發(fā)表于 08-29 17:15

    python app不能運(yùn)行怎么解決?

    ;python_agent[1241]: xmlrpc request method supervisor.stopProcess failed;python_agent[1241]: xmlrpc request method supervisor.stopProces
    發(fā)表于 08-06 06:27

    C++ 與 Python:樹莓派上哪種語言更優(yōu)?

    Python是樹莓派上的首選編程語言,我們的大部分教程都使用它。然而,C++在物聯(lián)網(wǎng)項(xiàng)目中同樣廣受歡迎且功能強(qiáng)大。那么,在樹莓派項(xiàng)目中選擇哪種語言更合適呢?Python因其簡(jiǎn)潔性、豐富的庫和資源而被
    的頭像 發(fā)表于 07-24 15:32 ?553次閱讀
    C++ 與 <b class='flag-5'>Python</b>:樹莓派上哪種語言更優(yōu)?

    基礎(chǔ)篇3:掌握Python中的條件語句與循環(huán)

    Python編程語言中,條件語句和循環(huán)是構(gòu)成復(fù)雜邏輯和數(shù)據(jù)處理的基石。本篇基礎(chǔ)教程將幫助您深入了解Python中的條件語句和循環(huán)結(jié)構(gòu),讓您能夠更好地控制程序流程。 條件語句 條件語句允許程序根據(jù)
    發(fā)表于 07-03 16:13

    電流檢測(cè)放大器的全面指南:常見問題與解答

    電流檢測(cè)放大器(CurrentSenseOPA)常用于電子電路上,盡管看似簡(jiǎn)單,但其設(shè)計(jì)和應(yīng)用中涉及許多需要注意的參數(shù)。本文將針對(duì)工程師在使用電流檢測(cè)放大器時(shí)的常見問題進(jìn)行解答,幫助您更好地選擇
    的頭像 發(fā)表于 03-28 08:31 ?877次閱讀
    電流檢測(cè)放大器的<b class='flag-5'>全面</b>指南:常見問題與<b class='flag-5'>解答</b>

    零基礎(chǔ)入門:如何在樹莓派上編寫和運(yùn)行Python程序?

    在這篇文章中,我將為你簡(jiǎn)要介紹Python程序是什么、Python程序可以用來做什么,以及如何在RaspberryPi上編寫和運(yùn)行一個(gè)簡(jiǎn)單的Python程序。什么是Python程序?
    的頭像 發(fā)表于 03-25 09:27 ?1372次閱讀
    零基礎(chǔ)入門:如何在樹莓派上編寫和運(yùn)行<b class='flag-5'>Python</b>程序?

    最全面的EMC設(shè)計(jì)經(jīng)驗(yàn),強(qiáng)烈推薦大家看看.

    文件過大,需要完整版資料可下載附件查看哦!
    發(fā)表于 03-22 15:01

    Python繪圖Matplotlib快速參考手冊(cè)

    ?PYTHON
    發(fā)表于 02-07 14:04 ?0次下載

    TomTom交通指數(shù)2025發(fā)布

    TomTom發(fā)布了迄今為止最全面的交通指數(shù),提供了涵蓋62個(gè)國家500個(gè)城市的洞察。
    的頭像 發(fā)表于 02-06 09:05 ?1727次閱讀

    Python Connector for InterBase連接解決方案

    ,以對(duì)存儲(chǔ)的數(shù)據(jù)執(zhí)行創(chuàng)建、讀取、更新和刪除操作。該解決方案完全符合 Python DB API 2.0 規(guī)范,并作為 Windows、macOS 和 Linux 的 wheel 包分發(fā)。 特征 高性能
    的頭像 發(fā)表于 01-22 14:34 ?644次閱讀

    使用Python實(shí)現(xiàn)xgboost教程

    使用Python實(shí)現(xiàn)XGBoost模型通常涉及以下幾個(gè)步驟:數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型評(píng)估和模型預(yù)測(cè)。以下是一個(gè)詳細(xì)的教程,指導(dǎo)你如何在Python中使用XGBoost。 1. 安裝XGBoost
    的頭像 發(fā)表于 01-19 11:21 ?2054次閱讀

    適用于Oracle的Python連接器:可訪問托管以及非托管的數(shù)據(jù)庫

    ,以對(duì)存儲(chǔ)的數(shù)據(jù)執(zhí)行創(chuàng)建、讀取、更新和刪除操作。該解決方案完全實(shí)現(xiàn)了 Python DB API 2.0 規(guī)范,并作為 Windows、macOS 和 Linux 的 wheel 包分發(fā)。 特征
    的頭像 發(fā)表于 01-14 10:30 ?691次閱讀

    請(qǐng)問使用AFE4400SPO2EVM測(cè)試完之后,GUI里面的數(shù)據(jù)如何作為原始數(shù)據(jù)導(dǎo)入到python操作界面里呢?

    請(qǐng)問使用AFE4400SPO2EVM測(cè)試完之后,GUI里面的數(shù)據(jù)如何作為原始數(shù)據(jù)導(dǎo)入到python操作界面里呢?
    發(fā)表于 01-03 07:38