夜夜爽www,999久久久无码国产精品

pandas是Python數據分析必備工具，它有強大的數據清洗能力，往往能用非常少的代碼實現較復雜的數據處理

今天，總結了pandas篩選數據的15個常用技巧，主要包括5個知識點：

比較運算：==、《、》、》=、《=、！=

范圍運算：between（left，right）

字符篩選：str.contains（pattern或字符串，na=False）

邏輯運算：&（與）、|（或）、not（取反）

比較函數：eq， ne， le， lt， ge， gt（相當于==，=！，《=，《，》=，》）

apply和isin函數

”下面以超市運營數據為例，給大家逐個講解首先讀取數據：

import pandas as pd

data=pd.read_excel（‘超市運營數據模板.xlsx’）

data

先看一下各列的數據類型：

data.dtypes

商品ID int64

類別ID int64

門店編號 object

單價 float64

銷量 float64

訂單ID object

日期 datetime64［ns］

時間 object

dtype： object

下面以實際應用場景為例開始講解：

1.篩選門店編號為‘CDXL’的運營數據①第一種方法，用比較運算符‘==’：

data［data.門店編號==‘CDXL’］

②第二種方法，用比較函數‘eq’：

data［data［‘門店編號’］.eq（‘CDXL’）］

2.篩選單價小于等于10元的運營數據③第一種方法，用比較運算符‘《=’：

data［data.單價《=10］

④第二種方法，用比較函數‘le’：

data［data［‘單價’］.le（10）］

3.篩選銷量大于2000的運營數據⑤第一種方法，用比較運算符‘》=’：

data［data.銷量》2］

⑥第二種方法，用比較函數‘ge’：

data［data［‘銷量’］.ge（2）］

4.篩選除門店‘CDXL’外的運營數據⑦第一種方法，用比較運算符‘！=’：

data［data.門店編號！=‘CDXL’］

⑧第二種方法，用比較函數‘ne’：

data［data［‘門店編號’］.ne（‘CDXL’）］

5.篩選2020年5月的運營數據首先將日期格式化：

data［‘日期’］=data［“日期”］.values.astype（‘datetime64’） #如果已為日期格式則此步驟可省略

data［‘日期’］

import datetime

s_date = datetime.datetime.strptime（‘2020-04-30’， ‘%Y-%m-%d’）.date（） #起始日期

e_date = datetime.datetime.strptime（‘2020-06-01’， ‘%Y-%m-%d’）.date（） #結束日期

⑨第一種方法，用邏輯運算符號‘》’ ‘《’和‘&’：

Pandasdatetime64［ns］不能直接與datetime.date相比，需要用pd.Timestamp進行轉化

data［（data.日期》pd.Timestamp（s_date））&（data.日期《pd.Timestamp（e_date））］

⑩第二種，用比較函數‘gt’‘lt’和‘&’：

data［（data［‘日期’］.lt（pd.Timestamp（e_date）））&（data［‘日期’］.gt（pd.Timestamp（s_date）））］

?第三種，用apply函數實現：

id_a=data.日期.apply（lambda x： x.year ==2020 and x.month==5）

data［id_a］

?第四種，用between函數實現：

id_b=data.日期.between（pd.Timestamp（s_date），pd.Timestamp（e_date））

data［id_b］

6.篩選“類別ID”包含‘000’的數據?第一種，用contains函數：

data［‘類別ID’］=data［‘類別ID’］.values.astype（‘str’） #將該列轉換為字符數據類型

id_c=data.類別ID.str.contains（‘000’，na=False）

data［id_c］

?第二種，用isin函數：

id_i=data.類別ID.isin（［‘000’］） #接受一個列表

data［id_i］

很遺憾，isin函數搞不定，因為它只能判斷該列中元素是否在列表中

7.篩選商品ID以“301”開頭的運營數據?需要用contains函數結合正則表達式使用：

data［‘商品ID’］=data［‘商品ID’］.values.astype（‘str’） #將該列轉換為字符數據類型

id_c2=data.商品ID.str.contains（‘301d{5}’，na=False）

data［id_c2］

為了方便大家學習，我已經將本文數據及代碼打包好，請關注數據分析與開發(fā) 公眾號在后臺回復關鍵字：篩選數據獲取。

原文標題：一次性總結了pandas提取數據的15種方法，統(tǒng)統(tǒng)只需1行代碼！

文章出處：【微信公眾號：數據分析與開發(fā)】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

數據分析

數據分析

+關注

關注
2

文章
1495

瀏覽量
35845
python

python

+關注

關注
57

文章
4850

瀏覽量
89336

原文標題：一次性總結了pandas提取數據的15種方法，統(tǒng)統(tǒng)只需1行代碼！

文章出處：【微信號：DBDevs，微信公眾號：數據分析與開發(fā)】歡迎添加關注！文章轉載請注明出處。

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

Python工具pandas篩選數據的15個常用技巧

評論