博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python数据分析_Pandas01_数据框的创建和选取
阅读量:4928 次
发布时间:2019-06-11

本文共 5468 字,大约阅读时间需要 18 分钟。

主要内容:

  • 创建数据表
  • 查看数据表
  • 数据表索引、选取部分数据
    • 通过标签选取.loc
    • 多重索引选取
    • 位置选取.iloc
    • 布尔索引

Object Creation 新建数据

  • 用list建series序列
In [73]: s = pd.Series([1,3,5,np.nan,6,8]) In [74]: s Out[74]: 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64
  • 用numpy array建dataframe
In [75]: dates = pd.date_range('20130101', periods=6)In [76]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')) In [77]: df Out[77]: A B C D 2013-01-01 -0.411674 0.273549 0.629843 1.881497 2013-01-02 1.240512 0.970725 0.033099 1.553420 2013-01-03 -0.544326 0.545738 -1.325810 0.130738 2013-01-04 1.044803 -0.117151 0.874583 2.278227 2013-01-05 -2.194728 -2.536257 0.478644 0.057728 2013-01-06 -1.092031 1.249952 1.598761 -0.153423 #---pd.date_range?--- In [115]: pd.date_range(start='12/31/2011', end='12/31/2013', freq='A') Out[115]: DatetimeIndex(['2011-12-31', '2012-12-31', '2013-12-31'], dtype='datetime64[ns]', freq='A-DEC')
  • 用dictionary
In [78]: df2 = pd.DataFrame({ 'A' : 1.,    ...:                      'B' : pd.Timestamp('20130102'),    ...:                      'C' : pd.Series(1,index=list(range(4)),dtype='float32'), ...: 'D' : np.array([3] * 4,dtype='int32'), ...: 'E' : pd.Categorical(["test","train","test","train"]), ...: 'F' : 'foo' }) ...: df2 ...: Out[78]: A B C D E F 0 1.0 2013-01-02 1.0 3 test foo 1 1.0 2013-01-02 1.0 3 train foo 2 1.0 2013-01-02 1.0 3 test foo 3 1.0 2013-01-02 1.0 3 train foo In [80]: df2.dtypes Out[80]: A float64 B datetime64[ns] C float32 D int32 E category F object dtype: object

在ipython中可以使用<tab>键进行自动补充,它会列出数据对象可以执行的操作。

查看数据

df.head()df.tail(3) df.index df.columns #返回一个这样的东西:pandas.indexes.numeric.Int64Index df.values #提取出数据框的数值,返回一个array

数据选取

建议 使用pandas的数据选取方法:.at, .iat, .loc, .iloc, .ix. 这些更高效。

df['A']       # 选取某一列,返回一个Series,== df.A,【只能选某一列,不能用":"多选。】df[0:3]       # 选行df['20130102':'20130104']
  • 通过标签label选取,.loc

    用.loc[]选取数据时,方括号里对应的是:[行,列](逗号分隔),如果只有一个值,默认是行。可以用“:”。

    In [82]: dfOut[82]:                   A         B         C         D2013-01-01 -0.411674  0.273549  0.629843  1.8814972013-01-02  1.240512  0.970725  0.033099  1.5534202013-01-03 -0.544326  0.545738 -1.325810  0.1307382013-01-04  1.044803 -0.117151  0.874583  2.2782272013-01-05 -2.194728 -2.536257  0.478644  0.0577282013-01-06 -1.092031  1.249952  1.598761 -0.153423In [83]: df.loc[dates[0]]   # 作为index的日期列叫datesOut[83]:A   -0.411674B    0.273549C    0.629843D    1.881497Name: 2013-01-01 00:00:00, dtype: float64#---对多个维度轴axis进行选取---In [84]: df.loc['20130102':'20130104',['A','B']] Out[84]: A B 2013-01-02 1.240512 0.970725 2013-01-03 -0.544326 0.545738 2013-01-04 1.044803 -0.117151 #---选取某个数值--- In [85]: df.loc[dates[0],'A'] Out[85]: -0.41167416696608039 In [86]: df.at[dates[0],'A'] # 更高效的做法 Out[86]: -0.41167416696608039
  • 多重索引的选取

    index有多个维度

    #这里有一个多重索引MultiIndex(levels=[[1, 2, 3], ['count', 'mean', 'std', 'min', '5%', '10%', '15.0%', '20%', '25%', '30.0%', '35%', '40%', '45%', '50%', '55.0%', '60.0%', '65%', '70%', '75%', '80%', '85.0%', '90%', '95%', 'max']], labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]], names=['label_1', None]) df[columnName] #选某一列,或多列(":",[,,,]) df.loc[:,columnName] #选某一列,或多列(":",[,,,]) df.loc[1,columnName] #可以直接用最外层的索引 df.loc[(1,'std'),columnName] #多层索引要用tuple。选多行用":"连接tuple。 df.loc[[(1,'std'),(2,"count")],'feature_001']
  • 用位置选取:.iloc

    .lic[],位置索引,方括号里是整数值。同样的用“,”隔开行列。

    In [93]: df.iloc[3] Out[93]: A 1.044803 B -0.117151 C 0.874583 D 2.278227 Name: 2013-01-04 00:00:00, dtype: float64 In [94]: df.iloc[3:5,0:2] Out[94]: A B 2013-01-04 1.044803 -0.117151 2013-01-05 -2.194728 -2.536257 In [95]: df.iat[1,1] Out[95]: 0.97072539301549565
  • **布尔索引 **Boolean Indexing

    某一列大于0的数据

    In [96]: df[df.A > 0] Out[96]: A B C D 2013-01-02 1.240512 0.970725 0.033099 1.553420 2013-01-04 1.044803 -0.117151 0.874583 2.278227

    整体大于零的数据。小于0的为NaN

    In [97]: df[df > 0] Out[97]: A B C D 2013-01-01 NaN 0.273549 0.629843 1.881497 2013-01-02 1.240512 0.970725 0.033099 1.553420 2013-01-03 NaN 0.545738 NaN 0.130738 2013-01-04 1.044803 NaN 0.874583 2.278227 2013-01-05 NaN NaN 0.478644 0.057728 2013-01-06 NaN 1.249952 1.598761 NaN

    对字符型数据选取

    #---isin ---In [98]: df2 = df.copy()    ...: df2['E'] = ['one', 'one','two','three','four','three'] ...: df2 ...: Out[98]: A B C D E 2013-01-01 -0.411674 0.273549 0.629843 1.881497 one 2013-01-02 1.240512 0.970725 0.033099 1.553420 one 2013-01-03 -0.544326 0.545738 -1.325810 0.130738 two 2013-01-04 1.044803 -0.117151 0.874583 2.278227 three 2013-01-05 -2.194728 -2.536257 0.478644 0.057728 four 2013-01-06 -1.092031 1.249952 1.598761 -0.153423 three In [99]: df2[df2['E'].isin(['two','four'])] Out[99]: A B C D E 2013-01-03 -0.544326 0.545738 -1.325810 0.130738 two 2013-01-05 -2.194728 -2.536257 0.478644 0.057728 four

    使用布尔面具

    In [107]: mask = df2["A"] >0In [108]: df3 = df2[mask] In [109]: df3 Out[109]: A B C D E 2013-01-02 1.240512 0.970725 0.033099 1.553420 ONE 2013-01-04 1.044803 -0.117151 0.874583 2.278227 THREE # 查看无重复的值:.unique() In [101]: df2.loc[:,"E"].unique() Out[101]: array(['one', 'two', 'three', 'four'], dtype=object)

转载于:https://www.cnblogs.com/pejsidney/p/9226613.html

你可能感兴趣的文章
设计模式系列--Proxy
查看>>
VS2010生成Qt程序图标修改方法
查看>>
c++中调用cygwin/x使用ncl
查看>>
gcc -l参数和-L参数
查看>>
考分鄙视(exam)
查看>>
ural1090 In the Army Now
查看>>
动态逆序对
查看>>
C# using用法
查看>>
Java ActiveMQ 讲解(一)理解JMS 和 ActiveMQ基本使用(转)
查看>>
virtual box 下安装centos 7
查看>>
Sqlserver:动态性能视图:sys.dm_os_wait_stats
查看>>
CSS3圆角详解
查看>>
Linux 内核升级
查看>>
每天进步一点点006
查看>>
【转】简谈基于FPGA的千兆以太网
查看>>
10周机电大作业设计
查看>>
Nginx事件管理之ngx_event_core_module模块
查看>>
mysql修改表、字段、库的字符集(转)
查看>>
多项式三种方法比较
查看>>
程序员过关斩将--你的业务是可变的吗(福利你领了吗)
查看>>