Pandas学习笔记

Pandas in Python

数据筛选

https://blog.csdn.net/g863402758/article/details/53488140

  • 多列数据筛选的逻辑关系记得每组加上圆括号
  • unix时间戳转换
    报错记录:
    1
    data["date"] = pd.to_datetime(data["Timestamp UTC ms"],unit='ms',utc=True).tz_convert('Asia/Shanghai')
    2
    3
    TypeError: index is not a valid DatetimeIndex or PeriodIndex
    关于这个查到一个issue #7846, 但仍不知怎么处理
    最后发现换到index就没报错了

列操作

  • 调整列顺序

    1
    df = df[['user_id','book_id','rating','mark_date']] # 调整列顺序为'user_id','book_id','rating','mark_date'
    2
    ``` 
    3
    4
    - 列删除
    5
      - `axis`
    6
    ```python
    7
    data = data.drop(['Room','Day','UTC','Time'],axis=1)
  • 字符串类型列的操作

    1
    data.insert(0,'date',data['UTC'].str[:10])
  • 列改名
    https://www.jianshu.com/p/9e43c7bc26cb

    1
    data = data.rename(columns={'Timestamp UTC ms':'date'})
    2
    ``` 
    3
    4
    5
    ## 列数据类型
    6
    https://www.jb51.net/article/139630.htm
    7
    - 在对数据进行处理之前应该先查看加载数据的相关信息
    8
    ```python
    9
    data.info()
  • 修改某一列的数据类型
    1
    data['UTC'] = data['UTC'].astype('str')