详解Python操作Excel文件

本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer,已开源在github ,欢迎star!

本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录,这是我花了6个月总结的一线大厂Java面试总结,本人已拿大厂offer,欢迎star

原文链接:blog.ouyangsihai.cn >> 详解Python操作Excel文件

点击上方“后端技术精选”,选择“置顶公众号”

技术文章第一时间送达!

前言

本篇文章主要总结了一下利用python操作Excel文件的第三方库和方法。

常见库简介

1.xlrd

xlrd是一个从Excel文件读取数据和格式化信息的库,支持.xls以及.xlsx文件。

地址:http://xlrd.readthedocs.io/en/latest/

  • xlrd支持.xls,.xlsx文件的读
  • 通过设置on_demand变量使open_workbook()函数只加载那些需要的sheet,从而节省时间和内存(该方法对.xlsx文件无效)。
  • xlrd.Book对象有一个unload_sheet方法,它将从内存中卸载工作表,由工作表索引或工作表名称指定(该方法对.xlsx文件无效)
  • 通过设置on_demand变量使open_workbook()函数只加载那些需要的sheet,从而节省时间和内存(该方法对.xlsx文件无效)。

    2.xlwt

    xlwt是一个用于将数据和格式化信息写入旧Excel文件的库(如.xls)。

    地址:https://xlwt.readthedocs.io/en/latest/

  • xlwt支持.xls文件写。
  • 3.xlutils

    xlutils是一个处理Excel文件的库,依赖于xlrd和xlwt。

    地址:http://xlutils.readthedocs.io/en/latest/

  • xlutils支持.xls文件。
  • 支持Excel操作。
  • 支持Excel操作。

    4.xlwings

    xlwings是一个可以实现从Excel调用Python,也可在python中调用Excel的库。

    地址:http://docs.xlwings.org/en/stable/index.html

  • xlwings支持.xls读,支持.xlsx文件读写。
  • 支持Excel操作。
  • 支持VBA。
  • 支持Excel操作。

    4、强大的转换器可以处理大部分数据类型,包括在两个方向上的numpy array和pandas DataFrame。

    5.openpyxl

    openpyxl是一个用于读取和编写Excel 2010 xlsx/xlsm/xltx/xltm文件的库。

    地址:https://openpyxl.readthedocs.io/en/stable/

  • openpyxl支持.xlsx文件的读写。
  • 支持Excel操作。
  • 加载大.xlsx文件可以使用read_only模式。
  • 写入大.xlsx文件可以使用write_only模式。
  • 支持Excel操作。

    写入大.xlsx文件可以使用write_only模式。

    6.xlsxwriter

    xlsxwriter是一个用于创建Excel .xlsx文件的库。

    地址:https://xlsxwriter.readthedocs.io/

  • xlswriter支持.xlsx文件的写。
  • 支持VBA。
  • 写入大.xlsx文件时使用内存优化模式。
  • 支持VBA。

    7.win32com

    win32com库存在于pywin32中,是一个读写和处理Excel文件的库。

    地址:http://pythonexcels.com/python-excel-mini-cookbook/

  • win32com支持.xls,.xlsx文件的读写,支持.xlsx文件的写。
  • 支持Excel操作。
  • 支持Excel操作。

    8.DataNitro

    DataNitro是一个内嵌在Excel中的插件。

    地址:https://datanitro.com/docs/

  • DataNitro支持.xls,.xlsx文件的读写。
  • 支持Excel操作。
  • 支持VBA。
  • 收费
  • 支持Excel操作。

    收费

    9.pandas

    pandas通过对Excel文件的读写实现数据输入输出

    地址:http://pandas.pydata.org/

  • pandas支持.xls,.xlsx文件的读写。
  • 支持只加载每个表的单一工作页。
  • 支持只加载每个表的单一工作页。

    详解Python操作Excel文件

    提醒及注意:

    • xlutils 仅支持 xls 文件,即2003以下版本;
    • win32com 与 DataNitro 仅支持 windows 系统;
    • xlwings 安装成功后,如果运行提示报错“ImportError: no module named win32api”,请再安装 pypiwin32 或者 pywin32 包;
    • win32com 不是独立的扩展库,而是集成在其他库中,安装 pypiwin32 或者 pywin32 包即可使用;
    • DataNitro 是 Excel 的插件,安装需到官网下载。

    基本功能:

    由于设计目的不同,每个模块通常着重于某一方面功能,各有所长。

    1.xlwings

    可结合 VBA 实现对 Excel 编程,强大的数据输入分析能力,同时拥有丰富的接口,结合 pandas/numpy/matplotlib 轻松应对 Excel 数据处理工作。

    2.openpyxl

    简单易用,功能广泛,单元格格式/图片/表格/公式/筛选/批注/文件保护等等功能应有尽有,图表功能是其一大亮点,缺点是对 VBA 支持的不够好。

    3.pandas

    数据处理是 pandas 的立身之本,Excel 作为 pandas 输入/输出数据的容器。

    4.win32com

    从命名上就可以看出,这是一个处理 windows 应用的扩展,Excel 只是该库能实现的一小部分功能。该库还支持 office 的众多操作。需要注意的是,该库不单独存在,可通过安装 pypiwin32 或者 pywin32 获取。

    5.xlsxwriter

    拥有丰富的特性,支持图片/表格/图表/筛选/格式/公式等,功能与openpyxl相似,优点是相比 openpyxl 还支持 VBA 文件导入,迷你图等功能,缺点是不能打开/修改已有文件,意味着使用 xlsxwriter 需要从零开始。

    6.DataNitro

    作为插件内嵌到 Excel 中,可完全替代 VBA,在 Excel 中使用 python 脚本。既然被称为 Excel 中的 python,协同其他 python 库亦是小事一桩。然而,这是付费插件…

    7.xlutils

    基于 xlrd/xlwt,老牌 python 包,算是该领域的先驱,功能特点中规中矩,比较大的缺点是仅支持 xls 文件。

    读写测试

    测试用例

  • 用例1. 读.xls文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。
  • 用例2. 读.xlsx文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。
  • 用例3. 读.xls文件的整个表(表有1个分页,页有2000行1200列的整数)。
  • 用例4. 读.xlsx文件的整个表(表有1个分页,页有2000行1200列的整数)。
  • 用例5. 写.xls文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。
  • 用例6. 写.xlsx文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。
  • 用例7. 写.xls文件的整个表(表有1个分页,页有2000行1200列的整数)。
  • 用例8. 写.xlsx文件的整个表(表有1个分页,页有2000行1200列的整数)。
  • 用例2. 读.xlsx文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。

    用例4. 读.xlsx文件的整个表(表有1个分页,页有2000行1200列的整数)。

    用例6. 写.xlsx文件的整个表(表有5个分页,每个分页有2000行1200列的整数)。

    用例8. 写.xlsx文件的整个表(表有1个分页,页有2000行1200列的整数)。

    测试结果

    详解Python操作Excel文件

    注:

  • xlwt和pandas每个工作页最多写入256列,因此测试用例修改为每页有2000行256列的整数.
  • xlutils读写依赖于xlrd和xlwt,不单独测试。
  • openpyxl测试两种模式,一是普通加载写入,二是read_only/write_only模式下的加载写入。
  • DataNitro要收费,且需依托Excel使用,本次不测试。
  • xlutils读写依赖于xlrd和xlwt,不单独测试。

    DataNitro要收费,且需依托Excel使用,本次不测试。

    性能比较

    单从读写的性能上考虑,win32com的性能是最好的,xlwings其次。

    openpyxl虽然操作Excel的功能强大,但读写性能过于糟糕,尤其是写大表时,会占用大量内存(把我的4G内存用完了),开启read_only和write_only模式后对其性能有大幅提升,尤其是对读的性能提升很大,使其几乎不耗时(0.01秒有点夸张,不过确实是加载上了)。

    pandas把Excel当作数据读写的容器,为其强大的数据分析服务,因此读写性能表现中规中矩,但其对Excel文件兼容性是最好的,支持读写.xls,.xlsx文件,且支持只读表中单一工作页。同样支持此功能的库还有xlrd,但xlrd只支持读,并不支持写,且性能不突出,需要配合xlutils进行Excel操作,并使用xlwt保存数据,而xlwt只能写入.xls文件(另一个可以写入.xls文件的库是pandas,且这两个写入的Excel文件最多只能有256列,其余库就我目前的了解均只能写入.xlsx文件),性能一般。

    xlsxwriter功能单一,一般用来创建.xlsx文件,写入性能中庸。win32com拥有最棒的读写性能,但该库存在于pywin32的库中,自身没有完善的文档,使用略吃力。xlwings拥有和win32com不相伯仲的读写性能,强大的转换器可以处理大部分数据类型,包括二维的numpy array和pandas DataFrame,可以轻松搞定数据分析的工作。

    综合考虑,xlwings的表现最佳,正如其名,xlwings——Make Excel Fly!

    便捷性比较

    本测试目前只是针对Excel文件的读写,并未涉及Excel操作,单从读写的便捷性来讲,各库的表现难分上下,但是win32com和xlwings这两个库可以在程序运行时实时在打开的Excel文件中进行操作,实现过程的可视化,其次xlwings的数据结构转换器使其可以快速的为Excel文件添加二维数据结构而不需要在Excel文件中重定位数据的行和列,因此从读写的便捷性来比较,仍是xlwings胜出。

    代码示例

    最后,附上一些演示代码,大家可自行体会下不同模块的使用。

    6.1 xlwings基本代码

    
    import xlwings as xw
    #连接到excel
    workbook = xw.Book(r'path/myexcel.xlsx')#连接excel文件
    #连接到指定单元格
    data_range = workbook.sheets('Sheet1').range('A1')
    #写入数据
    data_range.value = [1,2,3]
    #保存
    workbook.save()
    

    6.2 xlsxwriter基本代码

    
    import xlsxwriter as xw
    #新建excel
    workbook  = xw.Workbook('myexcel.xlsx')
    #新建工作薄
    worksheet = workbook.add_worksheet()
    #写入数据
    worksheet.write('A1',1)
    #关闭保存
    workbook.close()
    

    6.3 xlutils基本代码import xlrd #读取数据

    
    import xlwt #写入数据
    import xlutils #操作excel
    #----xlrd库
    #打开excel文件
    workbook = xlrd.open_workbook('myexcel.xls')
    #获取表单
    worksheet = workbook.sheet_by_index(0)
    #读取数据
    data = worksheet.cell_value(0,0)
    #----xlwt库
    #新建excel
    wb = xlwt.Workbook()
    #添加工作薄
    sh = wb.add_sheet('Sheet1')
    #写入数据
    sh.write(0,0,'data')
    #保存文件
    wb.save('myexcel.xls')
    #----xlutils库
    #打开excel文件
    book = xlrd.open_workbook('myexcel.xls')
    #复制一份
    new_book = xlutils.copy(book)
    #拿到工作薄
    worksheet = new_book.getsheet(0)
    #写入数据
    worksheet.write(0,0,'new data')
    #保存
    new_book.save()
    

    6.4 win32com基本代码

    
    import win32com.client as wc
    #启动Excel应用
    excel_app = wc.Dispatch('Excel.Application')
    #连接excel
    workbook = excel_app.Workbooks.Open(r'e:/myexcel.xlsx' )
    #写入数据
    workbook.Worksheets('Sheet1').Cells(1,1).Value = 'data'
    #关闭并保存
    workbook.SaveAs('newexcel.xlsx')
    excel_app.Application.Quit()
    

    6.5 openpyxl基本代码

    
    import openpyxl
    # 新建文件
    workbook = openpyxl.Workbook()
    # 写入文件
    sheet = workbook.activesheet['A1']='data'
    # 保存文件
    workbook.save('test.xlsx')
    

    6.6 DataNitro基本代码

    
    #单一单元格赋值
    Cell('A1').value = 'data'
    #单元区域赋值
    CellRange('A1:B2').value = 'data'
    

    openpyxl具体使用

    1、 创建一个excel 文件,并写入不同类的内容

    
    # -*- coding: utf-8 -*-
    from openpyxl import Workbook
    import datetime
    import time
    
    # 创建文件对象
    wb = Workbook()
    # 获取第一个sheet
    ws = wb.active
    
    # 在第1行第A列,写入数字23333
    ws['A1'] = 23333
    # 写入中文(unicode中文也可以)
    ws['B1'] = "你好!"+"欢迎使用openpyxl"
    
    # 在下一行,写入多个单元格
    ws.append([1, 2, 3])
    
    # 写入一个当前时间
    ws['A2'] = datetime.datetime.now()
    
    # 写入一个自定义的时间格式
    ws['A3'] = time.strftime('%Y{y}%m{m}%d{d}%H{h}%M{f}%S{s}', time.localtime()).format(y='年', m='月', d='日', h='时', f='分', s='秒')
    
    # 保存文件,注意文件覆盖
    wb.save("test.xlsx")
    # 关闭流
    wb.close()
    

    2、创建sheet

    
    from openpyxl import Workbook
    
    wb = Workbook()
    
    # 创建一个sheet
    ws1 = wb.create_sheet("sheet1")
    # 设定一个sheet的名字
    ws1.title = "sheet1 Title"
    # 设定sheet的插入位置 默认插在后面
    ws2 = wb.create_sheet("Mysheet", 0)
    ws2.title = "Mysheet"
    # 设定sheet的标签的背景颜色
    ws1.sheet_properties.tabColor = "1072BA"
    
    # 获取某个sheet对象
    print(wb["sheet1 Title"])
    print(wb["Mysheet"])
    
    # 获取全部sheet的名字,遍历sheet名字
    print(wb.sheetnames)
    for i in wb.sheetnames:
        print(i)
    
    print("*"*50)
    
    for sheet in wb:
        print(sheet.title)
    
    # 将sheet1中的A1单元格赋值为zeke
    wb["sheet1 Title" ]["A1"] = "zeke"
    # 复制一个sheet
    source = wb["sheet1 Title"]
    target = wb.copy_worksheet(source)
    
    wb.save("test2.xlsx")
    wb.close()
    

    3、操作单元格

    
    # -*- coding: utf-8 -*-
    from openpyxl import Workbook
    
    wb = Workbook()
    # 创建一个sheet
    ws1 = wb.create_sheet("Sheet1")
    
    # 将A1单元格赋值为123.11
    ws1["A1"] = 123.11
    # 将B2单元格赋值为你好
    ws1["B2"] = "你好"
    # 将第4行第2列的单元赋值为10
    temp = ws1.cell(row=4, column=2, value=10)
    
    print(ws1["A1"].value)
    print(ws1["B2"].value)
    print(temp.value)
    
    wb.save("test3.xlsx")
    wb.close()
    

    4、操作已存在的文件

    
    # -*- coding: utf-8 -*-
    from openpyxl import Workbook
    from openpyxl import load_workbook
    
    # 打开test5.xlsx文件
    wb = load_workbook('test5.xlsx')
    # 猜测格式类型
    wb.guess_types = True
    ws = wb.active
    ws["A1"] = "12%"
    print(ws["A1"].value)
    
    # 注意如果原文件有一些图片或者图标,则保存的时候可能会导致图片丢失
    wb.save("test5.xlsx")
    wb.close()
    

    5、操作批量的单元格

    
    # -*- coding: utf-8 -*-
    from openpyxl import Workbook
    
    wb = Workbook()
    # 创建一个sheet
    ws1 = wb.create_sheet("Sheet")
    
    ws1["A1"] = 1
    ws1["A2"] = 2
    ws1["A3"] = 3
    
    ws1["B1"] = 4
    ws1["B2"] = 5
    ws1["B3"] = 6
    
    ws1["C1"] = 7
    ws1["C2"] = 8
    ws1["C3"] = 9
    
    # 操作单列
    print(ws1["A"])
    for cell in ws1["A"]:
        print(cell.value)
    
    # 从A列到C列,获取每一个值
    print(ws1["A:C"])
    for column in ws1["A:C"]:
        for cell in column:
            print(cell.value)
    
    # 从第1行到第3行,获取每一个值
    row_range = ws1[1:3]
    print(row_range)
    for row in row_range:
        for cell in row:
            print(cell.value)
    
    print("*"*50)
    
    # 从第1行到第3行,从第1列到第3for row in ws1.iter_rows(min_row=1, min_col=1, max_col=3, max_row=3):
        for cell in row:
            print(cell.value)
    
    # 获取所有行
    print(ws1.rows)
    for row in ws1.rows:
        print(row)
    
    print("*"*50)
    
    # 获取所有列
    print(ws1.columns)
    for col in ws1.columns:
        print(col)
    
    wb.save("test4.xlsx")
    wb.close()
    

    6、获取所有的行(列)对象:

    
    # coding=utf-8
    from openpyxl import Workbook
    from openpyxl import load_workbook
    
    # 打开test5.xlsx文件
    wb = load_workbook('test5.xlsx')
    ws = wb.active
    rows = []
    for row in ws.iter_rows():
        rows.append(row)
    
    # 所有行
    print(rows)
    # 获取第一行
    print(rows[0])
    # 获取第一行第一列的单元格对象
    print(rows[0][0])
    # 获取第一行第一列的单元格对象的值
    print(rows[0][0].value)
    # 获取最后行 print rows[-1]
    print(rows[len(rows) - 1])
    # 获取第后一行和最后一列的单元格对象
    print(rows[len(rows) - 1][len(rows[0]) - 1])
    # 获取第后一行和最后一列的单元格对象的值
    print(rows[len(rows) - 1][len(rows[0]) - 1].value)
    
    cols = []
    for col in ws.iter_cols():
        cols.append(col)
    # 所有列
    print(cols)
    # 获取第一列
    print(cols[0])
    # 获取第一列的第一行的单元格对象
    print(cols[0][0])
    # 获取第一列的第一行的值
    print(cols[0][0].value)
    print("*" * 30)
    # 获取最后一列
    print(cols[len(cols) - 1] )
    # 获取最后一列的最后一行的单元格对象
    print(cols[len(cols) - 1][len(cols[0]) - 1])
    # 获取最后一列的最后一行的单元格对象的值
    print(cols[len(cols) - 1][len(cols[0]) - 1].value)
    
    wb.close()
    

    推荐阅读(点击即可跳转阅读)

    1. 

    **2. **

    **3. **

    **4. **

    **5. **

    详解Python操作Excel文件

    原文始发于微信公众号(后端技术精选):

    本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer,已开源在github ,欢迎star!

    本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录,这是我花了6个月总结的一线大厂Java面试总结,本人已拿大厂offer,欢迎star

    原文链接:blog.ouyangsihai.cn >> 详解Python操作Excel文件


     上一篇
    python读取Excel的操作示例 python读取Excel的操作示例
      在python自动化中,经常会遇到对数据文件的操作,比如添加多名员工,但是直接将员工数据写在python文件中,不但工作量大,要是以后再次遇到类似批量数据操作还会写在python文件中吗? 应对这一问题,可以将数据写excel文件,针对
    2021-04-05
    下一篇 
    RocketMQ 源码学习 1 —— 整体结构 RocketMQ 源码学习 1 —— 整体结构
    (点击上方公众号,可快速关注) 来源:谢晞鸣 ,fdx321.github.io/2017/08/16/【RocketMQ源码学习】1-总体架构/ fdx321.github.io&#x
    2021-04-05