当前位置:   article > 正文

Python 教你用 Rows 快速操作csv文件

python csv row

Rows 是一个专门用于操作表格的第三方Python模块

只要通过 Rows 读取 csv 文件,她就能生成可以被计算的 Python 对象。

相比于 pandas 的 pd.read_csv, 我认为 Rows 的优势在于其易于理解的计算语法和各种方便的导出和转换语法。它能非常方便地提取pdf中的文字、将csv转换为sqlite文件、合并csv等,还能对csv文件执行sql语法,还是比较强大的。

当然,它的影响力肯定没有 Pandas 大,不过了解一下吧,技多不压身。

1.准备

开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。

(可选1) 如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.

(可选2) 此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南

请选择以下任一种方式输入命令安装依赖
1. Windows 环境 打开 Cmd (开始-运行-CMD)。
2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.

pip install rows

2.基本使用

通过下面这个小示例,你就能知道Rows的基本使用方法。

假设我们有这样的一个csv表格数据:

  1. state,city,inhabitants,area
  2. AC,Acrelândia,12538,1807.92
  3. AC,Assis Brasil,6072,4974.18
  4. AC,Brasiléia,21398,3916.5
  5. AC,Bujari,8471,3034.87
  6. AC,Capixaba,8798,1702.58
  7. [...]
  8. RJ,Angra dos Reis,169511,825.09
  9. RJ,Aperibé,10213,94.64
  10. RJ,Araruama,112008,638.02
  11. RJ,Areal,11423,110.92
  12. RJ,Armação dos Búzios,27560,70.28
  13. [...]

如果我们想要找出 state 为 RJ 并且人口大于 500000 的城市,只需要这么做:

  1. import rows
  2. cities = rows.import_from_csv("data/brazilian-cities.csv")
  3. rio_biggest_cities = [
  4.     city for city in cities
  5.     if city.state == "RJ" and city.inhabitants > 500000
  6. ]
  7. for city in rio_biggest_cities:
  8.     density = city.inhabitants / city.area
  9.     print(f"{city.city} ({density:5.2f} ppl/km²)")

和 Pandas 很像,但是语法比 Pandas 简单,整个模块也比 Pandas 轻量。

如果你想要自己新建一个"表格", 你可以这么写:

  1. from collections import OrderedDict
  2. from rows import fields, Table
  3. country_fields = OrderedDict([
  4.     ("name", fields.TextField),
  5.     ("population", fields.IntegerField),
  6. ])
  7. countries = Table(fields=country_fields)
  8. countries.append({"name": "Argentina", "population": "45101781"})
  9. countries.append({"name": "Brazil", "population": "212392717"})
  10. countries.append({"name": "Colombia", "population": "49849818"})
  11. countries.append({"name": "Ecuador", "population": "17100444"})
  12. countries.append({"name": "Peru", "population": "32933835"})

然后你可以迭代它:

  1. for country in countries:
  2.     print(country)
  3. # Result:
  4. # Row(name='Argentina', population=45101781)
  5. # Row(name='Brazil', population=212392717)
  6. # Row(name='Colombia', population=49849818)
  7. # Row(name='Ecuador', population=17100444)
  8. # Row(name='Peru', population=32933835)
  9. # "Row" is a namedtuple created from `country_fields`
  10. # We've added population as a string, the library automatically converted to
  11. # integer so we can also sum:
  12. countries_population = sum(country.population for country in countries)
  13. print(countries_population) # prints 357378595

还可以将此表导出为 CSV 或任何其他支持的格式:

  1. # 公众号:Python实用宝典
  2. import rows
  3. rows.export_to_csv(countries, "some-LA-countries.csv")
  4. # html
  5. rows.export_to_html(legislators, "some-LA-countries.csv")

从字典导入到rows对象:

  1. import rows
  2. data = [
  3.     {"name": "Argentina", "population": "45101781"},
  4.     {"name": "Brazil", "population": "212392717"},
  5.     {"name": "Colombia", "population": "49849818"},
  6.     {"name": "Ecuador", "population": "17100444"},
  7.     {"name": "Peru", "population": "32933835"},
  8.     {"name": "Guyana", }, # Missing "population", will fill with `None`
  9. ]
  10. table = rows.import_from_dicts(data)
  11. print(table[-1]) # Can use indexes
  12. # Result:
  13. # Row(name='Guyana', population=None)

3.命令行工具

除了写Python代码外,你还可以直接使用Rows的命令行工具,下面介绍几个可能会经常被用到的工具。

读取pdf文件内的文字并保存为文件:

  1. # 需要提前安装: pip install rows[pdf]
  2. URL="http://www.imprensaoficial.rr.gov.br/app/_edicoes/2018/01/doe-20180131.pdf"
  3. rows pdf-to-text $URL result.txt # 保存到文件 显示进度条
  4. rows pdf-to-text --quiet $URL result.txt # 保存到文件 不显示进度条
  5. rows pdf-to-text --pages=1,2,3 $URL # 输出三页到终端
  6. rows pdf-to-text --pages=1-3 $URL # 输出三页到终端(使用 - 范围符)

将csv转化为sqlite:

  1. rows csv2sqlite \
  2.      --dialect=excel \
  3.      --input-encoding=latin1 \
  4.      file1.csv file2.csv \
  5.      result.sqlite

合并多个csv文件:

  1. rows csv-merge \
  2.      file1.csv file2.csv.bz2 file3.csv.xz \
  3.      result.csv.gz

对csv执行sql搜索:

  1. # needs: pip install rows[html]
  2. rows query \
  3.     "SELECT * FROM table1 WHERE inhabitants > 1000000" \
  4.     data/brazilian-cities.csv \
  5.     --output=data/result.html

其他更多功能,请见Rows官方文档:

http://turicas.info/rows

我们的文章到此就结束啦,如果你喜欢今天的Python 实战教程,请持续关注Python实用宝典。

有任何问题,可以在公众号后台回复:加群,回答相应红字验证信息,进入互助群询问。

原创不易,希望你能在下面点个赞和在看支持我继续创作,谢谢!

点击下方阅读原文可获得更好的阅读体验

Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号:Python实用宝典

b0f125c8a178e0518cfab689a6b860f7.jpeg

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/980504
推荐阅读
相关标签
  

闽ICP备14008679号