导图社区第4章：外部数据的读取与存储

第4章：外部数据的读取与存储

在最炎热的季节，亿图团队不忘用户的期望与寄托，攻克一道道技术难关，把实用的新功能带入到MindMaster6.5版本中。

提示: 本内容由社区用户上传并分享。平台不对内容的真实性、合法性、知识产权归属及是否侵害第三方权利进行事前审核或保证。本内容可能包含受版权保护的图片、字体或其他第三方素材，使用前请自行确认授权范围。

编辑于2021-01-24 22:51:36

南浔 💭💡🎈

他的近期作品查看更多>>

第4章：外部数据的读取与存储

社区模板帮助中心，点此进入>>

南浔 💭💡🎈

他的近期作品查看更多>>

相似推荐
大纲

英语词性
- 65.4k
- 6.6k
- 2.4k
- 578
- 0
Ethan
互联网9大思维
- 41.9k
- 984
- 2.5k
- 403
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 20.0k
- 3
- 187
- 8
- 1
Kacyun
法理
- 30.5k
- 67
- 377
- 49
- 1
Dasein
刑法总则
- 41.0k
- 149
- 970
- 155
- 0
Dasein
【华政插班生】文学常识-先秦
- 7.1k
- 4
- 70
- 2
- 0
Dasein
【华政插班生】文学常识-秦汉
- 4.2k
- 0
- 54
- 10
- 0
Dasein
文学常识：魏晋南北朝
- 4.9k
- 3
- 90
- 20
- 0
Dasein
【华政插班生】文学常识-隋唐五代
- 5.8k
- 8
- 98
- 6
- 0
Dasein
【华政插班生】文学常识-两宋
- 4.0k
- 5
- 70
- 8
- 0
Dasein

第4章外部数据的读取与存储

前言对于数据分析而言，数据大部分来源于外部数据

CSV，EXCEL文件与数据库文件

文件的读取

pd.read_csv()

两种方法

pd.read_json()

两种方法

pd.read_table()

pd.read_excel()

pd.read_sql()

两种方法

pd.read_html()

文件的存储

df.to_csv()

df.to_json()

df.to_excel()

df.to_sql()

4.1 文本数据的读取与存储

4.1.1 CSV文件的读取

pd.read_csv() / pd.read_talbe() 常用参数

pandas库提供的将表格型数据转化为df格式数据的函数

path

文件的路径

读取csv文件时，如果路径中有中文，需要加open（）函数，否则会报错

sep

分隔符

默认分隔符为逗号

header

标题行

index_col

行索引

names

指定列索引的列名

skiprows

需要忽略的行数（从文件开始出算）

nrows

需要读取的行数（从文件开始处算）

chunksize

文件块的大小

usecols

指定读取的列

pd.read_csv()

注意事项

CSV是存储表格数据的常用格式文件

1.指定列作为索引

df = pd.read_csv( open(fp) , index_col = ' id' )

指定行索引

如果希望多个列做成一个层次化索引，传入列编号或者列名组成的列表即可

2.标题行设置

df = pd.read_csv ( open(fp) , header = None )

如果使用默认情况进行读取，会指定第一行为标题行

df = pd.read_csv( open(fp), names = [ ] )

指定行标题

3.自定义读取

由于数据分析或者数据原因的需要，有时可能只选取读取部分行或者列

df = pd.read_csv( open(fp) , usecols=[] )

使用部分列

df = pd.read_csv( open(fp) , skiprows=[0,5] )

跳过一些行

df = pd.read_csv( open(fp), nrows=10 )

选择读取行数

chunker = pd.read_csv( open(fp) , chunksize=100 )

for i in chunker: sex = sex.add( i['sex'].value_counts() , fill_value = 0 )

i 就是 100 个数据，被分块了

pd.read_table()

默认分隔符为制表符

！type filepath

可以查看文件

linux系统下应用 !cat filepath

4.1.2 TXT文件的读取

df = pd.read_table( open(fp) , sep = '?' )

有些txt文件没有固定的分隔符

sep = '\s+'

适用于一些数量不定的空白符进行分割

4.1.3 文本数据的存储

在对数据进行分析和处理之后，通常会把数据存储起来

df.to_csv(fp)

df.to_csv(fp,sep='?')

df.to_csv( fp, index=False )

默认情况下会存储行和列索引

df.to_csv( fp, header=False)

4.2 JSON与Excel数据的读取与存储

4.2.1 json数据的读取与存储

json的特点

理想的数据交换语言

json 数据是一种轻量级的数据交换格式

具有简单清晰的层次结构

读取json

1. 用python自带的第三方库 json

json.dumps( str ) 将dict转化为json格式

df.sort_index()

由于数据类似字典结构，读取的时候可能会乱序

2.pd.read_json(fp)

存储

df.to_json( fp )

4.2.2 Excel数据的读取与存储

df.to_excel( fp, sheet_name='out' , index=None)

4.3 数据库的读取与存储

基础知识

在许多工作应用中，常使用的文件来源于数据库

Mysql 是目前最受欢迎的开源的关系型数据库

conda install pymysql

通过python连接mysql 需要加载第三方库 pymysql

4.3.1 建立连接

import pymysql conn = pymysql.connect( host, user, passwd, db, port, charset )

host='localhost'

port=3306

charset=utf8

4.3.2 操作

cursor = conn.cursor()

cursor.execute( option )

option 可以有增删改查

conn.commit()

4.3.3 读取数据库

data = cursor.fetchall() df = DataFrame( list(data) )

将得到的元组化列表传给DataFrame构造器

df = pd.read_sql( 'select * from tablename , conn)

一个会带Header 一个不会带

4.3.4 存储数据库

df.to_sql( name='out6', con='' , if_exists='replace', index=False )

con='mysql+pymysql://root:123456@localhost:3306/mydb?charset=utf8'

4.4 Web数据的读取

网络上每天都会产生大量的非结构化的数据

4.4.1 读取HTML表格

df = pd.read_html( url )

读取的是审查元素里表格中的数据

4.4.2 网络爬虫