您的位置 首页 > 职场江湖

【word内存怎么看】对于10G大型文件,如何高效地查看文件的内容?

1.文件读写过程

1)类比windows中手动操作txt文档,说明python中如何操作txt文件?

windows中手动操作txt文件的步骤

查找word文档打开word文档查看word文档内容(或操作)关闭word文档word文档

python操作txt文件的步骤

导入打开文件的内存对象(也称为文件句柄)写入文件等关闭文件3360000

如果我们想操作这个文件,首先要得到这个文件对象吗?只有在获得此文件对象后,才能读取文件的内容或将内容写入文件。

该文件句柄包含文件的文件名、文件的字符集、文件的大小以及文件在硬盘上的启动位置。

2)什么是文件的内存对象(文件句柄)?

3)演示怎么读取文件

f=open(r ' g : \ 6 tipdm \ file _ read _ write \ ye;' r ',encoding='utf-8 ')

Data=f.read()

打印(数据[:245])

F.close()的结果如下:

演示如下

f=open(r ' g : \ 6 tipdm \ file _ read _ write \ ye;' r ',encoding='utf-8 ')

Data=f.read()

Data1=f.read()

打印(数据[:245])

Print (' -')

Print(资料1 [:245])

F.close()的结果如下:

问题:我们把内容读了两遍,为什么只给我们看了一次的结果?对于上述问题,我们用一张图片回答上述问题。

通过上图操作此文件句柄的read()方法读取文件时,您会发现此句柄从文件的起始位置1移动到文件的结束位置2。

如果不采取任何操作,则句柄将在读取完成后在此位置2停止。因此,重新读取文件时,句柄从2个位置读取内容。因为后面没有内容,所以二读是空的。

那么,如果我们想第二次同样阅读文件的内容,该怎么办呢?那么接着往下看。

一个很奇怪的现象?

f=open(r ' g : \ 6 tipdm \ file _ read _ write \ ye;' w ',encoding='utf-8 ')

F.write(《我爱北京天安门》)

F.close()的结果如下:

天安门出太阳会怎么样?

f=open(r ' g : \ 6 tipdm \ file _ read _ write \ ye;' w ',encoding='utf-8 ')

F.write(《天安门上太阳升起》)

F.write('非常好,非常好')

F.close()的结果如下:

8ac7bf090f0ac841e?from=article.detail&_iz=31825&index=4" width="640" height="225"/>

意外发生:当我们再次写入新的内容的时候,发现之前写的内容不见了,这是为啥呢?这就是我们下面要讲述的文件读写的几种常见模式。

2.文件读写的几种常见模式(你不清楚的知识点)

1)关于r+、w+、a+使用说明(易错点)

当我们读取某个文件,向文件中写入某些内容(覆盖写),向文件中追加写入某写内容时,最好的方式就是分别使用r、w、a这三种模式。对于这三种模式,要么读,要么写,读模式就不能写,写模式就不能读。

对于r+、w+、a+这三种模式,如果你不是特别清楚python文件读写的原理,就不要轻易使用,因为会出现很多问题,下面我们仅演示r+、w+、a+这三种模式。

2)r+模式:可读可写

对于这种模式,不管是读取文件中的内容,还是朝文件中写入内容。前提条件:文件存在。

# 只读取文件中的内容 f = open(r"G:\6Tipdm\file_read_write\ye;,"r+",encoding="utf-8") data = f.read() print(data) f.close() # 朝文件中写入内容后,立即读取,会出现啥问题? f = open(r"G:\6Tipdm\file_read_write\ye;,"r+",encoding="utf-8") f.write("丽丽姑娘") data = f.read() print(data) f.close() # 朝文件中写入内容后,调整句柄位置后,再读取,会出现啥问题? f = open(r"G:\6Tipdm\file_read_write\ye;,"r+",encoding="utf-8") f.write("丽丽姑娘") f.seek(0) data = f.read() print(data) f.close()

结果如下:

使用r+模式,当只读文件的时候,可以读取到其中的内容。

当写入内容后,立即读取文件内容,发现什么也读取不到。这是由于当你写入内容后,文件句柄会放在写入内容的最后面,因此当你立即读取的时候,句柄会从上次内容最后的位置,往后面读,因此读取为空。

当朝文件中写入内容后,调整句柄位置后,再读取文件中的内容,发现就有了内容。这是由于我们使用了f.seek(0)方法,将句柄由内容末尾调整到了内容开头,因此就又有了内容。

3)w+:可读可写
# 直接往文件中写入内容 f = open(r"G:\6Tipdm\file_read_write\ye;,"w+",encoding="utf-8") f.write("bbbbbb") f.close() # 直接读取上述文件,看看会发生啥问题?(特别注意这一步) f = open(r"G:\6Tipdm\file_read_write\ye;,"w+",encoding="utf-8") data = f.read() print(data) f.close() # 朝文件中写入内容后,立即读取,又会发生什么? f = open(r"G:\6Tipdm\file_read_write\ye;,"w+",encoding="utf-8") f.write("哈哈哈哈哈") data = f.read() print(data) f.close() # 朝文件中写入内容后,调整句柄位置后,再读取,会发生什么? f = open(r"G:\6Tipdm\file_read_write\ye;,"w+",encoding="utf-8") f.write("嘿嘿嘿嘿嘿") f.seek(0) data = f.read() print(data) f.close()

结果如下:

使用w+模式,当我们直接朝文件中写入bbbbbb,毋庸置疑,肯定是可以的。

接着,我们直接读取这个文件中的内容,奇怪的现象发生了,什么都读取不到。这是因为w+模式,在进行文件读取的时候,默认是先写再读。但是我们确实没有写入任何东西呀?这是由于系统默认帮我们写入了一个空值,因此把原有内容覆盖了。所以再当我们读取文件中的内容的时候,发现读取为空。

再接着,我们朝文件中,写入内容后再立即读取,这下仍然读取不到任何内容,这又是为什么呢?这是由于我们第一次写入“哈哈哈哈哈哈”的时候,句柄移动到了内容最后。当我们立即读取的时候,句柄从内容最后的位置,继续朝后面读,因此啥也没有。

最后,当朝文件中写入内容后,调整句柄位置后,再读取文件中的内容,发现就有了内容。这是由于我们使用了f.seek(0)方法,将句柄由内容末尾调整到了内容开头,因此就又有了内容。

4)a+:可读可写
# 直接朝文件中写入内容 f = open(r"G:\6Tipdm\file_read_write\ye;,"a+",encoding="utf-8") f.write("哈哈") f.close() # 直接读取文件中的内容 f = open(r"G:\6Tipdm\file_read_write\ye;,"a+",encoding="utf-8") data = f.read() print(data) f.close() # 调整句柄位置后,再读取文件中的内容 f = open(r"G:\6Tipdm\file_read_write\ye;,"a+",encoding="utf-8") f.seek(0) data = f.read() print(data) f.close()

结果如下:

使用a+模式,朝文件中写入内容,毋庸置疑,肯定是没问题的。

接着,当我们读取上述文件中的内容,会发现什么也读取不到。这是由于,使用r+模式打开文件,文件句柄默认放在内容的最后面,因此你直接读取其中的内容,什么也没有。

最后,在读取文件中内容之前,我们使用了f.seek(0)方法,将句柄由内容末尾调整到了内容开头,再次读取文件中的内容,发现就有了内容。

3.read、readline、readlines的区别

1)read()方法的使用说明
f = open(r"G:\6Tipdm\file_read_write\;,"r",encoding="utf-8") data = f.read() print(type(data)) print(data) f.close()

结果如下:

2)readline()方法的使用说明
f = open(r"G:\6Tipdm\file_read_write\;,"r",encoding="utf-8") data = f.readline() print(type(data)) print(data) f.close() f = open(r"G:\6Tipdm\file_read_write\;,"r",encoding="utf-8") for i in range(3):     data = f.readline()     print(data) f.close()

结果如下:

去掉每一行末尾的换行符:

f = open(r"G:\6Tipdm\file_read_write\;,"r",encoding="utf-8") for i in range(3):     data = f.readline().strip()     print(data) f.close()

结果如下:

3)readlines()方法的使用说明
f = open(r"G:\6Tipdm\file_read_write\;,"r",encoding="utf-8") data = f.readlines() print(type(data)) print(data) f.close()

结果如下:

4.对于一个10G的大文件,怎么高效的查看文件中的内容呢?

1)相关说明

当我们读取文件中的内容,相当于是把写在硬盘上的东西,读取到内存中。不管你是使用read()或者readlines()一次性读取到到内存中,还是使用readline()一行行的将整个内容读取到内存中,如果文件很大,都将会耗用很大的内存。同时,从硬盘读取文件内容到内存中,也会很慢。

因此,有没有一种高效的方式?既让我们看到了文件中的内容,又不会占用内存呢?下面我们将进行说明。

2)操作说明
f = open(r"G:\6Tipdm\file_read_write\ye;,"r",encoding="utf-8") for line in f:     prin())

部分截图如下:

上述方式中,f相当于一个迭代器,我们使用for循环迭代f中元素。每循环一次,就相当于读取一行到内存中,并记住这一次读取到的位置。当进行下次迭代的时候,上一次读取到内存中的内容,就会被销毁了,当前内存中读取的就是第二行的内容。当进行第三次循环的时候,内存中第二行的内容也会被销毁,此时内存中只会保存第三行的内容,这样依次进行下去。直到最后一次循环,读取最后一行的内容,此时,内存中保留的也只是最后一行的内容。

迭代器有一个特性:每次进行迭代的时候,就会记住当前读取的位置。当进行下一次迭代的时候,前面的内容会被销毁掉,在内存中只会保留当前循环得到的内容。

关于作者: luda

无忧经验小编鲁达,内容侵删请Email至wohenlihai#qq.com(#改为@)

热门推荐