您的位置 首页 > 数码极客

(文本如何转utf-8)文本如何转换为表格格式!

一、缓冲流

1.1 缓冲流,也叫高效流,是对4个基本的流的增强,按照数据类型分类:

字节缓冲流: BufferedInputStream,BufferedOutputStream

字符缓冲流: BufferedReader,BufferedWriter

缓冲流的基本原理,是在创建流对象时,会创建一个内置的默认大小的缓冲区数组,通过缓冲区读写,减少系统IO次数,从而提高读写的效率。


1.2 字节缓冲流

1.2.1 构造方法:

public BufferedInputStream(InputStream in) :创建一个新的缓冲输入流。

public BufferedOutputStream(OutputStream out) : 创建一个新的缓冲输出流。


1.2.2 使用举例:


1.3 字符缓冲流

1.3.1 构造方法:

public BufferedReader(Reader in) :创建一个 新的缓冲输入流。

public BufferedWriter(Writer out) : 创建一个新的缓冲输出流。

1.3.2 特有方法:

BufferedReader:public String readLine() : 读一行文字。

BufferedWriter: public void newLine() : 写一行行分隔符,由系统属性定义符号。


1.4 练习:文本排序

1.4.1 案例分析

1. 逐行读取文本信息。

2. 解析文本信息到集合中。

3. 遍历集合,按顺序,写出文本信息。

1.4.2 代码实现:


二、转换流

2.1 字符编码和字符集:

字符编码: 就是一套自然语言的字符与二进制数之间的对应规则。

字符集:也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。


2.2 字符集分类:

ASCII字符集:是基于拉丁字母的一套电脑编码系统,用于显示现代英语,主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)。

GBxxx字符集:GB就是国标的意思,是为了显示中文而设计的一套字符集。

GB2312:简体中文码表。

GBK:最常用的中文码表。是在GB2312标准基础上的扩展规范,使用了双字节编码方案,共收录了 21003个汉字,完全兼容GB2312标准,同时支持繁体汉字以及日韩汉字等。 GB18030:最新的中文码表,收录汉字70244个,采用多字节编码,每个字可以由1个、2个或4个字节组成。

Unicode字符集:Unicode编码系统为表达任意语言的任意字符而设计,是业界的一种标准,也称为统一码、标准万国码。 最为常用的是UTF-8编码。

UTF-8编码:可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。


2.2 编码引出的问题:在IDEA中,使用fileReader读取项目中的文本文件。由于IDEA的设置,都是默认的UTF-8编码,所以没有任何问题。但是,当读取Windows系统中创建的文本文件时,由于Windows系统的默认是GBK编码,就会出现乱码。


2.3 InputStreamReader类:转换流java.io.InputStreamReader ,是Reader的子类,是从字节流到字符流的桥梁。它读取字节,并使用指定的字符集将其解码为字符。它的字符集可以由名称指定,也可以接受平台的默认字符集。

2.3.1 构造方法:

InputStreamReader(InputStream in) : 创建一个使用默认字符集的字符流。 InputStreamReader(InputStream in, String charsetName) : 创建一个指定字符集的字符流。

2.3.2 构造代码演示:

InputStreamReader isr = new InputStreamReader(new FileInputStream("in.txt")); InputStreamReader isr2 = new InputStreamReader(new FileInputStream("in.txt") , "GBK");


2.4 OutputStreamWriter类:转换流Java.io.OutputStreamWriter ,是Writer的子类,是从字符流到字节流的桥梁。使用指定的字符集将字符编码为字节。它的字符集可以由名称指定,也可以接受平台的默认字符集。

2.4.1 构造方法:

OutputStreamWriter(OutputStream in) : 创建一个使用默认字符集的字符流。 OutputStreamWriter(OutputStream in, String charsetName) : 创建一个指定字符集的字符流。

2.4.1 构造代码举例:

OutputStreamWriter isr = new OutputStreamWriter(new FileOutputStream("out.txt"));

OutputStreamWriter isr2 = new OutputStreamWriter(new FileOutputStream("out.txt") , "GBK");


2.5 练习:转换文件编码

2.5.1 需求:将GBK编码的文本文件,转换为UTF-8编码的文本文件。

2.5.2 案例分析:

1. 指定GBK编码的转换流,读取文本文件。

2. 使用UTF-8编码的转换流,写出文本文件。


2.5.3 代码实现:


三、序列化

3.1 Java 提供了一种对象序列化的机制。用一个字节序列可以表示一个对象,该字节序列包含该对象的数据 、 对象的类型和对象中存储的属性等信息。字节序列写出到文件之后,相当于文件中持久保存了一个对象的信息。 反之,该字节序列还可以从文件中读取回来,重构对象,对它进行反序列化。 对象的数据 、 对象的类型和对象中存储的数据信息,都可以用来在内存中创建对象。


3.2 ObjectOutputStream类:java.io.ObjectOutputStream 类,将Java对象的原始数据类型写出到文件,实现对象的持久存储。

3.2.1 构造方法:

public ObjectOutputStream(OutputStream out):创建一个指定OutputStream的ObjectOutputStream。

3.2.2 构造代码举例:

FileOutputStream fileOut = new FileOutputStream("em;); ObjectOutputStream out = new ObjectOutputStream(fileOut);

3.2.3 序列化操作:

1. 一个对象要想序列化,必须满足两个条件:

该类必须实现java.io.Serializable接口,Serializable是一个标记接口,不实现此接口的类将不会使任何状态序列化或反序列化,会抛出NotSerializableException 。

该类的所有属性必须是可序列化的。如果有一个属性不需要可序列化的,则该属性必须注明是瞬态的,使用transient关键字修饰。

2.写出对象方法:

public final void writeObject (Object obj) : 将指定的对象写出。


3.3 ObjectInputStream类:ObjectInputStream反序列化流,将之前使用ObjectOutputStream序列化的原始数据恢复为对象。

3.3.1 构造方法:

public ObjectInputStream(InputStream in) : 创建一个指定InputStream的ObjectInputStream。

3.3.2 反序列化操作1:

如果能找到一个对象的class文件,我们可以进行反序列化操作,调用ObjectInputStream读取对象的方法:

public final Object readObject () : 读取一个对象。

3.3.3 反序列化操作2:当JVM反序列化对象时,能找到class文件,但是class文件在序列化对象之后发生了修改,那么反序列化操作也会失败,抛出一个InvalidClassException异常。发生这个异常的原因如下:

该类的序列版本号与从流中读取的类描述符的版本号不匹配

该类包含未知数据类型

该类没有可访问的无参数构造方法


3.3.4 注意事项:

Serializable接口给需要序列化的类,提供了一个序列版本号。 serialVersionUID该版本号的目的在于验证序列化的对象和对应类是否版本匹配。


3.4 练习:序列化集合

3.4.1 需求:

1. 将存有多个自定义对象的集合序列化操作,保存到 li 文件中。

2. 反序列化 li ,并遍历集合,打印对象信息。

3.4.2 案例分析:

1. 把若干学生对象 ,保存到集合中。

2. 把集合序列化。

3. 反序列化读取时,只需要读取一次,转换为集合类型。

4. 遍历集合,可以打印所有的学生信息


3.4.3 代码实现:


四、打印流

4.1 平时我们在控制台打印输出,是调用print方法和println方法完成的,这两个方法都来自于java.io.PrintStream类,该类能够方便地打印各种数据类型的值,是一种便捷的输出方式。


4.2 PrintStream类:

4.2.1 构造方法:

public PrintStream(String fileName): 使用指定的文件名创建一个新的打印流。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“文本如何转utf8,文本如何转换为表格格式,文本如何转换成数值,文本如何转化为日期,文本如何转换成数字”边界阅读