Linux系统 2023-06-29

Linux：将文件编码转换为 UTF8 (linux转换个是为utf8)

在日常的开发工作中，我们经常需要处理来自不同平台或系统的文件，其中存在着不同的字符编码，如GBK、UTF8、ISO等。而编码不一致的情况会导致程序出现异常或者字符显示乱码等问题，因此需要将文件编码转换为统一的UTF8编码。本文将介绍如何在Linux系统上进行文件编码转换的操作。

一、查看文件编码类型

在进行文件编码转换前，我们需要先查看文件当前的编码类型。常见的查看文件编码类型的命令有file和enca。

1.1 使用 file 命令查看

使用file命令可以快速查看文件的编码类型。例如，我们有一个名为“test.txt”的文件，可以使用以下命令查看其编码类型：

“`

$ file -i test.txt

test.txt: text/pln; charset=utf-8

“`

该命令的输出结果中，charset=utf-8表示该文件的编码为UTF-8。

1.2 使用 enca 命令查看

enca命令可以更准确地查看文件编码类型。以下是enca命令查看文件编码类型的例子：

“`

$ enca -L zh_CN test.txt

Unrecognized encoding

“`

如果enca无法识别文件编码，会输出Unrecognized encoding，此时需要进行手动指定编码类型。

二、安装iconv

iconv是Linux中常用的将文件编码进行转换的工具。在使用iconv之前，需要先安装iconv工具。常用的安装命令如下：

“`

$ sudo apt-get install -y libc-bin

“`

安装好iconv后，我们即可开始进行文件编码转换的操作。

三、转换文件编码为UTF8

3.1 使用 iconv 命令转换文件编码

在转换文件编码时，我们需要指定原文件编码和新文件编码。例如，如果我们要将test.txt文件的编码类型转换为UTF-8编码，可以使用如下命令：

“`

$ iconv -f GBK -t UTF-8 test.txt > new_test.txt

“`

其中，-f参数指定原文件的编码类型，-t参数指定新文件的编码类型，>符号表示将转换后的数据输出到new_test.txt文件中。执行该命令后，文件的编码类型将被转换为UTF-8，且新文件名为new_test.txt。

3.2 批量转换文件编码

如果需要转换多个文件的编码，我们可以使用for循环结合iconv命令进行批量转换。

以下是将某一目录下所有以.txt结尾的文件转换为UTF-8编码的命令：

“`

$ for file in *.txt; do iconv -f GBK -t UTF-8 “$file” > “new_$file”; done

“`

该命令将遍历该目录下所有以.txt结尾的文件，并使用iconv命令将其转换为UTF-8编码。转换结果将保存在以“new_”为前缀的文件中。

3.3 转换文件夹下所有文件的编码

如果需要转换整个文件夹下的所有文件编码，我们可以使用find命令结合iconv命令进行转换，以下是将某一文件夹下所有文件转换为UTF-8编码的命令：

“`

$ find /path/to/dir -type f -exec sh -c ‘iconv -f GBK -t UTF-8 “$0” > “new_${0%.txt}.txt”‘ {} \;

“`

该命令将遍历指定目录下的所有文件，并使用iconv命令将其转换为UTF-8编码。转换结果将保存在以“new_”为前缀的同名文件中。

本文介绍了Linux系统下将文件编码类型转换为UTF-8编码的方法，包括了单个文件转换、批量转换所有.txt结尾的文件以及转换整个文件夹下的所有文件的方法。这些方法在日常开发中非常有用，可帮助我们解决文件编码不一致的问题。

分享到：