Linux系统 2023-03-15

Linux文件排重技巧详解（linux文件排重）

随着Linux系统的发展和应用，文件排重也成为更多用户关注的问题。文件排重是一种技术，可以有效地从大量文件中移除重复文件以节省硬盘空间，并简化文件管理和维护工作。本文可以帮助您掌握Linux下的文件排重技巧。

首先，让我们介绍最常见的Linux文件排重方法，即使用md5sum算法。该算法可以通过检查文件的内容和长度来计算文件的校验和。如果两个文件具有相同的校验和，则说明它们代表相同的内容。下面是使用该算法进行文件排重的示例：

$ ls

文件_1

文件_2

$ md5sum 文件_1

cs87ekj7a09akfj38r7e *文件_1

$ md5sum 文件_2

cs87ekj7a09akfj38r7e *文件_2

从上面的输出可以看出，文件_1和文件_2的校验和完全相等，因此它们具有相同的内容，可以认为是重复的文件。

另一个文件排重的技巧是使用cksum算法。cksum算法实际上可以计算文件的32位CRC校验和，这样，系统就可以检查两个文件是否完全相同。下面是使用cksum算法进行文件排重的示例：

$ ls

文件_1

文件_2

$ cksum 文件_1

2115677824 *文件_1

$ cksum 文件_2

2115677824 *文件_2

从上面的输出可以看出，文件_1和文件_2的校验和完全相等，因此它们具有完全相同的内容，可以认为是重复的文件。

除了排重技术之外，您还可以使用find命令来快速搜索和创建类似文件的列表，并对其进行排重。下面是使用该命令进行排重的示例：

$ls

文件_1

文件_2

文件_3

$ find . -type f -name “*.txt” | xargs md5sum | sort | uniq

ba8f3ea3fdf3e0a1488f4 *文件_1

d4f3e2e6688764e98bf1d *文件_2

从上面的输出可以看出，文件1和文件2具有相同的校验和，因此可以说它们具有相同的内容，可以认为是重复文件。

除了上面介绍的技术之外，您也可以使用Linux的diff命令，该命令可以使您比较两个文件的差异，以及它们相互之间的关系。下面是使用该命令进行文件排重的示例：

$ ls

文件_1

文件_2

$ diff 文件_1 文件_2

文件_1 是完全相同的

从上面的输出可以看出，两个文件完全相同，因此它们具有相同的内容，可以认为是重复的文件。

综上所述，本文介绍了Linux文件排重技巧，包括使用md5sum算法，cksum算法，以及find和diff命令比较文件差异的方法。通过应用上述技术，可以有效地排重Linux文件，为您节省硬盘空间和简化系统管理和维护工作带来重大便利。

分享到：