java处理比较大的xml文件

Question

如题，我用java需要处理一个300多M的xml文件。这个文件的核心结构如下： 然后现在我需要做的就是找到相当&lt;sha1&gt;内容的两个revision标签（如示例中的id为111和119的两个revision）,然后将其中间的（包括最后...

天蓬老师 · Answer

你的算法优化的空间很大，看到你的代码，估计你是把xml文件都装进内存，然后进行循环来删除的。这样当你的电脑没有空余的300M+内存分配给java的heap区域，就会OOM。

建议优化方案：

使用set来保存sha1值，读取一个revision标签，就判断一下sha1值在不在set中：

2.1 如果在，忽略
2.2 如果不在，将该revision加入到你的revision数组，将sha1值加入到set中

直到遍历结束，revision数组中所有元素的sha1值都是不一样的了

Php8, saya datang juga