我有很多格式错误的JSON字符串,像这样:
{ "id":23424938, "name":aN, "ref":aN, "jul":aN, "cat":{}, "src":[], "Code":"SA", "type":d, "spec":[i,j], "child":a }
我正在尝试构建一个正则表达式来双引号JSON值,但没有成功。
我最终使用了/":([^"d{[]+?[^,}]?)/
,它修复了所有问题,除了数组内的值,例如[i,j]
,它不会转换为["i","j"]
。
你能帮我处理括号内的值吗?
https://regex101.com/r/CGskmy/1
这个任务会有一些困难,因为存在歧义。例如,
{ "x": [y] }
是变成{ "x": "[y]" }
还是变成{ "x": ["y"] }
?我会假设未加引号的字符串不包含 JSON 控制字符,例如'[', ']', '{', '}', '"', ':', ','
。我认为你可以使用命名捕获组来完成这个任务,这是 PHP 中的一个功能,使用 PCRE 可以实现。这需要一些编程来执行替换。通常的
preg_replace
操作是不够的,因为我们不会替换所有匹配项。这是我想出来的方法。首先,我匹配引号字符串并忽略它们。其次,我匹配数字并忽略它们。最后,我匹配未加引号的字符串并将其存储在名为“unquoted”的捕获组中。请注意,PCRE 将按照这些替代项的顺序尝试匹配。只有在无法匹配引号字符串和数字时,才会匹配未加引号的字符串。这是这种方法的关键。
一旦我匹配到所有未加引号的字符串,就只需要将输出字符串与替换一起拼接起来。这是通过迭代匹配项并将字符串片段复制到输出中来完成的。