文章目录
  1. 1. 字符范围表
    1. 1.1. 1.标准CJK文字
    2. 1.2. 2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
    3. 1.3. 3.CJK部首补充
    4. 1.4. 4.CJK标点符号
    5. 1.5. 5.CJK笔划
    6. 1.6. 6.康熙部首
    7. 1.7. 7.汉字结构描述字符
    8. 1.8. 8.注音符号
    9. 1.9. 9.注音符号(闽南语、客家语扩展)
    10. 1.10. 10.日文平假名
    11. 1.11. 11.日文片假名
    12. 1.12. 12.日文片假名拼音扩展
    13. 1.13. 13.韩文拼音
    14. 1.14. 14.韩文字母
    15. 1.15. 15.韩文兼容字母
    16. 1.16. 16.易经六十四卦象
    17. 1.17. 17.彝文音节
    18. 1.18. 18.彝文部首
    19. 1.19. 19.盲文符号
    20. 1.20. 20.CJK字母及月份
    21. 1.21. 21.CJK特殊符号(日期合并)
    22. 1.22. 22.装饰符号(非CJK专用)
    23. 1.23. 23.杂项符号(非CJK专用)
    24. 1.24. 24.中文竖排标点
    25. 1.25. 25.CJK兼容符号(竖排变体、下划线、顿号)
  2. 2. 改进后的匹配表达式

原来我使用的一直是 \\u4e00-\\u9fa5 ,今天在匹配中文标点的时候匹配不上,就查了一下相关资料,原来unicode跟中文有关的范围还有好几个。

字符范围表

1.标准CJK文字

范围:\u3400-\u4DB5,\u4E00-\u9FA5,\u9FA6-\u9FBB,\uF900-\uFA2D,\uFA30-\uFA6A,\uFA70-\uFAD9 说明:一共有好几个范围,除 \u4e00-\u9fa5外 都不是很常用 参考地址:http://www.unicode.org/Public/UNIDATA/Unihan.html

2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母

范围:\uFF00-\uFFEF 参考地址:http://www.unicode.org/charts/PDF/UFF00.pdf

3.CJK部首补充

范围:\u2E80-\u2EFF 参考地址:http://www.unicode.org/charts/PDF/U2E80.pdf

4.CJK标点符号

范围:\u3000-\u303F 参考地址:http://www.unicode.org/charts/PDF/U3000.pdf

5.CJK笔划

范围:\u31C0-\u31EF 参考地址:http://www.unicode.org/charts/PDF/U31C0.pdf

6.康熙部首

范围:\u2F00-\u2FDF 参考地址:http://www.unicode.org/charts/PDF/U2F00.pdf

7.汉字结构描述字符

范围:\u2FF0-\u2FFF 参考地址:http://www.unicode.org/charts/PDF/U2FF0.pdf

8.注音符号

范围:\u3100-\u312F 参考地址:http://www.unicode.org/charts/PDF/U3100.pdf

9.注音符号(闽南语、客家语扩展)

范围:\u31A0-\u31BF 参考地址:http://www.unicode.org/charts/PDF/U31A0.pdf

10.日文平假名

范围:\u3040-\u309F 参考地址:http://www.unicode.org/charts/PDF/U3040.pdf

11.日文片假名

范围:\u30A0-\u30FF 参考地址:http://www.unicode.org/charts/PDF/U30A0.pdf

12.日文片假名拼音扩展

范围:\u31F0-\u31FF 参考地址:http://www.unicode.org/charts/PDF/U31F0.pdf

13.韩文拼音

范围:\uAC00-\uD7AF 参考地址:http://www.unicode.org/charts/PDF/UAC00.pdf

14.韩文字母

范围:\u1100-\u11FF 参考地址:http://www.unicode.org/charts/PDF/U1100.pdf

15.韩文兼容字母

范围:\u3130-\u318F 参考地址:http://www.unicode.org/charts/PDF/U3130.pdf

16.易经六十四卦象

范围:\u4DC0-\u4DFF 参考地址:http://www.unicode.org/charts/PDF/U4DC0.pdf

17.彝文音节

范围:\uA000-\uA48F 参考地址:http://www.unicode.org/charts/PDF/UA000.pdf

18.彝文部首

范围:\uA490-\uA4CF 参考地址:http://www.unicode.org/charts/PDF/UA490.pdf

19.盲文符号

范围:\u2800-\u28FF 参考地址:http://www.unicode.org/charts/PDF/U2800.pdf

20.CJK字母及月份

范围:\u3200-\u32FF 参考地址:http://www.unicode.org/charts/PDF/U3200.pdf

21.CJK特殊符号(日期合并)

范围:\u3300-\u33FF 参考地址:http://www.unicode.org/charts/PDF/U3300.pdf

22.装饰符号(非CJK专用)

范围:\u2700-\u27BF 参考地址:http://www.unicode.org/charts/PDF/U2700.pdf

23.杂项符号(非CJK专用)

范围:\u2600-\u26FF 参考地址:http://www.unicode.org/charts/PDF/U2600.pdf

24.中文竖排标点

范围:\uFE10-\uFE1F 参考地址:http://www.unicode.org/charts/PDF/UFE10.pdf

25.CJK兼容符号(竖排变体、下划线、顿号)

范围:\uFE30-\uFE4F 参考地址:http://www.unicode.org/charts/PDF/UFE30.pdf

改进后的匹配表达式

  1. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF] (注:这条基本能满足要求)
  2. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF\u2F00-\u2FDF\u2FF0-\u2FFF\u3100-\u312F\u31A0-\u31BF\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\uAC00-\uD7AF\u1100-\u11FF\u3130-\u318F\u4DC0-\u4DFF\uA000-\uA48F\uA490-\uA4CF\u2800-\u28FF\u3200-\u32FF\u3300-\u33FF\u2700-\u27BF\u2600-\u26FF\uFE10-\uFE1F\uFE30-\uFE4F] (注:这是完整版本)
文章目录
  1. 1. 字符范围表
    1. 1.1. 1.标准CJK文字
    2. 1.2. 2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
    3. 1.3. 3.CJK部首补充
    4. 1.4. 4.CJK标点符号
    5. 1.5. 5.CJK笔划
    6. 1.6. 6.康熙部首
    7. 1.7. 7.汉字结构描述字符
    8. 1.8. 8.注音符号
    9. 1.9. 9.注音符号(闽南语、客家语扩展)
    10. 1.10. 10.日文平假名
    11. 1.11. 11.日文片假名
    12. 1.12. 12.日文片假名拼音扩展
    13. 1.13. 13.韩文拼音
    14. 1.14. 14.韩文字母
    15. 1.15. 15.韩文兼容字母
    16. 1.16. 16.易经六十四卦象
    17. 1.17. 17.彝文音节
    18. 1.18. 18.彝文部首
    19. 1.19. 19.盲文符号
    20. 1.20. 20.CJK字母及月份
    21. 1.21. 21.CJK特殊符号(日期合并)
    22. 1.22. 22.装饰符号(非CJK专用)
    23. 1.23. 23.杂项符号(非CJK专用)
    24. 1.24. 24.中文竖排标点
    25. 1.25. 25.CJK兼容符号(竖排变体、下划线、顿号)
  2. 2. 改进后的匹配表达式