#Java# 文章列表 Java 安装 Java:第一个程序 Hello World Java:建议使用 UTF-8 编写 Java 代码 Java:package 包命名规范 使用 Intellij IDEA 创建 Java 项目 Java 布尔类型 Java 处理日期和时间 Java 正则表达式 Java finalize 方法 Java:空值 null Java 如何触发垃圾回收 Java ThreadLocal Java InheritableThreadLocal Java Integer之间的比较 Java 动态代理 Java 匿名类 Java 枚举 Java 如何静态导入 import static println Java 引用级别:强引用、软引用、弱引用、幽灵引用 Java try finally return 解惑 Java WeakHashMap Java ReferenceQueue 怎么写 Java 示例代码? Java 匿名类双大括号初始化 什么是 Java Bean Java 多行字符串 Java 快速生成 List Java 快速生成 Map Java 将异常堆栈转换为 String JDK SPI 的使用和源码分析 Java Map 中的 key 和 value 能否为 null ? Java List 和 数组的互相转换 Java 获取环境变量 Java 获取和设置系统属性 Java:如何获取当前进程的 PID ? Java 字符串左侧 右侧补充空格或者其他字符 Java 线程 Java:如何获取文本文件内容 Java:读取资源文件内容 Java:使用 JavaFx 构建 GUI Java:Class 类 Java:使用 instanceof 判断对象类型 一个自定义的 Java 工具类 Java:获取当前函数所属类的类名 Java:获取当前执行的函数名 Java:使用 String 的 split 函数拆分字符串 Java:获取字符的 Unicode 编号(代码点) Java:获取当前工作目录 Java:使用 Class 对象的 isArray 方法判断对象是否为数组 使用 Java 生成 CSV 文件 Java Mockito 测试框架快速入门 JUnit 入门 JUnit 单测隔离 Java JOOR 反射库 Java alibaba transmittable-thread-local 库:让 ThreadLocal 跨线程传播 Java 日志组件 slf4j 的使用和源码分析 Java Lombok 库:为你减少样板代码 Java:使用 cglib 实现动态代理 Java Hibernate validator 校验框架 Java 使用 Hessian2 序列化和反序列化 H2 数据库快速入门 Java:使用 Gson 库处理 JSON 数据 Java 集成 groovy 构建规则引擎 Java 13:安装 Java 13 新特性:文本块(多行字符串) 卸载 MacOS 上安装的 Java Java:执行 sql 文件 Java JDK 有哪些发行版 ? java拾遗:String和数组 java拾遗:由反转数组想到System.out的实现机制 java拾遗:如何读取properties文件内容 Java并发概念汇总 java拾遗:System.out.println()是什么? java拾遗:通过示例理解位运算 使用“庖丁解牛”进行中文分词 DBUtils简明教程 试用velocity模板引擎 Java:将字符串哈希为数字 kafka SnappyError no native library is found 问题

Java:获取字符的 Unicode 编号(代码点)


#Java#


关于 Unicode: 理解字符编码、Unicode、UTF-8、UTF-16.

在 Java 中,字符使用的是 UTF-16 编码,大部分字符用一个 UTF-16 编码就可以表示,对于这些字符,UTF-16 编码对应 Unicode 代码点。一个 UTF-16 代码单元需要16bit,而 Java 的 char 类型占用空间也是 16 bit。

可以用下面的方式输出字符的 UTF-16 编码:

public class StringTest {

    public static void main(String[] args) {
        char c = 'a';
        System.out.printf("\\u%04x\n", (int) c);
        c = '年';
        System.out.printf("\\u%04x\n", (int) c);
    }

}

执行结果:

\u0061
\u5e74

在 print 相关函数中可以用\uxxxx表示一个字符:

public class StringTest {

    public static void main(String[] args) {
        System.out.println("\u5e74");
    }

}

执行结果:

表情符号和一些生僻字需要用两个 UTF-16 代码单元表示,这意味着 char 无法表示这些字符。不过可以用 String 来表示。代码示例:

public class StringTest {

    public static void main(String[] args) {
        String str = "😊";
        System.out.println("字符串长度: " + str.length());
        System.out.println("字符串 UTF-16 表示: ");
        for (char c : str.toCharArray()) {
            System.out.printf("\\u%04x\n", (int) c);
        }
    }

}

执行结果:

字符串长度: 2
字符串 UTF-16 表示: 
\ud83d
\ude0a

( 本文完 )