• UTF-16是Unicode字符编码五层次模型第三层:字符编码表(Character Encoding Form,也称为"storage format")一种实现方式。即把Unicode字符集抽象码映射为16整数(即码序列,用于数据存储或传递。Unicode字符...
    16 KB (2,007 words) - 11:34, 8 May 2024
  • Unicode (redirect from UTF)
    字符編碼方案,因為既有方案編碼空間有限,亦不適用於多語環境。 Unicode伴隨著通用字符集ISO/IEC 10646標準而發展,同時也以書本形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新字符。目前最新版本為2024年9月公布16.0...
    52 KB (4,585 words) - 03:30, 21 April 2025
  • UTF-16八位相容編碼方案(英語:Compatibility Encoding Scheme for UTF-16: 8-Bit),簡稱 CESU-8 ,是統一碼技术报告 #26 中描述UTF-8变体。 CESU-8 設計,是為了能在八位計算環境中,提供 UTF-16 定序。因此,報告中也明確指出,只建議用在那些需要...
    7 KB (593 words) - 06:16, 15 December 2023
  • 10646初稿中有一個非必須附錄,名為UTF。當中包含了一個供32使用組串編碼系統。這個編碼方式性能並不令人滿意,但它提出了將0-127範圍保留給ASCII以相容舊系統概念。 1992年7月,X/Open委員會XoJIG開始尋求一個較佳編碼系統。Unix系統實驗室(USL)Dave...
    37 KB (5,054 words) - 18:15, 12 February 2025
  • 八位字串將無法正常被傳輸。MIME(RFC 2045 ~ 2049)擴展了網路郵件以支援不同媒體類型以及字集,包含UTF-8與UTF-16集皆可被指定使用。但由於MIME並未明確將Unicode定義為可支援集,並且也沒有說明其應如何編碼,這使得既有...
    9 KB (1,297 words) - 15:02, 22 January 2022
  • 1984年,ISO文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集方式來統一處理世界文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始構想是採用16,而對於日本及中國等國漢字編碼...
    78 KB (6,896 words) - 05:59, 1 April 2025
  • 端序記號,或稱組順序記號(英語:byte-order mark,BOM)是位於碼點U+FEFF統一碼字符名称。當以UTF-16UTF-32來將UCS/統一碼字符所組成字串編碼時,這個字符被用來標示其端序。它也被用來當做標示文件是以UTF-8、UTF-16UTF-32編碼記號。 端序記號通常有幾種涵義:...
    16 KB (2,154 words) - 17:25, 5 September 2024
  • UTF-16两倍和UTF-8四倍(具体取决于文本中ASCII字符比例)。 尽管每一個碼使用固定長度組看似方便,但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比,UTF-32更容易遭到截斷。即使使用了"定寬"字型,在大多数情况下用UTF...
    5 KB (724 words) - 06:27, 29 May 2022
  • 区域指示符 (category Unicode特殊码)
    3166-1二字母代码标准二字母國家地區代碼进行编码26个Unicode字符。这种编码允许对于特定地区符号进行特殊处理。 2010年10月,Unicode 6.0发布为国家地区旗帜繪文字表示提供了区域指示符,作为「对每一面旗帜都进行编码替代方案。除了作为拉丁字母显示外,这些符号...
    51 KB (1,185 words) - 10:49, 17 November 2024
  • 通用字符集 (category 自2024年1月需补充来源条目)
    UCS)是由ISO制定ISO 10646(或称ISO/IEC 10646)标准所定义标准字符集。 通用字符集又称Universal Multiple-Octet Coded Character Set,中国大陆译为通用多八位编码字符集,台湾译为廣用多八位編碼集。...
    10 KB (1,503 words) - 12:59, 29 January 2024
  • 标点符号 (category 包含自我提及条目)
    标点符号,书面上用于标明句读和语气符号。“标点符号是辅助文字记录语言符号,是书面语组成部分,用来表示停顿、语气以及词语性质和作用。” 西方標點符號,在16世紀主要有朗誦學派和句法學派兩個學派,主要是由古典時期希臘文和拉丁文演變而來,在17世紀後進入穩定階段。俄文標點是依希臘文而來,到了18世紀採用西歐標點方法。...
    18 KB (1,521 words) - 02:24, 11 September 2024
  • 統一碼聯盟 (category 含有英語條目)
    蒐集、整理、編碼等工作。推動統一碼成為國際標準工作,則由統一碼公司負責。 由於統一碼聯盟持續遊說和施壓,通用字工作小組WG2放棄原先選擇編碼結構,改採統一碼編碼方式。1991年10月,歷經幾個月協商之後,雙方成協議,將統一碼併入通用字集;各國語言字搜集、整理和編碼...
    7 KB (718 words) - 07:51, 5 January 2025
  • 新細明體更新套件 (category 自2018年3月带有失效链接条目)
    Server 2003中文版用戶可以使用表意文字補充平面而製作更新套件。它將系統字型新細明體更新為Unicode 3.1標準。由於補充平面上使用了32編碼空間,所以更新只適用於Windows XP或以上作業系統。 更新套件主要把原來細明體和新細明體字型檔(MingLiU...
    11 KB (1,412 words) - 12:33, 6 December 2023
  • 統一碼二進制有序壓縮 (category 自2021年11月需要字符编码专家关注页面)
    規範,可以兼容MIME統一碼压缩方案。 雖然UTF-8適合廣泛使用,但對於非拉丁文和中日韓統一表意文字文字,相較於代码页技術,它佔用了更多空間(較高 "字節 / 碼" 之比)。另一方面,SCSU 佔用空間與代碼頁差不多,但卻不相容於MIME。二進制有序壓縮則结合了UTF-8...
    9 KB (983 words) - 11:33, 11 November 2024
  • 编码字符。 基于SGML标记语言允许使用7比特ASCII字符(即Unicode前128个码序列来表示或者说引用任何Unicode字符。基于Unicode字符"码"字符引用被称作字符值引用。HTML 4与所有版本XHTML及XML,这些Unicode字符可以表示为十进制或十六进制。语法如下:...
    5 KB (703 words) - 21:20, 19 April 2023
  • Unicode符號 (category 含有英語條目)
    Unicode字。 不少符號乃出自現有字符集或基於ISO或其他地區性/國際性標準。Unicode標準指出「符號世界是豐富且無限」(The universe of symbols is rich and open-ended),印證了「應當編碼符號」及「符號應如何編碼...
    8 KB (878 words) - 15:00, 19 June 2022
  • Unicode输入法 (category 自2025年5月带有失效链接条目)
    」字元(有時候或會因其字元外形與豆腐相似而被稱為「tofu」,惟部份字體於方形內打叉字)。現代應用上則使用最後者以表示不支持,而替代字符則只用於編碼錯誤。 不少系統提供可視化方法以選擇Unicode字。ISO/IEC 14755(英语:ISO/IEC 14755)標準將之定義為一種「屏幕選擇輸入方法」(screen-selection...
    15 KB (1,717 words) - 02:45, 4 March 2024
  • Plane, BMP),或称基本平面或〇號平面(Plane 0),是統一碼的一区段编码,从0000至FFFF。 第十五點〇版已分配编码区段为: 以下為第〇平面編碼表: 統一碼第〇平面 0000至0FFF · 1000-1FFF · 2000-2FFF · 3000-3FFF 4000-4FFF...
    45 KB (989 words) - 15:08, 13 April 2025
  • 符号Unicode區段,其中部分描述符号编码于其他区段。 目前大部份編碼包含Unicode,處理漢字編碼時大致是先搜集漢字,给予每个漢字一个數字編碼。然而,漢字數量龐大,字集往往不完全;再加上漢字本身是開放組合,漢字使用者很可能自造新字,不可能有一个可以搜集到所有漢字...
    23 KB (636 words) - 13:23, 13 March 2025
  • 基本拉丁字母 (Unicode區段) (category 含有英語條目)
    Latin),是Unicode標準下首個Unicode區段,亦是唯一一個在UTF-8下,以單一字節編碼區段。此區段包含ASCII編碼下所有字母(英语:ISO basic Latin alphabet)與控制字符。該區段範圍為U+0000..U+007F(共128個字...
    21 KB (775 words) - 03:41, 23 October 2023
  • 私人使用区 (category 顶注重定向需要审阅条目)
    私人协议决定其用途一系列码。 目前定义了三个私人使用区:一个在基本多语言平面(U+E000-U+F8FF)中,另外两个几乎包含了整个第15和第16平面(分别为U+F0000-U+FFFFD,U+100000-U+10FFFD)。 私人使用区字符分配,可以不由字面意义上...
    5 KB (414 words) - 08:22, 4 May 2025
  • 國際表意文字核心 (category 含有英語條目)
    (页面存档备份,存于互联网档案馆) IICORE漢字一覽 IICORE中香港、澳門與臺灣提交正體字 (页面存档备份,存于互联网档案馆) Unicode 5.0: IICore字碼列表連索引 (页面存档备份,存于互联网档案馆) 中華人民共和國教育部:語言文字工作:「信息技術 通用多八位編碼字符集」研製工作 IICore子集說明...
    4 KB (532 words) - 13:22, 13 March 2025
  • CSUR (category 有参考文献错误页面)
    編碼,直到它們能夠正式納入CSUR。已納入UCSUR文字系統包括Sitelen Pona(屬於道本語)和色斯文(英语:Cirth)。 CSUR及UCSUR包含下列字集:   已廢棄   只有列在UCSUR 仅有少数字体支持CSUR指定: Constructium,一款基于SIL...
    21 KB (659 words) - 16:01, 8 May 2025
  • Unicode MS」之类字体或調高瀏覽器放大比率。 若要依照編碼查詢Unicode字符,請參見Unicode一覽表。 共有65个字符,包含删除命令但不含空格。 Unicode标准(7.0版本)将1338个字符归为拉丁字母。 共有95个字符,其中52个属于拉丁字母,剩下43个属于基本字符。 有33个字符被定义为「ASCII...
    48 KB (927 words) - 11:12, 3 February 2025
  • 連詞字符 (category 含有英語條目)
    width no-break space,ZWNBSP)字(一個不建議採用Unicode字符,其編碼為U+FEFF)。U+FEFF字原擬用於文件開首組順序記號(Byte Order Mark,BOM),但根據Unicode標準,若該字非在上述情況下使用,則應視為「零寬不换行空格」般使用。在Unicode...
    2 KB (247 words) - 23:57, 1 May 2024
  • 組合字符 (redirect from 組合字)
    character)在字體排印學中是用來改變其它字符所用字符。在拉丁字母中,最常見組合字符為附加符號(包含重音號)。 統一碼也包含許多預組字符(Precomposed character),即事先將字符組好並賦予碼。所以有可能同時使用組合字符和預組字符。這導致了若要比較兩個統一碼字串或設計編碼轉換器時,需要先執行Unicode正規化。...
    6 KB (549 words) - 08:34, 14 May 2022
  • Unicode數字 (category 使用小型訊息框頁面)
    数字符号(又称Unicode数字)表示一个数字字符和字符序列。相同阿拉伯文数字广泛用于全球多种书写系统,它们使用相同表数语义,但是在不同书写系统之间,表示这些数字字母存在较大差异。为了支持这些字母差异,Unicode将这些数字编码包含在许多書寫系統區塊之中。小数在23个独立块中重复:在阿拉伯مرات باللغة...
    5 KB (419 words) - 19:49, 8 August 2024
  • 拉丁字母補充-1 (category 含有英語條目)
    Supplement),是Unicode標準下第二個Unicode區段。該區段將ISO 8859-1中上部區段80~FF(U+0080..U+00FF)予以編碼,唯C1控制字符並非可見字。該區段範圍為U+0080..U+00FF,共有128個字,當中包括C1控制字符、拉丁字母-1標點與規約符號、30組帶附加符号大寫及小寫拉丁字母,及2個數學運算子。...
    19 KB (555 words) - 16:42, 27 June 2022
  • Unicode區段 (category 含有英語條目)
    範圍;區段會給予唯一名稱,且區段與區段間不會重疊。通常一個最小區段至少包含16個碼,即 hhh0到hhhF。 一個區段可以明確地包含未分配和非字符。 不屬於任何已命名區段(例如尚未正式使用第4-第13平面),上面碼關於區段值會被設為 block="No_block"...
    4 KB (443 words) - 09:53, 3 June 2024
  • IRG)是Unicode聯盟和ISO/IEC JTC1/SC2/WG2(國際標準化組織暨國際電工委員會 第一聯合技術委員會 第二小組委員會 第二工作小組)之下一個文字整理小組,負責整理及統合中日韓統一表意文字(漢字),以加入 Unicode 和 ISO/IEC 10646 字符集,其前身為 CJK-JRG(China...
    3 KB (332 words) - 13:23, 13 March 2025
  • 國際音標擴展 (Unicode區段) (category 含有英語條目)
    U+1D7F)和音標擴展補充(U+1D80..1DBF)。變音符號可以在佔修飾符號(U+02B0..U+02FF)和組合附加符號(U+0300..U+036F)等區塊找到。 隨著Unicode能夠完整地標示出所有音標, 基於ASCII開發音標系統(如X-SAMPA或Kirshenbaum等)因此逐漸被替代。...
    25 KB (523 words) - 02:07, 5 November 2023