這篇幫助文檔講解HTML lang屬性中語言標籤(英:language tags)的用法。語言模板通常會用到語言標籤。
| 中國內地 | 香港特區 | 台灣地區 | 日本 | 朝韓 |
|---|---|---|---|---|
| 返 | 返 | 返 | 返 | 返 |
| 骨 | 骨 | 骨 | 骨 | 骨 |
| 系 | 系 | 系 | 系 | 系 |
| 塌 | 塌 | 塌 | 塌 | 塌 |
| 扉 | 扉 | 扉 | 扉 | 扉 |
萌娘百科收錄的內容涵蓋了多個語言及地區,介紹中不可避免地會使用到不同語言。語言標籤旨在標記一段文字的語言信息。
在HTML中使用lang屬性指定語言標籤,這是一個全局屬性。
<span lang="zh-Hans">這是一段標記為“漢語,簡體字”的文本。</span>
其中粗體部分為lang屬性,下劃線部分為語言標籤。類似的代碼被封裝在{{Lang}}、{{Ruby}}乃至{{LyricsKai}}等模板中,使用時填寫語言標籤即可。
在萌娘百科,語言標籤最重要的使用情境莫過於使漢字以合適的字形顯示。
漢字在東亞很多地區都有使用,經過各自發展,不同地區對於漢字的字形(或寫法)有了各自的習慣與標準。這些漢字很可能會遇到共用Unicode碼位的情形,這時就需要標記語言來讓瀏覽器顯示正確的變體,很多情況下這體現為根據語言標籤調用不同的字體(如表格所示)[1]。
這種情況不僅限於漢字。
標記語言能夠讓屏幕閱讀器正確地發音和切換語種,服務視覺障礙者。
語言標籤使用IETF(網際網路工程任務組)的BCP 47文檔所定義的格式。
語言子標籤-擴展語言子標籤-文字子標籤-地區子標籤-變體子標籤-擴展子標籤-私用子標籤
語言子標籤為必須,其餘為可選,應保持相對順序。子標籤之間以連字號-相連。各個子標籤有其不同的標準,由於地區子標籤之後的子標籤極不常用,下面僅就前四項進行詳細說明。
主要語言子標籤(英:primary language subtag)總是出現在語言標籤的開頭。可以使用ISO 639-1所定義的二字母代碼,以及ISO 639-2、ISO 639-3和ISO 639-5所定義的三字母代碼,全小寫。推薦的做法是優先使用ISO 639-1的二字母代碼,三字母代碼多在沒有二字母代碼的情況下作為補充使用。
| 常見的語言子標籤 (ISO 639-1二字母代碼和ISO 639-3三字母代碼) | ||
|---|---|---|
| 語言 | 二字母代碼 | 三字母代碼 |
| 漢語(特指官話) | zh
|
zho
|
| —官話、現代標準漢語 | 不適用 | cmn
|
| —贛語 | 不適用 | gan
|
| —客家語 | 不適用 | hak
|
| —文言 | 不適用 | lzh
|
| —閩南語 | 不適用 | nan
|
| —吳語 | 不適用 | wuu
|
| —粵語 | 不適用 | yue
|
| 英語 | en
|
eng
|
| 壯語 | za
|
zha
|
| 藏語 | bo
|
tib
|
| —衛藏語 | 不適用 | bod
|
| —康語 | 不適用 | khgkbg
|
| 蒙古語 | mn
|
mon
|
| 維吾爾語 | ug
|
uig
|
| 朝鮮語、韓語 | ko
|
kor
|
| 日語 | ja
|
jpn
|
| 泰語 | th
|
tha
|
| 越南語 | vi
|
vie
|
| 阿拉伯語 | ar
|
ara
|
| 印地語 | hi
|
hin
|
| 印度尼西亞語 | id
|
ind
|
| 俄語 | ru
|
rus
|
| 西班牙語 | es
|
spa
|
| 葡萄牙語 | pt
|
por
|
| 法語 | fr
|
fra
|
| 德語 | de
|
deu
|
| 義大利語 | it
|
ita
|
| 波蘭語 | pl
|
pol
|
| 烏克蘭語 | uk
|
ukr
|
| 土耳其語 | tr
|
tur
|
| 塞爾維亞語 | sr
|
srp
|
| 丹麥語 | da
|
dan
|
| 希臘語 | el
|
ell
|
| —古希臘語 | 不適用 | grc
|
| 梵語 | sa
|
san
|
| 拉丁語 | la
|
lat
|
| 芬蘭語 | fi
|
fin
|
| 世界語 | eo
|
epo
|
擴展語言子標籤(英:extended language subtag,簡記extlang)在使用時緊跟主要語言子標籤,並位處其他任何子標籤之前。每一個「主要語言子標籤-擴展語言子標籤」組合都會有其對應的主要語言子標籤,且與擴展語言子標籤的名稱完全一致,故「主-擴」形式只是為了保證語言標籤在舊系統中的兼容性,如有可能請優先只用主要語言子標籤來標記語言,如標記粵語時使用yue而不是zh-yue。
文字子標籤(英:script subtag)可以使用ISO 15924所定義的四字母代碼,首字母大寫。
| 常見的文字子標籤 (ISO 15924四字母代碼) | ||
|---|---|---|
| 文字 | 代碼 | |
| 漢字 | Hani
| |
| 簡化字、簡體字 | Hans
| |
| 正體字、繁體字 | Hant
| |
| 希臘字母 | Grek
| |
| 拉丁字母 | Latn
| |
| 西里爾字母 | Cyrl
| |
| 朝鮮語字母、韓語字母 | Jamo
| |
| 注音符號 | Bopo
| |
| 諺文、韓字 | Hang
| |
| 韓漢混用文 | Kore
| |
| 悉曇文字 | Sidd
| |
| 天城文 | Deva
| |
| 平假名 | Hira
| |
| 片假名 | Kana
| |
| 假名 | Hrkt
| |
| 日文文字[2] | Jpan
| |
地區子標籤(英:region subtag)可以使用ISO 3166-1 alpha-2所定義的二字母代碼,全大寫。
| 常見的地區子標籤 (ISO 3166-1二字母代碼) | |
|---|---|
| 地區 | 代碼 |
| 中國內地(或泛指中國) | CN
|
| 香港特別行政區 | HK
|
| 澳門特別行政區 | MO
|
| 中國台灣 | TW
|
| 朝鮮 | KP
|
| 韓國 | KR
|
| 馬來西亞 | MY
|
| 新加坡 | SG
|
| 美國 | US
|
| 英國 | GB
|
| 語言標籤 | 涵義 | 備註 |
|---|---|---|
zh
|
漢語 | 沒有任何其他標註,在中文萌娘百科這個以漢語為主的站點上不推薦使用 |
zh-Hans
|
漢語,簡體字 | 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了地區標註 |
zh-Hant
|
漢語,繁體字 | |
zh-CN
|
漢語,中國內地 | 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了簡繁標註 |
zh-HK
|
漢語,香港特別行政區 | |
zh-TW
|
漢語,中國台灣 | |
zh-Hans-CN
|
漢語,簡體字,中國內地 | 權衡了兼容性和完整標註的需要,但該記法實際應用不多 |
zh-Hant-HK
|
漢語,繁體字,香港特別行政區 | |
zh-Hant-TW
|
漢語,繁體字,中國台灣 | |
zho-Hans
|
漢語,簡體字 | 使用三字母語言代碼,但兼容性可能不佳 |
zho-Hant-HK
|
漢語,繁體字,香港特別行政區 | |
cmn-Hans
|
官話,簡體字 | zh在表示普通話、官話的時候可以使用cmn代替,但兼容性可能不佳
|
cmn-Hant-TW
|
官話,繁體字,中國台灣 | |
zh-cmn-Hans
|
漢語,官話,簡體字 | zh和cmn重複,不推薦使用這種記法
|
zh-Latn
|
漢語,拉丁字母轉寫 | 可以用於標記漢語拼音(-pinyin)、威妥瑪拼音(-wadegile)、注音第二式等
|
yue
|
粵語 | 粵語沒有二字母代碼,故記為三字母代碼 |
zh-yue
|
漢語,粵語 | 添加zh以保證兼容性,有條件者應單用yue來與官話作區分
|
en
|
英語 | |
ja
|
日語 | |
ja-JP
|
日語,日本 | 日語絕大多數情況都無需區分地域,不推薦使用 |
ja-Jpan
|
日語,日文文字 | 日語即默認以日文文字書寫,無需區分,不推薦使用 |
ja-Hrkt
|
日語,假名書寫 | 可以用於標記假名注音,不常用 |
ja-Latn
|
日語,拉丁字母轉寫 | 可以用於標記各種日語羅馬字 |
ko
|
朝鮮語/韓語 | 在中文萌娘百科廣泛使用的記法,省略朝韓地區 |
ko-KP
|
朝鮮語,朝鮮 | 標明瞭地區,不常用 |
kor-KR
|
韓語,韓國 | |
ko-Kore
|
朝鮮語/韓語,韓漢混用 | |
ru
|
俄語 | |
ru-Latn
|
俄語,拉丁字母轉寫 | |
sa-Sidd
|
梵語,以悉曇文字書寫 | |
art-x-xdi8[3]
|
人工語言,希頂語 | 使用了私用子標籤,其兼容性無從談起 省略了文字標註,無法從標籤中判斷標記的文本是希頂字母還是希頂漢字 |
| 以下代碼可能被錯誤使用 | ||
ch
|
查莫羅語 | 常被錯誤當作漢語,若確實需要的情況下應當使用zh標記之
|
cn
|
||
jpjaplj
|
常被錯誤當作日語,應當使用ja標記之
| |
kr
|
卡努裡語 | 常被錯誤當作朝鮮語/韓語,應當使用ko標記之
|
kp
|
||
grpospczkzdk
|
||
unicode
|
Unicode(統一碼)是一套信息技術標準,不是可標記的語言 | |
ipa
|
IPA(國際音標,International Phonetic Alphabet)是一套標音系統 若確實需要標記應當使用 fonipa
| |
| |||||||||||||||||||||||||||||||||||
Deprecated(已棄用)的各個子標籤均可正常使用