Mysql字元集

字元集是什麼?

為了更好的辨識中文、日文、英文、希臘文。對於常用的符號進行了編碼,這個編碼就是一個字元集。

字元集確定了文字的儲存方式。

字元集相當於電腦中人類的語言。

舉例:

我說的是英文,所以我儲存的時候要用英文文字來儲存。
如果我說的是中文,用英文字元來儲存的話。那麼人們就看不懂也看不明白,就是我們所說的亂碼。

因為字元集太多了,足夠有幾十種上百種之多。所以我們不需要了解太多的字符集的知識,甚至不需要了解字符集到底是如何編成人類可見字符的。

字元集的重點知識

我們只需要了解:

  1. 常用字元集
  2. 資料庫中我們用什麼字元集

英文字元集:

字元集 #說明 位元組長度
#ASCII 美國標準資訊交換代碼 單字節
GBK 漢字內碼擴充規範 雙位元組
unicode 萬國碼 4位元組
UTF-8 Unicode的可變長度字元編碼 1到6個位元組

ASCII

ASCII 碼使用指定的7 位元或8 位元二進位數組合來表示128 或256 種可能的字元。標準ASCII 碼也叫基礎ASCII碼,使用7 位元二進位數來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控製字元。
其中:
0~31及127(共33個)是控製字元或通訊專用字元(其餘為可顯示字元),如控制符:LF(換行)、CR(Enter)、FF(換頁)、DEL(刪除)、BS( 、10 和13 分別轉換為退格、製表、換行和回車字元。它們並沒有特定的圖形顯示,但會依不同的應用程序,而對文字顯示有不同的影響。
32~126(共95個)是字元(32是空格),其中48~57為0到9十個阿拉伯數字。
65~90為26個大寫英文字母,97~122號為26個小寫英文字母,其餘為一些標點符號、運算符號等。

GBK

GBK 向下與 GB 2312 編碼相容。是中華人民共和國定義的漢字計算機編碼規範。早期版本為GB2312。

Unicode

Unicode(統一碼、萬國碼、單碼)Unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。以滿足跨語言、跨平台進行文字轉換、處理的要求。

UTF-8

是針對Unicode的可變長度字元編碼,也是萬國碼。因為UNICODE比ASCII佔用大一倍的空間,而對ASCII來說高位元組的0對他毫無用處。為了解決這個問題,就出現了一些中間格式的字元集,他們被稱為通用轉換格式,即UTF(Universal Transformation Format)

#實際工作中要使用的編碼

在中文常用的字元集分為utf-8和GBK。

實際使用的如下:

字元集 #說明
gbk_chinese_ci 簡體中文, 不區分大小寫
utf8_general_ci Unicode (多語言), 不區分大小寫

#觀察(圖一)的特徵你會發現,MySQL字元集由三個部份組成:
1.字元集
2.語言
3.類型

最後的bin是指二進位字元集,後面的ci是指儲存排序時不區分字元的大小寫。

注意:
mysql在寫utf-8的時候寫的是utf8。不加中間的中橫線。


(圖一)
image

繼續學習
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!