Jadual Kandungan
1 Unicode
2 Unicode dalam Python
2.1 Faedah objek Unicode
2.2 Pengoptimuman Python bagi Unicode
3 Unicode对象的底层结构体
3.1 PyASCIIObject
3.2 PyCompactUnicodeObject
3.3 PyUnicodeObject
3.4 示例
4 interned机制
Rumah pembangunan bahagian belakang Tutorial Python Analisis kod sumber str jenis terbina dalam Python

Analisis kod sumber str jenis terbina dalam Python

May 09, 2023 pm 02:16 PM
python str

1 Unicode

Unit asas storan komputer ialah bait, yang terdiri daripada 8 bit. Memandangkan bahasa Inggeris hanya terdiri daripada 26 huruf ditambah beberapa simbol, aksara Inggeris boleh disimpan terus dalam bait. Tetapi bahasa lain (seperti Cina, Jepun, Korea, dll.) perlu menggunakan berbilang bait untuk pengekodan kerana bilangan aksara yang banyak.

Dengan penyebaran teknologi komputer, teknologi pengekodan aksara bukan Latin terus berkembang, tetapi masih terdapat dua batasan utama:

  • Tidak menyokong berbilang bahasa: skema pengekodan satu bahasa tidak boleh digunakan untuk bahasa lain

  • Tiada standard bersatu: contohnya, bahasa Cina mempunyai GBK, GB2312, GB18030 dan piawaian pengekodan lain

Oleh kerana kaedah pengekodan tidak seragam, pembangun perlu menukar berulang-alik antara pengekodan yang berbeza, dan banyak ralat pasti akan berlaku. Untuk menyelesaikan masalah ketidakkonsistenan seperti ini, standard Unicode telah dicadangkan. Unicode mengatur dan mengekod kebanyakan sistem penulisan di dunia, membolehkan komputer memproses teks dengan cara yang bersatu. Unicode kini mengandungi lebih daripada 140,000 aksara dan secara semula jadi menyokong berbilang bahasa. (Uni Unicode ialah punca “penyatuan”)

2 Unicode dalam Python

2.1 Faedah objek Unicode

Selepas Python 3, Unicode digunakan secara dalaman dalam objek str Mewakili, dan oleh itu menjadi objek Unicode dalam kod sumber. Kelebihan menggunakan perwakilan Unicode ialah logik teras program menggunakan Unicode secara seragam, dan hanya perlu dinyahkod dan dikodkan pada lapisan input dan output, yang boleh mengelakkan pelbagai masalah pengekodan setakat yang paling besar.

Rajah adalah seperti berikut:

Analisis kod sumber str jenis terbina dalam Python

2.2 Pengoptimuman Python bagi Unicode

Masalah: Memandangkan Unicode mengandungi lebih daripada 140,000 aksara, setiap A aksara memerlukan sekurang-kurangnya 4 bait untuk disimpan (ini mungkin kerana 2 bait tidak mencukupi, jadi 4 bait digunakan dan 3 bait biasanya tidak digunakan). Kod ASCII untuk aksara Inggeris memerlukan hanya 1 bait Penggunaan Unicode akan menggandakan kos aksara Inggeris yang kerap digunakan.

Pertama, mari kita lihat perbezaan saiz pelbagai bentuk objek str dalam Python:

>>> sys.getsizeof('ab') - sys.getsizeof('a')
1
>>> sys.getsizeof('一二') - sys.getsizeof('一')
2
>>> sys.getsizeof('????????') - sys.getsizeof('????')
4

Dapat dilihat bahawa Python secara dalaman mengoptimumkan objek Unicode: mengikut kandungan teks, unit storan asas dipilih.

Storan asas objek Unicode dibahagikan kepada tiga kategori mengikut julat titik kod Unikod aksara teks:

  • PyUnicode_1BYTE_KIND: Semua titik kod aksara berada di antara U+ 0000 dan U+00FF

  • PyUnicode_2BYTE_KIND: Semua titik kod aksara adalah antara U+0000 dan U+FFFF, dan sekurang-kurangnya satu aksara mempunyai titik kod lebih besar daripada U+00FF

  • PyUnicode_1BYTE_KIND: Semua titik kod aksara adalah antara U+0000 dan U+10FFFF, dan sekurang-kurangnya satu aksara mempunyai titik kod lebih besar daripada U+FFFF

Penghitungan yang sepadan adalah seperti berikut:

enum PyUnicode_Kind {
/* String contains only wstr byte characters.  This is only possible
   when the string was created with a legacy API and _PyUnicode_Ready()
   has not been called yet.  */
    PyUnicode_WCHAR_KIND = 0,
/* Return values of the PyUnicode_KIND() macro: */
    PyUnicode_1BYTE_KIND = 1,
    PyUnicode_2BYTE_KIND = 2,
    PyUnicode_4BYTE_KIND = 4
};

Pilih unit storan yang berbeza mengikut klasifikasi yang berbeza:

/* Py_UCS4 and Py_UCS2 are typedefs for the respective
   unicode representations. */
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

Hubungan yang sepadan adalah seperti berikut:

文本类型字符存储单元字符存储单元大小(字节)
PyUnicode_1BYTE_KINDPy_UCS11
PyUnicode_2BYTE_KINDPy_UCS22
PyUnicode_4BYTE_KINDPy_UCS44

Sejak Unicode struktur storan dalaman berbeza-beza bergantung pada jenis teks, jenis jenis mesti disimpan sebagai medan awam objek Unicode. Python secara dalaman mentakrifkan beberapa bit bendera sebagai medan awam Unicode: (Disebabkan tahap pengarang yang terhad, semua medan di sini tidak akan diperkenalkan dalam kandungan seterusnya. Anda boleh mempelajarinya sendiri kemudian. Pegang penumbuk anda~)

  • dibawa masuk: Sama ada hendak mengekalkan mekanisme yang diinternet

  • jenis: jenis, digunakan untuk membezakan saiz unit storan asas bagi aksara

  • padat: kaedah peruntukan memori, sama ada objek dan penimbal teks dipisahkan

  • asscii: sama ada teks semuanya ASCII tulen

melalui fungsi PyUnicode_New, mengikut bilangan saiz aksara teks dan maxchar aksara maksimum memulakan objek Unicode. Fungsi ini terutamanya memilih unit storan aksara yang paling padat dan struktur asas untuk objek Unicode berdasarkan maxchar: (Kod sumber agak panjang, jadi ia tidak akan disenaraikan di sini. Anda boleh memahaminya sendiri. Ia ditunjukkan dalam bentuk jadual di bawah )

maxchar < 128128 <= maxchar < 256256 <= maxchar < 6553665536 <= maxchar < MAX_UNICODE
kindPyUnicode_1BYTE_KINDPyUnicode_1BYTE_KINDPyUnicode_2BYTE_KINDPyUnicode_4BYTE_KIND
ascii1000
字符存储单元大小(字节)1124
底层结构体PyASCIIObjectPyCompactUnicodeObjectPyCompactUnicodeObjectPyCompactUnicodeObject

3 Unicode对象的底层结构体

3.1 PyASCIIObject

C源码:

typedef struct {
    PyObject_HEAD
    Py_ssize_t length;          /* Number of code points in the string */
    Py_hash_t hash;             /* Hash value; -1 if not set */
    struct {
        unsigned int interned:2;
        unsigned int kind:3;
        unsigned int compact:1;
        unsigned int ascii:1;
        unsigned int ready:1;
        unsigned int :24;
    } state;
    wchar_t *wstr;              /* wchar_t representation (null-terminated) */
} PyASCIIObject;

源码分析:

length:文本长度

hash:文本哈希值

state:Unicode对象标志位

wstr:缓存C字符串的一个wchar_t指针,以“\0”结束(这里和我看的另一篇文章讲得不太一样,另一个描述是:ASCII文本紧接着位于PyASCIIObject结构体后面,我个人觉得现在的这种说法比较准确,毕竟源码结构体后面没有别的字段了)

图示如下:

(注意这里state字段后面有一个4字节大小的空洞,这是结构体字段内存对齐造成的现象,主要是为了优化内存访问效率)

Analisis kod sumber str jenis terbina dalam Python

ASCII文本由wstr指向,以’abc’和空字符串对象’'为例:

Analisis kod sumber str jenis terbina dalam Python

Analisis kod sumber str jenis terbina dalam Python

3.2 PyCompactUnicodeObject

如果文本不全是ASCII,Unicode对象底层便由PyCompactUnicodeObject结构体保存。C源码如下:

/* Non-ASCII strings allocated through PyUnicode_New use the
   PyCompactUnicodeObject structure. state.compact is set, and the data
   immediately follow the structure. */
typedef struct {
    PyASCIIObject _base;
    Py_ssize_t utf8_length;     /* Number of bytes in utf8, excluding the
                                 * terminating \0. */
    char *utf8;                 /* UTF-8 representation (null-terminated) */
    Py_ssize_t wstr_length;     /* Number of code points in wstr, possible
                                 * surrogates count as two code points. */
} PyCompactUnicodeObject;

PyCompactUnicodeObject在PyASCIIObject的基础上增加了3个字段:

utf8_length:文本UTF8编码长度

utf8:文本UTF8编码形式,缓存以避免重复编码运算

wstr_length:wstr的“长度”(这里所谓的长度没有找到很准确的说法,笔者也不太清楚怎么能打印出来,大家可以自行研究下)

注意到,PyASCIIObject中并没有保存UTF8编码形式,这是因为ASCII本身就是合法的UTF8,这也是ASCII文本底层由PyASCIIObject保存的原因。

结构图示:

Analisis kod sumber str jenis terbina dalam Python

3.3 PyUnicodeObject

PyUnicodeObject则是Python中str对象的具体实现。C源码如下:

/* Strings allocated through PyUnicode_FromUnicode(NULL, len) use the
   PyUnicodeObject structure. The actual string data is initially in the wstr
   block, and copied into the data block using _PyUnicode_Ready. */
typedef struct {
    PyCompactUnicodeObject _base;
    union {
        void *any;
        Py_UCS1 *latin1;
        Py_UCS2 *ucs2;
        Py_UCS4 *ucs4;
    } data;                     /* Canonical, smallest-form Unicode buffer */
} PyUnicodeObject;

3.4 示例

在日常开发时,要结合实际情况注意字符串拼接前后的内存大小差别:

>>> import sys
>>> text = &#39;a&#39; * 1000
>>> sys.getsizeof(text)
1049
>>> text += &#39;????&#39;
>>> sys.getsizeof(text)
4080

4 interned机制

如果str对象的interned标志位为1,Python虚拟机将为其开启interned机制,

源码如下:(相关信息在网上可以看到很多说法和解释,这里笔者能力有限,暂时没有找到最确切的答案,之后补充。抱拳~但是我们通过分析源码应该是能看出一些门道的)

/* This dictionary holds all interned unicode strings.  Note that references
   to strings in this dictionary are *not* counted in the string&#39;s ob_refcnt.
   When the interned string reaches a refcnt of 0 the string deallocation
   function will delete the reference from this dictionary.
   Another way to look at this is that to say that the actual reference
   count of a string is:  s->ob_refcnt + (s->state ? 2 : 0)
*/
static PyObject *interned = NULL;
void
PyUnicode_InternInPlace(PyObject **p)
{
    PyObject *s = *p;
    PyObject *t;
#ifdef Py_DEBUG
    assert(s != NULL);
    assert(_PyUnicode_CHECK(s));
#else
    if (s == NULL || !PyUnicode_Check(s))
        return;
#endif
    /* If it&#39;s a subclass, we don&#39;t really know what putting
       it in the interned dict might do. */
    if (!PyUnicode_CheckExact(s))
        return;
    if (PyUnicode_CHECK_INTERNED(s))
        return;
    if (interned == NULL) {
        interned = PyDict_New();
        if (interned == NULL) {
            PyErr_Clear(); /* Don&#39;t leave an exception */
            return;
        }
    }
    Py_ALLOW_RECURSION
    t = PyDict_SetDefault(interned, s, s);
    Py_END_ALLOW_RECURSION
    if (t == NULL) {
        PyErr_Clear();
        return;
    }
    if (t != s) {
        Py_INCREF(t);
        Py_SETREF(*p, t);
        return;
    }
    /* The two references in interned are not counted by refcnt.
       The deallocator will take care of this */
    Py_REFCNT(s) -= 2;
    _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

可以看到,源码前面还是做一些基本的检查。我们可以看一下37行和50行:将s添加到interned字典中时,其实s同时是key和value(这里我不太清楚为什么会这样做),所以s对应的引用计数是+2了的(具体可以看PyDict_SetDefault()的源码),所以在50行时会将计数-2,保证引用计数的正确。

考虑下面的场景:

>>> class User:
    def __init__(self, name, age):
        self.name = name
        self.age = age
>>> user = User(&#39;Tom&#39;, 21)
>>> user.__dict__
{&#39;name&#39;: &#39;Tom&#39;, &#39;age&#39;: 21}

由于对象的属性由dict保存,这意味着每个User对象都要保存一个str对象‘name’,这会浪费大量的内存。而str是不可变对象,因此Python内部将有潜在重复可能的字符串都做成单例模式,这就是interned机制。Python具体做法就是在内部维护一个全局dict对象,所有开启interned机制的str对象均保存在这里,后续需要使用的时候,先创建,如果判断已经维护了相同的字符串,就会将新创建的这个对象回收掉。

示例:

由不同运算生成’abc’,最后都是同一个对象:

>>> a = &#39;abc&#39;
>>> b = &#39;ab&#39; + &#39;c&#39;
>>> id(a), id(b), a is b
(2752416949872, 2752416949872, True)

Atas ialah kandungan terperinci Analisis kod sumber str jenis terbina dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Mejiro Ryan Build Guide | Uma Musume Pretty Derby
1 bulan yang lalu By Jack chen
Rimworld Odyssey Cara Ikan
4 minggu yang lalu By Jack chen
Apakah had transaksi untuk pengguna asing di Alipay?
4 minggu yang lalu By 下次还敢

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial PHP
1504
276
Python Django membentuk contoh Python Django membentuk contoh Jul 27, 2025 am 02:50 AM

Pertama, tentukan borang hubungan yang mengandungi nama, peti mel dan medan mesej; 2. Dalam pandangan, penyerahan borang diproses dengan menilai permintaan pos, dan selepas pengesahan diluluskan, dibersihkan_data diperoleh dan respons dikembalikan, jika tidak, borang kosong akan diberikan; 3. Dalam templat, gunakan {{form.as_p}} untuk menjadikan medan dan tambah {%csrf_token%} untuk mencegah serangan CSRF; 4. Konfigurasi penghalaan URL ke titik / kenalan / ke paparan contac_view; Gunakan ModelForm untuk mengaitkan model secara langsung untuk mencapai storan data. Djangoforms melaksanakan pemprosesan bersepadu pengesahan data, rendering dan ralat HTML, yang sesuai untuk perkembangan cepat fungsi bentuk selamat.

Mengoptimumkan python untuk operasi terikat memori Mengoptimumkan python untuk operasi terikat memori Jul 28, 2025 am 03:22 AM

Pythoncanbeoptimizedformemory-boundoperationsbyreducingoverheadthroughgenerators, efisiendataStructures, danManagingObjectlifetimes.first, useGeneratorsInsteadofListStoprocesslargedataSetSoneiteMatime, mengelakkan muat turun muat turun, coose

Python Sambung ke SQL Server PyoDBC Contoh Python Sambung ke SQL Server PyoDBC Contoh Jul 30, 2025 am 02:53 AM

Pasang PYODBC: Gunakan perintah PipinstallPyoDBC untuk memasang perpustakaan; 2. Sambungkan SQLServer: Gunakan rentetan sambungan yang mengandungi pemacu, pelayan, pangkalan data, uid/pwd atau aman 3. Semak pemacu yang dipasang: Jalankan pyodbc.drivers () dan tapis nama pemacu yang mengandungi 'SQLServer' untuk memastikan nama pemacu yang betul digunakan seperti 'ODBCDriver17 untuk SQLServer'; 4. Parameter utama rentetan sambungan

Contoh Python Shutil Rmtree Contoh Python Shutil Rmtree Aug 01, 2025 am 05:47 AM

shutil.rmtree () adalah fungsi dalam python yang secara rekursif memadam seluruh pokok direktori. Ia boleh memadam folder yang ditentukan dan semua kandungan. 1. Penggunaan Asas: Gunakan shutil.rmtree (Path) untuk memadam direktori, dan anda perlu mengendalikan fileNotFoundError, PermissionError dan pengecualian lain. 2. Aplikasi Praktikal: Anda boleh membersihkan folder yang mengandungi subdirektori dan fail dalam satu klik, seperti data sementara atau direktori cache. 3. Nota: Operasi penghapusan tidak dipulihkan; FileNotFoundError dilemparkan apabila jalan tidak wujud; Ia mungkin gagal kerana kebenaran atau pekerjaan fail. 4.

python iter dan contoh seterusnya python iter dan contoh seterusnya Jul 29, 2025 am 02:20 AM

iter () digunakan untuk mendapatkan objek iterator, dan seterusnya () digunakan untuk mendapatkan elemen seterusnya; 1. Gunakan Iterator () untuk menukar objek yang boleh dimatikan seperti senarai ke dalam iterator; 2. Panggil seterusnya () untuk mendapatkan unsur -unsur satu demi satu, dan mencetuskan pengecualian berhenti apabila unsur -unsur habis; 3. Gunakan seterusnya (iterator, lalai) untuk mengelakkan pengecualian; 4. Iterator tersuai perlu melaksanakan kaedah __iter __ () dan __Next __ () untuk mengawal logik lelaran; Menggunakan nilai lalai adalah cara yang sama untuk traversal selamat, dan keseluruhan mekanisme adalah ringkas dan praktikal.

Apakah arbitraj statistik dalam kriptografi? Bagaimana arbitraj statistik berfungsi? Apakah arbitraj statistik dalam kriptografi? Bagaimana arbitraj statistik berfungsi? Jul 30, 2025 pm 09:12 PM

Pengenalan kepada arbitraj statistik statistik adalah kaedah perdagangan yang menangkap ketidakcocokan harga dalam pasaran kewangan berdasarkan model matematik. Falsafah terasnya berasal dari regresi min, iaitu, harga aset boleh menyimpang dari trend jangka panjang dalam jangka pendek, tetapi akhirnya akan kembali ke purata sejarah mereka. Peniaga menggunakan kaedah statistik untuk menganalisis korelasi antara aset dan mencari portfolio yang biasanya berubah serentak. Apabila hubungan harga aset -aset ini tidak dapat disimpulkan, peluang arbitraj timbul. Dalam pasaran cryptocurrency, arbitraj statistik terutamanya lazim, terutamanya disebabkan oleh ketidakcekapan dan turun naik drastik pasaran itu sendiri. Tidak seperti pasaran kewangan tradisional, kriptografi beroperasi sepanjang masa dan harga mereka sangat terdedah kepada berita, sentimen media sosial dan peningkatan teknologi. Turun naik harga yang berterusan ini kerap mencipta kecenderungan harga dan memberikan arbitrageurs dengan

Contoh Kolam Sambungan Python PsycopG2 Contoh Kolam Sambungan Python PsycopG2 Jul 28, 2025 am 03:01 AM

Gunakan psycopg2.pool.simpleConnectionPool untuk menguruskan sambungan pangkalan data dengan berkesan dan mengelakkan overhead prestasi yang disebabkan oleh penciptaan dan kemusnahan sambungan yang kerap. 1. Apabila membuat kolam sambungan, tentukan bilangan minimum dan maksimum sambungan sambungan dan pangkalan data untuk memastikan bahawa kolam sambungan diasaskan dengan jayanya; 2. Dapatkan sambungan melalui getConn (), dan gunakan PutConn () untuk mengembalikan sambungan ke kolam selepas melaksanakan operasi pangkalan data. Sentiasa panggil conn.close () dilarang; 3. SimpleConnectionPool adalah benang selamat dan sesuai untuk persekitaran berbilang threaded; 4. Adalah disyorkan untuk melaksanakan pengurus konteks dalam kombinasi dengan Pengurus Konteks untuk memastikan sambungan dapat dikembalikan dengan betul apabila pengecualian diperhatikan;

Bagaimana untuk melaksanakan pertanyaan SQL di Python? Bagaimana untuk melaksanakan pertanyaan SQL di Python? Aug 02, 2025 am 01:56 AM

Pasang pemacu pangkalan data yang sepadan; 2. Gunakan Connect () untuk menyambung ke pangkalan data; 3. Buat objek kursor; 4. Gunakan melaksanakan () atau executemany () untuk melaksanakan SQL dan menggunakan pertanyaan parameter untuk mengelakkan suntikan; 5. Gunakan Fetchall (), dan sebagainya untuk mendapatkan hasil; 6. komit () diperlukan selepas pengubahsuaian; 7. Akhirnya, tutup sambungan atau gunakan pengurus konteks untuk mengendalikannya secara automatik; Proses lengkap memastikan operasi SQL selamat dan cekap.

See all articles