Python 程式碼最佳化技巧-Python教學-PHP中文網

Python 程式碼最佳化技巧

高洛峰

發布： 2016-11-21 16:47:18

原創

1275 人瀏覽過

程式碼最佳化Part1

分享最近看到的關於程式碼最佳化的一些技巧。

if 判斷的短路特性

對於and，應該把滿足條件少的放在前面，這樣當對於大量判斷時，滿足條件少的情況直接回導致其後其他表達式不會計算從而節約時間(因為False and True 還是False)

import timeit

s1 = """
a = range(2000)
[i for i in a if i % 2 ==0 and i > 1900]
"""

s2 = """
a = range(2000)
[i for i in a if  i > 1900 and i % 2 ==0]
"""

print timeit.timeit(stmt=s1, number=1000)
print timeit.timeit(stmt=s2, number=1000)

登入後複製

運行結果如下：

➜  python test6.py
0.248532056808
0.195827960968

# 可以看到s2 表达式计算更快， 因为大部分情况都不满足 i>1900, 所以这些情况下, i % 2 == 0 也没有计算，从而节约了时间

登入後複製

同理對於or，把滿足條件多的放在前面。

import timeit

s1 = """
a = range(2000)
[i for i in a if 10 < i <20 or 1000 < i < 2000]
"""

s2 = """
a = range(2000)
[i for i in a if 1000 < i < 2000 or 10 < i <20]
"""

print timeit.timeit(stmt=s1, number=1000)
print timeit.timeit(stmt=s2, number=1000)

登入後複製

運行結果:

0.253124952316
0.202992200851

登入後複製

join 合併字串

join 合併字串比循環使用 + 來合併要快。

import timeit

s1 = """
a = [str(x) for x in range(2000)]
s = &#39;&#39;
for i in a:
    s += i
"""

s2 = """
a = [str(x) for x in range(2000)]
s = &#39;&#39;.join(a)
"""

print timeit.timeit(stmt=s1, number=1000)
print timeit.timeit(stmt=s2, number=1000)

登入後複製

運行結果如下：

python test6.py

0.558945894241
0.422435998917

登入後複製

while 1 和while True

在python2.x裡， True 和False 不是保留的關鍵字，是一個全局變量，這意味著你可以這樣

>>> True = 0
>>> True
0
>>> if not True:
...   print &#39;1&#39;
...
1

登入後複製

所以下面這兩兩種情況:

import timeit

s1 = """
n = 1000000
while 1:
    n -= 1
    if n <= 0: break
"""

s2 = """
n = 1000000
while True:
    n -= 1
    if n <= 0: break
"""

print timeit.timeit(stmt=s1, number=100)
print timeit.timeit(stmt=s2, number=100)

登入後複製

運行結果如下：

➜  python test6.py
5.18007302284
6.84624099731

登入後複製

因為每次判斷 while True 的時候，先要去找出True的值。

在python3.x裡， True 變成了關鍵字參數，所以上述兩種情況就一樣了。

cProfile, cStringIO 和 cPickle

使用C語言的版本寫的擴充要比原生的要快。 cPickle vs pickle 如下：

import timeit

s1 = """
import cPickle
import pickle
n = range(10000)
cPickle.dumps(n)
"""

s2 = """
import cPickle
import pickle
n = range(10000)
pickle.dumps(n)
"""

print timeit.timeit(stmt=s1, number=100)
print timeit.timeit(stmt=s2, number=100)

登入後複製

運行結果如下：

➜ python test6.py
0.182178974152
1.70917797089

登入後複製

合理使用生成器

區別

使用()得到的是一個generator對象，所需要的內存空間與列表的大小無關，所以會高一些。

import timeit

s1 = """
[i for i in range (100000)]
"""

s2 = """
(i for i in range(100000))
"""

print timeit.timeit(stmt=s1, number=1000)
print timeit.timeit(stmt=s2, number=1000)

登入後複製

結果:

➜  python test6.py
5.44327497482
0.923446893692

登入後複製

但是對於需要循環遍歷的情況：使用迭代器效率反而不高，如下：

import timeit

s1 = """
ls = range(1000000)
def yield_func(ls):
    for i in ls:
        yield i+1
for x in yield_func(ls):
    pass
"""

s2 = """
ls = range(1000000)
def not_yield_func(ls):
    return [i+1 for i in ls]
for x in not_yield_func(ls):
    pass
"""

print timeit.timeit(stmt=s1, number=10)
print timeit.timeit(stmt=s2, number=10)

登入後複製

結果如下：

➜  python test6.py
1.03186702728
1.01472687721

登入後複製

所以使用生成器是一個權衡的結果，對於內存、速度綜合考慮的結果。

xrange

在python2.x里xrange 是纯C实现的生成器，相对于range来说，它不会一次性计算出所有值在内存中。但它的限制是只能和整型一起工作：你不能使用long或者float。

import 语句的开销

import语句有时候为了限制它们的作用范围或者节省初始化时间，被卸载函数内部，虽然python的解释器不会重复import同一个模块不会出错，但重复导入会影响部分性能。有时候为了实现懒加载（即使用的时候再加载一个开销很大的模块），可以这么做：

email = None

def parse_email():
    global email
    if email is None:
        import email
    ...

# 这样一来email模块仅会被引入一次，在parse_email()被第一次调用的时候。

登入後複製