Python의 Pandas 라이브러리를 통한 CDN 로그 분석에 대한 자세한 설명-파이썬 튜토리얼-php.cn

서문

최근 직장에서 트래픽, 상태 코드 통계, TOP IP, URL 등 일부 데이터를 CDN 로그 기반으로 필터링해야 하는 필요성이 생겼습니다. , UA , 리퍼러 등 예전에는 이를 구현하기 위해 bash shell을 사용했는데, 로그 볼륨이 크고, 로그 파일의 개수가 기가바이트에 이르고, 라인 수도 수백억 개에 달하게 되면, shell을 통한 처리만으로는 부족하고 처리량이 많아진다. 시간이 너무 깁니다. 그래서 데이터 처리 라이브러리인 Python pandas의 사용법을 연구했습니다. 천만 줄의 로그가 약 40초 만에 처리됩니다.

코드

#!/usr/bin/python
# -*- coding: utf-8 -*-
# sudo pip install pandas
__author__ = &#39;Loya Chen&#39;
import sys
import pandas as pd
from collections import OrderedDict
"""
Description: This script is used to analyse qiniu cdn log.
================================================================================
日志格式
IP - ResponseTime [time +0800] "Method URL HTTP/1.1" code size "referer" "UA"
================================================================================
日志示例
 [0] [1][2]  [3]  [4]   [5]
101.226.66.179 - 68 [16/Nov/2016:04:36:40 +0800] "GET //m.sbmmt.com/ -" 
[6] [7] [8]    [9]
200 502 "-" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
================================================================================
"""
if len(sys.argv) != 2:
 print(&#39;Usage:&#39;, sys.argv[0], &#39;file_of_log&#39;)
 exit() 
else:
 log_file = sys.argv[1] 
# 需统计字段对应的日志位置 
ip  = 0
url  = 5
status_code = 6
size = 7
referer = 8
ua  = 9
# 将日志读入DataFrame
reader = pd.read_table(log_file, sep=&#39; &#39;, names=[i for i in range(10)], iterator=True)
loop = True
chunkSize = 10000000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 #Iteration is stopped.
 loop = False
df = pd.concat(chunks, ignore_index=True)
byte_sum = df[size].sum()        #流量统计
top_status_code = pd.DataFrame(df[6].value_counts())      #状态码统计
top_ip  = df[ip].value_counts().head(10)      #TOP IP
top_referer = df[referer].value_counts().head(10)      #TOP Referer
top_ua  = df[ua].value_counts().head(10)      #TOP User-Agent
top_status_code[&#39;persent&#39;] = pd.DataFrame(top_status_code/top_status_code.sum()*100)
top_url  = df[url].value_counts().head(10)      #TOP URL
top_url_byte = df[[url,size]].groupby(url).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最大的URL
top_ip_byte = df[[ip,size]].groupby(ip).sum().apply(lambda x:x.astype(float)/1024/1024) \
   .round(decimals = 3).sort_values(by=[size], ascending=False)[size].head(10) #请求流量最多的IP
# 将结果有序存入字典
result = OrderedDict([("流量总计[单位:GB]:"   , byte_sum/1024/1024/1024),
   ("状态码统计[次数|百分比]:"  , top_status_code),
   ("IP TOP 10:"    , top_ip),
   ("Referer TOP 10:"   , top_referer),
   ("UA TOP 10:"    , top_ua),
   ("URL TOP 10:"   , top_url),
   ("请求流量最大的URL TOP 10[单位:MB]:" , top_url_byte), 
   ("请求流量最大的IP TOP 10[单位:MB]:" , top_ip_byte)
])
# 输出结果
for k,v in result.items():
 print(k)
 print(v)
 print(&#39;=&#39;*80)

로그인 후 복사

pandas 학습 노트

Pandas에는 Series와 Dataframe의 두 가지 기본 데이터 구조가 있습니다. . 시리즈(Series)는 데이터 세트와 인덱스로 구성된 1차원 배열과 유사한 객체입니다. 데이터프레임은 행 및 열 인덱스가 모두 포함된 테이블 형식 데이터 구조입니다.

from pandas import Series, DataFrame
import pandas as pd

로그인 후 복사

Series

In [1]: obj = Series([4, 7, -5, 3])
In [2]: obj
Out[2]: 
0 4
1 7
2 -5
3 3

로그인 후 복사

Series의 문자열 표현은 인덱스가 왼쪽에 있고 값이 오른쪽에 있습니다. 인덱스를 지정하지 않으면 0부터 N-1(N은 데이터의 길이) 범위의 정수 인덱스가 자동으로 생성됩니다. 배열 표현과 인덱스 객체는 시리즈의 값과 인덱스 속성을 통해 얻을 수 있습니다:

In [3]: obj.values
Out[3]: array([ 4, 7, -5, 3])
In [4]: obj.index
Out[4]: RangeIndex(start=0, stop=4, step=1)

로그인 후 복사

일반적으로 인덱스는 시리즈를 생성할 때 지정됩니다:

In [5]: obj2 = Series([4, 7, -5, 3], index=[&#39;d&#39;, &#39;b&#39;, &#39;a&#39;, &#39;c&#39;])
In [6]: obj2
Out[6]: 
d 4
b 7
a -5
c 3

로그인 후 복사

단일 또는 인덱스를 통해 시리즈의 값 그룹:

In [7]: obj2[&#39;a&#39;]
Out[7]: -5
In [8]: obj2[[&#39;c&#39;,&#39;d&#39;]]
Out[8]: 
c 3
d 4

로그인 후 복사

정렬

In [9]: obj2.sort_index()
Out[9]: 
a -5
b 7
c 3
d 4
In [10]: obj2.sort_values()
Out[10]: 
a -5
c 3
d 4
b 7

로그인 후 복사

필터 작업

In [11]: obj2[obj2 > 0]
Out[11]: 
d 4
b 7
c 3
In [12]: obj2 * 2
Out[12]: 
d 8
b 14
a -10
c 6

로그인 후 복사

Member

In [13]: &#39;b&#39; in obj2
Out[13]: True
In [14]: &#39;e&#39; in obj2
Out[14]: False

로그인 후 복사

사전에서 시리즈 만들기

In [15]: sdata = {&#39;Shanghai&#39;:35000, &#39;Beijing&#39;:40000, &#39;Nanjing&#39;:26000, &#39;Hangzhou&#39;:30000}
In [16]: obj3 = Series(sdata)
In [17]: obj3
Out[17]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000

로그인 후 복사

사전 하나만 전달되면 결과 시리즈의 인덱스가 원래 사전의 키(순서정렬)가 됩니다.

In [18]: states = [&#39;Beijing&#39;, &#39;Hangzhou&#39;, &#39;Shanghai&#39;, &#39;Suzhou&#39;]
In [19]: obj4 = Series(sdata, index=states)
In [20]: obj4
Out[20]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN

로그인 후 복사

인덱스가 지정되면 sdata의 세 값 States index와 일치하는 것을 찾아 응답 위치에 배치하지만 'Suzhou'에 해당하는 sdata 값을 찾을 수 없으므로 결과는 NaN(숫자가 아님)을 표현하는 데 사용되는 pandas의 isnull 및 notnull 함수입니다. 누락 또는 NA 값

pandas를 사용하여 누락된 데이터를 감지할 수 있습니다:

In [21]: pd.isnull(obj4)
Out[21]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True
In [22]: pd.notnull(obj4)
Out[22]: 
Beijing True
Hangzhou True
Shanghai True
Suzhou False

로그인 후 복사

Series에도 비슷한 인스턴스 메서드가 있습니다.

In [23]: obj4.isnull()
Out[23]: 
Beijing False
Hangzhou False
Shanghai False
Suzhou True

로그인 후 복사

Series의 중요한 기능은 자동으로 정렬하는 것입니다. 데이터 작업 중 인덱스가 다른 데이터

In [24]: obj3
Out[24]: 
Beijing 40000
Hangzhou 30000
Nanjing 26000
Shanghai 35000
In [25]: obj4
Out[25]: 
Beijing 40000.0
Hangzhou 30000.0
Shanghai 35000.0
Suzhou  NaN
In [26]: obj3 + obj4
Out[26]: 
Beijing 80000.0
Hangzhou 60000.0
Nanjing  NaN
Shanghai 70000.0
Suzhou  NaN

로그인 후 복사

시리즈의 인덱스는

In [27]: obj.index = [&#39;Bob&#39;, &#39;Steve&#39;, &#39;Jeff&#39;, &#39;Ryan&#39;]
In [28]: obj
Out[28]: 
Bob 4
Steve 7
Jeff -5
Ryan 3

로그인 후 복사

DataFrame

을 복사하여 그 자리에서 수정할 수 있습니다. pandas는 파일을 읽습니다.

In [29]: df = pd.read_table(&#39;pandas_test.txt&#39;,sep=&#39; &#39;, names=[&#39;name&#39;, &#39;age&#39;])
In [30]: df
Out[30]: 
 name age
0 Bob 26
1 Loya 22
2 Denny 20
3 Mars 25

로그인 후 복사

DataFrame 열 선택

df[name]

로그인 후 복사

rrree

DataFrame 행 선택

In [31]: df[&#39;name&#39;]
Out[31]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

로그인 후 복사

df.iloc[0,:] #第一个参数是第几行，第二个参数是列。这里指第0行全部列
df.iloc[:,0] #全部行，第0列

로그인 후 복사

요소를 얻으려면 iloc을 사용할 수 있으며, 더 빠른 방법은 iat

In [32]: df.iloc[0,:]
Out[32]: 
name Bob
age 26
Name: 0, dtype: object
In [33]: df.iloc[:,0]
Out[33]: 
0 Bob
1 Loya
2 Denny
3 Mars
Name: name, dtype: object

로그인 후 복사

DataFrame입니다. 블록 선택

In [34]: df.iloc[1,1]
Out[34]: 22
In [35]: df.iat[1,1]
Out[35]: 22

로그인 후 복사

조건에 따라 행 필터링

행을 필터링하려면 대괄호 안에 판단 조건을 추가하세요.

In [36]: df.loc[1:2,[&#39;name&#39;,&#39;age&#39;]]
Out[36]: 
 name age
1 Loya 22
2 Denny 20

로그인 후 복사

열 추가

In [37]: df[(df.index >= 1) & (df.index <= 3)]
Out[37]: 
 name age city
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing
In [38]: df[df[&#39;age&#39;] > 22]
Out[38]: 
 name age city
0 Bob 26 Beijing
3 Mars 25 Nanjing

로그인 후 복사

정렬

지정된 열 기준 정렬

In [39]: df[&#39;city&#39;] = [&#39;Beijing&#39;, &#39;Shanghai&#39;, &#39;Hangzhou&#39;, &#39;Nanjing&#39;]
In [40]: df
Out[40]: 
 name age city
0 Bob 26 Beijing
1 Loya 22 Shanghai
2 Denny 20 Hangzhou
3 Mars 25 Nanjing

로그인 후 복사

In [41]: df.sort_values(by=&#39;age&#39;)
Out[41]: 
 name age city
2 Denny 20 Hangzhou
1 Loya 22 Shanghai
3 Mars 25 Nanjing
0 Bob 26 Beijing

로그인 후 복사

# 引入numpy 构建 DataFrame
import numpy as np

로그인 후 복사

In [42]: df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=[&#39;three&#39;, &#39;one&#39;], columns=[&#39;d&#39;, &#39;a&#39;, &#39;b&#39;, &#39;c&#39;])
In [43]: df
Out[43]: 
 d a b c
three 0 1 2 3
one 4 5 6 7

로그인 후 복사

보기

# 以索引排序
In [44]: df.sort_index()
Out[44]: 
 d a b c
one 4 5 6 7
three 0 1 2 3
In [45]: df.sort_index(axis=1)
Out[45]: 
 a b c d
three 1 2 3 0
one 5 6 7 4
# 降序
In [46]: df.sort_index(axis=1, ascending=False)
Out[46]: 
 d c b a
three 0 3 2 1
one 4 7 6 5

로그인 후 복사

전치

# 查看表头5行 
df.head(5)
# 查看表末5行
df.tail(5) 
# 查看列的名字
In [47]: df.columns
Out[47]: Index([&#39;name&#39;, &#39;age&#39;, &#39;city&#39;], dtype=&#39;object&#39;)
# 查看表格当前的值
In [48]: df.values
Out[48]: 
array([[&#39;Bob&#39;, 26, &#39;Beijing&#39;],
 [&#39;Loya&#39;, 22, &#39;Shanghai&#39;],
 [&#39;Denny&#39;, 20, &#39;Hangzhou&#39;],
 [&#39;Mars&#39;, 25, &#39;Nanjing&#39;]], dtype=object)

로그인 후 복사

isin

df.T
Out[49]: 
  0  1  2 3
name Bob Loya Denny Mars
age 26 22 20 25
city Beijing Shanghai Hangzhou Nanjing

로그인 후 복사

작업 사용 :

In [50]: df2 = df.copy()
In [51]: df2[df2[&#39;city&#39;].isin([&#39;Shanghai&#39;,&#39;Nanjing&#39;])]
Out[52]: 
 name age city
1 Loya 22 Shanghai
3 Mars 25 Nanjing

로그인 후 복사

In [53]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
 ...:    index=[&#39;a&#39;, &#39;b&#39;, &#39;c&#39;, &#39;d&#39;], columns=[&#39;one&#39;, &#39;two&#39;])
In [54]: df
Out[54]: 
 one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3

로그인 후 복사

그룹

그룹은 다음 단계를 의미합니다.

일부 기준에 따라 데이터를 그룹으로 분할
각 그룹에 독립적으로 함수 적용
결과를 데이터 구조로 결합

참조 그룹화 섹션

#按列求和
In [55]: df.sum()
Out[55]: 
one 9.25
two -5.80
# 按行求和
In [56]: df.sum(axis=1)
Out[56]: 
a 1.40
b 2.60
c NaN
d -0.55

로그인 후 복사

그룹화하고 합계 함수 적용

In [57]: df = pd.DataFrame({&#39;A&#39; : [&#39;foo&#39;, &#39;bar&#39;, &#39;foo&#39;, &#39;bar&#39;,
 ....:    &#39;foo&#39;, &#39;bar&#39;, &#39;foo&#39;, &#39;foo&#39;],
 ....:   &#39;B&#39; : [&#39;one&#39;, &#39;one&#39;, &#39;two&#39;, &#39;three&#39;,
 ....:    &#39;two&#39;, &#39;two&#39;, &#39;one&#39;, &#39;three&#39;],
 ....:   &#39;C&#39; : np.random.randn(8),
 ....:   &#39;D&#39; : np.random.randn(8)})
 ....: 
In [58]: df
Out[58]: 
 A B  C  D
0 foo one -1.202872 -0.055224
1 bar one -1.814470 2.395985
2 foo two 1.018601 1.552825
3 bar three -0.595447 0.166599
4 foo two 1.395433 0.047609
5 bar two -0.392670 -0.136473
6 foo one 0.007207 -0.561757
7 foo three 1.928123 -1.623033

로그인 후 복사

Python의 pandas 라이브러리를 통한 cdn 로그 분석에 대한 자세한 설명은 PHP 중국어 웹사이트를 참고하세요!