소개 장에서는 MovieLens 1M 데이터 세트를 처리하는 예를 소개합니다. 이 책에서는 데이터 세트가 GroupLens Research()에서 제공된다고 소개합니다. 이 주소는 MovieLens 웹사이트에서 다양한 평가 데이터 세트를 제공하며 필요한 해당 MovieLens 1M 데이터 세트도 다운로드할 수 있습니다. . 안에.
다운로드하고 압축을 푼 폴더는 다음과 같습니다.
이 세 가지 dat 테이블이 예제에 사용됩니다. 제가 읽은 "데이터 분석을 위한 파이썬"의 중국어 버전(PDF)은 2014년 초판입니다. 안에 있는 예제는 모두 Python 2.7과 pandas 0.8.2를 기반으로 작성되었으며 저는 Python 3.5.2와 pandas 0.8을 설치했습니다. 2. pandas 0.20.2의 일부 기능과 메소드는 새 버전에서 변경된 매개변수이고 일부는 새 버전에서 더 이상 사용되지 않습니다. , 몇 가지 오류와 경고가 발생합니다. MovieLens 1M 데이터 세트 코드를 테스트할 때 나와 동일한 구성 환경에서 다음과 같은 문제에 직면하게 됩니다.
dat 데이터를 pandas DataFrame 개체로 읽을 때 책에 제공된 코드는 다음과 같습니다.
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames) rnames = ['user_id', 'movie_id', 'rating', 'timestamp'] ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames) mnames = ['movie_id', 'title', 'genres'] movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)
직접 실행하면 경고:
F:/python/HelloWorld/DataAnalysisByPython-1.py:4: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'. users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames) F:/python/HelloWorld/DataAnalysisByPython-1.py:7: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'. ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames) F:/python/HelloWorld/DataAnalysisByPython-1.py:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'. movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)
할 수도 있지만 실행되지만 완벽한 강박 장애로서 나는 여전히 이 경고를 해결하고 싶습니다. 이 경고는 'C' 엔진이 이를 지원하지 않기 때문에 'Python' 엔진으로만 대체할 수 있으며 pandas.read_table 메소드에 어떤 구문 분석 엔진을 설정하는 데 사용되는 엔진 매개변수가 있는지를 의미합니다. 'C'와 'Python'을 포함하여 사용하려면 이 두 가지 옵션이 필요합니다. 'C' 엔진에서는 지원하지 않기 때문에 엔진을 'Python'으로 설정하기만 하면 됩니다.
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine = 'python') rnames = ['user_id', 'movie_id', 'rating', 'timestamp'] ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine = 'python') mnames = ['movie_id', 'title', 'genres'] movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine = 'python')
Pivot_table 메소드를 사용하여 집계된 데이터에 대해 각 영화의 성별 평균 점수를 계산합니다. 책에 제공된 코드는 다음과 같습니다. , 다음 코드를 실행할 수 없습니다.
mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')
TypeError는 여기의 'rows' 매개변수가 메서드에서 사용할 수 있는 키워드 매개변수가 아님을 나타냅니다. 무슨 일이 일어나고 있나요? pandas API 사용 문서()를 확인하기 위해 공식 웹사이트에 갔는데, 버전 0.20.2에서
pandas.pivot_table의 키워드 매개변수가 변경되었기 때문이라는 것을 알았습니다. 동일한 효과를 얻으려면 행을 인덱스로 바꾸면 됩니다. . 동시에 cols 매개변수가 없으며 대신 열을 사용해야 합니다.Traceback (most recent call last): File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 19, in <module>mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean') TypeError: pivot_table() got an unexpected keyword argument 'rows'
mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
It입니다. 여기에만 표시됩니다. 경고는 프로그램을 방해하지 않습니다:
top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
이는 정렬을 위한 sort_index 방법이 향후 언어나 라이브러리에서 변경될 수 있음을 의미하므로 대신 sort_values를 사용하는 것이 좋습니다. API 사용 설명서에서 pandas.DataFrame.sort_index에 대한 설명은 "레이블별로 개체 정렬(축을 따라)"이고, pandas.DataFrame.sort_values에 대한 설명은 "양쪽 축을 따라 값을 기준으로 정렬"입니다. 둘 다 동일한 효과를 얻으려면 이를 sort_values로 바꾸겠습니다. sort_index는 다음 "점수 차이 계산
"에서도 사용되며, sort_values로 대체될 수도 있습니다.F:/python/HelloWorld/DataAnalysisByPython-1.py:32: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...) top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
Calculate Rating Divergence
"에서 점수 데이터의 표준편차를 계산한 후 필터링된 값을 기준으로 시리즈가 내림차순으로 정렬됩니다. 책의 코드는top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
这里的错误是:
Traceback (most recent call last): File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 47, in <module>print(rating_std_by_title.order(ascending=False)[:10]) File "E:\Program Files\Python35\lib\site-packages\pandas\core\generic.py", line 2970, in __getattr__return object.__getattribute__(self, name) AttributeError: 'Series' object has no attribute 'order'
居然已经没有这个order的方法了,只好去API文档中找替代的方法用。有两个,sort_index和sort_values,这和DataFrame中的方法一样,为了保险起见,我选择使用sort_values:
print(rating_std_by_title.sort_values(ascending=False)[:10]
得到的结果和数据展示的结果一样,可以放心使用。
第三方库不同版本间的差异还是挺明显的,建议是使用最新的版本,在使用时配合官网网站上的API使用文档,轻松解决各类问题~
위 내용은 데이터 분석을 위한 Python 학습 경로의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!