팬더 및 Scipy를 사용한 다중 열 T- 테스트
이 기사에서는 Pandas 및 Scipy 라이브러리를 사용하여 Pandas 데이터 프레임에서 여러 열을 T- 테스트하는 방법에 대해 설명합니다. 샘플 코드를 통해 특정 그룹에서 T- 검정을 수행하는 방법을 자세히 보여주고 더 많은 그룹에 방법을 일반화하는 솔루션을 제공합니다. 또한 여러 비교를 수행 할 때주의를 기울여야하는 문제와 여러 검사 문제를 처리하는 방법도 상기시켜줍니다.
팬더 및 Scipy를 사용한 다중 열 T- 테스트
T 테스트는 일반적으로 사용되는 통계적 방법으로 두 데이터 세트의 평균에 상당한 차이가 있는지 비교합니다. 데이터 분석에서는 숫자 변수에 대한 다양한 범주의 변수의 영향을 평가하기 위해 데이터 프레임의 여러 열에서 t- 검정을 수행해야합니다. 이 기사는 팬더 및 Scipy 라이브러리를 사용하여이를 효율적으로 달성하는 방법을 설명합니다.
단일 T 테스트
먼저 샘플 데이터 프레임을 만듭니다.
팬더를 PD로 가져옵니다 scipy.stats에서 ttest_ind를 가져옵니다 data = { 'product': [ '랩톱', '프린터', '프린터', '프린터', '노트북', '노트북', '노트북', '노트북', '노트북', '노트북', '프린터'], '구매 _cost': [120.09, 150.45, 300.12, 450.11, 200.55, 175.89, 124.12, 113.12, 143.33, 375.65], '보증 _years': [3,2,2,1,4,1,2,3,1,2], 'service_cost': [5,5,10,4,7,10,4,6,12,3] } df = pd.dataframe (데이터) 인쇄 (DF)
제품이 '노트북'과 '프린터'인 두 세트의 데이터 사이의 구매 차이를 비교한다고 가정 해 봅시다. 다음 코드를 사용할 수 있습니다.
#샘플을 정의하십시오 group1 = df [df [ 'product'] == ''laptop '] group2 = df [df [ 'product'] == ''프린터 '] #독립적 인 두 개의 샘플 t- 검정 성능 ttest_ind (group1 [ 'buying_cost'], group2 [ 'buy_cost']))
이 코드는 먼저 제품 열의 값을 기반으로 데이터 프레임을 두 그룹으로 나눈 다음 Scipy.stats.ttest_ind 함수를 사용하여 두 그룹의 구매 _cost 열에서 독립적 인 샘플 t- 테스트를 수행합니다.
여러 열에서 동시에 t- 검정
여러 열 (예 : 구매 _cost, 보증 _years 및 service_cost)을 동시에 t- 테스트 해야하는 경우 다음 코드를 사용할 수 있습니다.
cols = df.columns.difference ([ 'product']) # 또는 명시 적 목록이 있습니다 # cols = [ '구매 _cost', '보증 _years', 'service_cost']]]] group1 = df [df [ 'product'] == ''laptop '] group2 = df [df [ 'product'] == ''프린터 '] out = pd.dataframe (ttest_ind (group1 [cols], group2 [cols]), columns = cols, index = [ '통계', 'pvalue']))) 인쇄 (out)
이 코드는 먼저 t- 검정 cols로 수행 해야하는 열 이름 목록을 가져온 다음 데이터 프레임을 두 그룹으로 나눕니다. 핵심은 ttest_ind 함수가 2D 입력을 직접 처리 할 수 있다는 것입니다. 마지막으로, 결과는 쉽게 볼 수 있도록 새로운 데이터 프레임에 저장됩니다.
이를 구현하는 또 다른 방법은 사전 도출을 사용하는 것입니다.
out = pd.dataframe ({c : ttest_ind (group1 [c], group2 [c]), cols}, index = [ '통계', 'pvalue'])))
이 접근법은 더 간결하지만 읽기 쉽지 않을 수 있습니다.
더 많은 그룹으로 홍보하십시오
데이터 프레임에 더 다른 제품 값이 포함되어 있고 가능한 모든 조합을 비교하려면 itertools.combinations 기능을 사용할 수 있습니다.
IterTools에서 가져 오기 조합 cols = df.columns.difference ([ 'product']) g = df.groupby ( '제품') [cols] out = pd.concat ({(a, b) : pd.dataframe (ttest_ind (g.get_group (a), g.get_group (b)), columns = cols, index = [ '통계', 'pvalue']))) 조합의 a, b의 경우 (df [ 'product']. 고유 한 (), 2) }, names = [ 'product1', 'product2'])) 인쇄 (out)
이 코드는 먼저 GroupBy 함수를 사용하여 제품 열별로 데이터 프레임을 그룹화 한 다음 itertools.combinations 함수를 사용하여 가능한 모든 조합을 생성합니다. 각 조합에 대해 T- 테스트를 수행하고 결과를 새로운 데이터 프레임에 저장합니다.
주목해야 할 것
다중 비교를 수행 할 때 여러 테스트 문제에주의를 기울여야합니다. 우리는 여러 t 테스트를 수행했기 때문에 오 탐지의 확률이 증가했습니다. 이 문제를 해결하기 위해 Bonferroni 보정 또는 Benjamini-Hochberg 보정과 같은 몇 가지 다중 테스트 보정 방법을 사용할 수 있습니다. 이러한 보정 방법은 F- 값을 조정하여 오 탐지율을 제어 할 수 있습니다.
요약
이 기사에서는 Pandas 및 Scipy 라이브러리를 사용하여 Pandas 데이터 프레임에서 여러 열을 T- 테스트하는 방법에 대해 설명합니다. 샘플 코드를 통해 특정 그룹에서 T- 검정을 수행하는 방법을 자세히 보여주고 더 많은 그룹에 방법을 일반화하는 솔루션을 제공합니다. 또한 여러 비교를 수행 할 때주의를 기울여야하는 문제도 상기시켜줍니다. 이러한 기술을 마스터하면 데이터 분석을보다 효율적으로 수행하는 데 도움이 될 수 있습니다.
위 내용은 팬더 및 Scipy를 사용한 다중 열 T- 테스트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undress AI Tool
무료로 이미지를 벗다

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Stock Market GPT
더 현명한 결정을 위한 AI 기반 투자 연구

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

종속성 패키지를 설치하려면 pipinstall-rrequirements.txt를 실행하십시오. 충돌을 피하고, 파일 경로가 올바른지 확인하고 PIP가 업데이트되었는지 확인하고 필요한 경우 설치 동작을 조정하기 위해-no-deps 또는 --user와 같은 옵션을 사용하는 것이 좋습니다.

이 튜토리얼은 PEFT LORA 어댑터를 기본 모델과 효율적으로 병합하여 완전히 독립적 인 모델을 생성하는 방법을 자세히 설명합니다. 이 기사는 변압기를 직접 사용하는 것이 잘못되었음을 지적합니다. Aumodel은 어댑터를로드하고 가중치를 수동으로 병합하고 PEFT 라이브러리에서 MERGE_AND_UNLOAD 방법을 사용하는 올바른 프로세스를 제공합니다. 또한 튜토리얼은 워드 세그먼트를 다루는 것의 중요성을 강조하고 PEFT 버전 호환성 문제 및 솔루션에 대해 설명합니다.

Python은 Python의 간단하고 강력한 테스트 도구입니다. 설치 후 테스트 파일은 이름 지정 규칙에 따라 자동으로 발견됩니다. 어설 션 테스트를 위해 test_로 시작하여 기능을 작성하고 @pytest.fixture를 사용하여 재사용 가능한 테스트 데이터를 생성하고 pytest.raises를 통해 예외를 확인하고 지정된 테스트 실행 및 여러 명령 줄 옵션을 지원하며 테스트 효율성을 향상시킵니다.

theargparsemoduleisecomedendedway handlecommand-lineargumentsinpython, robustparsing, typevalidation, helpmessages, anderrorhandling; audys.argvforsimplecaseSrequiringMinimalSetup을 제공합니다.

이 기사는 Python과 Numpy의 부동 소수점 수의 부동 소수 계산 정확도의 일반적인 문제를 탐색하는 것을 목표로하며, 근본 원인은 표준 64 비트 플로팅 포인트 수의 표현 제한에 있다고 설명합니다. 더 높은 정확도가 필요한 컴퓨팅 시나리오의 경우,이 기사는 독자가 복잡한 정확도 요구를 해결하기위한 올바른 도구를 선택할 수 있도록 MPMATH, Sympy 및 GMPY와 같은 고정밀 수학 라이브러리의 사용 방법, 기능 및 해당 시나리오를 소개하고 비교합니다.

PYPDF2, PDFPLAMBER 및 FPDF는 Python이 PDF를 처리하기위한 핵심 라이브러리입니다. PYPDF2를 사용하여 PDFREADER를 통해 페이지를 읽고 extract_text ()를 호출하려면 텍스트 추출, 병합, 분할 및 암호화를 수행하십시오. PDFPlumber는 레이아웃 텍스트 추출 및 테이블 인식을 유지하는 데 더 적합하며 TABLE 데이터를 정확하게 캡처하기 위해 Extract_Tables ()를 지원합니다. FPDF (권장 FPDF2)는 PDF를 생성하는 데 사용되며 문서는 add_page (), set_font () 및 cell ()을 통해 구축 및 출력됩니다. pdfs를 병합 할 때 pdfwriter의 append () 메소드는 여러 파일을 통합 할 수 있습니다.

import@contextManagerFromContextLibandDefineAgeneratorFunctionThatYieldSActlyOnce, whereCodeBeforeYieldActSasEnterAndErandCodeftertyield (바람직하게는) ACTSAS__EXIT __

현재 시간을 얻는 것은 DateTime 모듈을 통해 Python에서 구현할 수 있습니다. 1. DateTime.now ()를 사용하여 로컬 현재 시간을 얻으십시오. utcnow () 및 일일 작업은 Datetime.now ()를 형식의 문자열과 결합하여 요구를 충족시킬 수 있습니다.
