소개:
조인 조건 및 날짜 제약 조건을 기반으로 데이터 프레임을 병합하는 것은 데이터 분석의 일반적인 작업. Pandas는 다양한 병합 옵션을 제공하지만 병합 프로세스 중에 필터링을 통해 성능을 최적화하면 대규모 중간 데이터 프레임 처리를 방지하는 데 도움이 될 수 있습니다. 이 문서에서는 이러한 효율성을 달성하기 위해 SQL을 사용하는 대체 접근 방식에 대해 설명합니다.
필터링을 사용한 병합:
제공된 코드 조각은 pd를 사용하여 두 개의 데이터 프레임 A와 B를 병합하는 방법을 보여줍니다. merge() 함수를 사용한 후 날짜 조건에 따라 결과를 필터링합니다. 그러나 이 접근 방식은 필터링 전에 생성된 중간 데이터 프레임으로 인해 대규모 데이터 프레임으로 작업할 때 차선책일 수 있습니다.
대안으로서의 SQL:
SQL은 더 효율적인 방법을 제공합니다. 쿼리 자체 내에서 필터링을 사용하여 이 병합을 수행합니다. 인메모리 데이터베이스에 연결하면 조인 및 날짜 필터링을 한 단계로 수행하는 쿼리를 작성할 수 있습니다.
코드 예:
다음 코드는 설명합니다. SQL 접근 방식:
<code class="python">import pandas as pd import sqlite3 # Connect to in-memory database conn = sqlite3.connect(':memory:') # Write dataframes to tables terms.to_sql('terms', conn, index=False) presidents.to_sql('presidents', conn, index=False) war_declarations.to_sql('wars', conn, index=False) # SQL query qry = ''' select start_date PresTermStart, end_date PresTermEnd, wars.date WarStart, presidents.name Pres from terms join wars on date between start_date and end_date join presidents on terms.president_id = presidents.president_id ''' # Read SQL query results into dataframe df = pd.read_sql_query(qry, conn)</code>
결과:
결과 데이터 프레임 df에는 A의 날짜가 B의 날짜 조건과 일치하는 행이 포함됩니다. 이 특정 예에서는 , 두 번의 전쟁이 선포된 대통령과 임기를 반환합니다.
장점:
이 접근 방식은 다음과 같은 장점을 제공합니다.
위 내용은 SQL을 사용하여 날짜 제약 조건으로 DataFrame 병합을 어떻게 최적화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!