Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?-파이썬 튜토리얼-php.cn

Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?

Mary-Kate Olsen

풀어 주다： 2024-11-30 10:14:11

원래의

739명이 탐색했습니다.

Why is Populating a Pandas DataFrame Row-by-Row Inefficient, and What's a Better Approach?

빈 Pandas DataFrame 생성 및 채우기

개념적으로는 빈 DataFrame을 생성하여 시작한 다음 점진적으로 값으로 채우는 것이 좋습니다. . 그러나 이 접근 방식은 비효율적이며 성능 문제를 일으키기 쉽습니다.

행 단위로 DataFrame을 확장할 때의 함정

빈 DataFrame에 행을 반복적으로 추가하는 것은 계산 비용이 많이 듭니다. . 동적 메모리 할당 및 재할당이 필요하기 때문에 2차 복잡도 작업이 발생합니다. 이는 특히 대규모 데이터 세트를 처리할 때 성능에 심각한 영향을 미칠 수 있습니다.

대체 접근 방식: 목록에 데이터 누적

DataFrame을 행 단위로 늘리는 대신 목록에 데이터를 축적하는 것이 좋습니다. 여기에는 여러 가지 장점이 있습니다.

더 효율적이고 훨씬 빠릅니다.
목록은 DataFrame에 비해 메모리 공간이 더 작습니다.
데이터 유형이 자동으로 추론됩니다. 수동 조정이 필요하지 않습니다.
목록은 메모리를 변경하지 않고 추가 작업을 지원합니다. 할당.

목록에서 DataFrame 생성

목록에 데이터가 쌓이면 pd를 사용하여 목록을 변환하면 DataFrame을 쉽게 생성할 수 있습니다. .데이터프레임(). 이렇게 하면 적절한 데이터 유형 추론이 보장되고 DataFrame에 대한 RangeIndex 설정이 자동화됩니다.

예

질문에 설명된 시나리오를 고려해보세요. 다음 코드는 목록에 데이터를 축적한 다음 DataFrame을 생성하는 방법을 보여줍니다.

import pandas as pd

data = []
dates = [pd.to_datetime(f"2023-08-{day}") for day in range(10, 0, -1)]

valdict = {'A': [], 'B': [], 'C': []}  # Initialize symbol value lists

for date in dates:
    for symbol in valdict:
        if date == dates[0]:
            valdict[symbol].append(0)
        else:
            valdict[symbol].append(1 + valdict[symbol][-1])

# Create a DataFrame from the accumulated data
df = pd.DataFrame(valdict, index=dates)

로그인 후 복사

이 접근 방식을 사용하면 성능 오버헤드나 개체 열에 대한 우려 없이 효율적인 데이터 축적과 원활한 DataFrame 생성이 보장됩니다.

위 내용은 Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!