> 백엔드 개발 > 파이썬 튜토리얼 > Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?

Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?

Mary-Kate Olsen
풀어 주다: 2024-11-30 10:14:11
원래의
739명이 탐색했습니다.

Why is Populating a Pandas DataFrame Row-by-Row Inefficient, and What's a Better Approach?

빈 Pandas DataFrame 생성 및 채우기

개념적으로는 빈 DataFrame을 생성하여 시작한 다음 점진적으로 값으로 채우는 것이 좋습니다. . 그러나 이 접근 방식은 비효율적이며 성능 문제를 일으키기 쉽습니다.

행 단위로 DataFrame을 확장할 때의 함정

빈 DataFrame에 행을 반복적으로 추가하는 것은 계산 비용이 많이 듭니다. . 동적 메모리 할당 및 재할당이 필요하기 때문에 2차 복잡도 작업이 발생합니다. 이는 특히 대규모 데이터 세트를 처리할 때 성능에 심각한 영향을 미칠 수 있습니다.

대체 접근 방식: 목록에 데이터 누적

DataFrame을 행 단위로 늘리는 대신 목록에 데이터를 축적하는 것이 좋습니다. 여기에는 여러 가지 장점이 있습니다.

  • 더 효율적이고 훨씬 빠릅니다.
  • 목록은 DataFrame에 비해 메모리 공간이 더 작습니다.
  • 데이터 유형이 자동으로 추론됩니다. 수동 조정이 필요하지 않습니다.
  • 목록은 메모리를 변경하지 않고 추가 작업을 지원합니다. 할당.

목록에서 DataFrame 생성

목록에 데이터가 쌓이면 pd를 사용하여 목록을 변환하면 DataFrame을 쉽게 생성할 수 있습니다. .데이터프레임(). 이렇게 하면 적절한 데이터 유형 추론이 보장되고 DataFrame에 대한 RangeIndex 설정이 자동화됩니다.

질문에 설명된 시나리오를 고려해보세요. 다음 코드는 목록에 데이터를 축적한 다음 DataFrame을 생성하는 방법을 보여줍니다.

import pandas as pd

data = []
dates = [pd.to_datetime(f"2023-08-{day}") for day in range(10, 0, -1)]

valdict = {'A': [], 'B': [], 'C': []}  # Initialize symbol value lists

for date in dates:
    for symbol in valdict:
        if date == dates[0]:
            valdict[symbol].append(0)
        else:
            valdict[symbol].append(1 + valdict[symbol][-1])

# Create a DataFrame from the accumulated data
df = pd.DataFrame(valdict, index=dates)
로그인 후 복사

이 접근 방식을 사용하면 성능 오버헤드나 개체 열에 대한 우려 없이 효율적인 데이터 축적과 원활한 DataFrame 생성이 보장됩니다.

위 내용은 Pandas DataFrame을 행별로 채우는 것이 왜 비효율적이며 더 나은 접근 방식은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿