> 백엔드 개발 > 파이썬 튜토리얼 > 적은 양의 코드로 다수의 시계열 특징 추출

적은 양의 코드로 다수의 시계열 특징 추출

王林
풀어 주다: 2023-04-25 14:40:08
앞으로
1294명이 탐색했습니다.

기존의 기계 학습 알고리즘은 시계열 데이터의 시간적 순서를 캡처할 수 없습니다. 데이터 과학자는 데이터의 중요한 특성을 여러 측정항목으로 포착하기 위해 관련 기능 엔지니어링을 수행해야 합니다. 수많은 시계열 특징을 생성하고 그로부터 관련 특징을 추출하는 것은 시간이 많이 걸리고 지루한 작업입니다.

几行 Python 代码就可以提取数百个时间序列特征

Python의 tsfresh 패키지는 시계열 데이터에 대한 수백 가지 표준 공통 기능을 생성할 수 있습니다. 이번 글에서는 tsfresh 패키지의 사용법을 심도있게 다루겠습니다.

tsfresh는 수백 가지 관련 시계열 기능을 생성할 수 있는 오픈 소스 패키지입니다. tsfresh에서 생성된 기능은 분류, 예측 및 이상치 감지 사용 사례를 해결하는 데 사용될 수 있습니다.

tsfresh 패키지는 시계열 데이터에 대한 특성 추출을 수행하기 위한 다양한 기능을 제공합니다. conda:

pip install -U tsfresh# orconda install -c conda-forge tsfresh
로그인 후 복사
    1. 특성 생성
  • tsfresh 패키지는 1개의 시계열 변수에서 750개 이상의 관련 특성을 생성할 수 있는 자동 특성 생성 API를 제공합니다. 다음을 포함한 다양한 기능이 생성됩니다.
  • 기술 통계(평균, 최대값, 상관관계 등)
물리 기반 비선형 및 복잡성 측정법

디지털 신호 처리 관련 기능

역사적 압축 기능

    사용 1개의 시계열 변수에 대해 여러 도메인에서 789개의 기능을 생성하는 tsfresh.extract_features() 함수.
  • import pandas as pdfrom tsfresh import select_features# Read the time-series datadf = pd.read_excel("train.xlsx", parse_dates=['date']).set_index('date')# automated feature generationfeatures = tsfresh.extract_features(df, column_, column_sort="date")
    로그인 후 복사
    기능이 너무 많기 때문에 모든 기능에 대한 자세한 소개는 공식 문서를 확인해주세요.
  • 2. 기능 선택
  • tsfresh 패키지는 또한 목표 변수의 관련 기능을 식별하는 데 사용할 수 있는 가설 테스트를 기반으로 기능 선택 구현을 제공합니다. 관련 없는 기능의 수를 제한하기 위해 tsfresh에는 새로운 알고리즘이 포함되어 있습니다(fresh는 확장 가능한 가설 테스트를 기반으로 한 기능 추출을 나타냄).
  • tsfresh.select_features() 함수를 사용하면 사용자가 기능 선택을 구현할 수 있습니다.

    3. 빅데이터와 호환

    시계열 데이터가 많을 때. tsfresh는 또한 기능 생성/추출을 확장하는 API와 대용량 데이터에 대한 기능 선택 구현을 제공합니다.

    멀티 스레드 처리: 기본 tsfresh 패키지는 기능 생성/추출 및 기능 선택을 여러 코어에서 병렬로 실행할 수 있습니다.

    분산 프레임워크: tsfresh는 또한 계산 속도를 높이기 위해 여러 시스템에 기능 계산을 분산하는 자체 분산 프레임워크를 구현합니다.

    Spark 호환: tsfresh는 Spark 또는 Dask를 사용하여 매우 큰 데이터를 처리할 수도 있습니다.

    마지막으로 tsfresh는 몇 줄의 Python 코드로 시계열 기능에 대한 관련 기능을 생성하고 선택할 수 있습니다. 시간 기반 데이터 샘플의 여러 도메인에서 750개 이상의 실제 테스트된 기능을 자동으로 추출하고 선택합니다. 데이터 과학자가 기능 엔지니어링에 낭비하는 작업 시간을 많이 줄여줍니다.

      그리고 시계열 데이터는 상당히 큽니다. tsfresh는 멀티스레딩도 사용하고 dask와 Spark를 지원하여 단일 머신으로 처리할 수 없는 대용량 데이터 샘플을 처리합니다.

    위 내용은 적은 양의 코드로 다수의 시계열 특징 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿