Hive 웨어하우스에서는 특히 대규모 작업이 빈번한 경우 중앙 테이블에서 최신 데이터를 유지하는 것이 중요합니다. 업데이트. 이 문제를 해결하기 위해 두 가지 기본 접근 방식이 있습니다.
이 방법의 목표는 기본 테이블에서 오래된 항목을 식별하고 제거한 다음 새 증분 항목을 삽입하는 것입니다. 데이터. 삽입은 효율적이지만 삭제 프로세스에는 시간이 많이 걸릴 수 있습니다.
Hive UPDATE 문을 사용하면 일치하는 키를 기반으로 기존 항목을 수정할 수 있습니다. 가치. 그러나 이 접근 방식은 각 항목을 개별적으로 업데이트해야 하기 때문에 처리 속도가 느려질 수 있다는 단점이 있습니다.
성능을 향상하려면 더 효율적인 대안은 다음을 사용하는 것입니다. 증분 데이터와 기본 테이블 간의 전체 외부 조인:
insert overwrite target_data [partition() if applicable] SELECT --select new if exists, old if not exists case when i.PK is not null then i.PK else t.PK end as PK, case when i.PK is not null then i.COL1 else t.COL1 end as COL1, ... case when i.PK is not null then i.COL_n else t.COL_n end as COL_n FROM target_data t --restrict partitions if applicable FULL JOIN increment_data i on (t.PK=i.PK);
대상 데이터를 분할하고 파티션 필터를 사용하면 영향을 받는 파티션에만 집중하도록 조인 작업을 더욱 최적화할 수 있습니다.
모든 열을 새 데이터로 업데이트해야 하는 경우 UNION ALL과 행 번호 매기기의 조합을 사용할 수 있으며 이는 FULL OUTER JOIN 방법보다 빠릅니다. :
SELECT PK, COL1, ... COL_n, row_number() OVER (PARTITION BY PK ORDER BY PK) as rownum FROM ( SELECT * FROM target_data UNION ALL SELECT * FROM increment_data ) GROUP BY PK, COL1, ..., COL_n
이 기술은 결합된 결과 집합의 각 행에 고유한 행 번호를 할당하여 업데이트해야 하는 행을 식별할 수 있도록 합니다.
DELETE FROM target_data WHERE EXISTS ( SELECT 1 FROM combined_data WHERE combined_data.PK = target_data.PK AND combined_data.rownum > 1 )
INSERT OVERWRITE INTO target_data SELECT * FROM combined_data WHERE combined_data.rownum = 1
사용 이러한 최적화된 기술은 Hive의 증분 업데이트 성능을 크게 향상시켜 효율적인 데이터 관리와 최신 정보의 적시 가용성을 보장합니다.
위 내용은 빈번한 대규모 업데이트를 처리할 때 Hive 기본 테이블의 데이터를 효율적으로 업데이트하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!