전환하다. 중첩된 테이블이 있는 html 로그. CSV 파일

Question

여러 개의 중첩된 테이블이 포함된 HTML 파일을 변환하려고 합니다. .csv 파일로 변환 중입니다. 이 열에 새 테이블을 만들었습니다. 이 테이블을 일반 텍스트로 변환하고 싶습니다. 예쁜 그룹을 사용하여 이것을 Python으로 변환하려고 시도하고 있지만 성공하지 못했습니다.

P粉662614213 · Answer

구조를 유지하면서 중첩된 테이블이 있는 HTML 파일을 CSV로 변환하는 것은 다소 어려울 수 있습니다. BeautifulSoup은 HTML 구문 분석을 위한 훌륭한 라이브러리이지만 중첩된 테이블을 적절하게 처리하려면 추가 작업이 필요할 수 있습니다.

원하는 출력을 얻으려면 BeautifulSoup를 일부 사용자 정의 Python 코드와 함께 사용하여 HTML을 구문 분석하고 데이터를 추출한 후 CSV 형식으로 올바르게 구성할 수 있습니다. 이를 달성하는 데 도움이 되는 단계별 방법은 다음과 같습니다.

BeautifulSoup을 사용하여 HTML 파일을 구문 분석하세요.

상위 테이블을 찾아 헤더를 추출합니다.
상위 테이블에서 모든 행을 찾습니다.
각 행에 대해 관련 열(존재하는 경우)에서 중첩 테이블을 찾습니다.
중첩 테이블에서 데이터를 추출하여 상위 테이블의 해당 셀에 추가합니다.

다음은 시작하는 데 도움이 되는 Python 코드 조각입니다.

으아악

이 코드는 중첩된 테이블 데이터가 쉼표로 구분되어 있다고 가정합니다. 그렇지 않은 경우 그에 따라 구분 기호를 조정해야 할 수도 있습니다. 또한 중첩된 테이블에 쉼표가 포함된 경우 다른 구분 기호를 고려하세요.

복잡한 HTML 구조를 처리하려면 추가 작업이 필요할 수 있습니다. 그럼에도 불구하고 데이터의 세부 사항에 따라 이 코드를 조정하면 작업을 처리하기 위한 좋은 출발점이 될 것입니다.