Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?

WBOY
풀어 주다: 2024-02-10 10:54:13
앞으로
529명이 탐색했습니다.

如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

질문 내용

시냅스 노트북에서 Python을 사용하여 다양한 형식의 파일을 읽고 싶습니다. 여기에는 .pdf, .pptx, .docx, .msg 및 .eml이 포함됩니다. 나는 파일을 읽고 파이썬으로 파일을 구문 분석하고 조작할 수 있기를 원합니다. 다른 Python 라이브러리를 사용하여 데이터 블록에서 이 작업을 수행할 수 있었습니다.

데이터 브릭에서 이 작업을 수행하는 방법은 다음과 같습니다.

으아아아

시냅스에서 오류가 발생합니다: FileNotFoundError: [errno 2] 해당 파일이나 디렉터리가 없습니다.

이 파일 경로는 Spark나 Pandas를 사용하여 csv, excel, txt 데이터를 읽을 수 있으므로 인증이나 연결 문제는 없을 것 같습니다. 형식은 다음과 같습니다: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path

저장 위치도 마운트해 보았습니다. 이는 텍스트 파일을 읽는 데 도움이 되지만 다른 형식은 읽지 않습니다. 시냅스에서 저장 위치 마운트


정답


마운팅이 올바른 방법인데,이 답변에 설명되어 있습니다. 저는 시냅스 스튜디오를 사용하고 있습니다. 핵심은 마운트된 스토리지에 대한 경로 명령에서 얻은 파일 형식을 사용하는 것입니다. 그렇지 않으면 기본적으로 이전에 질문에서 언급한 내용을 사용할 수 있습니다. PDF의 경우에만 pypdf 라이브러리 사용에서 pypdf2로 변경해야 했습니다.

유효한 형식은 다음과 같습니다:

으아아아

mssparkutils fs에서 가져온 형식이 작동하지 않습니다

으아아아

위 내용은 Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:stackoverflow.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!