Bagaimana untuk membaca fail pdf atau pptx atau docx dari ADLS gen2 dalam python menggunakan Synapse?

WBOY
Lepaskan: 2024-02-10 10:54:13
ke hadapan
537 orang telah melayarinya

如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

Kandungan soalan

Saya mahu menggunakan python dalam buku nota sinaps untuk membaca fail dalam format yang berbeza. Ini termasuk .pdf, .pptx, .docx, .msg dan .eml. Saya mahu dapat membaca fail dan kemudian menghuraikan dan memanipulasinya dengan python. Saya dapat melakukan ini dalam blok data menggunakan perpustakaan python yang berbeza.

Beginilah cara saya menyelesaikan tugas ini dalam bata data:

from pptx import Presentation prs = Presentation(file_name) # for pdf from pypdf import PdfReader reader = PdfReader(open(filename, 'rb')) # word docs import docx doc = docx.Document(file_name) # .eml files import email msg = email.message_from_file(open(file_name))type here # .msg files import extract_msg msg = extract_msg.Message(file_name)
Salin selepas log masuk

Dalam sinaps saya mendapat ralat: FileNotFoundError: [errno 2] Tiada fail atau direktori sedemikian.

Laluan fail ini boleh membaca data csv, excel atau txt menggunakan percikan atau panda, jadi saya rasa tidak ada masalah kebenaran atau sambungan. Formatnya ialah: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path

Saya juga cuba memasang lokasi penyimpanan. Ini memang membantu membaca fail teks, tetapi bukan format lain. Memasang lokasi storan dalam sinaps


Jawapan yang betul


memasang adalah cara yang betul,jawapan inimenerangkannya. Saya menggunakan studio sinaps. Kuncinya ialah menggunakan format fail yang diperoleh daripada arahan laluan ke storan yang dipasang. Jika tidak, saya pada dasarnya boleh menggunakan apa yang saya nyatakan sebelum ini dalam soalan. Hanya untuk pdf saya terpaksa menukar daripada menggunakan perpustakaan pypdf kepada pypdf2.

Format yang sah ialah:

path = mssparkutils.fs.getmountpath("/mounted_name") # this gave me this format '/synfs/{jobid}/mounted_path/{filename}'
Salin selepas log masuk

Format yang diperolehi daripada mssparkutils fs tidak berfungsi

mssparkutils.fs.ls("synfs:/{jobId}/mounted_path/") # this gave a different format which did not work 'synfs:/{jobId}/mounted_path/{filename}'
Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimana untuk membaca fail pdf atau pptx atau docx dari ADLS gen2 dalam python menggunakan Synapse?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:stackoverflow.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!