Hallo, ich brauche die Hilfe von jemandem, der sich mit Webscraping auskennt, da ich neu in der Programmierung bin. Ich habe den Auftrag, den Abschnitt „Über den Kunden“ aus den Job-Links zu extrahieren. Mein Skript extrahiert nur ein „Über den Client“, aber bei anderen Links tut es das nicht und wirft einen Fehler aus. Die Sache ist, dass es einen XML-Dateilink gibt, aus dem ich die Job-Links extrahiere, und wenn diese Links geöffnet werden, befindet sich der HTML-Code unter Java-Skript, für das ich Selenium verwende. Ich habe alles versucht, aber keine Lösung gefunden.`def extract_client_info(job_url):
client_info = {'Über den Kunden': np.nan}
if job_url and job_url != "N/A": try: # Open the job URL driver.get(job_url) # Wait for the page to load WebDriverWait(driver, 30).until( EC.presence_of_element_located((By.CSS_SELECTOR, '.cfe-about-client-v2')) ) # Extract specific details about_client_section = driver.find_element(By.CSS_SELECTOR, '.cfe-about-client-v2') client_location = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-location"]').text.strip() client_job_posting_stats = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]').text.strip() if about_client_section.find_elements(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]') else "N/A" client_company_profile = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-company-profile"]').text.strip() # Combine extracted information client_info['About the Client'] = ( f"Location: {client_location}\n" f"Job Posting Stats: {client_job_posting_stats}\n" f"Company Profile: {client_company_profile}" ) except Exception as e: print(f"Failed to get 'About the Client' for {job_url}: {e}") client_info['About the Client'] = np.nan finally: # Wait for 10 seconds before making the next request time.sleep(10) return client_info`
Das obige ist der detaillierte Inhalt vonBrauche Hilfe!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!