Brauche Hilfe!-js-Tutorial-php.cn

Brauche Hilfe!

WBOY

Freigeben： 2024-08-16 17:03:40

Original

912 Leute haben es durchsucht

Need Help!

Hallo, ich brauche die Hilfe von jemandem, der sich mit Webscraping auskennt, da ich neu in der Programmierung bin. Ich habe den Auftrag, den Abschnitt „Über den Kunden“ aus den Job-Links zu extrahieren. Mein Skript extrahiert nur ein „Über den Client“, aber bei anderen Links tut es das nicht und wirft einen Fehler aus. Die Sache ist, dass es einen XML-Dateilink gibt, aus dem ich die Job-Links extrahiere, und wenn diese Links geöffnet werden, befindet sich der HTML-Code unter Java-Skript, für das ich Selenium verwende. Ich habe alles versucht, aber keine Lösung gefunden.`def extract_client_info(job_url):
client_info = {'Über den Kunden': np.nan}

if job_url and job_url != "N/A":
    try:
        # Open the job URL
        driver.get(job_url)

        # Wait for the page to load
        WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.cfe-about-client-v2'))
        )

        # Extract specific details
        about_client_section = driver.find_element(By.CSS_SELECTOR, '.cfe-about-client-v2')
        client_location = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-location"]').text.strip()
        client_job_posting_stats = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]').text.strip() if about_client_section.find_elements(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]') else "N/A"
        client_company_profile = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-company-profile"]').text.strip()

        # Combine extracted information
        client_info['About the Client'] = (
            f"Location: {client_location}\n"
            f"Job Posting Stats: {client_job_posting_stats}\n"
            f"Company Profile: {client_company_profile}"
        )

    except Exception as e:
        print(f"Failed to get 'About the Client' for {job_url}: {e}")
        client_info['About the Client'] = np.nan

    finally:
        # Wait for 10 seconds before making the next request
        time.sleep(10)

return client_info`

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonBrauche Hilfe!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!