아래 웹사이트의 모든 뉴스를 nodejs를 사용하여 캡처할 계획입니다. 일반적인 생각에 따라 먼저 각 뉴스 페이지의 URL을 가져온 다음 각 뉴스의 URL을 가져옵니다.
request를 사용하여 각 URL의 콘텐츠를 가져옵니다. 그게 다야
그러나 다음 웹사이트의 모든 페이징 정보와 클릭한 각 뉴스의 URL은 모두 변경되지 않은 것으로 보입니다. 모두 백그라운드에서 js를 통해 구현된 것 같습니다.
newwork를 사용하는 요청은 볼 수 없습니다. 크롬의 F12 탭, 잡는 방법을 알려줄 수 있는 마스터가 있나요?
http://www.xxxxxxxxx.com/glob...
1. 이전 기사와 다음 기사에서 볼 수 있듯이 클릭에 바인딩된 함수: boardView(1);
2. boadrview를 통해 페이지에서 해당 기능을 찾으세요:
. 으아아아…………
3. 변수 목록에서 데이터가 나오는지 확인한 다음 목록을 찾으세요
4. 1739행을 참조하세요.
으아아아5. 생성자는 jsList()라고 하며 해당 코드는 여기에서 찾을 수 있습니다: http://www.samsungsem.com/js/...
6 2단계의 코드를 다시 살펴보세요. list.artTitles -->이 데이터는 jsList의 cmsInit 메서드와 cmsInit를 통해 설정됩니다.
으아아아...
에서 나옵니다.의 데이터는 네 번째 매개변수 데이터
7. 4단계에서 전달된 데이터인 new data()를 살펴보세요
그래서 데이터 함수가 정의된 위치를 찾습니다.
검색 및 찾기: <script src="/global/news/data.js.jsp"></script>
8. 열어서 살펴보세요: http://www.samsungsem.com/glo...
느낌이 너무 이상해요 왜 이렇게 이상한가요?
마우스 오른쪽 버튼을 클릭하시면 소스코드를 보실 수 있습니다:
view-source: http://www.samsungsem.com/glo...
여기서 데이터 함수가 정의되어 있는 것을 보실 수 있고, 보이는 데이터도 여기에 있습니다. 페이지.
답변 감사합니다 먼저 확인해보겠습니다...
기본적으로는 이해가 안가는 부분이 있어서 천천히 살펴보도록 하겠습니다..