검색엔진 핵심기술_php 기초-PHP 튜토리얼-php.cn

웹 검색 엔진이라고 하면 대부분의 사람들은 Yahoo를 생각합니다. 실제로 야후는 인터넷 검색 시대를 열었습니다. 그러나 현재 Yahoo가 웹 검색에 사용하는 기술은 원래 Yahoo가 개발한 것이 아닙니다. 2000년 8월, 야후는 스탠포드 대학 학생들이 설립한 벤처회사인 구글(www.google.com)로부터 기술을 도입했습니다. 그 이유는 매우 간단합니다. Google의 검색 엔진은 이전에 Yahoo에서 사용했던 기술보다 더 빠르고 정확하게 필요한 정보를 검색할 수 있습니다.

　기술적으로나 자금적인 측면에서 강력하고 효율적인 검색엔진과 데이터베이스를 우리 스스로 설계하고 개발하는 것은 아마도 불가능할 것입니다. 그런데 야후가 다른 사람의 기술을 사용하고 있는데 우리도 그것을 사용할 수 있을까요? 다른 사람들이 이미 만든 검색 엔진 웹사이트는 어떻습니까?

프로그래밍 아이디어 분석

우리는 이것을 상상할 수 있습니다: 쿼리를 시뮬레이션하고, 검색 엔진 웹사이트에 해당 형식으로 검색 명령을 내린 다음, 검색 결과를 반환하고, 결과의 HTML 코드를 분석하고, 중복되는 부분을 제거합니다. 마지막으로 당사 웹사이트 페이지에 필요한 형식으로 표시됩니다.

이런 식으로 문제의 핵심은 정확하고(검색이 더 의미가 있도록), 빠르게(검색 결과를 분석하고 표시하는 데 추가 시간이 필요하기 때문에) 검색 정보를 선택해야 한다는 것입니다. , 검색 결과는 간결합니다(HTML 소스 코드 분석 및 스트리핑에 편리함). 차세대 검색 엔진인 Google의 다양한 뛰어난 기능으로 인해 검색 웹사이트가 여기에 있습니다. 여기서는 PHP를 사용하여 배경을 구현하는 방법을 보기 위한 예로 선택합니다. Google(www.google.com) 검색 및 프런트엔드 개인화 디스플레이 프로세스 처리.

먼저 구글의 쿼리 명령어 구조를 살펴보겠습니다. www.google.com 웹사이트에 접속하여 검색창에 "abcd"를 입력하고 검색 버튼을 클릭하면 브라우저의 주소 표시줄이 "http://www.google.com/search?q="로 변경되는 것을 확인할 수 있습니다. abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr=", Google이 쿼리 매개변수를 전달하고 양식의 get 메소드를 통해 쿼리 명령을 제출하는 것을 볼 수 있습니다. 이 쿼리 프로세스를 시뮬레이션하기 위해 PHP의 file() 함수를 사용할 수 있습니다.

File() 함수 이해하기

　 구문: array file(string filename);

　 반환 값은 배열이며 모든 파일을 배열 변수로 읽습니다. 여기에 있는 파일은 로컬이거나 원격일 수 있습니다. 원격 파일은 사용되는 프로토콜을 지정해야 합니다. 예: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr="), 이 명령문은 "abcd"라는 단어에 대한 쿼리를 시뮬레이션합니다. Google에서는 검색 결과를 처리하고 행당 요소 형식으로 배열 변수 결과로 다시 전송합니다. 여기서 읽은 파일은 원격 파일이므로 프로토콜 이름 "http://"가 빠질 수 없습니다.

　 사용자가 검색할 때 검색 문자를 입력하도록 하려면 입력 텍스트 상자와 제출 버튼을 만들고 위에서 검색된 문자 "abcd"를 변수로 바꿀 수 있습니다:
echo 'echo '' //텍스트 입력 상자 구성
echo '< ;input type="submit" value="Query">'; //쿼리 제출 버튼 생성
echo ''

if (isset( 키워드)) // 제출 후 PHP가 변수를 생성합니다. kwywords, 제출 후 다음 프로그램을 실행해야 합니다
{
urlencode(keywords); //사용자 입력 내용을 URL 인코딩합니다
result=file("http://www.google.com/search?q=". 키워드."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=")
//쿼리 문에서 변수를 바꾸고 쿼리 결과를 배열 변수에 저장 result
result_string=join(" ", result ); //$result 배열을 string으로 결합하고 각 배열 요소 사이에 공백을 사용하여 붙여넣습니다
... //추가 처리
}
?>

　 위 프로그램은 이미 사용자 입력 쿼리에 따라 입력할 수 있습니다. 콘텐츠를 복사하고 반환된 결과를 문자열 변수 $result_string으로 합성합니다. 입력된 중국어 문자, 공백 및 기타 특수 문자를 정상적으로 쿼리할 수 있도록 사용자 입력을 URL 인코딩하려면 urlencode() 함수를 사용해야 합니다. 이는 또한 검색을 보장하기 위해 Google의 쿼리 명령을 최대한 현실적으로 시뮬레이션합니다. 결과의 정확성.

Google 분석

　이해를 돕기 위해 실제로 필요한 것은 검색결과의 제목이라고 가정해 보겠습니다. URL 및 소개 등 이는 간단하고 일반적인 요구 사항입니다. 이런 식으로 우리가 해야 할 일은 Google 로고, 재검색을 위한 입력 상자, 검색 결과 설명 등을 포함하여 Google 검색 결과의 머리글과 바닥글을 제거하고 원본 HTML을 제거하는 것뿐입니다. 나머지 검색 결과 항목을 원하는 형식으로 바꿉니다.

이를 위해서는 Google 검색결과의 HTML 소스코드를 주의 깊게 분석하고 패턴을 찾아야 합니다. Google 검색결과의 텍스트는 항상 소스 코드의 첫 번째

태그와 마지막에서 두 번째

태그 사이에 포함됩니다. 바로 뒤에는 및 테이블 문자가 오고, "

　다음의 모든 절차는 위 절차의 "추가 처리" 섹션에서 계속됩니다.

　 result_string = strstr( result_string, "

"); //Google 헤더를 제거하기 위해 첫 번째

부터 시작하여 result_string 뒤의 문자열을 가져옵니다.
position= strpos( result_string,"

테이블 기호
result_string= substr(result_string,0, position);//첫 번째

테이블 기호 앞의 문자열을 가로채서 각주를 제거합니다

응용 프로그램 및 구현

　자, 이제 유용한 정보를 얻었습니다. HTML 소스 코드에서 남은 문제는 이 콘텐츠를 어떻게 자율적으로 표시할 것인가 하는 것입니다. 이러한 검색 결과 항목을 분석해 보면 각 항목이 매우 규칙적으로
로 구분되어 있음을 알 수 있습니다. 즉, 이 기능에 따라 각 항목이 단락으로 구분됩니다. 폭발() 함수를 사용하여 각 항목을 분할합니다:

구문: 폭발(문자열 구분 기호, 문자열 문자열);

배열을 반환하고 구분 기호로 분할된 각 작은 문자열은 배열에 저장됩니다. =explode("

", result_string); //결과를 잘라내려면 "

" 문자열을 사용하세요

　각 요소가 검색 결과 항목인 배열을 얻게 됩니다. 해야 할 일은 각 항목과 해당 HTML 표시 형식 코드를 연구한 다음 필요에 따라 바꾸는 것입니다. 그런 다음 루프를 사용하여 result_array의 각 항목을 처리합니다.
for( i=0; i {
... //각 항목을 처리합니다. 항목
}

각 항목에 대해 몇 가지 특징을 쉽게 찾을 수도 있습니다. 각 항목은 제목, 초록, 소개, 카테고리, URL 등으로 구성되고 각 부분은 줄 바꿈됩니다. 즉 every_item=explode("
", result_array[ i])

이 방법으로 배열 Every_item을 얻습니다. Every_item[0]은 제목이고, Every_item[1] 및 Every_item[2]는 두 줄의 요약입니다(every_item[3] 및 Every_item[4] 등의 헤더에 "", "< 글꼴 크기=-1 color=#6f6f6f>카테고리:< /font>" 문자는 소개 또는 카테고리입니다(일부 결과 항목에는 이 항목이 없기 때문). 헤더에 ""이 포함된 경우 URL이어야 합니다. 이러한 비교를 위해
정규식
(생략)을 자주 사용하는 경우에도 매우 편리합니다. 자체적으로 링크가 있는 제목을 포함하는 $every_item[0]으로 이 링크 속성을 수정하여 새 창에서 링크를 열도록 합니다:
echo eregi_replace(' { ... // 각 처리 첫 번째 항목을 제거하는 항목(첫 번째 항목은 제목, 이미 표시된 각 항목)... //추가 형식 수정
}

　이것은 링크 속성 및 기타 여러 표시 형식 수정, 제거 및 교체를 수정합니다. 정규 교체 eregi_replace()를 사용하여 완료할 수 있습니다.

　이 시점에서 우리는 각 검색 항목의 각 항목을 얻었고 각 항목의 형식을 마음대로 수정할 수 있으며 그 위에 아름다운 테이블을 놓을 수도 있습니다. 그러나 좋은 프로그램은 다양한 운영 환경에 적응할 수 있어야 하며 이는 예외가 아닙니다. 사실 우리는 검색 결과의 HTML 제거를 위한 프레임워크 방법에 대해서만 논의했습니다. 실제로 완벽하게 수행하려면 고려해야 할 사항이 많습니다. , 검색 결과의 총 개수, 몇 페이지로 나누어져 있는지 등을 표시합니다. 심지어 고객이 원래 웹사이트를 볼 수 없도록 '카테고리', '소개' 및 Google과 관련된 기타 코드를 제거할 수도 있습니다. 모두. 그러나 우리 모두는 HTML을 분석함으로써 이러한 내용과 요구사항을 추출할 수 있습니다. 이제 누구나 스스로 이를 수행하고 고도로 개인화된 검색 엔진을 구축할 수 있습니다.

위 내용은 검색엔진 핵심기술_php 기초의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!