검색 엔진 스파이더는 어떤 일을 하나요? 검색 로봇이란? 검색 로봇 "Yandex"와 Google의 기능. 검색 로봇은 무엇을 합니까?

일반적인 생각과는 달리 로봇은 스캔한 문서 처리에 직접 관여하지 않습니다. 그는 단지 읽고 저장한 다음 다른 프로그램이 처리를 수행합니다. 최초 인덱싱된 사이트의 로그를 분석하여 시각적으로 확인할 수 있습니다. 첫 번째 방문에서 봇은 먼저 robots.txt 파일을 요청한 다음 사이트의 기본 페이지를 요청합니다. 즉, 그는 자신에게 알려진 유일한 링크를 따릅니다. 이것은 봇의 첫 번째 방문이 항상 끝나는 곳입니다. 일정 시간 후(보통 다음날) 봇은 이미 읽은 페이지에 있는 링크를 사용하여 다음 페이지를 요청합니다. 그런 다음 프로세스는 동일한 순서로 계속됩니다. 페이지 요청, 이미 찾은 링크 - 읽은 문서 처리를 위한 일시 중지 - 찾은 링크 요청이 있는 다음 세션.

페이지를 "즉석에서" 파싱하는 것은 훨씬 더 많은 것을 의미합니다. 영형로봇의 더 큰 자원 집약도와 시간 손실. 각 스캔 서버는 많은 봇 프로세스를 병렬로 실행합니다. 그들은 새로운 페이지를 읽고 이미 알려진 페이지를 다시 읽을 시간을 갖기 위해 가능한 한 빨리 행동해야 합니다. 따라서 봇은 문서를 읽고 저장만 합니다. 그들이 저장하는 모든 것은 처리를 위해 대기합니다(코드 디스어셈블리). 페이지 처리 중에 발견된 링크는 봇의 작업 대기열에 배치됩니다. 따라서 전체 네트워크에 대한 지속적인 스캔이 있습니다. 봇이 즉석에서 분석할 수 있고 분석해야 하는 유일한 것은 금지된 주소를 요청하지 않도록 robots.txt 파일입니다. 사이트를 크롤링하는 각 세션 동안 로봇은 먼저 이 파일을 요청한 다음 페이지 스캔을 위해 대기 중인 모든 파일을 요청합니다.

검색 로봇의 종류

각 검색 엔진에는 서로 다른 목적을 위한 자체 로봇 세트가 있습니다.
기본적으로 기능적 목적이 다르지만 경계는 매우 조건부이며 각 검색 엔진은 자체 방식으로 경계를 이해합니다. 전체 텍스트 검색 전용 시스템의 경우 한 대의 로봇이면 모든 경우에 충분합니다. 텍스트만 사용하지 않는 검색 엔진의 경우 봇은 텍스트와 이미지의 두 가지 범주로 나뉩니다. 모바일, 블로그, 뉴스, 비디오 등 특정 유형의 콘텐츠 전용 별도의 봇도 있습니다.

구글 로봇

모든 Google 봇은 통칭하여 Googlebot이라고 합니다. 메인 로봇 인덱서는 다음과 같이 "자신을 나타냅니다":

Mozilla/5.0(호환 가능; Googlebot/2.1; +http://www.google.com/bot.html)

이 봇은 HTML 페이지 및 기타 문서를 스캔하느라 바쁩니다. 구글 검색. 또한 때때로 CSS 및 JS 파일을 읽습니다. 봇이 처음으로 사이트를 크롤링하는 동안 사이트 인덱싱의 초기 단계에서 대부분 이를 알 수 있습니다. 허용되는 콘텐츠 유형은 모두(수락: */*)입니다.

두 번째 주요 봇은 사이트에서 이미지를 스캔하느라 바쁩니다. 간단하게 "나타납니다":

Googlebot-Image/1.0

최소 3개의 봇도 로그에 표시되어 콘텐츠 수집에 바쁘다. 모바일 버전찾다. 세 가지 모두의 User-agent 필드는 다음 줄로 끝납니다.

(호환 가능; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

이 줄 앞 - 모델 휴대전화이 봇과 호환됩니다. 주목받는 봇은 이러한 모델을 가지고 있습니다. 노키아 전화, 삼성과 아이폰. 허용되는 콘텐츠 유형은 전부이지만 우선 순위가 지정됩니다.

수락: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

얀덱스 로봇

Runet에서 활성화된 검색 엔진 중에서 Yandex는 가장 많은 봇 컬렉션을 보유하고 있습니다. 모든 스파이더 인력의 공식 목록은 웹마스터 도움말 섹션을 참조하십시오. 이 목록에서 주기적으로 변경 사항이 발생하므로 여기에 전체를 제공하는 것은 이치에 맞지 않습니다.
그럼에도 불구하고 우리에게 가장 중요한 Yandex 로봇은 별도로 언급해야 합니다.
메인 인덱싱 로봇현재 호출

Mozilla/5.0(호환 가능; YandexBot/3.0; +http://yandex.com/bots)

이전에 다음과 같이 제시됨

Yandex/1.01.001(호환, Win16, I)

인덱싱을 위해 웹 사이트 HTML 페이지 및 기타 문서를 읽습니다. 허용되는 미디어 유형 목록은 이전에 다음으로 제한되었습니다.

수락: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

2009년 7월 31일부터 이 목록이 크게 확장되었으며(유형 수가 거의 두 배가 됨) 2009년 11월 10일부터 목록이 */*(모든 유형)로 단축되었습니다.
이 로봇은 러시아어, 우크라이나어와 벨로루시어가 다소 적고 영어가 약간 적으며 기타 모든 언어와 같은 매우 특정한 언어 세트에 깊은 관심을 가지고 있습니다.

허용 언어: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

이미지 스캐너 로봇 User-agent 필드에 다음 문자열을 전달합니다.

Mozilla/5.0(호환 가능; YandexImages/3.0; +http://yandex.com/bots)

사진 검색을 위해 다양한 형식의 그래픽 스캔에 참여했습니다.

Google과 달리 Yandex에는 일부 서비스를 제공하는 별도의 봇이 있습니다. 특수 기능일반 검색.
로봇 "거울"

Mozilla/5.0(호환 가능; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

특별히 복잡한 작업을 수행하지 않습니다. 주기적으로 나타나 도메인에 액세스할 때 사이트의 기본 페이지가 www와 일치하는지 확인합니다. 없이. 또한 병렬 "미러" 도메인이 일치하는지 확인합니다. 분명히 Yandex의 거울과 정식 도메인 형식은 별도의 소프트웨어 패키지인덱싱과 직접적인 관련이 없는 A. 그렇지 않으면 이러한 목적을 위한 별도의 봇의 존재를 설명할 것이 전혀 없습니다.

favicon.ico 아이콘 선택기

Mozilla/5.0(호환 가능; YandexFavicons/1.0; +http://yandex.com/bots)

주기적으로 나타나 favicon.ico 아이콘을 요청하면 사이트 링크 옆의 검색 결과에 나타납니다. 어떤 이유로 이미지 선택기가 이 의무를 결합하지 않는지는 알 수 없습니다. 분명히 별도의 소프트웨어 패키지도 있습니다.

체크봇새 사이트의 경우 AddURL 양식에 추가하면 작동합니다.

Mozilla/5.0(호환 가능; YandexWebmaster/2.0; +http://yandex.com/bots)

이 봇은 루트 URL에 HEAD 요청을 보내 사이트 응답을 확인합니다. 이것은 존재를 확인합니다. 홈페이지도메인에서 해당 페이지의 HTTP 헤더를 구문 분석합니다. 봇은 사이트의 루트에 있는 robots.txt 파일도 요청합니다. 따라서 AddURL에 대한 링크를 제출한 후 사이트가 존재하고 robots.txt 또는 HTTP 헤더가 메인 페이지에 대한 액세스를 금지하지 않는 것으로 판단됩니다.

로봇 램블러

현재 더 이상 작동하지 않음, Rambler는 이제 Yandex 검색을 사용하기 때문에
Rambler 인덱싱 로봇은 User-agent 필드로 로그에서 쉽게 식별할 수 있습니다.

StackRambler/2.0(MSIE 비호환)

다른 검색 엔진의 "동료"와 비교할 때 이 봇은 매우 단순해 보입니다. 미디어 유형 목록을 지정하지 않고(각각 모든 유형의 요청된 문서를 수신함) 요청에 Accept-Language 필드가 누락되어 있습니다. If-Modified-since 필드도 봇의 요청에서 찾을 수 없습니다.

메일.루 로봇

이 로봇에 대해서는 알려진 바가 거의 없습니다. Mail.Ru 포털은 오랫동안 자체 검색을 개발해 왔지만 여전히 이 검색을 시작하지 않을 것입니다. 따라서 User-agent에서 봇의 이름만 안정적으로 알려져 있습니다. Mail.Ru/2.0(이전에는 Mail.Ru/1.0)입니다. robors.txt 파일의 지시문에 대한 봇의 이름은 어디에도 게시되지 않았으며 봇의 이름은 Mail.Ru라고 가정합니다.

다른 로봇

물론 인터넷 검색은 두 개의 검색 엔진에 국한되지 않습니다. 따라서 Microsoft 및 기타 로봇의 검색 엔진인 Bing 로봇과 같은 다른 로봇이 있습니다. 따라서 특히 중국에는 국가 검색 엔진 Baidu가 있지만 그 로봇은 강 한가운데에 도달하여 러시아 사이트에 도달하지 못할 것입니다.

또한 최근 많은 서비스, 특히 solomono가 생겨 검색 엔진은 아니지만 사이트도 스캔합니다. 종종 사이트에 대한 정보를 그러한 시스템에 전달하는 가치가 의심스럽기 때문에 그들의 로봇은 다음에서 금지될 수 있습니다.

검색 엔진 로봇의 작동 방식

검색 로봇(스파이더, 봇)은 운영자의 참여 없이 수백만 개의 웹사이트를 방문하고 기가바이트의 텍스트를 스캔할 수 있는 작은 프로그램입니다. 페이지를 읽고 텍스트 복사본을 저장하는 것은 새 문서를 인덱싱하는 첫 번째 단계입니다. 검색 엔진 로봇은 수신된 데이터를 처리하지 않습니다. 그들의 임무는 단지 보존하는 것입니다 텍스트 정보.

우리 채널의 더 많은 비디오 - SEMANTICA로 인터넷 마케팅 배우기

검색 로봇 목록

Runet 스캔과 관련된 모든 검색 엔진 중에서 Yandex는 가장 많은 봇 컬렉션을 보유하고 있습니다. 다음 봇은 인덱싱을 담당합니다.

  • 웹 페이지에서 데이터를 수집하는 메인 인덱싱 로봇;
  • 거울을 인식할 수 있는 봇;
  • 이미지를 인덱싱하는 Yandex 검색 로봇;
  • YAN에서 허용되는 사이트의 페이지를 탐색하는 거미;
  • 로봇 스캐닝 파비콘 아이콘;
  • 사이트 페이지의 가용성을 결정하는 여러 스파이더.

Google의 주요 검색 로봇은 텍스트 정보를 수집합니다. 기본적으로 html 파일을 보고 JS와 CSS를 일정한 간격으로 분석합니다. 인덱싱이 허용된 모든 콘텐츠 유형을 허용할 수 있습니다. PS Google에는 이미지 색인 생성을 제어하는 ​​스파이더가 있습니다. 모바일 버전의 검색 기능을 지원하는 프로그램 인 검색 로봇도 있습니다.

검색 로봇의 눈으로 사이트 보기

코드 오류 및 기타 단점을 수정하기 위해 웹마스터는 검색 로봇이 사이트를 보는 방법을 찾을 수 있습니다. 이 옵션은 Google PS에서 제공합니다. 웹마스터 도구로 이동한 다음 "스캔" 탭을 클릭해야 합니다. 열리는 창에서 "Googlebot으로 검색" 줄을 선택합니다. 다음으로 검색 양식에 연구 중인 페이지의 주소를 입력해야 합니다(도메인 및 http:// 프로토콜을 지정하지 않음).

"가져오기 및 표시" 명령을 선택하면 웹마스터가 사이트 페이지의 상태를 시각적으로 평가할 수 있습니다. 이렇게 하려면 "표시 요청" 확인란을 클릭해야 합니다. 두 가지 버전의 웹 문서가 있는 창이 열립니다. 웹마스터는 일반 방문자가 페이지를 보는 방법과 검색 스파이더에서 사용할 수 있는 형식을 학습합니다.

팁 분석 중인 웹 문서가 아직 인덱싱되지 않은 경우 "인덱스에 추가" >> "이 URL만 크롤링" 명령을 사용할 수 있습니다. 거미는 몇 분 안에 문서를 분석할 것이며 가까운 시일 내에 웹 페이지가 검색 결과에 나타날 것입니다. 월별 인덱싱 요청 제한은 문서 500개입니다.

인덱싱 속도에 영향을 미치는 방법

검색 로봇의 작동 방식을 알게 된 웹마스터는 자신의 사이트를 훨씬 더 효율적으로 홍보할 수 있습니다. 많은 젊은 웹 프로젝트의 주요 문제 중 하나는 열악한 인덱싱입니다. 검색 엔진 로봇은 신뢰할 수 없는 인터넷 리소스를 방문하는 것을 꺼립니다.
인덱싱 속도는 사이트가 업데이트되는 강도에 직접적으로 의존한다는 것이 확인되었습니다. 고유한 텍스트 자료를 정기적으로 추가하면 검색 엔진의 관심을 끌 것입니다.

인덱싱 속도를 높이려면 소셜 북마크와 트위터 서비스를 사용할 수 있습니다. Sitemap을 생성하여 웹 프로젝트의 루트 디렉토리에 업로드하는 것이 좋습니다.

검색 로봇 ~라고 불리는 특별 프로그램인터넷에서 찾은 사이트와 해당 페이지를 데이터베이스에 입력(인덱싱)하도록 설계된 모든 검색 엔진. 크롤러, 스파이더, 봇, 자동인덱서, 개미, 웹크롤러, 봇, 웹스커터, 웹로봇, 웹스파이더와 같은 이름도 사용됩니다.

작동 원리

검색로봇은 브라우저형 프로그램입니다. 그는 지속적으로 네트워크를 스캔합니다. 색인이 생성된(이미 알고 있는) 사이트를 방문하고 링크를 따라가며 새로운 리소스를 찾습니다. 새로운 리소스가 발견되면 프로시저 로봇은 이를 검색 엔진 인덱스에 추가합니다. 검색 로봇은 빈도가 고정된 사이트의 업데이트도 인덱싱합니다. 예를 들어 일주일에 한 번 업데이트되는 사이트는 이 빈도로 거미가 방문하고 뉴스 사이트의 콘텐츠는 게시된 후 몇 분 안에 색인이 생성될 수 있습니다. 다른 리소스의 링크가 사이트로 연결되지 않으면 검색 로봇을 유치하기 위해 특수 양식(Google 웹마스터 센터, Yandex 웹마스터 패널 등)을 통해 리소스를 추가해야 합니다.

검색 로봇의 종류

Yandex 거미:

  • Yandex/1.01.001 I는 메인 인덱싱 봇이고,
  • Yandex/1.01.001 (P) - 사진 색인,
  • Yandex/1.01.001 (H) - 사이트 미러를 찾습니다.
  • Yandex/1.03.003 (D) - 웹마스터 패널에서 추가된 페이지가 인덱싱 매개변수와 일치하는지 여부를 결정합니다.
  • YaDirectBot/1.0 (I) - 리소스를 인덱싱합니다. 광고 네트워크얀덱스,
  • Yandex/1.02.000 (F) — 사이트 파비콘을 인덱싱합니다.

Google 스파이더:

  • Googlebot이 메인 로봇이고,
  • Googlebot 뉴스 - 뉴스를 크롤링하고 색인을 생성합니다.
  • Google 모바일 - 휴대기기용 웹사이트 색인 생성,
  • Googlebot 이미지 - 이미지 검색 및 색인 생성,
  • Googlebot 동영상 - 동영상 색인 생성,
  • Google AdsBot - 방문 페이지의 품질을 확인하고,
  • Google 모바일 애드센스 및 구글 애드센스- Google 광고 네트워크의 사이트를 인덱싱합니다.

다른 검색 엔진도 나열된 것과 기능적으로 유사한 여러 유형의 로봇을 사용합니다.

검색 엔진은 어떻게 작동합니까? 인터넷의 가장 큰 장점 중 하나는 우리에게 제공될 준비가 되어 있는 수억 개의 웹 리소스가 있다는 것입니다. 그러나 나쁜 점은 우리가 필요하더라도 우리 앞에 나타나지 않을 동일한 수백만 페이지가 있다는 것입니다. 단순히 우리에게 알려지지 않았습니다. 인터넷에서 무엇을 어디서 찾을 수 있는지 어떻게 알 수 있습니까? 우리는 보통 이를 위해 검색 엔진을 사용합니다.

인터넷 검색 엔진은 글로벌 네트워크, 사람들이 찾는 데 도움이 되도록 설계되었습니다. 월드 와이드 웹그들이 필요로 하는 정보. 검색 엔진이 기능을 수행하는 방식에는 차이가 있지만 일반적으로 3가지 기본적이고 동일한 기능이 있습니다.

그들 모두는 주어진 키워드를 기반으로 인터넷(또는 인터넷의 일부 부문)을 "검색"합니다.
- 모든 검색 엔진은 찾고 있는 단어와 해당 단어를 찾은 장소를 색인화합니다.
- 모든 검색 엔진을 통해 사용자는 이미 인덱싱되어 데이터베이스에 입력된 웹 페이지를 기반으로 단어 또는 키워드 조합을 검색할 수 있습니다.

최초의 검색 엔진은 최대 수십만 페이지를 인덱싱했으며 하루에 1,000~2,000개의 검색어를 받았습니다. 오늘날 최고의 검색 엔진은 수억 개의 페이지를 인덱싱하고 지속적으로 인덱싱하여 매일 수천만 건의 요청을 처리하고 있습니다. 아래에서는 검색 엔진의 작동 방식과 관심 있는 질문에 답할 수 있도록 검색 엔진이 찾은 모든 정보를 "추가"하는 방법에 대해 설명합니다.

웹을 살펴보자

사람들이 이야기할 때 인터넷 검색 엔진기계, 그들은 실제로 검색 엔진을 의미합니다 월드 와이드 웹. 웹이 인터넷에서 가장 눈에 띄는 부분이 되기 전에 사람들이 웹에서 정보를 찾는 데 도움이 되는 검색 엔진이 이미 존재했습니다. "gopher" 및 "Archie"라는 프로그램은 연결된 다른 서버에서 호스팅되는 파일을 인덱싱할 수 있었습니다. 인터넷 인터넷검색에 소요되는 시간을 반복적으로 줄였습니다. 원하는 프로그램또는 문서. 지난 세기의 80년대 후반, "인터넷에서 일하는 능력"의 동의어는 gopher, Archie, Veronica 등을 사용하는 능력이었습니다. 검색 프로그램. 오늘날 대부분의 인터넷 사용자는 검색을 전세계 네트워크, 또는 www.

작은 시작

원하는 문서나 파일을 찾을 수 있는 위치를 알려주기 전에 이 파일이나 문서가 이미 어느 시점에 발견되었을 것입니다. 수억 개의 기존 웹 페이지에 대한 정보를 찾기 위해 검색 엔진은 특수 로봇 프로그램을 사용합니다. 이 프로그램은 거미("거미", 거미)라고도 하며 페이지에서 찾은 단어 목록을 작성하는 데 사용됩니다. 이러한 목록을 작성하는 프로세스를 호출합니다. 웹 크롤링(웹 크롤링). "유용한"(의미 있는) 단어 목록을 추가로 작성하고 커밋하려면 검색 스파이더가 다른 많은 페이지를 "스크롤"해야 합니다.

누구나 어떻게 시작합니까? 거미(거미) 웹 여행? 일반적으로 출발점은 세계에서 가장 큰 서버와 매우 인기 있는 웹 페이지입니다. 거미는 그러한 사이트에서 여행을 시작하고 찾은 모든 단어를 색인화하고 다른 사이트에 대한 링크를 따라 계속 이동합니다. 따라서 스파이더 로봇은 웹 공간의 모든 큰 "조각"을 덮기 시작합니다. Google.com은 학술 검색 엔진으로 출발했습니다. 이 검색 엔진이 어떻게 만들어졌는지 설명하는 기사에서 Sergey Brin과 Laurence Page(Google 설립자 및 소유주)는 Google 스파이더가 얼마나 빨리 작동하는지 예를 들었습니다. 그들 중 몇 개가 있으며 일반적으로 검색은 3 개의 거미를 사용하여 시작됩니다. 각 스파이더는 웹 페이지에 대해 최대 300개의 동시 연결을 유지합니다. 최대 로드 시 4개의 스파이더를 사용하는 Google 시스템은 초당 100페이지를 처리할 수 있으며 약 600KB/초의 트래픽을 생성합니다.

거미가 처리해야 하는 데이터를 거미에게 제공하기 위해 Google은 점점 더 많은 URL로 거미를 "던지는" 것 외에는 아무것도 하지 않는 서버를 사용했습니다. URL을 IP 주소로 변환하는 도메인 이름 서버(DNS) 측면에서 인터넷 서비스 제공업체에 의존하지 않기 위해 Google은 DNS 서버, 페이지 인덱싱에 소요되는 모든 시간을 최소로 줄입니다.

Google 로봇이 방문할 때 HTML 페이지, 다음 두 가지를 고려합니다.

페이지당 단어(텍스트);
- 위치(페이지 본문의 어느 부분).

와 같은 서비스 섹션이 있는 단어 제목, 부제, 메타 태그 et al.은 사용자 검색어에 특히 중요한 것으로 표시되었습니다. Google 스파이더는 페이지에서 "a", "an" 및 "the."와 같은 감탄사를 제외한 모든 유사한 단어를 색인화하도록 만들어졌습니다. 다른 검색 엔진은 인덱싱에 대해 약간 다른 접근 방식을 사용합니다.

검색 엔진의 모든 접근 방식과 알고리즘은 궁극적으로 거미 로봇이 더 빠르고 효율적으로 작동하도록 만드는 것을 목표로 합니다. 예를 들어 일부 검색 로봇은 제목, 링크, 페이지에서 가장 자주 사용되는 최대 100개의 단어, 심지어 페이지 텍스트 콘텐츠의 처음 20줄에 있는 각 단어를 인덱싱할 때 추적합니다. 이것은 특히 Lycos의 인덱싱 알고리즘입니다.

AltaVista와 같은 다른 검색 엔진은 "a", "an", "the" 및 기타 중요하지 않은 단어를 포함하여 페이지의 모든 단일 단어를 인덱싱하여 다른 방향으로 이동합니다.

메타 태그

메타 태그를 사용하면 웹 페이지 소유자가 콘텐츠의 본질을 정의하는 키워드와 개념을 지정할 수 있습니다. 이것은 특히 이러한 키워드가 페이지 텍스트에서 최대 2-3번 반복될 수 있는 경우 매우 유용한 도구입니다. 이 경우 메타 태그는 검색 로봇을 올바른 키워드 선택으로 "지시"하여 페이지를 인덱싱할 수 있습니다. 페이지 자체의 콘텐츠와 관련이 없는 인기 있는 검색 쿼리 및 개념을 초과하는 "속임수" 메타 태그의 가능성이 있습니다. 검색 로봇예를 들어 메타 태그와 웹 페이지 콘텐츠의 상관 관계를 분석하여 페이지 콘텐츠와 일치하지 않는 메타 태그(각각 키워드)를 "제거"하여 이를 처리할 수 있습니다.

이 모든 것은 웹 리소스의 소유자가 원하는 검색어에 대한 검색 결과에 실제로 포함되기를 원하는 경우에 적용됩니다. 그러나 소유자가 로봇에 의해 인덱싱되는 것을 전혀 원하지 않는 경우가 종종 있습니다. 그러나 그러한 경우는 우리 기사의 주제에 속하지 않습니다.

인덱스 빌딩

스파이더가 새 웹 페이지를 찾는 작업을 마치면 검색 엔진은 찾은 모든 정보를 나중에 사용하기 쉬운 방식으로 배치해야 합니다. 여기에 중요한 두 가지 핵심 구성 요소가 있습니다.

데이터와 함께 저장된 정보
- 이 정보가 색인화되는 방법.

가장 간단한 경우 검색 엔진은 단순히 단어와 해당 단어가 있는 URL을 배치할 수 있습니다. 그러나이 단어가 문서의 어느 부분 (메타 태그 또는 일반 텍스트)에 있는지,이 단어가 한 번 또는 반복적으로 사용되는지 여부에 대한 정보가 없기 때문에 검색 엔진이 매우 원시적 인 도구가됩니다. 다른 중요한 관련 리소스에 대한 링크에 포함되어 있습니다. 즉, 이 방법은 사이트 순위를 매길 수 없으며 사용자에게 관련 결과 등을 제공하지 않습니다.

유용한 데이터를 제공하기 위해 검색 엔진은 단어와 해당 URL의 정보 이상을 저장합니다. 검색 엔진은 페이지에서 단어가 언급된 횟수(빈도)에 대한 데이터를 저장하고 단어에 "가중치"를 할당하여 이 단어에 대한 가중치 순위를 기반으로 검색 목록(결과)을 발행하는 데 추가로 도움이 됩니다. 위치(링크, 메타 태그, 페이지 제목 등)를 고려합니다.) 각 상용 검색 엔진에는 색인을 생성할 때 키워드의 "가중치"를 계산하는 고유한 공식이 있습니다. 이것은 동일한 이유 중 하나입니다. 검색어검색 엔진은 매우 다른 결과를 제공합니다.

다음 중요한 점발견된 정보를 처리할 때 - 저장을 위한 디스크 공간을 줄이기 위한 인코딩. 예를 들어 원본 Google 기사에는 단어의 가중치 데이터를 저장하는 데 2바이트(각각 8비트)가 사용된다고 설명되어 있습니다. 글자 자체(Font-Size) 및 사이트 순위를 매기는 데 도움이 되는 기타 정보. 이러한 각각의 정보 "조각"에는 완전한 2바이트 세트에서 2-3비트의 데이터가 필요합니다. 결과적으로 방대한 양의 정보를 매우 컴팩트한 형태로 저장할 수 있습니다. 정보가 "압축"되면 인덱싱을 시작할 때입니다.

인덱싱의 목표는 동일합니다. 빠른 탐색필요한 정보. 인덱스를 구축하는 방법에는 여러 가지가 있지만 가장 효율적인 방법은 인덱스를 구축하는 것입니다. 해시 테이블(해시 테이블). 해싱은 각 단어에 숫자 값을 할당하는 공식을 사용합니다.

모든 언어에는 나머지 알파벳 문자보다 더 많은 단어로 시작하는 문자가 있습니다. 예를 들어, 영어 사전 섹션에는 문자 "X"로 시작하는 단어보다 문자 "M"으로 시작하는 단어가 훨씬 더 많습니다. 이는 가장 인기 있는 문자로 시작하는 단어를 검색하는 데 다른 단어보다 시간이 오래 걸린다는 것을 의미합니다. 해싱(해싱) 이 차이를 균등화하여 평균 조회 시간을 줄이고 인덱스 자체를 실제 데이터와 분리합니다. 해시 테이블에는 해당 값에 해당하는 데이터에 대한 포인터와 함께 해시 값이 포함됩니다. 효율적인 인덱싱 + 효율적인 배치는 사용자가 매우 복잡한 검색 쿼리를 설정하더라도 빠른 검색 속도를 제공합니다.

검색 엔진의 미래

부울 연산자("and", "or", "not")를 기반으로 하는 검색은 리터럴 검색입니다. 검색 엔진은 검색어를 입력한 그대로 가져옵니다. 예를 들어 입력한 단어에 여러 의미가 있는 경우 문제가 발생할 수 있습니다. 예를 들어 "열쇠"는 "문을 여는 수단"을 의미할 수도 있고 서버에 들어가기 위한 "비밀번호"를 의미할 수도 있습니다. 단어의 한 가지 의미에만 관심이 있다면 분명히 두 번째 의미에 대한 데이터가 필요하지 않을 것입니다. 물론 단어의 불필요한 의미에 대한 데이터 출력을 제외할 수 있는 리터럴 쿼리를 작성할 수 있지만 검색 엔진이 도움이 된다면 좋을 것입니다.

미래 검색 엔진 알고리즘의 연구 영역 중 하나는 개념 정보 검색입니다. 주어진 검색 키워드 또는 구문을 포함하는 페이지의 통계 분석을 사용하여 관련 데이터를 찾는 알고리즘입니다. 분명히 이러한 "개념적 검색 엔진"은 각 페이지에 대해 훨씬 더 많은 저장 공간이 필요하고 각 요청을 처리하는 데 더 많은 시간이 필요합니다. 현재 많은 연구자들이 이 문제에 대해 연구하고 있습니다.

쿼리를 기반으로 한 검색 알고리즘 개발 분야에서 덜 집중적인 작업이 수행되고 있습니다. 자연어(자연어 쿼리).

자연 쿼리의 기본 아이디어는 마치 맞은편에 앉아 있는 동료에게 질문하는 것처럼 쿼리를 작성할 수 있다는 것입니다. 부울 연산자에 대해 걱정하거나 구성을 귀찮게 할 필요가 없습니다. 복잡한 쿼리. 오늘날 가장 인기 있는 자연 검색 언어 검색 사이트는 AskJeeves.com입니다. 쿼리를 키워드로 변환한 다음 사이트를 인덱싱할 때 사용합니다. 이 접근 방식은 단순 쿼리에만 적용됩니다. 그러나 진보는 멈추지 않고 곧 우리 자신의 "인간 언어"로 검색 엔진과 "대화"할 가능성이 있습니다.

친구들, 다시 인사드립니다! 이제 검색 로봇이 무엇인지 분석하고 Google 검색 로봇과 친구가되는 방법에 대해 자세히 이야기하겠습니다.

먼저 일반적으로 검색 로봇이 무엇인지 이해해야 하며 거미라고도 합니다. 검색 엔진 스파이더는 어떤 일을 하나요?

웹사이트를 확인하는 프로그램입니다. 그들은 블로그의 모든 게시물과 페이지를 살펴보고 정보를 수집한 다음 그들이 일하는 검색 엔진의 데이터베이스로 전송합니다.

검색 로봇의 전체 목록을 알 필요는 없습니다. 가장 중요한 것은 Google에 이제 "팬더"와 "펭귄"이라는 두 개의 주요 거미가 있다는 것을 아는 것입니다. 그들은 저품질 콘텐츠와 정크 링크로 싸우고 있으며 공격을 격퇴하는 방법을 알아야 합니다.

Google Panda 검색 로봇은 검색에서 고품질 자료만을 홍보하기 위해 만들어졌습니다. 품질이 낮은 콘텐츠가 있는 모든 사이트는 검색 결과에서 낮아집니다.

이 거미는 2011년에 처음 등장했습니다. 등장하기 전에는 기사에 많은 양의 텍스트를 게시하고 엄청난 양의 키워드를 사용하여 모든 사이트를 홍보할 수 있었습니다. 이 두 가지 기술을 함께 사용하면 고품질 콘텐츠가 검색 결과 상단에 표시되지는 않지만 좋은 사이트는 검색 결과에 표시됩니다.

"Panda"는 모든 사이트를 확인하여 즉시 정리하고 모든 사람을 올바른 위치에 배치합니다. 그녀는 낮은 품질의 콘텐츠로 어려움을 겪고 있지만 양질의 기사가 있는 소규모 사이트도 이제 홍보할 수 있습니다. 이전에는 그런 사이트를 홍보해도 소용이 없었지만, 콘텐츠가 많은 거대 기업과 경쟁할 수는 없었다.

이제 "팬더"제재를 피하는 방법을 알아 보겠습니다. 먼저 그녀가 싫어하는 것이 무엇인지 이해해야 합니다. 나는 이미 그녀가 나쁜 콘텐츠로 어려움을 겪고 있다고 썼지 만 어떤 종류의 텍스트가 그녀에게 좋지 않은지 알아 내어 그녀의 사이트에 게시하지 않도록합시다.

구글 검색 로봇은 이 검색 엔진에서 지원자에게 양질의 자료만 발행되도록 노력합니다. 정보가 거의없고 외모가 매력적이지 않은 기사가있는 경우 "팬더"가 닿지 않도록이 텍스트를 긴급하게 다시 작성하십시오.

양질의 콘텐츠는 크거나 작을 수 있지만 거미가 정보가 많은 긴 기사를 본다면 독자에게 더 많은 도움이 될 것입니다.

그런 다음 복제, 즉 표절에 주목해야합니다. 블로그에 다른 사람의 기사를 다시 작성할 것이라고 생각되면 즉시 사이트를 종료할 수 있습니다. 무단 복제 시 필터를 적용하여 엄중히 처벌하며, 표절이 확인됨아주 쉽게, 나는 주제에 대한 기사를 썼다 텍스트의 고유성을 확인하는 방법.

다음으로 주목해야 할 것은 키워드가 있는 텍스트의 과포화입니다. 같은 키워드로 기사를 작성하고 검색 결과에서 1위를 차지할 것이라고 생각하는 사람은 큰 착각입니다. 페이지의 관련성을 확인하는 방법에 대한 기사가 있으니 꼭 읽어보세요.

그리고 당신에게 "팬더"를 끌어들일 수 있는 또 다른 것은 도덕적으로 구식이고 사이트에 트래픽을 가져오지 않는 오래된 기사입니다. 업데이트가 필요합니다.

구글 검색 로봇 '펭귄'도 있다. 이 거미는 귀하의 사이트에서 스팸 및 정크 링크와 싸웁니다. 또한 다른 리소스에서 구입한 링크도 계산합니다. 따라서 이 검색 로봇을 두려워하지 않으려면 링크를 구매하지 말고 사람들이 직접 링크할 수 있도록 고품질 콘텐츠를 게시해야 합니다.

이제 검색 로봇의 눈을 통해 사이트가 완벽하게 보이도록 하기 위해 수행해야 할 작업을 공식화해 보겠습니다.

  • 양질의 콘텐츠를 만들기 위해서는 기사를 쓰기 전에 먼저 주제를 잘 연구해야 합니다. 그런 다음 사람들이 이 주제에 정말 관심이 있다는 것을 이해해야 합니다.
  • 사용 구체적인 예그리고 사진, 이것은 기사를 생생하고 흥미롭게 만들 것입니다. 읽기 쉽도록 텍스트를 작은 단락으로 나눕니다. 예를 들어 신문에서 농담이 있는 페이지를 열면 어떤 것을 먼저 읽을 것입니까? 당연히 각 사람은 먼저 짧은 텍스트를 읽은 다음 긴 텍스트를 읽고 마지막으로 긴 족보를 읽습니다.
  • Panda가 가장 좋아하는 nitpick은 오래된 정보를 포함하는 기사의 관련성이 아닙니다. 업데이트 및 변경 텍스트를 계속 지켜봐주십시오.
  • 키워드의 밀도를 확인하십시오. 이 밀도를 결정하는 방법을 위에 썼으며, 서비스에서 필요한 키의 정확한 수를 받게 될 것이라고 말했습니다.
  • 표절하지 마십시오. 다른 사람의 물건이나 텍스트를 훔칠 수 없다는 것은 누구나 알고 있습니다. 필터 아래에 들어가면 도난에 대한 책임이 있습니다.
  • 최소 2,000 단어의 텍스트를 작성하면 검색 엔진 로봇의 눈을 통해 그러한 기사가 유익하게 보일 것입니다.
  • 블로그에서 주제를 벗어나지 마십시오. 인터넷에서 돈을 버는 블로그를 운영하고 있다면 공기총에 대한 기사를 인쇄할 필요가 없습니다. 이로 인해 리소스 등급이 낮아질 수 있습니다.
  • 기사를 아름답게 디자인하고 단락으로 나누고 그림을 추가하여 읽기 쉽고 사이트를 빨리 떠나고 싶지 않게 만드십시오.
  • 링크를 구매할 때 사람들이 실제로 읽을 가장 흥미롭고 유용한 기사로 링크를 만드십시오.

글쎄, 이제 당신은 검색 엔진 로봇이 어떤 일을 하는지 알고 그들과 친구가 될 수 있습니다. 그리고 가장 중요한 것은 Google 검색 로봇과 "판다"와 "펭귄"에 대해 자세히 연구했습니다.




맨 위