Іздеу жүйесінің өрмекшілері қандай жұмыс істейді? Іздеу роботы дегеніміз не? «Яндекс» және Google іздеу роботының функциялары. Іздеу роботы не істейді?

Танымал пікірге қарамастан, робот сканерленген құжаттарды өңдеуге тікелей қатыспайды. Ол тек оларды оқиды және сақтайды, содан кейін оларды басқа бағдарламалар өңдейді. Көрнекі растауды бірінші рет индекстелетін сайттың журналдарын талдау арқылы алуға болады. Бірінші барған кезде бот алдымен robots.txt файлын, содан кейін сайттың негізгі бетін сұрайды. Яғни, ол өзіне белгілі жалғыз сілтеме бойынша жүреді. Бұл жерде боттың бірінші сапары әрқашан аяқталады. Біраз уақыттан кейін (әдетте келесі күні) бот оқылған бетте табылған сілтемелерді пайдаланып келесі беттерді сұрайды. Содан кейін процесс сол ретпен жалғасады: сілтемелері бұрыннан табылған беттерді сұрау - оқылған құжаттарды өңдеуге арналған үзіліс - табылған сілтемелерді сұраумен келесі сессия.

Парақтарды жылдам талдау айтарлықтай көп нәрсені білдіреді Ороботтың ресурстарын көбірек тұтыну және уақытты жоғалту. Әрбір сканерлеу сервері бірнеше бот процестерін қатар іске қосады. Жаңа беттерді оқуға және барларын қайта оқуға уақыт табу үшін олар мүмкіндігінше тез әрекет етуі керек. Сондықтан боттар тек құжаттарды оқиды және сақтайды. Олар сақтағанның бәрі өңдеуге (кодты талдау) кезекке тұрады. Бетті өңдеу кезінде табылған сілтемелер боттарға арналған тапсырмалар кезегіне орналастырылады. Осылайша бүкіл желі үздіксіз сканерленеді. Тыйым салынған мекенжайларды сұрамау үшін боттың жылдам талдай алатын және талдай алатын жалғыз нәрсе - robots.txt файлы. Әрбір сайтты тексеріп шығу сеансы кезінде робот алдымен осы файлды сұрайды, одан кейін барлық беттер тексеріп шығу үшін кезекке тұрады.

Іздеу роботтарының түрлері

Әрбір іздеу жүйесінде әртүрлі мақсаттарға арналған роботтар жиынтығы бар.
Негізінде олар функционалдық мақсаты бойынша ерекшеленеді, дегенмен шекаралар өте ерікті және әрбір іздеу жүйесі оларды өзінше түсінеді. Тек толық мәтінді іздеуге арналған жүйелер үшін бір робот барлық жағдайларға жеткілікті. Тек мәтінмен ғана емес айналысатын іздеу жүйелері үшін боттар кем дегенде екі санатқа бөлінеді: мәтіндер мен сызбалар үшін. Сондай-ақ мазмұнның белгілі бір түрлеріне арналған бөлек боттар бар - мобильді, блог, жаңалықтар, бейне және т.б.

Google роботтары

Барлық Google роботтары жалпы Googlebot деп аталады. Негізгі робот индексі келесідей «өзін таныстырады»:

Mozilla/5.0 (үйлесімді; Googlebot/2.1; +http://www.google.com/bot.html)

Бұл бот негізгі үшін HTML беттерін және басқа құжаттарды сканерлеумен айналысады Google іздеу. Ол сондай-ақ кейде CSS және JS файлдарын оқиды - бұл негізінен сайтты индекстеудің бастапқы кезеңінде, бот сайтты бірінші рет тексеріп жатқанда байқалуы мүмкін. Барлық қабылданған мазмұн түрлері (Қабылдау: */*).

Негізгі боттардың екіншісі сайттан суреттерді сканерлеумен айналысады. Ол жай ғана «өзін таныстырады»:

Googlebot-Image/1.0

Мазмұнды жинаумен айналысатын журналдарда кем дегенде үш бот көрінді мобильді нұсқасыіздеу. Барлық үш пайдаланушы-агент өрісі жолмен аяқталады:

(үйлесімді; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Бұл жолдың алдында үлгі болып табылады ұялы телефон, бұл ботпен үйлесімді. Белгіленген боттардың үлгілері бар Nokia телефондары, Samsung және iPhone. Қабылданған мазмұн түрлерінің барлығы, бірақ басымдықтары көрсетілген:

Қабылдау: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0,9,text/vnd.wap.wml;q=0,8,text/html;q=0,7,*/*;q=0,6

Яндекс роботтары

RuNet-те белсенді іздеу жүйелерінің ішінде Яндекс боттардың ең үлкен топтамасына ие. Веб-шебердің анықтама бөлімінде сіз барлық паук қызметкерлерінің ресми тізімін таба аласыз. Мұнда оны толық көрсетудің қажеті жоқ, өйткені бұл тізімде өзгерістер мезгіл-мезгіл болып тұрады.
Дегенмен, біз үшін ең маңызды Яндекс роботтарын бөлек айту керек.
Негізгі индекстеу роботықазіргі уақытта шақырылады

Mozilla/5.0 (үйлесімді; YandexBot/3.0; +http://yandex.com/bots)

Бұрын ретінде ұсынылған

Yandex/1.01.001 (үйлесімді; Win16; I)

Индекстеу үшін веб-сайттың HTML беттерін және басқа құжаттарды оқиды. Қабылданған медиа түрлерінің тізімі бұрын шектелген:

Қабылдау: text/html, application/pdf;q=0,1, application/rtf;q=0,1, text/rtf;q=0,1, application/msword;q=0,1, application/x-shockwave-flash;q=0,1, application/vnd.ms-excel;q=0,1, application/vnd.ms-powerpoint;q=0,1

2009 жылдың 31 шілдесінен бастап бұл тізімде айтарлықтай кеңею байқалды (түрлердің саны екі есеге жуық өсті), ал 2009 жылдың 10 қарашасынан бастап тізім */* (барлық түрлері) дейін қысқартылды.
Бұл робот өте нақты тілдер жиынтығына қатты қызығады: орыс, азырақ украин және белорус, сәл аз ағылшын және өте аз - барлық басқа тілдер.

Қабылдау тілі: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Робот кескін сканеріПайдаланушы-агент өрісінде келесі жолды тасымалдайды:

Mozilla/5.0 (үйлесімді; YandexImages/3.0; +http://yandex.com/bots)

Суреттерден іздеу үшін әртүрлі форматтағы графиканы сканерлеумен айналысады.

Google-дан айырмашылығы, Яндекстің кейбіріне қызмет көрсететін бөлек боттары бар арнайы функцияларжалпы іздеу.
«Айна» роботы

Mozilla/5.0 (үйлесімді; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ол аса күрделі ештеңе жасамайды - ол мезгіл-мезгіл пайда болады және www арқылы доменге кіру кезінде сайттың негізгі беті сәйкес келетінін тексереді. және онсыз. Сондай-ақ сәйкестіктерге параллельді «айна» домендерін тексереді. Шамасы, Яндекстегі айналар мен домендердің канондық формасы бөлек өңделеді бағдарламалық пакет, индекстеумен тікелей байланысты емес. Әйтпесе, бұл мақсат үшін бөлек боттың болуын түсіндіретін ештеңе жоқ.

favicon.ico белгішелер жинағы

Mozilla/5.0 (үйлесімді; YandexFavicons/1.0; +http://yandex.com/bots)

Ол мезгіл-мезгіл пайда болады және favicon.ico белгішесін сұрайды, содан кейін ол сайт сілтемесінің жанындағы іздеу нәтижелерінде пайда болады. Қандай себептермен сурет жинаушы бұл жауапкершілікті бөліспейді, белгісіз. Шамасы, ойында бөлек бағдарламалық жасақтама пакеті де бар.

Тексеру ботыжаңа сайттар үшін AddURL пішініне қосылғанда жұмыс істейді

Mozilla/5.0 (үйлесімді; YandexWebmaster/2.0; +http://yandex.com/bots)

Бұл бот түбірлік URL мекенжайына HEAD сұрауын жіберу арқылы сайттың жауабын тексереді. Осылайша, домендегі басты беттің болуы тексеріледі және осы беттің HTTP тақырыптары талданады. Бот сонымен қатар сайттың түбіріндегі robots.txt файлын сұрайды. Осылайша, AddURL сілтемесін жібергеннен кейін сайттың бар екені анықталады және robots.txt де, HTTP тақырыптары да басты бетке кіруге тыйым салмайды.

Rambler роботы

Қазіргі уақытта жұмыс істемейді, өйткені Rambler қазір Яндекс іздеуін пайдаланады
Rambler индекстеу роботын пайдаланушы-агент өрісі арқылы журналдарда оңай анықтауға болады

StackRambler/2.0 (MSIE үйлесімсіз)

Басқалардың «әріптестерімен» салыстырғанда іздеу жүйелерібұл бот өте қарапайым болып көрінеді: ол медиа түрлерінің тізімін көрсетпейді (сәйкесінше ол кез келген түрдегі сұралған құжатты алады), сұрауда Accept-Language өрісі жоқ және If-Modified-sice өрісі табылмады. бот сұрауларында.

Robot Mail.Ru

Бұл робот туралы әлі аз мәлімет бар. Mail.Ru порталы ұзақ уақыт бойы жеке іздеуді дамытып келеді, бірақ ол әлі де бұл іздеуді іске қоса алмады. Сондықтан, пайдаланушы-агенттегі боттың аты ғана белгілі - Mail.Ru/2.0 (бұрын - Mail.Ru/1.0). robors.txt файлының директиваларына арналған бот атауы еш жерде жарияланбаған, бот Mail.Ru деп аталуы керек деген болжам бар.

Басқа роботтар

Интернетте іздеу, әрине, екі іздеу жүйесімен шектелмейді. Сондықтан, басқа роботтар бар - мысалы, Bing роботы - Microsoft іздеу жүйесі және басқа роботтар. Мәселен, атап айтқанда, Қытайда Baidu ұлттық іздеу жүйесі бар - бірақ оның роботы өзеннің ортасына жетіп, ресейлік сайтқа жетуі екіталай.

Сонымен қатар, жақында көптеген қызметтер кеңейді, атап айтқанда solomono - олар іздеу жүйесі болмаса да, сайттарды сканерлейді. Көбінесе сайт туралы ақпаратты мұндай жүйелерге жіберудің мәні күмәнді, сондықтан олардың роботтарына тыйым салынуы мүмкін.

Іздеу роботтары қалай жұмыс істейді

Іздеу роботы (өрмекші, бот) миллиондаған веб-сайттарға кіріп, оператордың араласуынсыз гигабайт мәтінді сканерлей алатын шағын бағдарлама. Беттерді оқу және олардың мәтіндік көшірмелерін сақтау - жаңа құжаттарды индекстеудің бірінші кезеңі. Айта кету керек, іздеу жүйесі роботтары алынған деректерді өңдеуді жүзеге асырмайды. Олардың міндеті тек сақтау мәтіндік ақпарат.

Біздің арнада қосымша бейнелер – SEMANTICA көмегімен интернет-маркетингті үйреніңіз

Іздеу роботтарының тізімі

Runet-ті сканерлейтін барлық іздеу жүйелерінің ішінде Яндекс боттардың ең үлкен жинағына ие. Келесі боттар индекстеу үшін жауапты:

  • веб-сайт беттерінен деректерді жинайтын негізгі индекстеу роботы;
  • айналарды тани алатын бот;
  • Суреттерді индекстейтін Яндекс іздеу роботы;
  • YAN қабылдаған сайттардың беттерін сканерлейтін өрмекші;
  • робот сканерлеу фавикон белгішелері;
  • сайт беттерінің қолжетімділігін анықтайтын бірнеше өрмекшілер.

Google-дың негізгі іздеу роботы мәтіндік ақпаратты жинайды. Негізінде ол HTML файлдарын көреді және белгілі бір аралықтарда JS және CSS талдайды. Индекстеу үшін рұқсат етілген мазмұнның кез келген түрін қабылдау мүмкіндігі. PS Google-да суреттерді индекстеуді басқаратын паук бар. Сондай-ақ іздеу роботы бар - іздеудің мобильді нұсқасының жұмысын қолдайтын бағдарлама.

Сайтты іздеу роботының көзімен қараңыз

Код қателерін және басқа кемшіліктерді түзету үшін веб-шебер іздеу роботының сайтты қалай көретінін біле алады. Бұл мүмкіндікті Google PS ұсынады. Сізге веб-шебер құралдарына өту керек, содан кейін «тексеру» қойындысын басыңыз. Ашылған терезеде «Googlebot ретінде қарау» жолын таңдау керек. Әрі қарай іздеу пішініне зерттеп жатқан беттің мекенжайын енгізу керек (домен мен http:// протоколын көрсетпей).

«Алу және көрсету» пәрменін таңдау арқылы веб-шебер сайт бетінің күйін визуалды түрде бағалай алады. Мұны істеу үшін «көрсетуді сұрау» құсбелгісін басу керек. Веб-құжаттың екі нұсқасы бар терезе ашылады. Веб-шебер тұрақты келушінің бетті қалай көретінін және оның іздеу өрмекшісіне қандай пішінде қол жетімді екенін біледі.

Кеңес Егер сіз талдап жатқан веб-құжат әлі индекстелмеген болса, «индекске қосу» >> «тек осы URL мекенжайын сканерлеу» пәрменін пайдалануға болады. Өрмекші құжатты бірнеше минут ішінде талдайды, ал жақын арада іздеу нәтижелерінде веб-парақ пайда болады. Индекстеу сұрауларының айлық шегі 500 құжатты құрайды.

Индекстеу жылдамдығына қалай әсер ету керек

Іздеу роботтарының қалай жұмыс істейтінін түсінген веб-шебер өз сайтын әлдеқайда тиімдірек жылжыта алады. Көптеген жас веб-жобалардың негізгі проблемаларының бірі - нашар индекстеу. Іздеу роботтары рұқсат етілмеген интернет-ресурстарға кіруге құлықсыз.
Индекстеу жылдамдығы сайттың жаңартылу қарқындылығына тікелей байланысты екені анықталды. Бірегей мәтіндік материалдарды үнемі қосу іздеу жүйелерінің назарын аударады.

Индекстеуді жылдамдату үшін сіз әлеуметтік бетбелгілерді және twitter қызметін пайдалана аласыз. Сайт картасын жасап, оны веб-жобаның түбірлік каталогына жүктеп салу ұсынылады.

Іздеу роботы шақырды арнайы бағдарламаИнтернетте табылған сайттар мен олардың беттеріне дерекқорға (индекске) кіруге арналған кез келген іздеу жүйесі. Сондай-ақ қолданылатын атаулар: тексеріп шығушы, өрмекші, бот, автоматты индекстеу, құмырсқа, веб-тексеру, бот, вебскутер, webrobots, webspider.

Жұмыс принципі

Іздеу роботы – браузер типті бағдарлама. Ол желіні үнемі сканерлейді: индекстелген (оған бұрыннан белгілі) сайттарға кіріп, олардан сілтемелерді бақылайды және жаңа ресурстарды табады. Жаңа ресурс табылған кезде процедура роботы оны іздеу жүйесінің индексіне қосады. Іздеу роботы сонымен қатар жиілігі бекітілген сайттардағы жаңартуларды индекстейді. Мысалы, аптасына бір рет жаңартылатын сайтқа осындай жиіліктегі өрмекші кіреді және жаңалықтар сайттарындағы мазмұн жарияланғаннан кейін бірнеше минут ішінде индекстелуі мүмкін. Егер басқа ресурстардан ешқандай сілтемелер сайтқа апармаса, іздеу роботтарын тарту үшін ресурс арнайы пішін арқылы қосылуы керек (Google Webmaster Center, Yandex Webmaster Panel және т.б.).

Іздеу роботтарының түрлері

Яндекс өрмекшілері:

  • Yandex/1.01.001 I – индекстеумен айналысатын негізгі бот,
  • Yandex/1.01.001 (P) - суреттерді индекстейді,
  • Yandex/1.01.001 (H) - айна сайттарын табады,
  • Yandex/1.03.003 (D) - веб-шебер панелінен қосылған беттің индекстеу параметрлеріне сәйкес келетінін анықтайды,
  • YaDirectBot/1.0 (I) - ресурстарды индекстейді жарнамалық желіЯндекс,
  • Yandex/1.02.000 (F) - сайт фавикондарын индекстейді.

Google Spiders:

  • Googlebot - басты робот
  • Googlebot News - жаңалықтарды сканерлейді және индекстейді,
  • Google Mobile - мобильді құрылғыларға арналған сайттарды индекстейді,
  • Googlebot Images - суреттерді іздейді және индекстейді,
  • Googlebot Video - бейнелерді индекстейді,
  • Google AdsBot - қону бетінің сапасын тексереді,
  • Google Mobile AdSense және Google AdSense— Google жарнама желісінің сайттарын индекстейді.

Басқа іздеу жүйелері де функционалды түрде тізімде көрсетілгендерге ұқсас роботтардың бірнеше түрін пайдаланады.

Іздеу жүйелері қалай жұмыс істейді? Ғаламтордың керемет тұстарының бірі - жүздеген миллион веб-ресурстардың күтіп тұрғаны және бізге ұсынылуға дайын болуы. Бірақ жаман жері сол миллиондаған беттер бар, олар бізге қажет болса да, алдымызда пайда болмайды, өйткені... бізге беймәлім. Интернетте нені және қайдан табуға болатынын қалай білуге ​​болады? Ол үшін әдетте іздеу жүйелеріне жүгінеміз.

Интернеттегі іздеу жүйелері арнайы сайттар болып табылады жаһандық желі, олар адамдарға табуға көмектесу үшін жасалған дүниежүзілік өрмеколарға қажетті ақпарат. Іздеу жүйелерінің өз функцияларын орындауында айырмашылықтар бар, бірақ жалпы 3 негізгі және бірдей функция бар:

Олардың барлығы Интернетті (немесе Интернеттің кейбір секторын) «іздеу» - берілген кілт сөздерге негізделген;
- барлық іздеу жүйелері өздері іздеген сөздерді және оларды тапқан жерлерді индекстейді;
- барлық іздеу жүйелері пайдаланушыларға қазірдің өзінде индекстелген және олардың дерекқорларына енгізілген веб-беттер негізінде сөздерді немесе кілт сөздердің комбинацияларын іздеуге мүмкіндік береді.

Ең алғашқы іздеу жүйелері бірнеше жүз мың бетке дейін индекстелді және күніне 1000-2000 сұраныс алды. Бүгінгі таңда үздік іздеу жүйелері жүздеген миллион беттерді индекстеп, үздіксіз индекстеуде және күніне ондаған миллион сұраныстарды өңдеуде. Төменде біз іздеу жүйелерінің қалай жұмыс істейтіні және бізді қызықтыратын кез келген сұраққа жауап беру үшін табылған барлық ақпаратты «біріктіру» туралы сөйлесетін боламыз.

Интернетті қарастырайық

Адамдар сөйлескенде Интернет іздеу жүйелерімашиналар, олар шын мәнінде іздеу жүйелерін білдіреді Дүниежүзілік өрмек. Интернет Интернеттің ең көрінетін бөлігі болғанға дейін адамдарға Интернеттен ақпаратты табуға көмектесетін іздеу жүйелері бұрыннан бар болатын. «Gopher» және «Archie» деп аталатын бағдарламалар қосылған әртүрлі серверлерде орналасқан файлдарды индекстей алды. Интернет интернетжәне іздеуге кететін уақытты айтарлықтай қысқартты қажетті бағдарламаларнемесе құжаттар. Өткен ғасырдың 80-жылдарының аяғында «Интернетте жұмыс істеу қабілетінің» синонимі гофер, Арчи, Вероника және т.б. іздеу бағдарламалары. Бүгінгі таңда Интернет пайдаланушыларының көпшілігі іздеуді тек қана іздеумен шектейді дүниежүзілік желі, немесе WWW.

Кішкентай бастама

Қажетті құжатты немесе файлды қайдан табуға болатынын айтпас бұрын, файл немесе құжат әлдеқашан табылған болуы керек. Жүздеген миллион қолданыстағы WEB беттері туралы ақпаратты табу үшін іздеу жүйесі арнайы робот бағдарламасын пайдаланады. Бұл бағдарлама өрмекші («өрмекші») деп те аталады және бетте табылған сөздердің тізімін құру үшін қолданылады. Мұндай тізімді құру процесі деп аталады вебті қарап шығу(Вебті қарап шығу). Сөздердің «пайдалы» (мағыналы) тізімін одан әрі құру және алу үшін, іздеу өрмекшітонна басқа беттерді «қарау» керек.

Кім қалай бастайды? өрмекші(өрмекші) сіздің интернеттегі саяхатыңыз? Әдетте бастапқы нүкте - әлемдегі ең үлкен серверлер және өте танымал веб-беттер. Өрмекші өз сапарын осындай сайттан бастайды, барлық табылған сөздерді индекстейді және басқа сайттарға сілтемелер бойынша қозғалысын жалғастырады. Осылайша, өрмекші робот веб-кеңістіктің барған сайын үлкен «бөліктерін» жаба бастайды. Google.com академиялық іздеу жүйесі ретінде басталды. Бұл іздеу жүйесінің қалай құрылғанын сипаттайтын мақалада Сергей Брин мен Лоуренс Пейдж (Google негізін салушылар мен иелері) Google өрмекшілерінің қаншалықты жылдам жұмыс істейтінін мысалға келтірді. Олардың бірнешеуі бар және әдетте іздеу 3 өрмекшіні пайдаланудан басталады. Әрбір өрмекші веб-беттерге бір уақытта 300-ге дейін ашық қосылымды қолдайды. Ең жоғары жүктеме кезінде 4 өрмекші арқылы Google жүйесі секундына 100 бетті өңдеуге қабілетті, шамамен 600 килобайт/сек трафикті жасайды.

Өрмекшілерді өңдеуге қажетті деректермен қамтамасыз ету үшін Google-да өрмекшілерге көбірек URL мекенжайларын беруден басқа ештеңе істемейтін сервер болды. URL мекенжайларын IP мекенжайларына аударатын домендік атаулар серверлері (DNS) тұрғысынан Интернет-провайдерлерге тәуелді болмау үшін Google өзінің жеке сатып алуын алды. DNS сервері, беттерді индекстеуге кететін барлық уақытты минимумға дейін қысқартады.

Google роботы келгенде HTML беті, ол 2 нәрсені ескереді:

Әр бетте сөздер (мәтін);
- олардың орналасуы (беттің негізгі бөлігінің қай бөлігінде).

сияқты қызмет бөлімдерімен орналасқан сөздер тақырып, субтитрлер, мета тегтержәне басқалары пайдаланушы іздеу сұраулары үшін ерекше маңызды деп белгіленді. Google Spider "a", "an" және "the" сияқты шылауларды қоспағанда, беттегі барлық ұқсас сөздерді индекстеу үшін жасалған. Басқа іздеу жүйелерінде индекстеуге басқаша көзқарас бар.

Іздеу жүйесінің барлық тәсілдері мен алгоритмдері, сайып келгенде, өрмекші роботтардың тезірек және тиімдірек жұмыс істеуіне бағытталған. Мысалы, кейбір іздеу роботтары тақырыптағы сөздерді, сілтемелерді және индекстеу кезінде беттегі ең жиі қолданылатын 100-ге дейін сөздерді, тіпті беттегі мәтін мазмұнының алғашқы 20 жолындағы сөздердің әрқайсысын бақылайды. Бұл, атап айтқанда, Lycos-тың индекстеу алгоритмі.

AltaVista сияқты басқа іздеу жүйелері беттегі әрбір сөзді, соның ішінде «a», «an», «the» және басқа маңызды емес сөздерді индекстей отырып, басқа бағытта жүреді.

Мета тегтер

Мета тегтер веб-беттің иесіне оның мазмұнының мәнін анықтайтын кілт сөздер мен ұғымдарды көрсетуге мүмкіндік береді. Бұл өте пайдалы құрал, әсіресе бұл кілт сөздерді бет мәтінінде 2-3 ретке дейін қайталауға болады. Бұл жағдайда мета тегтер іздеу роботын бетті индекстеу үшін қажетті кілт сөздерді таңдауға «бағыттауы» мүмкін. Беттің мазмұнына ешқандай қатысы жоқ танымал іздеу сұраулары мен тұжырымдамалары бар мета тегтерді «алдау» мүмкіндігі бар. Іздеу роботтары мұнымен күресе алады, мысалы, мета-тегтер мен веб-беттің мазмұнын талдау, беттердің мазмұнына сәйкес келмейтін мета тегтерді (тиісінше кілт сөздерді) қараудан «шығарып тастау».

Мұның бәрі веб-ресурс иесі шынымен қалаған іздеу сөздері бойынша іздеу нәтижелеріне қосқысы келетін жағдайларға қатысты. Бірақ иесінің робот мүлде индекстегісі келмейтіні жиі кездеседі. Бірақ мұндай жағдайлар біздің мақаламыздың тақырыбы емес.

Индекс құрылысы

Өрмекшілер жаңа веб-беттерді табу жұмысын аяқтағаннан кейін, іздеу жүйелері табылған барлық ақпаратты болашақта қолдануға ыңғайлы етіп орналастыруы керек. Мұнда маңызды 2 негізгі компонент бар:

Деректермен бірге сақталған ақпарат;
- бұл ақпаратты индекстеу әдісі.

Ең қарапайым жағдайда іздеу жүйесі сөзді және URL мекенжайын ол табылған жерге жай ғана орналастыра алады. Бірақ бұл іздеу жүйесін мүлдем қарапайым құралға айналдырады, өйткені бұл сөз құжаттың қай бөлігінде (мета тегтер немесе қарапайым мәтінде), бұл сөз бір рет немесе бірнеше рет қолданылғаны туралы ақпарат жоқ. басқа маңызды және қатысты ресурсқа сілтемеде қамтылған. Басқаша айтқанда, бұл әдіс сайттарды рейтингтемейді, пайдаланушыларға сәйкес нәтижелерді бермейді және т.б.

Бізді пайдалы деректермен қамтамасыз ету үшін іздеу жүйелері сөзден және оның URL мекенжайынан ақпаратты ғана сақтайды. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову "вес", что далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы және т.б.). Әрбір коммерциялық іздеу жүйесінде индекстеу кезінде кілт сөздердің «салмасын» есептеуге арналған өз формуласы бар. Мұның бір себебі де осы іздеу сұрауыіздеу жүйелері мүлдем басқа нәтиже береді.

Келесі маңызды нүктетабылған ақпаратты өңдеу кезінде - оны сақтауға арналған дискілік кеңістіктің көлемін азайту мақсатында оны кодтау. Мысалы, Google-дың түпнұсқа мақаласында сөздердің салмақтық деректерін сақтау үшін 2 байт (әрқайсысы 8 бит) пайдаланылатыны сипатталған - бұл сөз түрін (бас әріп немесе бас әріп), әріптердің өлшемін (Шрифт- өлшемі) және сайтты рейтингтеуге көмектесетін басқа ақпарат. Әрбір осындай ақпарат «бөлігі» толық 2 байт жиынында 2-3 бит деректерді қажет етеді. Нәтижесінде үлкен көлемдегі ақпаратты өте ықшам түрде сақтауға болады. Ақпарат «сығылғаннан» кейін индекстеуді бастау уақыты келді.

Индексацияның бір мақсаты бар: максималды қамтамасыз ету жылдам іздеуқажетті ақпарат. Индекстерді құрудың бірнеше жолы бар, бірақ ең тиімдісі - құру хэш кестелері(хэш кестесі). Хэшинг әр сөзге сандық мән тағайындау үшін арнайы формуланы пайдаланады.

Кез келген тілде әліпбидің қалған әріптерінен гөрі көбірек сөз басталатын әріптер бар. Мысалы, ағылшын тіліндегі сөздік бөлімінде «Х» әрпінен басталатын сөздерге қарағанда «М» әрпінен басталатын сөздер әлдеқайда көп. Бұл ең танымал әріптен басталатын сөзді іздеу кез келген басқа сөзге қарағанда ұзағырақ болатынын білдіреді. Хэшинг(Хешинг) бұл айырмашылықты теңестіреді және орташа іздеу уақытын қысқартады, сонымен қатар индекстің өзін нақты деректерден бөледі. Хэш кестесінде хэш мәндері және осы мәнге сәйкес деректерге көрсеткіш бар. Тиімді индекстеу + тиімді орналастыру бірігіп, пайдаланушы өте күрделі іздеу сұрауын сұраса да, жоғары іздеу жылдамдығын қамтамасыз етеді.

Іздеу жүйелерінің болашағы

Логикалық операторларға негізделген іздеу («және», «немесе», «жоқ») сөзбе-сөз іздеу болып табылады - іздеу жүйесі іздеу сөздерін дәл енгізілгендей қабылдайды. Бұл, мысалы, енгізілген сөздің бірнеше мағынасы болған кезде қиындық тудыруы мүмкін. Мысалы, «кілт» «есік ашу құралы» немесе серверге кіру үшін «құпия сөз» дегенді білдіруі мүмкін. Егер сізді сөздің бір ғана мағынасы қызықтырса, оның екінші мағынасы туралы деректер қажет болмайтыны анық. Сіз, әрине, сөздің қажетсіз мағынасына негізделген деректердің шығуын жоққа шығаратын әріптік сұрауды құра аласыз, бірақ іздеу жүйесінің өзі сізге көмектессе жақсы болар еді.

Болашақ іздеу жүйесінің алгоритмдерін зерттеудің бір саласы - концептуалды ақпаратты іздеу. Бұл сәйкес деректерді табу үшін берілген іздеу кілт сөзі немесе сөз тіркесі бар беттердің статистикалық талдауын пайдаланатын алгоритмдер. Мұндай «концептуалды іздеу жүйесі» әр бет үшін әлдеқайда көбірек сақтау орнын және әрбір сұрауды өңдеуге көбірек уақытты қажет ететіні анық. Қазіргі уақытта бұл мәселемен көптеген зерттеушілер айналысуда.

Сұраныс негізінде іздеу алгоритмдерін жасау саласында да қарқынды жұмыс жүргізілуде. табиғи тіл(Табиғи тілде сұрау).

Табиғи сұраулардың идеясы - сіз өз сұрауыңызды қарсы отырған әріптесіңізден сұрағандай жаза аласыз. Логикалық операторлар туралы алаңдамаудың немесе құрастыруға тырысудың қажеті жоқ күрделі сұрау. Бүгінгі таңда ең танымал табиғи тіл іздеу сайты AskJeeves.com болып табылады. Ол сұрауды кілт сөздерге түрлендіреді, содан кейін ол сайттарды индекстеу кезінде пайдаланады. Бұл тәсіл қарапайым сұраулар үшін ғана жұмыс істейді. Дегенмен, прогресс бір орында тұрмайды, мүмкін біз көп ұзамай іздеу жүйелерімен өзіміздің «адам тілінде» «сөйлейтін боламыз».

Достар, тағы да қош келдіңіздер! Енді біз іздеу роботтарының не екенін қарастырамыз және Google іздеу роботы және олармен қалай дос болу керектігі туралы егжей-тегжейлі сөйлесеміз.

Алдымен сіз іздеу роботтарының не екенін түсінуіңіз керек; оларды өрмекшілер деп те атайды. Іздеу жүйесінің өрмекшілері қандай жұмыс істейді?

Бұл сайттарды тексеретін бағдарламалар. Олар сіздің блогыңыздағы барлық жазбалар мен беттерді қарап, ақпаратты жинайды, содан кейін олар жұмыс істейтін іздеу жүйесінің дерекқорына жібереді.

Сізге іздеу роботтарының толық тізімін білудің қажеті жоқ, ең бастысы, Google-да қазір «панда» және «пингвин» деп аталатын екі негізгі өрмекші бар екенін білу. Олар сапасыз мазмұнмен және қалаусыз сілтемелермен күреседі және олардың шабуылдарына қалай тойтарыс беру керектігін білу керек.

Google Panda іздеу роботы іздеуде тек жоғары сапалы материалдарды жылжыту үшін жасалған. Сапасы төмен барлық сайттар іздеу нәтижелерінде төмендейді.

Бұл өрмекші алғаш рет 2011 жылы пайда болды. Ол пайда болғанға дейін мақалаларда мәтіннің үлкен көлемін жариялау және кілт сөздердің үлкен көлемін пайдалану арқылы кез келген веб-сайтты алға жылжытуға болады. Бұл екі әдіс бірге сапалы емес мазмұнды іздеу нәтижелерінің жоғарғы жағына шығарды, ал жақсы сайттар іздеу нәтижелерінде төмендетілді.

«Панда» барлық сайттарды тексеріп, барлығын өз орындарына қою арқылы заттарды бірден ретке келтіреді. Ол сапасыз мазмұнмен күрессе де, қазір тіпті шағын сайттарды жоғары сапалы мақалалармен жарнамалауға болады. Бұрын мұндай сайттарды жарнамалау пайдасыз болғанымен, олар контенті үлкен алыптармен бәсекеге түсе алмады.

Енді біз «панда» санкцияларынан қалай құтылуға болатынын анықтаймыз. Сіз алдымен оның нені ұнатпайтынын түсінуіңіз керек. Мен оның нашар мазмұнмен күресетінін жоғарыда жаздым, бірақ ол үшін қандай мәтін жаман, оны веб-сайтымызда жарияламау үшін оны анықтайық.

Google іздеу роботы бұл іздеу жүйесі жұмыс іздеушілер үшін тек жоғары сапалы материалдарды қамтамасыз етуге тырысады. Егер сізде аз ақпарат бар және сыртқы түрі тартымды емес мақалалар болса, «панда» сізге түспеуі үшін бұл мәтіндерді шұғыл түрде қайта жазыңыз.

Жоғары сапалы мазмұн үлкен де, кіші де болуы мүмкін, бірақ егер өрмекші көп ақпараты бар ұзақ мақаланы көрсе, онда ол оқырманға пайдалырақ болады.

Содан кейін қайталауды, басқаша айтқанда, плагиатты атап өту керек. Егер сіз өзіңіздің блогыңызда басқа адамдардың мақалаларын қайта жазамын деп ойласаңыз, сайтыңызды дереу тоқтата аласыз. Көшіру сүзгіні қолдану арқылы қатаң жазаланады және Плагиат тексеріледіөте оңай, мен тақырып бойынша мақала жаздым мәтіндердің бірегейлігін қалай тексеруге болады.

Келесі назар аударатын нәрсе - мәтіннің кілт сөздермен шамадан тыс қаныққандығы. Тек кілт сөздерді пайдаланып мақала жазамын және іздеу нәтижелерінде бірінші орын аламын деп ойлайтын кез келген адам қатты қателеседі. Менде беттердің өзектілігін қалай тексеруге болатыны туралы мақала бар, оны оқып шығыңыз.

Сізге «панданы» тарта алатын тағы бір нәрсе - бұл моральдық тұрғыдан ескірген және сайтқа трафик әкелмейтін ескі мақалалар. Олар міндетті түрде жаңартылуы керек.

Сондай-ақ Google іздеу роботы «пингвин» бар. Бұл паук сіздің сайтыңыздағы спам және қалаусыз сілтемелермен күреседі. Ол сондай-ақ басқа ресурстардан сатып алынған сілтемелерді есептейді. Сондықтан, осы іздеу роботынан қорықпау үшін сіз сілтемелерді сатып алмайсыз, бірақ адамдар сізге өздері сілтеме жасайтындай жоғары сапалы мазмұнды жариялауыңыз керек.

Енді сайтты іздеу роботының көзімен мінсіз ету үшін не істеу керектігін тұжырымдап көрейік:

  • Сапалы мазмұн жасау үшін мақаланы жазбас бұрын тақырыпты жақсылап зерттеңіз. Сонда сіз адамдардың бұл тақырыпқа шынымен қызығушылық танытатынын түсінуіңіз керек.
  • Қолдану нақты мысалдаржәне суреттер, бұл мақаланы жанды және қызықты етеді. Мәтінді оқуға ыңғайлы болу үшін шағын абзацтарға бөліңіз.Мысалы, сіз газеттен әзілдердің бетін ашсаңыз, қайсысын бірінші оқисыз? Әрине, әр адам алдымен қысқа мәтіндерді, содан кейін ұзағырақ мәтіндерді және ең соңында ұзын аяқ орамдарын оқиды.
  • «Панданың» ең жақсы көретін тұсы – ескірген ақпаратты қамтитын мақаланың өзектілігінің болмауы. Жаңартуларды қадағалаңыз және мәтіндерді өзгертіңіз.
  • Түйінді сөздің тығыздығын қадағалаңыз; мен бұл тығыздықты қалай анықтау керектігін жоғарыда жаздым; мен сипаттаған қызметте сіз кілт сөздердің нақты қажетті санын аласыз.
  • Плагиат жасамаңыз, басқалардың заттарын немесе мәтінін ұрлай алмайтыныңызды бәрі біледі - бұл бірдей нәрсе. Сіз сүзгіге түсіп, ұрлық үшін жазаланасыз.
  • Кем дегенде екі мың сөзден тұратын мәтіндер жазыңыз, содан кейін мұндай мақала іздеу роботтарының көзімен ақпараттандыратын болады.
  • Блогыңызбен тақырыпта болыңыз. Егер сіз Интернетте ақша табу туралы блог жүргізіп жатсаңыз, онда пневматикалық қарулар туралы мақалалар жариялаудың қажеті жоқ. Бұл ресурсыңыздың рейтингін төмендетуі мүмкін.
  • Мақалаларыңызды әдемі етіп жасаңыз, оларды абзацтарға бөліңіз және суреттерді қосыңыз, осылайша оқуды ұнатыңыз және сайттан тез кеткіңіз келмейді.
  • Сілтемелерді сатып алғанда, оларды адамдар шынымен оқитын ең қызықты және пайдалы мақалаларға айналдырыңыз.

Енді сіз іздеу жүйесі роботтарының қандай жұмыс істейтінін білесіз және олармен дос бола аласыз. Ең бастысы, Google іздеу роботы мен «панда» мен «пингвинді» сіз егжей-тегжейлі зерттедіңіз.




Жоғарғы