Τι δουλειά κάνουν οι αράχνες των μηχανών αναζήτησης; Τι είναι ένα ρομπότ αναζήτησης; Λειτουργίες του ρομπότ αναζήτησης "Yandex" και της Google. Τι κάνει ένα ρομπότ αναζήτησης;

Σε αντίθεση με τη δημοφιλή πεποίθηση, το ρομπότ δεν εμπλέκεται άμεσα σε καμία επεξεργασία σαρωμένων εγγράφων. Μόνο τα διαβάζει και τα αποθηκεύει και στη συνέχεια υποβάλλονται σε επεξεργασία από άλλα προγράμματα. Η οπτική επιβεβαίωση μπορεί να ληφθεί αναλύοντας τα αρχεία καταγραφής μιας τοποθεσίας που ευρετηριάζεται για πρώτη φορά. Στην πρώτη επίσκεψη, το bot ζητά πρώτα το αρχείο robots.txt και μετά την κύρια σελίδα του ιστότοπου. Δηλαδή ακολουθεί τον μοναδικό σύνδεσμο που του είναι γνωστός. Εδώ τελειώνει πάντα η πρώτη επίσκεψη του bot. Μετά από κάποιο χρονικό διάστημα (συνήθως την επόμενη μέρα), το bot ζητά τις ακόλουθες σελίδες - χρησιμοποιώντας συνδέσμους που βρίσκονται στη σελίδα που έχει ήδη διαβάσει. Στη συνέχεια, η διαδικασία συνεχίζεται με την ίδια σειρά: αίτημα σελίδων για τις οποίες έχουν ήδη βρεθεί σύνδεσμοι - παύση για την επεξεργασία των εγγράφων ανάγνωσης - την επόμενη συνεδρία με αίτημα για συνδέσμους που βρέθηκαν.

Η ανάλυση σελίδων εν κινήσει θα σήμαινε πολύ περισσότερα Ομεγαλύτερη κατανάλωση πόρων του ρομπότ και απώλεια χρόνου. Κάθε διακομιστής σάρωσης εκτελεί πολλές διεργασίες bot παράλληλα. Πρέπει να ενεργήσουν όσο το δυνατόν γρηγορότερα για να έχουν χρόνο να διαβάσουν νέες σελίδες και να ξαναδιαβάσουν τις υπάρχουσες. Επομένως, τα bots διαβάζουν και αποθηκεύουν μόνο έγγραφα. Ό,τι αποθηκεύουν βρίσκεται στην ουρά για επεξεργασία (ανάλυση κώδικα). Οι σύνδεσμοι που βρίσκονται κατά την επεξεργασία της σελίδας τοποθετούνται σε μια ουρά εργασιών για bots. Έτσι σαρώνεται συνεχώς ολόκληρο το δίκτυο. Το μόνο πράγμα που μπορεί και πρέπει να αναλύσει ένα bot εν κινήσει είναι το αρχείο robots.txt, για να μην ζητήσει διευθύνσεις που απαγορεύονται σε αυτό. Κατά τη διάρκεια κάθε περιόδου σύνδεσης ανίχνευσης ιστότοπου, το ρομπότ ζητά πρώτα αυτό το αρχείο και μετά από αυτό, όλες οι σελίδες βρίσκονται στην ουρά για ανίχνευση.

Τύποι ρομπότ αναζήτησης

Κάθε μηχανή αναζήτησης έχει το δικό της σύνολο ρομπότ για διαφορετικούς σκοπούς.
Βασικά, διαφέρουν ως προς τον λειτουργικό τους σκοπό, αν και τα όρια είναι πολύ αυθαίρετα και κάθε μηχανή αναζήτησης τα κατανοεί με τον δικό της τρόπο. Για συστήματα μόνο για αναζήτηση πλήρους κειμένου, ένα ρομπότ είναι αρκετό για όλες τις περιπτώσεις. Για τις μηχανές αναζήτησης που ασχολούνται όχι μόνο με κείμενο, τα bots χωρίζονται σε τουλάχιστον δύο κατηγορίες: για κείμενα και σχέδια. Υπάρχουν επίσης ξεχωριστά bots αφιερωμένα σε συγκεκριμένους τύπους περιεχομένου - κινητά, ιστολόγιο, ειδήσεις, βίντεο κ.λπ.

Google Robots

Όλα τα ρομπότ της Google ονομάζονται συλλογικά Googlebot. Ο κύριος δείκτης ρομπότ «συστήνεται» ως εξής:

Mozilla/5.0 (συμβατό; Googlebot/2.1; +http://www.google.com/bot.html)

Αυτό το bot είναι απασχολημένο με τη σάρωση σελίδων HTML και άλλων εγγράφων για τα κύρια αναζήτηση Google. Περιστασιακά διαβάζει επίσης αρχεία CSS και JS - αυτό μπορεί να παρατηρηθεί κυρίως στο αρχικό στάδιο της ευρετηρίασης του ιστότοπου, ενώ το bot ανιχνεύει τον ιστότοπο για πρώτη φορά. Οι αποδεκτοί τύποι περιεχομένου είναι όλοι (Αποδοχή: */*).

Το δεύτερο από τα κύρια ρομπότ είναι απασχολημένο με τη σάρωση εικόνων από τον ιστότοπο. «Συστήνεται» απλά:

Googlebot-Image/1.0

Τουλάχιστον τρία ρομπότ εμφανίστηκαν επίσης στα αρχεία καταγραφής, απασχολημένοι με τη συλλογή περιεχομένου για έκδοση για κινητάΑναζήτηση. Το πεδίο User-agent και των τριών τελειώνει με τη γραμμή:

(συμβατό; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Πριν από αυτή τη γραμμή είναι το μοντέλο κινητό τηλέφωνο, με το οποίο αυτό το bot είναι συμβατό. Τα spotted bots έχουν μοντέλα Τηλέφωνα Nokia, Samsung και iPhone. Οι αποδεκτοί τύποι περιεχομένου είναι όλοι, αλλά με τις προτεραιότητες που αναφέρονται:

Αποδοχή: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Ρομπότ Yandex

Από τις μηχανές αναζήτησης που δραστηριοποιούνται στο RuNet, η Yandex διαθέτει τη μεγαλύτερη συλλογή ρομπότ. Στην ενότητα βοήθειας webmaster μπορείτε να βρείτε μια επίσημη λίστα με όλο το προσωπικό της αράχνης. Δεν έχει νόημα να το παρουσιάζουμε εδώ πλήρως, καθώς συμβαίνουν περιοδικά αλλαγές σε αυτήν τη λίστα.
Ωστόσο, τα πιο σημαντικά ρομπότ Yandex για εμάς πρέπει να αναφέρονται ξεχωριστά.
Βασικό ρομπότ ευρετηρίουκαλείται αυτή τη στιγμή

Mozilla/5.0 (συμβατό; YandexBot/3.0; +http://yandex.com/bots)

Προηγουμένως εκπροσωπήθηκε ως

Yandex/1.01.001 (συμβατό; Win16; I)

Διαβάζει σελίδες HTML ιστότοπου και άλλα έγγραφα για ευρετηρίαση. Η λίστα των αποδεκτών τύπων μέσων ήταν προηγουμένως περιορισμένη:

Αποδοχή: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Από τις 31 Ιουλίου 2009, έχει παρατηρηθεί σημαντική επέκταση σε αυτήν τη λίστα (ο αριθμός των τύπων έχει σχεδόν διπλασιαστεί) και από τις 10 Νοεμβρίου 2009, η λίστα έχει συντομευθεί σε */* (όλοι οι τύποι).
Αυτό το ρομπότ ενδιαφέρεται έντονα για ένα πολύ συγκεκριμένο σύνολο γλωσσών: ρωσικά, λίγο λιγότερο ουκρανικά και λευκορωσικά, λίγο λιγότερα αγγλικά και πολύ λίγο - όλες οι άλλες γλώσσες.

Accept-Language: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Σαρωτής εικόνας ρομπότφέρει την ακόλουθη γραμμή στο πεδίο User-agent:

Mozilla/5.0 (συμβατό; YandexImages/3.0; +http://yandex.com/bots)

Ασχολείται με τη σάρωση γραφικών διαφόρων μορφών για αναζήτηση σε εικόνες.

Σε αντίθεση με την Google, το Yandex έχει ξεχωριστά bots για να εξυπηρετήσει ορισμένα ειδικές λειτουργίεςγενική αναζήτηση.
Ρομπότ "καθρέφτης"

Mozilla/5.0 (συμβατό; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Δεν κάνει τίποτα ιδιαίτερα περίπλοκο - εμφανίζεται περιοδικά και ελέγχει εάν η κύρια σελίδα του ιστότοπου ταιριάζει κατά την πρόσβαση στον τομέα με www. και χωρίς. Ελέγχει επίσης τους παράλληλους τομείς "mirror" για αντιστοιχίσεις. Προφανώς, οι κατοπτρισμοί και η κανονική μορφή τομέων στο Yandex αντιμετωπίζονται χωριστά πακέτο λογισμικού, δεν σχετίζεται άμεσα με την ευρετηρίαση. Διαφορετικά, δεν υπάρχει απολύτως τίποτα που να εξηγεί την ύπαρξη ενός ξεχωριστού bot για το σκοπό αυτό.

Συλλέκτης εικονιδίων favicon.ico

Mozilla/5.0 (συμβατό; YandexFavicons/1.0; +http://yandex.com/bots)

Εμφανίζεται περιοδικά και ζητά το εικονίδιο favicon.ico, το οποίο στη συνέχεια εμφανίζεται στα αποτελέσματα αναζήτησης δίπλα στον σύνδεσμο προς τον ιστότοπο. Για ποιους λόγους ο συλλέκτης εικόνων δεν μοιράζεται αυτήν την ευθύνη είναι άγνωστο. Προφανώς υπάρχει και ένα ξεχωριστό πακέτο λογισμικού.

Ρομπότ επαλήθευσηςγια νέους ιστότοπους, λειτουργεί όταν προστίθεται στη φόρμα AddURL

Mozilla/5.0 (συμβατό; YandexWebmaster/2.0; +http://yandex.com/bots)

Αυτό το bot ελέγχει την απόκριση του ιστότοπου στέλνοντας ένα αίτημα HEAD στη διεύθυνση URL του root. Με αυτόν τον τρόπο ελέγχεται η ύπαρξη της κύριας σελίδας στον τομέα και αναλύονται οι κεφαλίδες HTTP αυτής της σελίδας. Το bot ζητά επίσης το αρχείο robots.txt στη ρίζα του ιστότοπου. Έτσι, μετά την υποβολή του συνδέσμου στο AddURL, διαπιστώνεται ότι ο ιστότοπος υπάρχει και ούτε οι κεφαλίδες robots.txt ούτε HTTP απαγορεύουν την πρόσβαση στην κύρια σελίδα.

Ρομπότ Rambler

Επί του παρόντος δεν λειτουργεί πλέον, αφού το Rambler χρησιμοποιεί πλέον την αναζήτηση Yandex
Το ρομπότ ευρετηρίου Rambler μπορεί εύκολα να αναγνωριστεί στα αρχεία καταγραφής από το πεδίο User-agent

StackRambler/2.0 (μη συμβατό με το MSIE)

Σε σύγκριση με «συναδέλφους» από άλλους μηχανές αναζήτησηςαυτό το bot φαίνεται αρκετά απλό: δεν καθορίζει μια λίστα τύπων μέσων (ανάλογα, λαμβάνει το ζητούμενο έγγραφο οποιουδήποτε τύπου), το πεδίο Accept-Language λείπει από το αίτημα και το πεδίο If-Modified-αφού δεν βρέθηκε στα αιτήματα του bot.

Robot Mail.Ru

Λίγα είναι γνωστά ακόμα για αυτό το ρομπότ. Η πύλη Mail.Ru αναπτύσσει τη δική της αναζήτηση εδώ και πολύ καιρό, αλλά ακόμα δεν έχει καταφέρει να ξεκινήσει αυτήν την αναζήτηση. Επομένως, μόνο το όνομα του bot στο User-agent είναι γνωστό με βεβαιότητα - Mail.Ru/2.0 (προηγουμένως - Mail.Ru/1.0). Το όνομα του ρομπότ για τις οδηγίες του αρχείου robors.txt δεν έχει δημοσιευτεί πουθενά· υπάρχει η υπόθεση ότι το bot θα πρέπει να ονομάζεται Mail.Ru.

Άλλα ρομπότ

Η αναζήτηση στο Διαδίκτυο, φυσικά, δεν περιορίζεται σε δύο μηχανές αναζήτησης. Επομένως, υπάρχουν άλλα ρομπότ - για παράδειγμα, το ρομπότ Bing - η μηχανή αναζήτησης από τη Microsoft και άλλα ρομπότ. Έτσι, συγκεκριμένα, στην Κίνα υπάρχει μια εθνική μηχανή αναζήτησης Baidu - αλλά το ρομπότ της είναι απίθανο να φτάσει στη μέση του ποταμού και να φτάσει στη ρωσική τοποθεσία.

Επιπλέον, πρόσφατα πολλαπλασιάστηκαν πολλές υπηρεσίες - ιδίως το solomono - οι οποίες, αν και δεν είναι μηχανές αναζήτησης, σαρώνουν επίσης ιστότοπους. Συχνά η αξία της μετάδοσης πληροφοριών τοποθεσίας σε τέτοια συστήματα είναι αμφίβολη και επομένως τα ρομπότ τους μπορούν να απαγορευτούν σε

Πώς λειτουργούν τα ρομπότ μηχανών αναζήτησης

Ένα ρομπότ αναζήτησης (αράχνη, bot) είναι ένα μικρό πρόγραμμα που μπορεί να επισκεφθεί εκατομμύρια ιστότοπους και να σαρώσει gigabyte κειμένου χωρίς παρέμβαση χειριστή. Η ανάγνωση σελίδων και η αποθήκευση αντιγράφων κειμένου τους είναι το πρώτο στάδιο της ευρετηρίασης νέων εγγράφων. Θα πρέπει να σημειωθεί ότι τα ρομπότ μηχανών αναζήτησης δεν πραγματοποιούν καμία επεξεργασία των δεδομένων που λαμβάνονται. Το καθήκον τους είναι μόνο να διατηρούν πληροφορίες κειμένου.

Περισσότερα βίντεο στο κανάλι μας - μάθετε το διαδικτυακό μάρκετινγκ με τη SEMANTICA

Λίστα ρομπότ αναζήτησης

Από όλες τις μηχανές αναζήτησης που σαρώνουν το Runet, η Yandex διαθέτει τη μεγαλύτερη συλλογή ρομπότ. Τα ακόλουθα ρομπότ είναι υπεύθυνα για την ευρετηρίαση:

  • το κύριο ρομπότ ευρετηρίασης που συλλέγει δεδομένα από σελίδες ιστότοπου.
  • ένα bot που μπορεί να αναγνωρίσει καθρέφτες.
  • Ρομπότ αναζήτησης Yandex, το οποίο ευρετηριάζει εικόνες.
  • μια αράχνη που σαρώνει τις σελίδες των τοποθεσιών που γίνονται δεκτές από το YAN.
  • Εικονίδια favicon σάρωσης ρομπότ.
  • αρκετές αράχνες που καθορίζουν την προσβασιμότητα των σελίδων του ιστότοπου.

Το κύριο ρομπότ αναζήτησης της Google συλλέγει πληροφορίες κειμένου. Βασικά, προβάλλει αρχεία HTML και αναλύει JS και CSS σε συγκεκριμένα χρονικά διαστήματα. Δυνατότητα αποδοχής οποιουδήποτε τύπου περιεχομένου που επιτρέπεται για ευρετηρίαση. Υ.Γ. Η Google έχει μια αράχνη που ελέγχει την ευρετηρίαση των εικόνων. Υπάρχει επίσης ένα ρομπότ αναζήτησης - ένα πρόγραμμα που υποστηρίζει τη λειτουργία της έκδοσης αναζήτησης για κινητά.

Δείτε τον ιστότοπο μέσα από τα μάτια ενός ρομπότ αναζήτησης

Για τη διόρθωση σφαλμάτων κώδικα και άλλων ελλείψεων, ο webmaster μπορεί να ανακαλύψει πώς βλέπει τον ιστότοπο το ρομπότ αναζήτησης. Αυτή η ευκαιρία παρέχεται από το Google PS. Θα χρειαστεί να μεταβείτε στα εργαλεία webmaster και, στη συνέχεια, να κάνετε κλικ στην καρτέλα "ανίχνευση". Στο παράθυρο που ανοίγει, πρέπει να επιλέξετε τη γραμμή "προβολή ως Googlebot". Στη συνέχεια, πρέπει να εισαγάγετε τη διεύθυνση της σελίδας που κάνετε έρευνα στη φόρμα αναζήτησης (χωρίς να προσδιορίσετε τον τομέα και το πρωτόκολλο http://).

Επιλέγοντας την εντολή "get and display", ο webmaster θα μπορεί να αξιολογήσει οπτικά την κατάσταση της σελίδας του ιστότοπου. Για να το κάνετε αυτό, πρέπει να κάνετε κλικ στο πλαίσιο ελέγχου "αίτημα εμφάνισης". Θα ανοίξει ένα παράθυρο με δύο εκδόσεις του εγγράφου Ιστού. Ο webmaster μαθαίνει πώς βλέπει τη σελίδα ένας τακτικός επισκέπτης και σε ποια μορφή είναι διαθέσιμη στην αράχνη αναζήτησης.

Συμβουλή! Εάν το έγγραφο ιστού που αναλύετε δεν είναι ακόμη ευρετηριασμένο, μπορείτε να χρησιμοποιήσετε την εντολή "προσθήκη στο ευρετήριο" >> "σάρωση μόνο αυτής της διεύθυνσης URL". Η αράχνη θα αναλύσει το έγγραφο σε λίγα λεπτά και στο εγγύς μέλλον η ιστοσελίδα θα εμφανιστεί στα αποτελέσματα αναζήτησης. Το μηνιαίο όριο για την ευρετηρίαση των αιτημάτων είναι 500 έγγραφα.

Πώς να επηρεάσετε την ταχύτητα ευρετηρίασης

Έχοντας καταλάβει πώς λειτουργούν τα ρομπότ αναζήτησης, ένας webmaster θα μπορεί να προωθήσει τον ιστότοπό του πολύ πιο αποτελεσματικά. Ένα από τα κύρια προβλήματα πολλών νέων διαδικτυακών έργων είναι η κακή ευρετηρίαση. Τα ρομπότ μηχανών αναζήτησης διστάζουν να επισκεφτούν μη εξουσιοδοτημένους πόρους του Διαδικτύου.
Έχει διαπιστωθεί ότι η ταχύτητα ευρετηρίασης εξαρτάται άμεσα από την ένταση με την οποία ενημερώνεται ο ιστότοπος. Η τακτική προσθήκη μοναδικού υλικού κειμένου θα προσελκύσει την προσοχή των μηχανών αναζήτησης.

Για να επιταχύνετε τη δημιουργία ευρετηρίου, μπορείτε να χρησιμοποιήσετε το social bookmarking και την υπηρεσία twitter. Συνιστάται να δημιουργήσετε έναν Χάρτη ιστότοπου και να τον ανεβάσετε στον ριζικό κατάλογο του έργου web.

Ρομπότ αναζήτησης που ονομάζεται ειδικό πρόγραμμαοποιαδήποτε μηχανή αναζήτησης που έχει σχεδιαστεί για να εισέρχεται σε μια βάση δεδομένων (ευρετήριο) ιστότοπους και τις σελίδες τους που βρίσκονται στο Διαδίκτυο. Ονόματα που χρησιμοποιούνται επίσης: ανιχνευτής, αράχνη, ρομπότ, αυτόματη ευρετηρίαση, μυρμήγκι, ανίχνευση ιστού, bot, webscutter, webrobots, webspider.

Αρχή λειτουργίας

Ένα ρομπότ αναζήτησης είναι ένα πρόγραμμα προγράμματος περιήγησης. Σαρώνει συνεχώς το δίκτυο: επισκέπτεται ευρετηριασμένους (ήδη γνωστούς σε αυτόν) ιστότοπους, ακολουθεί συνδέσμους από αυτούς και βρίσκει νέους πόρους. Όταν ανακαλύπτεται ένας νέος πόρος, το ρομπότ διαδικασίας τον προσθέτει στο ευρετήριο της μηχανής αναζήτησης. Το ρομπότ αναζήτησης ευρετηριάζει επίσης ενημερώσεις σε ιστότοπους, η συχνότητα των οποίων είναι σταθερή. Για παράδειγμα, ένας ιστότοπος που ενημερώνεται μία φορά την εβδομάδα θα επισκέπτεται μια αράχνη με αυτήν τη συχνότητα και το περιεχόμενο σε ειδησεογραφικούς ιστότοπους μπορεί να ευρετηριαστεί μέσα σε λίγα λεπτά από τη δημοσίευση. Εάν δεν οδηγούν σύνδεσμοι από άλλους πόρους στον ιστότοπο, τότε για να προσελκύσετε ρομπότ αναζήτησης, ο πόρος πρέπει να προστεθεί μέσω ειδικής φόρμας (Κέντρο για Webmaster Google, Πίνακας Webmaster Yandex κ.λπ.).

Τύποι ρομπότ αναζήτησης

Αράχνες Yandex:

  • Yandex/1.01.001 I - το κύριο ρομπότ που εμπλέκεται στην ευρετηρίαση,
  • Yandex/1.01.001 (P) - ευρετήρια εικόνων,
  • Yandex/1.01.001 (H) - βρίσκει τοποθεσίες καθρέφτη,
  • Yandex/1.03.003 (D) - καθορίζει εάν η σελίδα που προστέθηκε από τον πίνακα webmaster πληροί τις παραμέτρους ευρετηρίασης,
  • YaDirectBot/1.0 (I) - ευρετηριάζει πόρους από διαφημιστικό δίκτυο Yandex,
  • Yandex/1.02.000 (F) - ευρετηριάζει τα favicons ιστότοπου.

Google Spiders:

  • Το Googlebot είναι το κύριο ρομπότ
  • Ειδήσεις Googlebot - σαρώνει και ευρετηριάζει ειδήσεις,
  • Google Mobile - ευρετηριάζει ιστότοπους για κινητές συσκευές,
  • Εικόνες Googlebot - αναζητά και ευρετηριάζει εικόνες,
  • Βίντεο Googlebot - ευρετηριάζει βίντεο,
  • Google AdsBot - ελέγχει την ποιότητα της σελίδας προορισμού,
  • Google Mobile AdSense και Google AdSense— ευρετηριάζει ιστότοπους του διαφημιστικού δικτύου Google.

Άλλες μηχανές αναζήτησης χρησιμοποιούν επίσης διάφορους τύπους ρομπότ που λειτουργικά είναι παρόμοια με αυτά που αναφέρονται.

Πώς λειτουργούν οι μηχανές αναζήτησης; Ένα από τα υπέροχα πράγματα για το Διαδίκτυο είναι ότι υπάρχουν εκατοντάδες εκατομμύρια πόροι Ιστού που περιμένουν και είναι έτοιμοι να μας παρουσιαστούν. Το κακό όμως είναι ότι υπάρχουν τα ίδια εκατομμύρια σελίδες που, ακόμα κι αν τις χρειαστούμε, δεν θα εμφανιστούν μπροστά μας, γιατί... απλά άγνωστο σε εμάς. Πώς να μάθετε τι και πού μπορείτε να βρείτε στο Διαδίκτυο; Για να το κάνουμε αυτό, συνήθως απευθυνόμαστε σε μηχανές αναζήτησης.

Οι μηχανές αναζήτησης στο Διαδίκτυο είναι ειδικοί ιστότοποι παγκόσμιο δίκτυο, τα οποία έχουν σχεδιαστεί για να βοηθούν τους ανθρώπους να βρίσκουν Παγκόσμιος Ιστόςτις πληροφορίες που χρειάζονται. Υπάρχουν διαφορές στον τρόπο με τον οποίο οι μηχανές αναζήτησης εκτελούν τις λειτουργίες τους, αλλά γενικά υπάρχουν 3 κύριες και πανομοιότυπες λειτουργίες:

Όλοι αυτοί «αναζητούν» στο Διαδίκτυο (ή σε κάποιον τομέα του Διαδικτύου) - με βάση δεδομένες λέξεις-κλειδιά.
- όλες οι μηχανές αναζήτησης ευρετηριάζουν τις λέξεις που αναζητούν και τα μέρη όπου τις βρίσκουν.
- όλες οι μηχανές αναζήτησης επιτρέπουν στους χρήστες να αναζητούν λέξεις ή συνδυασμούς λέξεων-κλειδιών με βάση ιστοσελίδες που έχουν ήδη ευρετηριαστεί και περιλαμβάνονται στις βάσεις δεδομένων τους.

Οι πρώτες κιόλας μηχανές αναζήτησης ευρετηρίασαν έως και αρκετές εκατοντάδες χιλιάδες σελίδες και λάμβαναν 1.000 - 2.000 αιτήματα την ημέρα. Σήμερα, οι κορυφαίες μηχανές αναζήτησης έχουν ευρετηριάσει και ευρετηριάζουν συνεχώς εκατοντάδες εκατομμύρια σελίδες και επεξεργάζονται δεκάδες εκατομμύρια αιτήματα την ημέρα. Παρακάτω θα μιλήσουμε για το πώς λειτουργούν οι μηχανές αναζήτησης και πώς «συναρμολογούν» όλες τις πληροφορίες που βρέθηκαν για να μπορέσουμε να απαντήσουμε σε κάθε ερώτηση που μας ενδιαφέρει.

Ας δούμε τον Ιστό

Όταν οι άνθρωποι μιλούν για Μηχανές αναζήτησης στο Διαδίκτυομηχανές, στην πραγματικότητα σημαίνουν μηχανές αναζήτησης Παγκόσμιος Ιστός. Πριν ο Ιστός γίνει το πιο ορατό μέρος του Διαδικτύου, υπήρχαν ήδη μηχανές αναζήτησης για να βοηθήσουν τους ανθρώπους να βρίσκουν πληροφορίες στο Διαδίκτυο. Τα προγράμματα που ονομάζονταν "Gopher" και "Archie" μπορούσαν να ευρετηριάσουν αρχεία που βρίσκονται σε διαφορετικούς διακομιστές συνδεδεμένους Διαδίκτυο Διαδίκτυοκαι μείωσε σημαντικά τον χρόνο που αφιερώθηκε στην αναζήτηση απαραίτητα προγράμματαή έγγραφα. Στα τέλη της δεκαετίας του '80 του περασμένου αιώνα, ένα συνώνυμο της «ικανότητας εργασίας στο Διαδίκτυο» ήταν η ικανότητα χρήσης gopher, Archie, Veronica κ.λπ. προγράμματα αναζήτησης. Σήμερα, οι περισσότεροι χρήστες του Διαδικτύου περιορίζουν την αναζήτησή τους μόνο παγκόσμιο δίκτυο, ή WWW.

Μια μικρή αρχή

Προτού μπορέσουμε να σας πούμε πού μπορείτε να βρείτε το απαιτούμενο έγγραφο ή αρχείο, το αρχείο ή το έγγραφο πρέπει να έχει ήδη βρεθεί. Για να βρει πληροφορίες για εκατοντάδες εκατομμύρια υπάρχουσες ιστοσελίδες, η μηχανή αναζήτησης χρησιμοποιεί ένα ειδικό πρόγραμμα ρομπότ. Αυτό το πρόγραμμα ονομάζεται επίσης spider ("αράχνη") και χρησιμοποιείται για τη δημιουργία μιας λίστας λέξεων που βρίσκονται στη σελίδα. Η διαδικασία κατασκευής μιας τέτοιας λίστας ονομάζεται ανίχνευση ιστού(Ανίχνευση ιστού). Για να δημιουργήσετε και να καταγράψετε περαιτέρω μια «χρήσιμη» (με νόημα) λίστα λέξεων, αναζήτηση αράχνηπρέπει να "κοιτάξω μέσα από" έναν τόνο άλλων σελίδων.

Πώς ξεκινάει κανείς; αράχνη(αράχνη) το ταξίδι σας στον Ιστό; Συνήθως το σημείο εκκίνησης είναι οι μεγαλύτεροι διακομιστές στον κόσμο και οι πολύ δημοφιλείς ιστοσελίδες. Η αράχνη ξεκινά το ταξίδι της από μια τέτοια τοποθεσία, καταγράφει όλες τις λέξεις που βρέθηκαν και συνεχίζει την κίνησή της περαιτέρω, ακολουθώντας συνδέσμους σε άλλες τοποθεσίες. Έτσι, το ρομπότ αράχνη αρχίζει να καλύπτει όλο και πιο μεγάλα «κομμάτια» του χώρου του Ιστού. Το Google.com ξεκίνησε ως μια ακαδημαϊκή μηχανή αναζήτησης. Σε ένα άρθρο που περιγράφει πώς δημιουργήθηκε αυτή η μηχανή αναζήτησης, ο Sergey Brin και ο Lawrence Page (ιδρυτές και ιδιοκτήτες της Google) έδωσαν ένα παράδειγμα για το πόσο γρήγορα λειτουργούν οι αράχνες Google. Υπάρχουν αρκετά από αυτά και συνήθως η αναζήτηση ξεκινά με τη χρήση 3 αράχνων. Κάθε spider υποστηρίζει έως και 300 ταυτόχρονα ανοιχτές συνδέσεις σε ιστοσελίδες. Στο μέγιστο φορτίο, χρησιμοποιώντας 4 αράχνες, το σύστημα της Google είναι σε θέση να επεξεργάζεται 100 σελίδες ανά δευτερόλεπτο, δημιουργώντας κίνηση περίπου 600 kilobyte/sec.

Για να παρέχει στις αράχνες τα δεδομένα που χρειάζονταν για την επεξεργασία, η Google συνήθιζε να έχει έναν διακομιστή που δεν έκανε τίποτα άλλο από το να τροφοδοτεί τις αράχνες όλο και περισσότερες διευθύνσεις URL. Για να μην εξαρτάται από τους παρόχους υπηρεσιών Διαδικτύου όσον αφορά τους διακομιστές ονομάτων τομέα (DNS) που μεταφράζουν διευθύνσεις URL σε διευθύνσεις IP, η Google απέκτησε τη δική της Διακομιστής DNS, μειώνοντας στο ελάχιστο όλο το χρόνο που δαπανάται για την ευρετηρίαση σελίδων.

Όταν το ρομπότ Google επισκέπτεται σελίδα HTML, λαμβάνει υπόψη 2 πράγματα:

Λέξεις (κείμενο) ανά σελίδα.
- τη θέση τους (σε ποιο μέρος του σώματος της σελίδας).

Λέξεις που βρίσκονται με ενότητες υπηρεσιών όπως π.χ τίτλος, υπότιτλοι, μετα-ετικέτεςκαι άλλα επισημάνθηκαν ως ιδιαίτερα σημαντικά για ερωτήματα αναζήτησης χρηστών. Το Google Spider δημιουργήθηκε για να ευρετηριάζει κάθε παρόμοια λέξη σε μια σελίδα, με εξαίρεση τις παρεμβολές όπως "a", "an" και "the." Άλλες μηχανές αναζήτησης έχουν μια ελαφρώς διαφορετική προσέγγιση στην ευρετηρίαση.

Όλες οι προσεγγίσεις και οι αλγόριθμοι μηχανών αναζήτησης στοχεύουν τελικά στο να κάνουν τα ρομπότ αράχνη να λειτουργούν πιο γρήγορα και πιο αποτελεσματικά. Για παράδειγμα, ορισμένα ρομπότ αναζήτησης παρακολουθούν λέξεις στον τίτλο, συνδέσμους και έως και 100 πιο συχνά χρησιμοποιούμενες λέξεις σε μια σελίδα κατά την ευρετηρίαση, ακόμη και καθεμία από τις λέξεις στις πρώτες 20 γραμμές περιεχομένου κειμένου στη σελίδα. Αυτός είναι ο αλγόριθμος ευρετηρίασης, ειδικότερα, του Lycos.

Άλλες μηχανές αναζήτησης, όπως η AltaVista, πηγαίνουν προς την άλλη κατεύθυνση, ευρετηριάζοντας κάθε λέξη σε μια σελίδα, συμπεριλαμβανομένων των "a", "an", "the" και άλλες ασήμαντες λέξεις.

Μετα-ετικέτες

Οι μετα-ετικέτες επιτρέπουν στον κάτοχο μιας ιστοσελίδας να καθορίσει λέξεις-κλειδιά και έννοιες που καθορίζουν την ουσία του περιεχομένου της. Αυτό είναι ένα πολύ χρήσιμο εργαλείο, ειδικά όταν αυτές οι λέξεις-κλειδιά μπορούν να επαναληφθούν έως και 2-3 φορές στο κείμενο της σελίδας. Σε αυτήν την περίπτωση, οι μετα-ετικέτες μπορούν να «κατευθύνουν» το ρομπότ αναζήτησης στην επιθυμητή επιλογή λέξεων-κλειδιών για την ευρετηρίαση της σελίδας. Υπάρχει η δυνατότητα «εξαπάτησης» μετα-ετικέτες με δημοφιλή ερωτήματα αναζήτησης και έννοιες που σε καμία περίπτωση δεν σχετίζονται με το περιεχόμενο της ίδιας της σελίδας. Τα ρομπότ αναζήτησης είναι σε θέση να το καταπολεμήσουν αυτό, για παράδειγμα, αναλύοντας τη συσχέτιση των μετα-ετικέτες και του περιεχομένου μιας ιστοσελίδας, «αποβάλλοντας» από τη σκέψη εκείνες τις μετα-ετικέτες (αντίστοιχα λέξεις-κλειδιά) που δεν αντιστοιχούν στο περιεχόμενο των σελίδων.

Όλα αυτά ισχύουν για τις περιπτώσεις όπου ο κάτοχος ενός πόρου Ιστού θέλει πραγματικά να συμπεριληφθεί στα αποτελέσματα αναζήτησης για τις επιθυμητές λέξεις αναζήτησης. Αλλά συμβαίνει συχνά ο ιδιοκτήτης να μην θέλει καθόλου να ευρετηριαστεί από το ρομπότ. Αλλά τέτοιες περιπτώσεις δεν είναι το θέμα του άρθρου μας.

Κατασκευή ευρετηρίου

Μόλις οι αράχνες ολοκληρώσουν την εργασία τους για την εύρεση νέων ιστοσελίδων, οι μηχανές αναζήτησης πρέπει να τοποθετήσουν όλες τις πληροφορίες που βρέθηκαν έτσι ώστε να είναι βολικό να τις χρησιμοποιούν στο μέλλον. Υπάρχουν 2 βασικά στοιχεία που έχουν σημασία εδώ:

Πληροφορίες που αποθηκεύονται με δεδομένα.
- τη μέθοδο με την οποία ευρετηριάζονται αυτές οι πληροφορίες.

Στην απλούστερη περίπτωση, μια μηχανή αναζήτησης θα μπορούσε απλώς να τοποθετήσει τη λέξη και τη διεύθυνση URL όπου βρίσκεται. Αλλά αυτό θα έκανε τη μηχανή αναζήτησης ένα εντελώς πρωτόγονο εργαλείο, καθώς δεν υπάρχουν πληροφορίες σχετικά με το σε ποιο μέρος του εγγράφου βρίσκεται αυτή η λέξη (μετα-ετικέτες ή σε απλό κείμενο), εάν αυτή η λέξη χρησιμοποιείται μία φορά ή επανειλημμένα και εάν χρησιμοποιείται που περιέχεται σε έναν σύνδεσμο προς έναν άλλο σημαντικό και σχετικό πόρο. Με άλλα λόγια, αυτή η μέθοδος δεν θα ταξινομεί ιστότοπους, δεν θα παρέχει σχετικά αποτελέσματα στους χρήστες κ.λπ.

Για να μας παρέχουν χρήσιμα δεδομένα, οι μηχανές αναζήτησης αποθηκεύουν όχι μόνο πληροφορίες από τη λέξη και τη διεύθυνση URL της. Μια μηχανή αναζήτησης μπορεί να αποθηκεύσει δεδομένα σχετικά με τον αριθμό (συχνότητα) των αναφορών μιας λέξης σε μια σελίδα, να ορίσει ένα «βάρος» στη λέξη, το οποίο στη συνέχεια θα βοηθήσει στη δημιουργία καταχωρίσεων αναζήτησης (αποτελέσματα) με βάση τη σταθμισμένη κατάταξη για αυτήν τη λέξη, λαμβάνοντας λαμβάνοντας υπόψη τη θέση του (σε συνδέσμους, μετα-ετικέτες, τίτλο σελίδας και ούτω καθεξής.). Κάθε εμπορική μηχανή αναζήτησης έχει τον δικό της τύπο για τον υπολογισμό του «βάρους» των λέξεων-κλειδιών κατά τη δημιουργία ευρετηρίου. Αυτός είναι ένας από τους λόγους για το ίδιο ερώτημα αναζήτησηςοι μηχανές αναζήτησης παράγουν εντελώς διαφορετικά αποτελέσματα.

Επόμενο σημαντικό σημείοκατά την επεξεργασία των πληροφοριών που βρέθηκαν - η κωδικοποίησή τους προκειμένου να μειωθεί ο χώρος στο δίσκο για την αποθήκευσή τους. Για παράδειγμα, το αρχικό άρθρο της Google περιγράφει ότι 2 byte (8 bit το καθένα) χρησιμοποιούνται για την αποθήκευση των δεδομένων βάρους των λέξεων - αυτό λαμβάνει υπόψη τον τύπο της λέξης (με κεφαλαία γράμματα), το μέγεθος των ίδιων των γραμμάτων (Μέγεθος γραμματοσειράς ), και άλλες πληροφορίες που βοηθούν στην κατάταξη του ιστότοπου. Κάθε τέτοιο «κομμάτι» πληροφοριών απαιτεί 2-3 bit δεδομένων σε ένα πλήρες σύνολο 2 byte. Ως αποτέλεσμα, ένας τεράστιος όγκος πληροφοριών μπορεί να αποθηκευτεί σε πολύ συμπαγή μορφή. Μόλις οι πληροφορίες «συμπιεστούν», ήρθε η ώρα να ξεκινήσετε την ευρετηρίαση.

Η τιμαριθμική αναπροσαρμογή έχει έναν στόχο: να εξασφαλίσει το μέγιστο γρήγορη αναζήτησητις απαραίτητες πληροφορίες. Υπάρχουν διάφοροι τρόποι δημιουργίας ευρετηρίων, αλλά ο πιο αποτελεσματικός είναι να δημιουργήσετε πίνακες κατακερματισμού(πίνακας κατακερματισμού). Ο κατακερματισμός χρησιμοποιεί έναν συγκεκριμένο τύπο για να εκχωρήσει μια αριθμητική τιμή σε κάθε λέξη.

Σε οποιαδήποτε γλώσσα, υπάρχουν γράμματα με τα οποία ξεκινούν πολλές περισσότερες λέξεις παρά με τα υπόλοιπα γράμματα του αλφαβήτου. Για παράδειγμα, υπάρχουν σημαντικά περισσότερες λέξεις που ξεκινούν με το γράμμα "M" στην ενότητα του αγγλικού λεξικού από αυτές που ξεκινούν με το γράμμα "X". Αυτό σημαίνει ότι η αναζήτηση μιας λέξης που ξεκινά με το πιο δημοφιλές γράμμα θα διαρκέσει περισσότερο από οποιαδήποτε άλλη λέξη. ΚατακερματισμόςΤο (Hashing) εξισώνει αυτή τη διαφορά και μειώνει τον μέσο χρόνο αναζήτησης και επίσης διαχωρίζει το ίδιο το ευρετήριο από τα πραγματικά δεδομένα. Ένας πίνακας κατακερματισμού περιέχει τιμές κατακερματισμού μαζί με έναν δείκτη στα δεδομένα που αντιστοιχούν σε αυτήν την τιμή. Η αποτελεσματική ευρετηρίαση + αποτελεσματική τοποθέτηση μαζί παρέχουν υψηλή ταχύτητα αναζήτησης, ακόμα κι αν ο χρήστης ζητήσει ένα πολύ περίπλοκο ερώτημα αναζήτησης.

Το μέλλον των μηχανών αναζήτησης

Μια αναζήτηση που βασίζεται σε τελεστές Boolean ("και", "ή", "όχι") είναι μια κυριολεκτική αναζήτηση - η μηχανή αναζήτησης λαμβάνει τις λέξεις αναζήτησης ακριβώς όπως έχουν εισαχθεί. Αυτό μπορεί να προκαλέσει πρόβλημα όταν, για παράδειγμα, η εισαγόμενη λέξη έχει πολλές σημασίες. Το "Κλειδί", για παράδειγμα, μπορεί να σημαίνει "ένα μέσο για να ανοίξετε μια πόρτα" ή μπορεί να σημαίνει έναν "κωδικό πρόσβασης" για τη σύνδεση σε έναν διακομιστή. Εάν σας ενδιαφέρει μόνο μία έννοια μιας λέξης, τότε προφανώς δεν θα χρειαστείτε δεδομένα για τη δεύτερη σημασία της. Μπορείτε, φυσικά, να δημιουργήσετε ένα κυριολεκτικό ερώτημα που θα αποκλείει την έξοδο δεδομένων με βάση την περιττή σημασία μιας λέξης, αλλά θα ήταν ωραίο να σας βοηθήσει η ίδια η μηχανή αναζήτησης.

Ένας τομέας έρευνας σε μελλοντικούς αλγόριθμους μηχανών αναζήτησης είναι η εννοιολογική ανάκτηση πληροφοριών. Αυτοί είναι αλγόριθμοι που χρησιμοποιούν στατιστική ανάλυση σελίδων που περιέχουν μια δεδομένη λέξη-κλειδί ή φράση αναζήτησης για να βρουν σχετικά δεδομένα. Είναι σαφές ότι μια τέτοια «εννοιολογική μηχανή αναζήτησης» θα απαιτούσε πολύ περισσότερο χώρο αποθήκευσης για κάθε σελίδα και περισσότερο χρόνο για την επεξεργασία κάθε αιτήματος. Επί του παρόντος, πολλοί ερευνητές εργάζονται πάνω σε αυτό το πρόβλημα.

Δεν πραγματοποιείται λιγότερο εντατική εργασία στον τομέα της ανάπτυξης αλγορίθμων αναζήτησης που βασίζονται σε ερωτήματα. φυσική γλώσσα(Ερώτημα Φυσικής Γλώσσας).

Η ιδέα πίσω από τα φυσικά ερωτήματα είναι ότι μπορείτε να γράψετε το ερώτημά σας σαν να ρωτάτε έναν συνάδελφο που κάθεται απέναντί ​​σας. Δεν χρειάζεται να ανησυχείτε για τους Boolean τελεστές ή την πίεση για τη σύνθεση σύνθετη ερώτηση. Ο πιο δημοφιλής ιστότοπος αναζήτησης φυσικής γλώσσας σήμερα είναι το AskJeeves.com. Μετατρέπει το ερώτημα σε λέξεις-κλειδιά, τις οποίες στη συνέχεια χρησιμοποιεί κατά την ευρετηρίαση τοποθεσιών. Αυτή η προσέγγιση λειτουργεί μόνο για απλά ερωτήματα. Ωστόσο, η πρόοδος δεν σταματά· είναι πιθανό ότι πολύ σύντομα θα «μιλήσουμε» με τις μηχανές αναζήτησης στη δική μας «ανθρώπινη γλώσσα».

Φίλοι, σας καλωσορίζω και πάλι! Τώρα θα δούμε τι είναι τα ρομπότ αναζήτησης και θα μιλήσουμε λεπτομερώς για το ρομπότ αναζήτησης Google και πώς να γίνουμε φίλοι μαζί τους.

Πρώτα πρέπει να καταλάβετε τι είναι στην πραγματικότητα τα ρομπότ αναζήτησης· ονομάζονται επίσης αράχνες. Τι δουλειά κάνουν οι αράχνες των μηχανών αναζήτησης;

Αυτά είναι προγράμματα που ελέγχουν τοποθεσίες. Εξετάζουν όλες τις αναρτήσεις και τις σελίδες στο ιστολόγιό σας, συλλέγουν πληροφορίες, τις οποίες στη συνέχεια μεταδίδουν στη βάση δεδομένων της μηχανής αναζήτησης για την οποία εργάζονται.

Δεν χρειάζεται να γνωρίζετε ολόκληρη τη λίστα των ρομπότ αναζήτησης, το πιο σημαντικό είναι να γνωρίζετε ότι η Google έχει πλέον δύο κύριες αράχνες, που ονομάζονται «πάντα» και «πιγκουίνος». Καταπολεμούν περιεχόμενο χαμηλής ποιότητας και ανεπιθύμητους συνδέσμους και πρέπει να ξέρετε πώς να αποκρούσετε τις επιθέσεις τους.

Το ρομπότ αναζήτησης Google Panda δημιουργήθηκε για να προωθεί μόνο υλικό υψηλής ποιότητας στις αναζητήσεις. Όλοι οι ιστότοποι με περιεχόμενο χαμηλής ποιότητας μειώνονται στα αποτελέσματα αναζήτησης.

Αυτή η αράχνη εμφανίστηκε για πρώτη φορά το 2011. Πριν από την εμφάνισή του, ήταν δυνατή η προώθηση οποιουδήποτε ιστότοπου δημοσιεύοντας μεγάλο όγκο κειμένου σε άρθρα και χρησιμοποιώντας τεράστιο αριθμό λέξεων-κλειδιών. Μαζί, αυτές οι δύο τεχνικές έφεραν το μη ποιοτικό περιεχόμενο στην κορυφή των αποτελεσμάτων αναζήτησης και οι καλοί ιστότοποι μειώθηκαν στα αποτελέσματα αναζήτησης.

Το "Panda" έβαλε αμέσως τα πράγματα σε μια σειρά ελέγχοντας όλους τους ιστότοπους και βάζοντας τους πάντες στη σωστή θέση. Αν και παλεύει με περιεχόμενο χαμηλής ποιότητας, είναι πλέον δυνατή η προώθηση ακόμη και μικρών τοποθεσιών με άρθρα υψηλής ποιότητας. Αν και προηγουμένως ήταν άχρηστη η προώθηση τέτοιων τοποθεσιών, δεν μπορούσαν να ανταγωνιστούν τους γίγαντες που έχουν μεγάλο όγκο περιεχομένου.

Τώρα θα καταλάβουμε πώς μπορείτε να αποφύγετε τις κυρώσεις "panda". Πρέπει πρώτα να καταλάβεις τι δεν της αρέσει. Έγραψα ήδη παραπάνω ότι παλεύει με κακό περιεχόμενο, αλλά τι είδους κείμενο είναι κακό για αυτήν, ας το καταλάβουμε για να μην το δημοσιεύσουμε στον ιστότοπό μας.

Το ρομπότ αναζήτησης Google προσπαθεί να διασφαλίσει ότι αυτή η μηχανή αναζήτησης παρέχει μόνο υλικά υψηλής ποιότητας για όσους αναζητούν εργασία. Εάν έχετε άρθρα που περιέχουν ελάχιστες πληροφορίες και δεν είναι ελκυστικά στην εμφάνιση, τότε ξαναγράψτε επειγόντως αυτά τα κείμενα για να μην σας φτάσει το «πάντα».

Το περιεχόμενο υψηλής ποιότητας μπορεί να είναι τόσο μεγάλο όσο και μικρό, αλλά αν η αράχνη δει ένα εκτενές άρθρο με πολλές πληροφορίες, τότε θα είναι πιο χρήσιμο στον αναγνώστη.

Στη συνέχεια, πρέπει να σημειώσετε την επικάλυψη, με άλλα λόγια, τη λογοκλοπή. Εάν πιστεύετε ότι θα ξαναγράψετε άρθρα άλλων στο ιστολόγιό σας, τότε μπορείτε να βάλετε αμέσως ένα τέλος στον ιστότοπό σας. Η αντιγραφή τιμωρείται αυστηρά με την εφαρμογή φίλτρου και Η λογοκλοπή ελέγχεταιπολύ εύκολο, έγραψα ένα άρθρο για το θέμα πώς να ελέγξετε τα κείμενα για μοναδικότητα.

Το επόμενο πράγμα που πρέπει να παρατηρήσετε είναι ο υπερκορεσμός του κειμένου με λέξεις-κλειδιά. Όποιος πιστεύει ότι μπορεί να γράψει ένα άρθρο χρησιμοποιώντας μόνο λέξεις-κλειδιά και να πάρει την πρώτη θέση στα αποτελέσματα αναζήτησης κάνει πολύ λάθος. Έχω ένα άρθρο για το πώς να ελέγξετε τις σελίδες για συνάφεια, φροντίστε να το διαβάσετε.

Και ένα άλλο πράγμα που μπορεί να προσελκύσει ένα "πάντα" σε εσάς είναι παλιά άρθρα που είναι ηθικά ξεπερασμένα και δεν φέρνουν επισκεψιμότητα στον ιστότοπο. Πρέπει οπωσδήποτε να ενημερωθούν.

Υπάρχει επίσης ένα ρομπότ αναζήτησης Google "πιγκουίνος". Αυτή η αράχνη καταπολεμά τους ανεπιθύμητους και ανεπιθύμητους συνδέσμους στον ιστότοπό σας. Υπολογίζει επίσης αγορασμένους συνδέσμους από άλλους πόρους. Επομένως, για να μην φοβάστε αυτό το ρομπότ αναζήτησης, δεν πρέπει να αγοράζετε συνδέσμους, αλλά να δημοσιεύετε περιεχόμενο υψηλής ποιότητας, ώστε οι άνθρωποι να συνδέονται με εσάς.

Τώρα ας διατυπώσουμε τι πρέπει να γίνει για να κάνει ο ιστότοπος να φαίνεται τέλειος μέσα από τα μάτια ενός ρομπότ αναζήτησης:

  • Για να δημιουργήσετε ποιοτικό περιεχόμενο, πρώτα ερευνήστε το θέμα καλά πριν γράψετε το άρθρο. Τότε πρέπει να καταλάβετε ότι οι άνθρωποι ενδιαφέρονται πραγματικά για αυτό το θέμα.
  • Χρήση συγκεκριμένα παραδείγματακαι φωτογραφίες, αυτό θα κάνει το άρθρο ζωντανό και ενδιαφέρον. Χωρίστε το κείμενο σε μικρές παραγράφους για να είναι εύκολο στην ανάγνωση. Για παράδειγμα, αν ανοίξετε μια σελίδα με αστεία σε μια εφημερίδα, ποιες θα διαβάσετε πρώτα; Φυσικά, κάθε άτομο διαβάζει πρώτα μικρά κείμενα, μετά μεγαλύτερα και, τέλος, μακριές αναδιπλώσεις ποδιών.
  • Η αγαπημένη κουβέντα του "panda" είναι η έλλειψη συνάφειας ενός άρθρου που περιέχει ξεπερασμένες πληροφορίες. Ακολουθήστε τις ενημερώσεις και αλλάξτε τα κείμενα.
  • Παρακολουθήστε την πυκνότητα των λέξεων-κλειδιών. Έγραψα παραπάνω πώς να προσδιορίσετε αυτήν την πυκνότητα. Στην υπηρεσία που περιέγραψα, θα λάβετε τον ακριβή απαιτούμενο αριθμό λέξεων-κλειδιών.
  • Μην κάνετε λογοκλοπή, όλοι γνωρίζουν ότι δεν μπορείτε να κλέψετε πράγματα ή μηνύματα άλλων ανθρώπων - είναι το ίδιο πράγμα. Θα τιμωρηθείτε για κλοπή με το να πιαστείτε στο φίλτρο.
  • Γράψτε κείμενα τουλάχιστον δύο χιλιάδων λέξεων, τότε ένα τέτοιο άρθρο θα φαίνεται κατατοπιστικό μέσα από τα μάτια των ρομπότ μηχανών αναζήτησης.
  • Μείνετε στο θέμα με το ιστολόγιό σας. Εάν έχετε ένα ιστολόγιο σχετικά με το να κερδίσετε χρήματα στο Διαδίκτυο, τότε δεν χρειάζεται να δημοσιεύετε άρθρα σχετικά με αεροβόλα. Αυτό μπορεί να μειώσει την αξιολόγηση του πόρου σας.
  • Σχεδιάστε όμορφα τα άρθρα σας, χωρίστε τα σε παραγράφους και προσθέστε εικόνες έτσι ώστε να απολαύσετε την ανάγνωση και να μην θέλετε να φύγετε γρήγορα από τον ιστότοπο.
  • Όταν αγοράζετε συνδέσμους, κάντε τους τα πιο ενδιαφέροντα και χρήσιμα άρθρα που θα διαβάσουν πραγματικά οι άνθρωποι.

Λοιπόν, τώρα ξέρετε τι δουλειά κάνουν τα ρομπότ μηχανών αναζήτησης και μπορείτε να είστε φίλοι μαζί τους. Και το πιο σημαντικό, το ρομπότ αναζήτησης Google και τα "panda" και "penguin" έχουν μελετηθεί λεπτομερώς από εσάς.




Μπλουζα