Програми пошуку даних в Інтернеті. Професійний пошук інформації в Інтернеті. Визначаємо ім'я людини по email

ПРОФЕСІЙНИЙ ПОШУК ІНФОРМАЦІЇ У МЕРЕЖІ ІНТЕРНЕТ

Інтернет-пошук – важливий елемент роботи у Мережі. Точна кількість веб-ресурсів сучасного інтернету навряд чи комусь точно відома. У будь-якому випадку рахунок йде на мільярди. Для того щоб можна було використовувати інформацію, необхідну в даний конкретний момент, не важливо, в робочих або розважальних цілях, спочатку потрібно її знайти в океані ресурсів, що постійно поповнюється.

Для того щоб інтернет-пошук був успішним, мають бути виконані дві умови: запити мають бути добре сформульовані та задавати їх потрібно у відповідних місцях. Інакше кажучи, від користувача вимагається, з одного боку, вміння перекладати свої пошукові інтереси мовою пошукового запиту, з другого – хороше знання пошукових систем, доступних інструментів пошуку, їх переваг та недоліків, що дозволить вибирати в кожному конкретному випадку найбільш підходящі засоби пошуку.

В даний час не існує жодного ресурсу, що задовольняє всім вимогам до інтернет-пошуку. Тому при серйозному підході до пошуку неминуче доводиться задіяти різні інструменти, використовуючи кожен у найкращому разі.

Основні засоби інтернет-пошукуможна розділити такі основні групи:

Пошукові машини;

Веб-каталоги;

Довідкові ресурси;

Локальні програми для пошуку в Інтернеті.

Найбільш популярним засобом пошуку єпошукові машини- так звані інтернет-пошуковики (Search Engines). Трійка лідерів у загальносвітовому масштабі є досить стабільною – це Google, Yahoo! та Bing. У багатьох країнах до цього переліку додаються власні локальні пошукові системи, оптимізовані для роботи з місцевим контентом. З їхньою допомогою теоретично можна знайти будь-яке конкретне слово на сторінках багатьох мільйонів сайтів. З погляду користувача основний недолік пошукових систем – це неминуча наявністьінформаційного шумуу результатах. Так прийнято називати результати, що потрапили з тих чи інших причин до списку видачі, що не відповідають запиту.

Незважаючи на багато відмінностей, всі інтернет-пошуковики працюють за схожими принципами і з технічного погляду складаються зі схожих підсистем. Перша структурна частина пошукової системи – спеціальні програми, що застосовуються для автоматичного пошуку та подальшого індексування веб-сторінок. Такі програми зазвичай називають павуками або ботами. Вони переглядають код веб-сторінок, знаходять розміщені ними посилання і цим виявляють нові веб-сторінки. Є та альтернативний спосібвключення сайту до індексу. Багато пошукових систем пропонують власникам ресурсів можливість самостійно додати сайт до своєї бази. Як би там не було, потім веб-сторінки завантажуються, аналізуються та індексуються. У них виділяються структурні елементи, знаходяться ключові слова, визначаються їх зв'язки з рештою сайтів та веб-сторінок. Виробляються інші операції, результатом виконання яких стає формування індексної бази пошуковика. Ця база – другий головний елемент будь-якої пошукової системи. Зараз не існує якоїсь абсолютно повної індексної бази, яка містила б відомості про весь контент інтернету. Оскільки різні пошукові системи використовують різні програми пошуку веб-сторінок і будують свій індекс за допомогою різних алгоритмів, індексні бази пошукових систем можуть істотно відрізнятися. Деякі сайти виявляються проіндексованими декількома пошуковими системами, проте завжди залишається певний відсоток ресурсів, включених до бази лише одного пошуковика. Наявність у кожного пошуковика такої оригінальної частини індексу, що не перетинається, дозволяє зробити важливий практичний висновок: якщо ви користуєтеся тільки одним пошуковцем, нехай навіть найбільшим, ви обов'язково втратите деякий відсоток корисних посилань.

Наступна частина інтернет-пошуковика – власне програми пошуку та сортування результатів. Ці програми вирішують дві основні завдання: спочатку знаходять в базі сторінки і файли, що відповідають запиту, а потім сортують отриманий масив даних відповідно до різних критеріїв. Від ефективності роботи багато в чому залежить успіх у досягненні цілей пошуку.

Останній елемент інтернет-пошуковика – інтерфейс користувача. Крім звичайних для будь-яких сайтів вимог до естетики та зручності, до інтерфейсів пошукових систем пред'являється ще одна важлива вимога: вони повинні пропонувати різні інструменти складання та уточнення запитів, а також сортування та фільтрування результатів. Переваги пошукових машин – чудове охоплення джерел, порівняно швидке оновлення вмісту бази та гарний вибірдодаткові функції.

Головний інструмент роботи з пошуковими системами – це запит.

Для інтернет-пошуку використовуються також спеціальні програми, які встановлюються на локальному комп'ютері. Це можуть бути як прості програми, і досить складні комплекси пошуку та аналізу даних. Найбільш поширені пошукові плагіни для браузерів, панелі для браузерів, призначені для роботи з будь-яким конкретним пошуковим сервісом та метапошукові пакети з можливостями аналізу результатів.

Веб-каталоги – це ресурси, у яких сайти розподіляються за тематичними категоріями. Якщо з пошуковими системами користувач працює тільки за допомогою запитів, то в каталозі є можливість переглядати тематичні розділи повністю. Друге важливе відмінність каталогів від автоматичних пошукових систем – те, що у тому наповненні, зазвичай, безпосередньо беруть участь люди, які переглядають ресурси і відносять сайт до тієї чи іншої категорії. Веб-каталоги прийнято поділяти на універсальні та тематичні. Універсальні намагаються охопити максимум тем. У них можна знайти все, що завгодно: від сайтів про поезію до комп'ютерних ресурсів. Інакше кажучи, широта пошуку вони максимальна. Тематичні каталоги спеціалізуються на певній тематиці, забезпечуючи за рахунок скорочення широти охоплення ресурсів максимальну глибину пошуку.

Переваги каталогів – порівняно висока якістьресурсів, оскільки кожен сайт у ньому проглядається та відбирається людиною. Тематичне угруповання сайтів дозволяє зручно розташовувати сайти близької тематики. Такий режим роботи хороший для виявлення нових для вас сайтів по темі, що цікавить - він точніше застосування пошукової машини. Веб-каталоги рекомендується використовувати для першого знайомства з будь-якою предметною областю, а також для пошуку за нечіткими запитами – у вас буде можливість «поблукати» по розділах каталогу і точніше визначитися з тим, що саме вам потрібно.

Недоліки веб-каталогів відомі. Насамперед, це повільне поповнення бази, оскільки включення сайту до каталогу передбачає участь людини. Щодо оперативності веб-каталог – не суперник пошукачам. Крім того, веб-каталоги суттєво поступаються пошукачам за розмірами баз.

Говорячи про інтернет-пошук, не можна залишити без уваги ряд термінів, які тісно пов'язані з цією сферою і часто використовуються для опису та оцінки пошукових систем. Наприклад:широта та глибина інтернет-пошуку. Широким називають пошук, який захоплює якнайбільше джерел інформації. При цьому достатнім вважається хоча б згадка про той чи інший відповідний запит на сайті. Глибина пошуку відноситься до подробиці індексування та подальшого пошуку кожного конкретного ресурсу. Наприклад, багато пошукових систем по-різному підходять до індексування різних сайтів. Великі та популярні сайти індексуються в максимальному обсязі, роботи намагаються не прогаяти жодної сторінки такого ресурсу. У той же час на інших сайтах може бути проіндексована лише велика сторінка та пара сторінок змісту. Ці обставини, звісно, ​​позначаються і наступному пошуку. Глибокий пошук працює за принципом «краще включити в результати зайву інформацію, ніж упустити будь-які дані, що стосуються теми пошуку».

Досить часто можна зустріти такі поняття, якглобальний та локальний інтернет-пошук. При локальному інтернет-пошуку враховується географічне розташування користувача і перевага надається результатам, так чи інакше пов'язаним із конкретною країною чи місцевістю. При глобальному пошуку ця інформація не враховується, і ведеться пошук у всіх доступних ресурсах.

При складанні запиту на інтернет-пошуковиках діють різні режими пошуку. До типових режимів пошуку, що зустрічаються на більшості інтернет-машин, можна віднестипростий та розширений пошук. Простий пошук дозволяє в одному запиті вказати лише одну пошукову ознаку. Розширений пошук дає можливість скласти запит із кількох умов, зв'язавши їх логічними операторами.

Для уточнення пошукових запитів використовуються різніфільтри . Фільтрами називають ті чи інші допоміжні засоби складання запиту, які не належать до змістовної сторони умов запиту, а обмежують результати пошуку якоюсь формальною ознакою. Так, наприклад, застосовуючи при пошуку фільтр типу файлу, користувач не повідомляє системі відомостей, що належать до теми свого запиту, а просто обмежує отримані результати певним типом файлів, вказаним за умови свого запиту.

Для більшості користувачів універсальні пошукові системи є основним, а найчастіше і єдиним засобом інтернет-пошуку. Вони пропонують гарне охоплення джерел, а також набір інструментів, достатній для вирішення основних пошукових завдань.

Ринок універсальних пошукових систем досить великий. Ми постаралися проаналізувати найвідоміші пошукові системи, а результати подали у вигляді таблиці 1.

При виборі універсального пошуковика важливу роль відіграє якість ресурсів, що знаходяться з його допомогою. Визначити кращий для конкретних завдань пошуковик можна методом маркера. Суть його полягає в тому, що спочатку складається якийсь тематичний пошуковий запит, після чого опитується група людей – експертів у цій галузі щодо виявлення найкращих, на їхню думку, інтернет-ресурсів з обраної теми. На основі даних опитування формується список сайтів-маркерів, які гарантовано релевантні запиту та містять якісну інформацію. Потім запит відправляється на пошукові системи, що тестуються. Логіка оцінки проста: чим вище в результатах пошуку будуть розташовані сайти-маркери, тим краще конкретний ресурс підходить для пошуку інформації з тестової теми.


Глобальна мережа Інтернет до середини 2015 року з'єднала вже 3,2 млрд. користувачів, тобто практично 43,8% населення планети. Для порівняння: 15 років тому користувачами Мережі було лише 6,5% населення, тобто кількість користувачів збільшилась більш ніж у 6 разів! Але найбільше вражають не кількісні, а якісні показники розширення впровадження інтернет-технологій у різних галузях людської діяльності: від глобальних комунікацій соціальних мереж до побутових інтернет-речей. Мобільний інтернетнадав можливість користувачам перебувати он-лайн поза офісом та будинком: у дорозі, за містом на природі.
В даний час існують сотні систем для пошуку інформації в Інтернеті. Найбільш популярні з них доступні для більшості користувачів оскільки вони безкоштовні і прості в експлуатації: Google, Yandex, Nigma, Yahoo!, Bing ..... До послуг більш досвідчених користувачів інтерфейси "розширеного пошуку", спеціалізовані пошуки "по соціальним мережам" ,по новинним потокам і оголошенням купівлі-продажу ... Але у всіх цих чудових пошукових систем є істотний недолік, який вище я вже відзначав як гідність: вони безкоштовні.
Якщо інвестори вкладають у розвиток пошукових систем мільярди доларів, то постає цілком доречне питання: а де ж вони заробляють?
А заробляють вони зокрема на тому, що надають на запити користувачів не таку інформацію, яка була б корисною з точки зору користувача, а ту, яку вважають корисною для користувача власники пошукових систем. Це здійснюється шляхом маніпулювання порядком видачі списків відповідей на пошукові запити користувачів. Тут і відкрита реклама певних інтернет-ресурсов, та приховане підтасовування релевантності відповідей виходячи з комерційних, політичних та ідеологічних інтересів власників пошукових систем.
Тому серед професійних фахівців пошуку інформації в Інтернеті є дуже актуальною проблема пертинентності результатів роботи пошукових систем.
Пертинентність — це відповідність знайдених інформаційно-пошуковою системою документів інформаційним потребам користувача, незалежно від того, наскільки повно і наскільки точно ця інформаційна потреба виражена в самому тексті інформаційного запиту. Це співвідношення обсягу корисної інформації до загального обсягу отриманої інформації. Грубо кажучи, ефективність пошуку.
Фахівцям, які здійснюють кваліфікований пошук інформації в Інтернеті, потрібно докладати певних зусиль щодо фільтрації пошукових результатів, відсіваючи непотрібний інформаційний "шум". А для цього використовуються пошукові засоби професійного рівня.
Одна з таких професійних систем – російська програма FileForFiles & SiteSputnik (СайтСупутник).
Розробник Олексій Мильниковз Волгограда.

"Програма FileForFiles & SiteSputnik (СайтСупутник) призначена для організації та автоматизації професійного пошуку, збору та моніторингу інформації, розміщеної в інтернеті. Особлива увага приділяється отриманню нової інформації на цікаві теми. Реалізовано кілька функцій аналізу інформації."


Моніторинг та рубрикація потоків інформації


Спочатку кілька слів про моніторинг потоків інформації, окремим випадком якого є моніторинг ЗМІ та соціальних мереж:

  • користувач вказує Джерела, які можуть містити потрібну інформацію та Правила вибору цієї інформації;

  • програма завантажує свіжі посилання з Джерел, звільняє їх контент від сміття та повторів та розкладає по Рубрикам згідно з Правилами.

  • Щоб живцем побачити простий, але реальний процес моніторингу, в якому задіяно 6 джерел та 4 рубрики:
  • відкрийте Демоверсію програми;


  • далі, у вікні, - на кнопку Спільно;

  • і коли СайтСупутнику реальному масштабі часу виконає цей Проект, Ви:
    - у списку "Чистий потік" побачите всю нову інформацію з Джерел,
    — в Рубрику "Пост-запит" - економічні та фінансові новини, що тільки задовольняють правилу,
    — у Рубриках "Про президента", "Про прем'єра" та "Центробанк", - інформацію, що відноситься до відповідних об'єктів.

  • У реальних проектах можна задіяти практично будь-яку кількість джерел та рубрик.
    Свої перші робочі проекти можна створити за кілька годин, їх удосконалення – у процесі експлуатації.
    Описана обробка інформації доступна у комплектації SiteSputnik Pro+News та вище.

2. Простий та пакетний пошук, збір інформації

Для ознайомлення з можливостями SiteSputnik Pro(базового варіанта комплектації програми) :

  • відкрийте Демоверсію програми;

  • введіть свій перший запит, наприклад, своє ПІБ, як це зробив я:

    та натисніть на кнопку Пошук.


  • Програма (дивіться табличку, яку збудував СайтСупутник) за кілька секунд опитає 7 джерел, відкриє в них 24 пошукові сторінки, знайде 227 релевантні посилання, прибере посилання, що повторно зустрілися.і з тих, що залишилися 156 унікальнихпосилань складе список "Об'єднання".

    Найменування
    Джерела

    Замовлено
    сторінок

    Завантажено
    сторінок

    Знайдено
    посилань

    Час
    пошуку

    ККД
    пошуку

    Посилання
    Нові

    ККД
    Нові
    Yandex 5 5 50 0:00:05 32% 0 0
    Google 5 5 44 0:00:03 28% 0 0
    Yahoo 5 5 50 0:00:05 32% 0 0
    Rambler 5 4 56 0:00:07 36% 0 0
    MSN (Bing) 5 3 23 0:00:04 15% 0 0
    Yandex.Блоги 5 1 1 0:00:01 1% 0 0
    Google.Блоги 5 1 3 0:00:01 2% 0 0
    Разом: 35 24 227 0:00:26 0 0
    Разом: кількість унікальних посилань - 156 , повторюваних посилань - 46 %.

  • (! ) Повторіть Ваш запит через кілька годин або доби, і Ви побачите в окремому списку тільки нові посилання , що з'явилися у видачі Джерел за цей проміжок часу. У двох останніх стовпцях таблички можна буде побачити скільки нових посилань принесло кожне Джерело та його ККД за "новизною". При багаторазовому виконанні запиту список, що містить лише нові посилання , створюється щодо всіх попередніх виконань цього запиту. Здавалося б, елементарна та потрібна функціяАле автору не відома жодна програма, в якій вона реалізована.

  • (!! ) Описані можливості підтримуються не тільки для окремих запитів, але і для цілих пакетів запитів :

    Пакет, який Ви бачите, складається із семи різних запитів, що збирають інформацію про Василя Шукшина з кількох Джерел, серед яких є пошукові системи, Вікіпедія, точний пошук у новинах Яндекса, метапошук та пошук згадок на ТБ та радіостанціях. У сценарій ТБ та Радіовходять: "Перший канал", "ТВ Росія", НТВ, РБК ТВ, "Эхо Москвы", радіокомпанія "Маяк", ... та інші Джерела інформації. Для кожного джерела прописана своя глибина пошуку або перегляду сторінок. Вона вказана у третьому стовпці.

    Пакетний пошук дозволяє по одному клацанню мишки здійснювати всебічний збір інформаціїна тему.
    Окремий список нові посилання, при повторних виконаннях пакета, міститиме лише посилання, що не знайдені раніше.
    Запам'ятовувати, що і коли Ви запитали в Інтернету і що він Вам відповів не треба- все автоматично зберігається в бібліотеках та базах даних програми.
    Повторюся, що описані в даному пункті можливості цілком і повністю входять до комплектації SiteSpunik Pro.


  • Докладніше в інструкції: SiteSputnik Pro для початківців.

3. Об'єкти та моніторинг пошуку

Досить часто перед Користувачем постає таке завдання. Потрібно дізнатися, що є в інтернеті про конкретний об'єкт: людину чи фірму. Наприклад, при прийомі на роботу нового співробітника або при появі нового контрагента Ви завжди знаєте ПІБ, назву фірми, телефони, ІПН, ОГРН або ОГРНІП, також можете взяти ICQ, Скайп та деякі інші дані. Далі, використовуючи звернення до спеціальної функціїпрограми СайтСупутник "Збір інформації про об'єкт(комплектація SiteSputnik Pro+Objects):

Ви вносите дані, які Вам відомі, і по одному клацанню мишки здійснюєте точнийі повнийпошук посилань, що містять задану інформацію. Пошук виконується відразу на кількох пошукових системах, відразу по всіх реквізитах, відразу по кількох можливих комбінаціях запису реквізитів: згадайте як по-різному можна записати номер телефону. Через певний проміжок часу Ви, не виконуючи нудної рутинної роботи, отримаєте список посилань, очищений від повторів і, головне, впорядкований за релевантністю для об'єкта, що шукається. Релевантність (значимість) досягається за рахунок того, що першими у видачі сайту супутника будуть йти ті посилання, на яких знаходиться Велика кількістьзаданих Вами реквізитів, а не ті, що просунули вгору видачі пошукових систем Веб-майстра.

Важливо .
Програма СайтСупутник вміє краще за інші програми видобувати реальну, а не офіційнуінформацію про Об'єкт. Наприклад, в офіційній базі даних стільникового оператораможе бути записано, що телефон належить Василю Терьохину, а реально на цьому телефоні "висить" інформація про те, що Олександр продавав автомобіль Форд Фокус у 2013 році, що є додатковою інформацієюдо роздумів.

Моніторинг пошуку .
Під моніторингом пошуку розуміється таке. Якщо потрібно відстежувати появу нових посилань, по заданому об'єкту або довільномупакету запитів, то Вам достатньо періодично повторювати відповідний пошук. Як і для простого запиту, програма СайтСупутникстворить список "Нові", в який помістить лише ті посилання, які не були знайдені в жодному з попередніх пошуків.

Моніторинг пошукуцікавий як сам собою. Він може бути задіяний у моніторинг ЗМІ, соцмережта інших джерел новин, який згадувався вище в пункті 1. На відміну від інших програм, в яких можливе зняття нової інформації тільки з RSS-потоків, у програмі СайтСупутникможна використовувати для цього вбудовані в сайти пошуки і пошукові системи . Також можлива емуляція(самостійне створення) кількох RSS-потоківз довільних сторінок, більше того, емуляція RSS-потоку на запит і навіть пакет запитів.


  • Щоб отримати максимум користі від програми, задійте її основні функції, а саме:

    • пакети запитів, пакети з параметрами, використовуйте Асемблер (складальник), операцію "Аналітичне об'єднання" результатів роботи кількох завдань, за потреби застосуйте базові функції пошуку в невидимому інтернеті;

    • підключіть до вбудованих у програму джерел інформації свої джерела : інші пошукові системи та вбудовані в сайти пошуки, існуючі RSS-потоки, створені Вами власні RSS-потоки з довільнихсторінок, застосуйте функцію пошуку нових джерел;

    • використовуйте можливості наступних видів моніторингу: ЗМІ, соцмереж та інших джерел, моніторингу коментарівдо новин та повідомлень, відстежуйте появу нової інформації на сторінках, що вже існують;

    • залучайте Рубрики , Зовнішні функції, Планувальник завдань, розсилку, кілька комп'ютерів, Інструктор Проектів, встановіть сигналізацію Щоб повідомити про значущі події, застосуйте інші наведені нижче функції.



4. Програма SiteSputnik (СайтСупутник): варіанти комплектації та функції

- програма SiteSputnikпостійно вдосконалюється у напрямі: "Мені потрібно знайти все і з гарантією".
"Програма для допиту інтернету", - ще одне визначення Користувача призначення програми.

А. Функції пошуку та збору інформації.

. Пакет запитів - Виконання відразу декількох запитів з об'єднанням результатів пошуку або окремо. При формуванні об'єднаного результату повторно знайдені посилання видаляються. Детальніше про пакети - у введенні в SiteSputnik, наочно - на відео: спільнеі роздільневиконання запитів. Немає аналогів у вітчизняних та зарубіжних розробках.

. Пакети з параметрами. Будь-які запити та пакети запитів, призначені для вирішення стандартних пошукових завдань, наприклад, пошук по телефону, ПІБ або e-mail, - можуть бути параметризовані, збережені та виконані з бібліотеки готових запитів із підстановкою фактичних (потрібних) значень параметрів. Кожен пакет із параметрами - це власна спеціальна розширена форма пошуку . У ній можна задіяти не один, а кілька пошукових систем. Можна створити дуже складні за своїм функціональним призначенням форми. Надзвичайно важливо, що формиможуть бути створені самими користувачами без участі автора програми або програміста. Гранично просто про це написано в інструкції, докладніше в окремій публікації про параметризацію пошуку та на форумі, наочно на відео: пошук відразу по всіх варіантах запису номера мобільного телефоната за кількома варіантами запису адреси електронної пошти. Нема аналогів.

. Асемблер NEW- Складання пошукового завдання з декількох готових : запитів, пакетів запитів та пакетів із параметрами. Пакети можуть містити інші пакети. Глибина вкладеності пакетів необмежена. Можна скласти кілька пошукових завдань, наприклад, про кількох юридичних та фізичних осіб, і виконати ці завдання одночасно. Детальніше на форумі та в окремій публікації про Асемблера, наочно на відео. Нема аналогів.

. Метапошук - виконання конкретного запиту одночасно на задану "глибину" пошуку для кожного з них. Можливий метапошук за вбудованими пошуковими системами, до яких належать Яндекс, Рамблер, Google, Yahoo, MSN (Bing), Mail, блоги Яндекса та Google, та за підключеними засобами пошуку. Робота з кількома пошуковими системами виглядає так, ніби Ви працюєте з одним пошуковцем . Повторно знайдені посилання видаляються. Наочно мета пошук по трьох підключених соціальних мережах: VKontakte, Twitter і Youtube, - показаний на відео.

. Метапошук сайтом - об'єднання пошуку сайту в Google, Yahoo, Яндексі, MSN (Bing). Наочно відео.

. Метапошук в офісних документах - об'єднання пошуку у файлах формату PDF, XLS, DOC, RTF, PPT, FLASH у Google, Yahoo, Яндексі, MSN (Bing). Можна вибрати будь-яку комбінацію форматів файлів.

. Метапошук кеш-копій посилань в Яндексі, Google, Yahoo, MSN (Bing). Складається список, у кожному пункті якого зібрані всі сніпети, знайдені для кожного посилання кожним пошуковцем. Нема аналогів.

. Глибокий пошук для Яндекса, Google та Рамблера дозволяє об'єднати в один список усі посилання зі звичайного пошуку та усі посилання, відповідно, зі списків "Ще з сайту", "Додаткові результати з сайту" та "Шукати на сайті (Усього...)". Докладніше про глибокий пошук на форумі. Нема аналогів.

. Точний та повний пошук . Під цим розуміється таке. З одного боку, кожен запит може бути виконаний на тому і тільки тому джерелі, мовою запитів якого він написаний. Це точний пошук. З іншого боку, таких запитів та джерел може бути довільна кількість. Це забезпечує повний пошук. Докладніше в окремій публікації про процедурний пошук. Нема аналогів.

. Пошук у невидимому інтернеті .

    Він включає наступні базові функції:

    Спеціальний пакет запитів, який може бути вдосконалений Користувачем,
    - пошук невидимих ​​посилань за допомогою спайдера (павука),
    - пошук невидимих ​​посилань на околиці видимого посилання або папки за "образом і подобою",
    - спеціальні пошуки папок відкритих,
    - пошук невидимих ​​посилань та папок зі стандартними іменами з використанням спеціальних словників,
    - Застосування власних вбудованих у сайти пошуків.

    Докладніше в окремій публікації з SiteSputnik Invisible. Базові функції " добре відомі у вузьких колах " , але їх застосування аналогів немає. Суть цього способу полягає в побудові видимої з інтернету карти сайту (іншими словами, матеріалізації видимого інтернету), і вже тільки на базі видимих ​​посилань щодо них пошук невидимих ​​посилань. Пошуку і так видимих ​​посилань "невидимими" методами не здійснюється.

Б. Функції моніторингу інформації.

. Моніторинг щодо появи в інтернеті нових посилань на задану тему. Моніторити появу нових посилань можна за допомогою цілих пакетів запитів , у яких задіяні будь-які згадані вище методи пошуку, а чи не окремі перші сторінки пошукових систем. Реалізовано об'єднання та перетин нових посилань із кількох окремих пошуків. Докладніше у публікації про моніторинг (див. § 1) та на форумі . Нема аналогів.

. Колективне опрацювання інформації . створення корпоративної чи професійної мережідля колективного збору, моніторингу та аналізу інформації. Учасниками та творцями такої мережі є співробітники корпорації, члени професійної спільноти чи групи з інтересів. Географічне розташування учасників немає значення. Докладніше в окремій публікації про організацію мережі колективного збору, моніторингу та аналізу інформації.

. Моніторинг посилань (веб-сторінок) щодо виявлення змін у їх змісті (контенті). Бета версія. Знайдені зміни виділяються кольором та спеціальними знаками. Докладніше в окремій публікації про моніторинг (див. § 2 та 3).

Ст. Функції аналізу інформації.

. Рубрикаація матеріалів вже описувалося вище. Докладніше - в окремій публікації про Рубрика. Правила влучення в Рубрики дозволяють вказувати ключові слова та відстань між ними, задавати логічні "І", "АБО" та "НЕ", застосовувати багаторівневу скобкову структуру та словники (файли-вставки), до яких можна застосовувати логічні операції.

. ВФ-технологія - Практично довільне розширення можливості рубрикації матеріалів за допомогою реалізації зовнішніх функцій, які органічно вбудовуються в Правила попадання в Рубрики та можуть бути реалізовані програмістом самостійно без участі автора програми.

. Чисельний аналіз заповнюваності Рубрик, установка сигналізації та оповіщення про настання значущих подій за допомогою виділення кольором Рубрик та/або відправки по e-mail звіту про спрацювання сигналізації.

. Фактична релевантність. Існує можливість упорядкувати посилання у порядку близькому зі значимістю цих посилань по відношенню до розв'язуваної задачі, обійшовши хитрощі веб-майстрів, які застосовують різні способипідвищення рейтингу сайтів у пошукових системах. Це досягається з урахуванням аналізу результатів виконання кількох " різнопланових " запитів на задану тему. Обчислюються, у прямому значенні цього слова, посилання, що містять максимум шуканої інформації . Докладніше в описі способу пошуку оптимального постачальника та на форумі. Нема аналогів.

. Обчислення зв'язків об'єктів - пошук посилань, ресурсів (майданчиків), папок та доменів, на яких одночасно згадуються об'єкти. Найбільш поширені об'єкти – це люди та фірми. Для пошуку зв'язків можуть бути задіяні всі згадані на цій сторінці програми SiteSputnikщо значно підвищує ефективність виконаної Вами роботи. Операція виконується над будь-якою кількістю об'єктів. Докладніше у вступі до програми, а також в описі нової функції"об'єкти та їх зв'язки". Нема аналогів.

. Формування, об'єднання та перетин потоків інформації на різні теми, зіставлення потоків. Докладніше в окремій публікації про потоки.

. Побудова веб-карток сайтів, ресурсів, папок та шуканих об'єктів на основі знайдених в інтернеті при допомоги Google, Yahoo, Яндекса, MSN (Bing) та Altavista посилань, що належать сайту. Фахівці можуть дізнатися: чи не видно "зайвою" інформації з інтернету на їхніх сайтах, а також досліджувати на цю тему сайти конкурентів. Веб-карта сайту – це матеріалізація видимого інтернету . Докладніше в окремій публікації про побудову веб-карток, наочно на відео. Нема аналогів.

. Пошук нових джерел інформації на задану тему, які можна застосувати для відстеження появи нової потрібної інформації. Докладніше на .

р. Сервісні функції

. Планувальник завдань (Scheduler) забезпечує роботу за розкладом: виконує у заданий час задані функції програми. Докладніше в окремій публікації про Планувальника.

. Інструктор проектів NEW- це помічник при створенні та супроводі Проектів з пошуку, збору, моніторингу та аналізу інформації (рубрикації та сигналізації). Докладніше на форумі.

. Автоматична архівація. У бази данихавтоматично запам'ятовуються всі результати Вашої роботи, а саме: запити, пакети запитів, протоколи пошуку та моніторингу, будь-які інші перелічені вище функції та результати їх виконання. Можна, можливо структурувати роботу з тем і підтем.

. База даних включає сортування, простий пошук та довільний пошук за SQL-запитом. Для останнього є майстер складання SQL-запитів. Використовуючи ці кошти, можна знайти та ознайомитися з тією роботою, яку Ви робили вчора, минулого місяця, рік тому, визначити як критерій пошуку тему або задати інший критерій пошуку за змістом бази даних.

. Технічні обмеження пошукових систем. Деякі обмеження, пов'язані, наприклад, із довжиною рядка запиту, можуть бути подолані. Забезпечується виконання не одного, а кількох запитів з поєднанням результатів пошуку чи окремо. Про спосіб подолання порушення закону адитивності для основних пошуковиків можна прочитати. Для одного слова або однієї фрази, взятої в лапки, реалізовано пошук у пошукових системах з урахуванням регістру, зокрема, пошук по абревіатурі.

Вбудований браузер . Навігатор на сторінках. Багатобарвний маркер для виділення ключових та довільних слів. Білістинг та N-листинг із сформованих документів.

. Вивантаження новинних стрічок у табличне уявлення, орієнтоване на імпорт в Excel, MySQL, Access, Кронос та інші Програми.


5. Встановлення та запуск Програми, вимоги до комп'ютера.

Для встановлення та запуску програми:

  • Завантажте файл, скопіюйте з нього папку FileForFiles на свій жорсткий диск, наприклад, на D:\;

  • Демонстраційний варіант програми проінсталюєтьсята відкриється.

  • Програма буде працювати на будь-якому комп'ютері, на якому встановлено Windows будь-якийверсії.

    Говорити про те, що в наш час інформаційних технологійі нескінченного зростання обсягу даних, доступних як окремо взятій людині, так і суспільству, існує багато проблем з обробкою інформації та її пошуком – це вже блюзнірство. Хто тільки цю тему не порушує. І щоб не завантажувати вас суб'єктивними і, частиною, об'єктивними судженнями, почерпнутими з різних інформаційних джерел щодо проблеми, я перейду безпосередньо до її вирішення. Сьогодні поговоримо про пошук. Тобто про програми та серйозні інформаційні системи, які здійснюють пошук потрібних нам документів та даних.

    Апгрейд "прямого пошуку"

    Не так давно, коли дерева були великими, і інформації навіть у локальної мережіпідприємства було не так багато, будь-який пошук здійснювався банальним перебором жменьки доступних файлів та послідовною перевіркою їх назв та вмісту. Такий пошук називається прямим, і програми (утиліти), що використовують технологію прямого пошуку, традиційно присутні у всіх операційних системахта інструментальних пакетах. Але, навіть потужності сучасних комп'ютерівне вистачить для швидкого та адекватного пошуку у гігантських обсягах даних при прямому пошуку. Перебір пари сотень документів на диску та пошук у величезній бібліотеці та кількох десятках поштових скриньок – різні речі. Тому програми прямого пошуку сьогодні явно йдуть на другий план - якщо мова йдепро універсальні засоби.

    Звичайно, у корпоративному секторі такий вид пошуку вже давно не потрібний. Обсяги не ті. І тому вже який рік, а останнім часом однозначно, технології, здатні здійснювати швидкий і точний пошук документів різних форматів і з різних джерел, більш ніж актуальні. Нещодавно "тато" Microsoft Білл Гейтс, позаздривши, зважаючи на все, феноменальний успіх Інтернет-пошуковика Google, на одній з прес-конференцій оприлюднив бажання софтверного (вже й не тільки) всіляко сприяти, розвивати і поглиблювати створення пошукових систем і технологій. Але до створення будь-якої феноменально працюючої програми від Microsoft або конкурентоспроможного сервера в Інтернет поки що рано (MSN все одно до Google не дотягує). Тому звернемося до вже існуючих розробок. Індекс, запит, релевантність

    В основі сучасних технологійлежать два основні процеси. По-перше, це індексація доступної інформації та обробка запиту з наступним виведенням результатів. Що стосується першого, то будь-яка програма (будь то настільна пошукова система, корпоративна інформаційна системаабо Інтернет пошуковий движок) створює свою область пошуку. Тобто обробляє документи та формує індекс цих документів (організована структура, в якій міститься інформація про оброблені дані). Надалі саме створений індекс використовується для роботи – швидкого одержання списку потрібних документів згідно з запитом. Подальше хоч і не просто у плані технології, зате цілком зрозуміло звичайному користувачеві. Програма обробляє запит (за ключовим словом-фразою) та виводить список документів, у яких ця ключова фраза міститься. Так як інформація міститься в структурованому індексі, то обробка запиту проходить значно (в десятки і сотні разів!) швидше, ніж у разі прямого пошуку (вибірка документів здійснюється не перебором файлів, а аналізом текстової інформаціїв індексі).

    Знайдені документи програма виводить у результуючому списку відповідно до релевантності – відповідності документа до тексту запиту. У різних технологіях, звичайно, присутні різні методи пошуку та визначення релевантності документа (кількість "входжень" слова та його частота згадки в документі, співвідношення цих параметрів до загальної кількості слів у документі, відстань між словами фрази запиту в файлах і так далі). На основі цих параметрів визначається "вага" документа і, залежно від нього той чи інший файл виявляється у списку результатів на певній позиції. У випадку з Інтернет-пошуком справа ще складніша. Адже в даному випадку треба враховувати і безліч інших факторів (Page Rank Google тому приклад). Але це тема для окремої статті, тому Інтернет чіпати не будемо.

    У даному матеріалі розглянуті можливості кількох популярних програм пошуку, які можуть похвалитися як пристойними швидкостями, і непоганим функціоналом. Але хвалитися в рекламних проспектах – це одне, а ось витримати пильний погляд експерта – зовсім інше. А експертів знайшлося ні багато, ні мало повний офіс любителів поколупати софт на предмет його юзабіліті. На піддослідний комп'ютер (Athlon 2,2 MHz, з об'ємом оперативної пам'яті 1 Гб, 160 гігабайтним IDE жорстким диском Seagate на 7200 обертів на хвилину та системою Windows XP) був встановлений набір програм: dtSearch Desktop, Шукає Проф Deluxe, Google Desktop Search, SearchInform, Copernic Desktop Search, ISYS Desktop. Для тестів було скомпоновано текстову базу документів у форматах doc, txt та html загальнимрозміром не багато, не мало, а 20 гігабайт. Група товаришів під керівництвом вашого покірного слуги тестувала, порівнювала та ділилася своїми суб'єктивними враженнями по кожній софтині. Зведений виклад даних читайте нижче. dtSearch Desktop

    Програма, що претендує, за заявою розробників, на найшвидшу, зручну та найкращу пошукову систему. Як, загалом, і всі інші даного огляду. Інтерфейс dtSearch є досить простим, але деякі вікна або вкладки дещо перевантажені елементами, через що створюється враження складності використання. Але насправді особливих труднощів немає. Єдиним дійсно неприємним моментом є відсутність підтримки софтіною російської мови (не дивлячись на те, що шукати документи програма може кількома мовами, інтерфейс її виключно англійська).

    Проте dtSearch одна з небагатьох програм, яка може індексувати веб-сторінки на задану користувачем "глибину" (щоправда, з урахуванням "дозакупівлі" в комплект адд-вона dtSearch Spider). Це крім підтримки файлів на диску різних текстових форматів та електронних листів з поштової скриньки Outlook. У той же час, програма не вміє працювати з базами даних, які є таким ласим шматочком для пошукових систем через великі обсяги інформації, що знаходяться в них, і поширення в компаніях, а значить і в корпоративних мережах. Швидкість індексування документів dtSearch виявилася належним чином. Забігаючи вперед, скажу, що ця програма впоралася з індексацією заданого обсягу інформації на рівні з іншим конкурсантом – iSYS – та поділила з ним друге місце у списку самих швидких систем. Тестові 20 гігабайт інформації dtSearch проіндексували за 6 годин 13 хвилин, створивши для потреб наступного пошуку індекс розміром 7.9 Гб.

    Щодо можливостей пошуку, то тут вони на належному рівні. По-перше, в dtSearch є морфологічний пошук (пошук слова у всіх його морфологічних формах). Використовуючи дану можливість, Ви звільняєте себе від, скажімо, таких роздумів, як "в якому ж відмінку було вжито деяке слово в необхідному мені документі?". Використання морфологічного пошуку майже завжди виправдане, тому має бути присутнім у будь-якому професійному пошуковику.

    Пошук за звучанням є нестандартною можливістю навіть для професійних пошукових систем. Суть його полягає в тому, що програма шукатиме слова, які звучать так само, як введене слово. І що найприємніше, ця функція працює і для російської! Наприклад, набираючи слово "вухо" у пошуковому запиті, ви побачите в результаті не тільки слова "вухо", а й "вуха".

    Пошук з корекцією помилок – дуже важлива функція. Застосовується для пошуку слів, що містять синтаксичні помилки - це можуть бути як друкарські помилки, так помилки в документах, отриманих за допомогою систем розпізнавання символів, наприклад. Простий приклад – ви шукаєте слово клавіатура. У деякому документі міститься слово "клавіатупа", очевидно, що насправді це слово "клавіатура" просто людина при наборі тексту опечаталася. Так ось, пошук з корекцією помилок, це виявить та включить документ зі словом "клавіатупа" у результат. Також у dtSearch є налаштування, що дозволяє визначати ступінь можливих помилкових символів.

    Пошук із використанням синонімів. Ця можливість використовує список синонімів для різних слів. Так, наприклад, ввівши слово "швидкий", програма також знайде слова "швидкісний" та інші синоніми для слова "швидкий", якщо такі, звичайно, присутні в списку синонімів. Готовий список синонімів разом із програмою dtSearch не поставляється, проте є можливість скористатися списками в Інтернет (відповідно, потрібне підключення, що не завжди зручне), або можна скласти свій список синонімів.

    Крім перелічених можливостей, dtSearch може здійснювати пошук з використанням фраз, які з слів, з'єднаних логічними операціями. Кожному слову у запиті можна встановлювати свою "вагу", тобто значущість. Корисна опція - використання словника, що складається з не значущих слів для того, щоб не враховувати їх при пошуку, проте цей словник також порожній і доведеться заповнювати самостійно.

    Далі розглянемо можливості програми під час роботи у мережі. По суті ніяких специфічних можливостей для роботи з мережею dtSearch не пропонує. Тим не менш, використовувати його в мережі цілком можливо. Як варіант, можна створити деякий індекс та покласти його в загальнодоступну (розшаровану) папку. Саму ж програму можна встановити кожному користувачеві на комп'ютер, або викласти її також на папку, відкриту для загального доступу, та створити спеціальним чином ярлики для кожного користувача окремо, використовуючи параметри командного рядка, призначення яких описано у файлі допомоги, що постачається з програмою. Також є можливість автоматичної установкипрограми в мережу за допомогою MSI файлу. При цьому будуть враховані налаштування для кожного користувача, що підключається.

    Загалом і в цілому - непогана програма з розряду професійних пошукових систем. Може претендувати на хорошу оцінку, проте завоювання довіри та поваги з боку користувачів може виявитися непростим для dtSearch через деякі фактори (не все гладко з інтерфейсом, російські користувачі обділені, немає яскравих особливостей для роботи з мережею). Що стосується безпосередньо пошуку документів, то накладок з російським текстом програма не мала. Як не було їх ні із заявленою морфологією, ні з нечітким пошуком. Система цілком адекватно знаходила потрібні документи і по простому запиту в одне слово і використання як ключову фразу пари абзаців, будь-якого документа.

    Офіційний сайт:
    Розмір дистрибутива: 23 MbШука Проф Deluxe

    Виходячи з назви можна здогадатися, що підтримка російської мови в цій програмі є. Це вже приємно. Що стосується інтерфейсу, загалом, він дещо незвичайний, але на вигляд дуже привабливий. Інша справа – зручність. Дуже спірний критерій, але все ж таки, напевно, багатовіконне рішення - не найвдаліший варіант (запит вводиться в одному вікні, результат відображається в іншому тощо).

    Шукач використовує ті самі індекси для здійснення швидкого пошуку, проте індексування проходить значно повільніше, ніж в інших програм. Це дуже дивно, особливо враховуючи те, що можливості обробки пошукових запитів у неї дуже слабкі, а значить і структура індексу не складна. Швидше за все, річ тут у неоптимізованих алгоритмах. Ця програма виявилася явним аутсайдером швидкостей індексації та пошуку: час, витрачений на створення індексу, у шість разів більший, ніж у тих же dtSearch та iSYS. Індексація 20 гігабайт текстів для шукання вилилася в 38 годин 46 хвилин роботи. А створена "область пошуку" зайняла на жорсткому диску той самий розмір, що й вихідні дані за невеликим мінусом – 19 гігабайт.

    Шукачка може бути представлена ​​як альтернатива стандартному пошуку в Windows, на більше вона навряд чи здатна. Про те, що першочергова задача Шукання - найпростіший пошук файлів вказує не тільки малу кількість функцій для аналізу тексту пошукових запитів і розширений пошук за атрибутами файлів, але навіть вікно результатів, що видає прямі посилання на знайдені файли, а також папки, що містять ці файли. Вікно результатів не надто інформативне в тому плані, що прочитати весь знайдений файл можна тільки запустивши його, тобто вбудованого переглядача файлів у нього немає. Зате видається витримка з файлу, де зустрілося слово, загалом, така схема відображення дуже нагадує Інтернет пошуковики.

    Говорячи про конкретні можливості з обробки пошукових запитів, варто відзначити, що тут немає такого поняття як "шукати текст", максимум, що можна шукати - це фраза, хоча б тому, що тут немає багаторядкового поля введення тексту. Тим не менш, аналізувати можна і введену фразу і Іщейка пропонує нам стандартний пошуковий набір: логічні операції, пошук по масці і цитатний пошук... не густо. У програмі є деякі зачатки морфологічного пошуку, але, напевно, настільки сирого, що він, швидше, заважає коректній роботі (під час тестів було помічено безліч накладок з неправильним використанням морфології).

    Зате програма дозволяє вказувати під час пошуку атрибути файлів (дата документа, ім'я файлу, ім'я папки), причому у запитах також можна використовувати той самий пошуковий набір. Також можна здійснювати пошук листів, вказуючи параметри (От, Тема.... і т.п.).

    Отже, з самим пошуком розібралися, чим ще цікавим володіє програма, за що вона отримала настільки численні нагороди, за інформацією з офіційного сайту? Важко сказати, що в ній такого особливого, швидше за все, інтерфейс Іщейки сприяє собі (саме зовні, не кажучи про юзабіліті).

    Операції з індексами дуже стандартні, приємним моментом є можливість оновлення індексів за розкладом. Крім того, індекси також можуть використовуватись у мережі. З цього моменту треба докладніше.

    Незважаючи на примітивність пошукових запитів, програму можна використовувати для пошуку файлів, тому її застосування може бути виправданим у мережах. Хоч і з великою натяжкою, тому що у великій мережі пріоритетним завданням є швидкий пошукданих з використанням складних пошукових запитів через величезну кількість інформації - а зі швидкістю пошуку та програми явно проблеми. Треба сказати, що робота з мережею у Іщейки продумана як слід. Спеціально для цього призначено окрему програму - Іщейка Сервер. Воно працює так само, як і просто Шукає (пошуковий двигун у них один), тільки для документів, розміщених на центральному сервері або на загальних ресурсахв корпоративної мережі. Шукач Сервер створює нові індекси на загальних ресурсах, або використовує раніше створені. Будь-який користувач корпоративної мережі може підключитися до Шукача Сервер і використовувати її для доступу до будь-якого документа (що знаходиться в поточному індексі) використовуючи Інтернет браузер. Погодьтеся, така схема є вкрай зручною: виходить, що файли у власній мережі можна шукати так само, як інформацію в Інтернеті через, наприклад, Google.

    Оцінюючи всі переваги та недоліки цієї програми, сам собою напрошується висновок, що для корпоративних мереж її можливостей, швидше за все, не вистачить (не дивлячись навіть на непогану організацію роботи з мережею), а ось для домашнього комп'ютера чи навіть для домашньої мережівона, в принципі, може підійти. Хоча ні швидкість роботи, ні можливості пошуку не вселяють оптимізму...

    Офіційний сайт російською мовою:
    Розмір дистрибутива: 6 MbGoogle Desktop Search + GDS Enterprise

    Звичайно, ми не могли оминути такого знаменитого розробника. Ім'я Google вжеговорить багато про що. Народ, який роками користувався найпотужнішим Інтернет-пошуковиком, напевно, без жодного сумніву, вирішить встановити на комп'ютері саме цей пошуковик. Це ж подумати: Google на домашньому комп'ютері! Однак, не піддаючись на провокації з широко розкрученим брендом, спробуємо тверезо, а головне об'єктивно, розглянути можливості "настільного" пошукача від Google.

    Перше, що впадає у вічі - відсутність власної оболонки для програми. Google Desktop Search, як і раніше, знаходиться у вікні браузера, відповідно, весь інтерфейс настільної версії дістався софтіні від старшого Інтернет-брата. Добре це чи погано - спірне питання: комусь до душі мінімалізм у дизайні цього пошуковика, а комусь хочеться бачити повноцінний додаток, наповнений різними кнопочками і так далі.

    Що впадає у вічі відразу після дизайну? А те, що цей Google Desktop Search починає індексувати на комп'ютері все підряд, без жодного на те попиту! І що найцікавіше, вибрати шляхи індексації за допомогою Google Desktop Search неможливо. Прийде завантажити окрему програму (TweakGDS), яка дозволить дещо розширити налаштування Google Desktop, у тому числі і вказати необхідні для індексації місця. Хоча, доки з усім цим розберешся, стандартний вінчестер він уже проіндексує, так що таке налаштування потрібне швидше при роботі з великими масивами даних, що дуже актуально при використанні в корпоративних мережах (версії Enterprise). Однак не факт, що після завантаження TweakGDS, ваші проблеми вирішаться. Адже для роботи їй потрібні Microsoft. NET Frameworkта Microsoft Scripting Runtime. Та вже... встановлення, як і доступ до налаштувань, можна було зробити і простіше, хоча, напевно, розробників можна зрозуміти: навіщо писати щось нове, коли є вже готова пошукова система, портувала його на локальний комп'ютері нехай користувач "насолоджується", а відоме ім'я зробить з "цього" черговий шедевр. Та гаразд, закінчимо на цьому ліричний відступ і перейдемо до пошуку.

    Що стосується аналізу пошукових запитів та видачі результатів, то тут все абсолютно ідентично Google в Інтернет: така сама система відображення результатів, той самий стандартний набір логічних операцій для пошукових запитів. Загалом Google Desktop Search, як і попередня програма, призначений виключно для пошуку файлів – внутрішнього переглядача цих файлів у ньому, зрозуміло, немає. Кількість форматів файлів, що підтримуються Google Desktop Search, цілком достатньо, а також приємно, що він здійснює пошук по відвіданих Інтернет сторінках, беручи дані з кешу. Швидкості пошуку та індексування цілком прийнятні. Щоправда, для домашнього вжитку. З значними 20 гігабайтами текстів Google Desktop Search впоралася за 8 годин 17 хвилин. Витратити кілька днів на обробку інформації з корпоративної мережі великого підприємства не посміхається жодному сисадміну. З плюсів: розмір створюваного індексу виявився на рівні (4,5 Гб) з іншою пошуковою системою, протестованою в цьому огляді - SearchInform.

    Велика перевага (або упущення - вирішувати вам) Google Desktop Search полягає в тому, що він підтримує плагіни, які здатні багато чого змінити на краще. Інша річ, що підключення плагінів та їх налаштування настільки ускладнює завдання встановлення пошуковика, що починаєш замислюватися - а чи треба все це, коли можна встановити нормальну, повноцінну програму, в якій вже буде присутнім. Адже для кожної можливості доведеться встановлювати новий плагін. Навіть для того, щоб програма могла повноцінно працювати з архівами, потрібна окрема примочка. Зачаровує та спокушає безплатність всіх цих додаткових модулів. Однак якщо не брати до уваги десктопову версію пошукача, то грамотне налаштування GDS Enterprise може виявитися вам не під силу - адже не дарма фахівці з Google пропонують свої послуги з налаштування їхнього ж програмного забезпечення для вашої мережі лише за 10000 $.

    Якщо ви все-таки подужаєте процедуру налаштування та установки (або заплатите 10000 $ бригаді швидкого реагування з контори Google), то зрозумієте, що складність установки з лишком компенсується дуже гнучкими налаштуваннями при використанні в корпоративних мережах. Важливим моментом роботи Google Desktop у корпоративній мережі є використання групових політик, що дозволяє встановити налаштування для кожного користувача.

    Підсумовуючи, слід сказати, що найрозумніше застосування цієї програми - домашній чи робочий комп'ютер. Адже для звичайного комп'ютера досить просто встановити програму – інше вона зробить сама (вас навіть ні про що не спитає).

    Тим не менш, Google Desktop Search Enterprise буде прийнятна у випадках гострої необхідності гнучкого налаштування мережевої політики для використання пошуковика, при цьому можливості обробки пошукових запитів будуть на другому місці за значимістю, а час (або гроші), витрачений на налаштування програми, - на першому місці.

    Офіційний сайт:
    Розмір дистрибутива разом із TweakGDS: 1,2 MbCopernic Desktop Search

    Натисніть на картинку, щоб збільшити

    Інтерфейс програми викликає виключно позитивні емоції - все зроблено відповідно до загальноприйнятих стандартів, нічого зайвого, одним словом приємний дизайн. Новачку розібратися в інтерфейсі Copernic Desktop Search буде дуже просто. Хоча, дещо бентежить те, що дизайнери явно створювали інтерфейс програми з урахуванням того, що програма працюватиме у стандартній темі оформлення Windows XP. При використанні класичної теми, програма виглядає вже не настільки симпатичною. Але це вже скоріше справа смаку.

    При першому ж запуску програма пропонує створити індекси для пошуку. Дещо незвичайним здалося те, що після вибору папок для індексування, програма не пропонує натиснути якусь кнопку, на кшталт "Почати індексацію", при цьому індексація не починається автоматично, тільки потім було помічено, що Copernic намагається розпочати індексацію під час простою комп'ютера. Доведеться дещо покопатися в опціях програми, щоб налаштувати все належним чином. Слід зазначити, що тут представлені досить широкі можливості з налаштування автоматичного створення індексу: вбудований планувальник, можливість індексації під час простою комп'ютера; фоновому режиміз низьким пріоритетом. Індексація проходила не надто швидко - 10 годин 51 хвилина - це повільніше, ніж в інших пошукових системах (крім Іщейки, все ж таки Copernic швидше розробки iSleuthHound Technologies на порядок).

    Тепер про структуру індексу. Загалом нічого особливого в ній немає. Є можливість вибору типів файлів, причому, як у узагальненому вигляді, і у докладному. Тобто спочатку ви можете вибрати, що потрібно індексувати – Документи, Зображення, Відео, Музику. На іншій вкладці вікна опцій буде можливість вибрати саме типи файлів по розширенню. Додатково можна налаштувати індекс таким чином, щоб, наприклад, не індексувалися картинки розміром менше 16х16 або не індексувалися звукові файли довжиною менше 10 секунд. Крім індексації файлів з папок, Copernic вміє працювати з електронними листами та контактами з адресної книги Microsoft Outlookта Microsoft Outlook Express, можлива індексація Вибраного та Історії з Internet Explorer.

    Щодо можливостей пошуку, то тут вони дуже слабкі. Під час тестів навіть було виявлено, що програма не шукає документів форматів txt та html російською мовою, дозволяючи знайти їх лише за заголовками, а аж ніяк не за змістом. Єдине, що програма надає підвищення ефективності пошуку - це використання стандартного набору логічних операцій, та й те, цю можливість виявили експериментальним шляхом, оскільки документована вона була. До речі, з довідкою у програми також не все гаразд – вона доступна лише через Інтернет, що, погодьтеся, дуже незручно, та й у мережі довідкової інформації не надто багато. Очевидно, розробники вирішили, що простий інтерфейс програми передбачає наявність нормальної довідки. Продовжуючи розмову про можливості пошуку, слід зазначити, що, незважаючи на слабкий аналіз запитів, програма надає цікаву систему пошуку – користувач може вибрати тип файлів (зображення, відео, музика тощо), ввести пошуковий запит та вибрати атрибути, притаманні саме вибраного типу файлів. Наприклад, для звукових файлів це можуть бути значення з mp3 тегів (артист, альбом, дата і т.п.), для зображень, наприклад, можна вибирати їх розмір (за роздільною здатністю), загалом, кожному типу - свої налаштування. Після здійснення пошуку за певним типом файлів, програма видасть вельми інформативний список у вікні результатів, причому, якщо під ваш запит потрапили файли інших типів, то ви зможете відкрити їх, натиснувши на певне посилання.

    Окремо варто згадати вікно відображення результатів. Під списком знайдених файлів відображається вміст цих файлів (подібна схема часто використовується в поштових клієнтах). Щоправда, перегляд тексту можна здійснювати лише у рідному форматі, а режиму відображення plain тексту немає, що завжди зручно, оскільки відкриття документа у разі займає більше часу. Натомість, враховуючи, що Copernic вміє шукати зображення та музику, тут є можливість перегляду цих мультимедійних файлів.

    Основні принципи роботи цієї програми описані, тепер подивимося, що Copernic Desktop Search може запропонувати нам для роботи з мережею... У принципі дивитися можна дуже довго, але побачити щось навряд чи вдасться. Іншими словами, ця програма і не замислювалася як мережна. Copernic Desktop Search - виключно домашня пошукова система.

    Очевидно, що єдине (найлогічне) застосування цієї програми - домашній комп'ютер. Тут вона цілком впорається з усіма невигадливими пошуковими запитами користувачів, що складаються з одного двох слів, знайде потрібну інформацію, а поділ пошуку за типами файлів і підтримка мультимедійних файлів разом з фоновою індексацією в режимі низького пріоритету разом з приємним інтерфейсом тільки надають програмі сил для завоювання довіри серед недосвідчених користувачів.

    Офіційний сайт
    Розмір дистрибутива: 2,6 MbISYS Desktop

    Натисніть на картинку, щоб збільшити

    Дуже потужна програма. За рівнем оснащеності всілякими функціями вона знаходиться десь поряд з системою пошуку SearchInform, що наступає в списку. При цьому розмір файлу інсталяції більше 40Mb! Важко сказати, що можна було засунути в такі розміри, адже той же SearchInform, з подібною функціональністю займає 15Mb.

    Процес установки тут також не дуже приємний, точніше навіть процес установки. Ще до завантаження програми вас попросять зареєструватися, а інакше - ніяк. Далі інтерфейс. Зроблений він дуже симпатично, нічого зайвого в очі не впадає, проте - це враження людини, яка вже трохи звикла до неї. Розібратися, де і що знаходиться, куди натискати і де здійснити пошук новачкові буде непросто. Дуже рекомендується прочитати довідку перед початком роботи – заощадите багато нервів та часу. До того ж додається також повна відсутність підтримки російської мови в програмі. Не добре. Крім того, вікна тут не перевантажені елементами управління, але розплатитися за це довелося багатомодульністю і використанням додаткових вікон. Наприклад, запити для пошуку вводяться за допомогою запуску однієї програми, а управління індексами здійснюється за допомогою вже іншої програми. Пошукові запити вводяться тут також в окремих віконцях, що з'являються. Що краще – перевантаженість інтерфейсу або повсюдна багатовіконність – сказати важко, швидше, це справа смаку.

    Щодо створення індексів, то програма надає можливості щодо спрощення процесу встановлення опцій для нового індексу. Ці можливості включають кілька готових шаблонівдля створення індексів по папці "Мої документи", "Пошта", "Пошта та документи", "Певна папка", "Папка з вибором типів файлів" та ін. Такі шаблони спрощують створення індексів на першому етапі. Утиліта для роботи з індексами має не дуже вдалий інтерфейс, що відлякує деякою складністю (це дуже суб'єктивна оцінка, по правді кажучи), проте, якщо розібратися, він надає безліч корисних опцій і в цілому його використання особливої ​​праці не викликає. ISYS Desktop вміє індексувати дані з різних джерел даних, а також надає безліч гнучких налаштувань для такої індексації. Серед додаткових можливостей індексування: підтримка SQL, FTP, TRIM Context, WORLDOX 2002, скрипти. При створенні індексу, якщо ви вибирали пункт "Папка з вибором типів файлів", ви можете вибрати типи файлів для індексації вручну (по розширенню). Треба сказати, що типів файлів, що підтримуються, просто величезна кількість, проте свій тип (розширення) додати в існуючий список не вдасться. Можна також наголосити на наявності планувальника індексації. Створенням індексу та обробкою 20 гігабайт інформації ISYS Desktop займалася 6 годин 13 хвилин, зрештою показавши непоганий час та розмір створеного файлу – 7.9 Гб.

    Можливості пошуку у цієї програми непогані. Те, що використовується в ISYS, значно потужніше за звичайну підтримку логічних операцій. З просунутих можливостей пошуку програма пропонує використання синонімів, фільтра сортування (по шляху, імені та даті створення файлу). Набір логічних операторів дещо ширший за стандартний набір. Крім логічних операцій програма дозволяє працювати з багатьма іншими операторами, які в принципі здатні замінити деякі види пошуку, наприклад, пошук з синтаксичним розбором цілком можна замінити використанням спеціальних операторів. Дуже здивувало те, що у програмі немає пошуку з використанням морфології. Це серйозне недогляд, оскільки ефективність пошуку сильно підвищується під час використання морфологічного аналізу. Крім того, немає списку значущих слів, зате є великий список незначних слів. Також заявлені такі функції під час пошуку як "приблизний пошук" та "евристичний аналіз".

    ISYS надає на вибір кілька видів пошукових запитів, саме видів - візуальних. Це здійснено за допомогою різних видів вікон для введення пошукових запитів, однак фактично жодне вікно не дозволяє використовувати технології, відмінні від перерахованих вище.

    Результати пошуку є дуже інформативними, відображаються у вигляді списку документів, відсортованих за релевантністю. Нижче відображається перегляд вибраного документа. На відміну від Copernic Desktop Search, перегляд тут доступний лише у вигляді plain тексту, домогтися відображення документів у рідному форматі, будь то Word, Html або PDF так і не вдалося, хоча це в принципі і не дуже критично. Програма дозволяє розбивати знайдені документи на групи за певними ознаками (за умовчанням вони розділені за релевантністю). Можна також переглядати вже знайдені документи, вибираючи окремі папки (це зручно, коли результат видає дуже багато документів).

    Використання програми в корпоративній мережі також дуже виправдане, оскільки вона надає непогані можливості організації мережевого пошуку. Система пошуку базується на створенні загальнодоступного індексу, що містить проіндексовані дані із загальнодоступних мережевих ресурсів.

    По суті, програма від ISYS варта уваги, хоча б ознайомлення з нею. Ця програма - зрілий проект, що має величезну кількість функцій (не завжди і не всім, звичайно, вони бувають потрібні, але все ж таки). Шанси на те, що в програмі з'являться деякі покращення з боку обробки пошукових запитів, не відомі, але і зараз її можна рекомендувати практично для повсюдного використання. А враховуючи, що для домашніх систем вона все ж таки занадто важка, то основні місця її інсталяції - корпоративні мережі.

    Офіційний сайт:
    Розмір дистрибутива: 40 MbSearchInform

    Натисніть на картинку, щоб збільшити

    Відразу починати з опису інтерфейсу SearchInform, мабуть, не варто. Слід спочатку описати процес установки, а точніше одну його деталь: ви не зможете встановити програму без підключення до Інтернету. Справа в тому, що перед першим запуском програма вимагає реєстрації користувача (безкоштовної) та надсилає всі введені дані на сервер. Мабуть, розробникам довелося вжити таких заходів у боротьбі з піратством, проте на зручності встановлення це позитивно не позначилося.

    Інтерфейс програми виконаний з дотриманням всіх загальноприйнятих правил, однак, на перший погляд, є дещо громіздким. Використовуючи програму вперше, здається, що він надто складний, іноді буває не просто згадати в якому меню або на якій вкладці знаходиться потрібна опція, проте, при більш тривалому використанні, інтерфейс не здається таким жахливо складним. Головне, заздалегідь почитати довідку.

    Трохи розібравшись з інтерфейсом, можна розпочати створення індексу. Сам процес дуже простий і швидкість індексації навіть на око значно вища за всіх інших пошукових систем з огляду. Чіткі цифри тестів показують, SearchInform вдвічі обігнала dtSearch та iSYS за швидкістю індексації! Програма проіндексувала надані дані у розмірі 20 гігабайт за рекордний час – 3 години 17 хвилин. Та й розмір створеного індексу виявився невеликим 4.4 Гб - на 100 мегабайт менше, ніж у Google Desktop Search.

    Програма підтримує, окрім звичайних файлів і папок, також індексацію електронних листів, підключення та індексацію баз даних (!) та інших зовнішніх джерел(DMS, CRM), відразу ж за індексації можна вказати словник щодо морфологічного пошуку, і навіть індексуватися можуть всі атрибути файлів. Після створення індексу, при спробі провести перший пробний пошук документів, можна збентежитись: "тут є два види пошуку, а який же з них потрібен мені?". Як уже говорилося раніше – головне прочитати довідку, тоді все стане зрозумілим. Програма дійсно вміє здійснювати два види пошуку – це фразовий пошук та пошук документів, схожих за змістом на текст запиту.

    Опис всіх основних функцій для аналізу пошукового запиту було наведено вище, тому зараз лише перерахуємо можливості пошуку, що надаються цією програмою. Почнемо з фразового пошуку: звичайно, морфологічний пошук, цитатний пошук, логічні операції, пошук із синтаксичним розбором слова (пошук на початок слова, по закінченню, по середній частині, або повний збіг), змішаний цитатний пошук (коли всі слова із запиту повинні бути присутніми) у документі, але необов'язково у введеному порядку), пошук із корекцією помилок, використання синонімів, "майже цитатний пошук" (пошук введеної фрази як цитати, але між введеними словами можуть бути інші слова) тощо. Деякі з наведених опцій мають свої специфічні налаштування. Крім того, є можливість використання словника незначних слів, причому у програмі вже є готовий список цих слів, також для пошуку можна використовувати словник пріоритетних слів (його, зрозуміло, доведеться заповнювати самостійно).

    Ось у принципі коротко пробігли всі основні можливості фразового пошуку.

    Перейдемо до розгляду особливості програми - пошуку схожих документів. Розробники стверджують, що це аж ніяк не простий пошук тексту, це саме "пошук схожих" - саме так він описаний у них скрізь, та гаразд, називати це можна як завгодно - головне суть. Недовгі пошуки в Інтернеті можуть швидко дати інформацію про те, що так званий пошук схожих - нова розробка в області аналізу тексту. Ця система дозволяє знаходити тексти, схожі саме за змістом. Найприємнішим виявилося те, що після проведення тестових пошукових запитів виявилося, що теорія цілком збігається з практикою! Програма дійсно шукає схожі за змістом документи та відображає їх у списку, впорядковуючи відсоток схожості.

    Далі розглянемо, що пропонує SearchInform (зокрема її корпоративна версія SearchInform Corporate) для роботи в корпоративній мережі. Існують два види додатків: серверна частина та користувальницька. Серверна частина самостійно опрацьовує зазначені індекси, а користувачі можуть використовувати їх для пошуку, залежно від призначених їм прав доступу. Користувачі можуть бути налаштовані автоматично, використовуючи облікові записи Windows (говорячи професійною мовою, SearchInform використовує NTFS автентифікацію Windows), і вручну (користувачів доведеться додавати окремо). Кожному користувачеві можна дозволити або заборонити доступ до певних індексів, також можна об'єднувати користувачів у групи. Загалом, налаштування для роботи в мережі у SearchInform випереджають за гнучкістю Google, а за зручністю та простотою Іщейку Сервер.

    Офіційний сайт:
    Розмір дистрибутива: 14,7 MbПорівняння швидкостей індексування

    Система пошукуЧас індексаціїРозмір індексу
    Шукаюча Проф Deluxe 4.538 годин 46 хвилин19 Гб
    Isys Desktop 7.06 годин 13 хвилин7.9 Гб
    DtSearch 7.06 годин 3 хвилини8.6 Гб
    Google Desktop Search Enterprise8 годин 17 хвилин4,5 Гб
    Copernic Desktop Search *10 годин 51 хвилина7 Гб
    SearchInform 1.5.023 години 17 хвилин4.4 Гб

    * Більшість документів.html і.txt, що містять російський текст, хоч і були проіндексовані, але крім як за назвами, знайти їх було неможливо.Резюме

    Усі програми варті уваги.

    На основі тестів та уважного огляду кожної програми, поданої в огляді, можна зробити певні висновки. Отже, Google Desktop Search Copernic Desktop Search цілком підійдуть недосвідченому користувачеві як домашні системи пошуку інформації. Вони непогано справляються з простими запитами, не завантажать користувача налаштуваннями і, до того ж, абсолютно безкоштовні. Спроба Google вийти на ринок корпоративних пошукових систем, поки не сильно виправдана: повноцінної роботипрограму потрібно обвішувати додатковими модулями, та й у налаштуванні вона далеко не проста. Тому, що говорять назви Desktop Search, що Copernic, що Google відставляю за ними нішу "настільних" пошукових систем.

    Щоправда, потужніші рішення - dtSearch, iSYS і SearchInform теж не ликом шиті і пропонують користувачам свої "настільні" версії. Але за схожою ціною, на відміну від безкоштовних софтін від Google та Copernic. Звичайно, за потужність, швидкість та функціонал доводиться платити. Але головний приціл розробники dtSearch, iSYS та SearchInform роблять, звісно, ​​на корпоративний сектор. Робота з мережею, функціональність, швидкість індексації та пошуку – ось що відрізняє ці продукти від своїх "конкурентів". За результатами тесту було визначено лідер - SearchInform. Програма надає можливість шукати схожі документи, має найбільшу швидкість індексування та пошуку, має гарний набірфункцій.

    Олексій Кутовенко

    Професійний пошук в Інтернеті

    Вступ

    Інтернет-пошук – важливий елемент роботи у Мережі. Точна кількість веб-ресурсів сучасного інтернету навряд чи комусь точно відома. У будь-якому випадку рахунок йде на мільярди. Для того щоб можна було використовувати інформацію, необхідну в даний конкретний момент, не важливо, в робочих або розважальних цілях, спочатку потрібно її знайти в океані ресурсів, що постійно поповнюється. Це зовсім не просте завдання, оскільки інформація в сучасній Мережі не структурована, що створює проблеми її знаходження. Невипадково своєрідними «вікнами» у цей інформаційний простір стали саме інтернет-пошуковики.

    Навряд чи серед інтернет-користувачів знайдуться люди, які ніколи не використовували великі універсальні пошукові машини. Назви Google, Яндекс та пари-трійки інших великих машин на слуху у всіх. Вони чудово справляються з повсякденними завданнями інтернет-пошуку, і найчастіше користувачі навіть намагаються шукати їм заміну. У той же час, кількість пошукових інтернет-машин у наш час обчислюється тисячами. Причини такого розмаїття альтернативних машин мають різне коріння. Одні проекти намагаються безпосередньо конкурувати із лідерами глобального ринку за рахунок ретельної роботи з національними інтернет-ресурсами. Інші пропонують можливості складання запиту, які відсутні у відомих пошукових систем. Значна кількість альтернативних машин спеціалізується на пошуку по певній тематичній області або певному типу контенту, досягаючи у вирішенні цих завдань вражаючих результатів. Як би там не було, включення таких пошукачів у власний арсенал засобів інтернет-пошуку може помітно підвищити його якість. Тут, щоправда, існує один нюанс: треба знати про такі машини та вміти користуватися їхніми можливостями.

    Припускаємо, що читачі цієї книги вже досить добре знайомі з технікою пошуку за допомогою універсальних пошукових систем. Добре настільки, що відчули обмеження, пов'язані з їх застосуванням. Швидше за все, такі люди вже намагалися шукати та застосовувати ті чи інші додаткові інструменти. Друковане слово не оминає тему інтернет-пошуку: і статті періодично з'являються, і книги виходять. Ось тільки герої у них, як правило, одні й ті самі – кілька провідних універсальних пошукових систем. Наша книга відрізняється тим, що робиться спроба охопити весь спектр сучасних пошукових рішень. Тут ви знайдете описи та рекомендації щодо використання кращих сучасних сервісів, орієнтованих рішення найбільш поширених пошукових завдань. Ця книга для людей, які багато працюють в інтернеті і використовують Мережу для пошуку потрібної інформації – будь то бізнес, навчання або хобі.

    Для того щоб інтернет-пошук був успішним, мають бути виконані дві умови: запити мають бути добре сформульовані та задавати їх потрібно у відповідних місцях. Іншими словами, від користувача вимагається, з одного боку, вміння перекладати свої пошукові інтереси на мову пошукового запиту, а з іншого – гарне знання пошукових систем, доступних інструментів пошуку, їх переваг та недоліків, що дозволить вибирати в кожному конкретному випадку найбільш підходящі засоби пошуку. .

    В даний час не існує жодного ресурсу, що задовольняє всім вимогам до інтернет-пошуку. Тому при серйозному підході до пошуку неминуче доводиться задіяти різні інструменти, використовуючи кожен у найкращому разі.

    Доступних засобів пошуку є чимало. Їх можна об'єднати в кілька груп, кожна з яких має певні переваги та недоліки. Розділи нашої книги присвячені основним групам сучасних пошукових інтернет-систем.

    Глава 1, «Універсальні інтернет-пошуковики», присвячена великим універсальним системам пошуку інформації в Мережі. Основний акцент робиться на їх найбільш сучасних інструментах, які зазвичай випадають із поля зору широкої публіки. Огляд можливостей відомих машин дає нам своєрідну точку відліку та дозволяє чітко уявити сферу застосування альтернативних пошукових рішень.

    Глава 2, «Вертикальний пошук», розповідає про системи, що спеціалізуються на певних тематичних галузях або певних видах контенту.

    У розділі 3, «Метапошук», розглянуті метапошукові системи, здатні відправити запит одночасно на кілька інтернет-пошуковиків, а потім зібрати та опрацювати отримані результати в єдиному інтерфейсі.

    Глава 4, «Семантичні та візуальні інтернет-пошуковики», є огляд експериментальних систем, що пропонують оригінальні інтерфейси користувача, а також цікаві підходи до обробки запитів.

    У розділі 5, «Рекомендувальні машини», розповідається про недавно з'явилися пошукових сервісах, по-англійськи влучно названих Discovery Engines, тобто машини відкриттів. З їхньою допомогою можна обробляти низку запитів, які «не по зубах» іншим видам інтернет-пошуковиків.

    Якщо вам не підходить жоден готовий продукт, ви можете створити власний пошуковий інтернет. Створенню таких персональних машин присвячено розділ 6, «Персональні пошуковики».

    Декілька розділів нашої книги присвячені пошуку різних видівмережного контенту. У розділі 7 «Пошук зображень» розповідається про сучасні тенденції інтернет-пошуку зображень, а також про можливості відповідних експериментальних систем. Глава 8, «Пошук відео», пропонує огляд засобів відеопошуку провідних універсальних інтернет-пошуковиків, а також найкращих спеціалізованих систем цього напряму.

    Глава 9, "Пошук "прихованого" контенту", є оглядом систем, що дозволяють вести пошук контенту, який "не бачать" універсальні пошукові системи. До такого «прихованого» контенту відносяться, наприклад, торенти або файли, розміщені на FTP-серверах та файлових хостингах.

    Глава 10, "Пошук для Web 3.0", розповідає про засоби інтернет-пошуку даних у форматах "семантичного вебу".

    Пошук не закінчується простим отриманням результатів з тієї чи іншої пошукової системи. Інструментам обробки та збереження результатів присвячено останній розділ нашої книги – розділ 11, «Програми-помічники».

    Перш ніж починати розповідь про конкретні продукти, є сенс розібратися з класифікацією сучасних засобівінтернет-пошуку, а також визначитися з термінами, що постійно зустрічаються на сторінках нашої книги.

    Основні засоби інтернет-пошуку можна поділити на такі основні групи:

    Пошукові машини;

    Веб-каталоги;

    Довідкові ресурси;

    Локальні програми для пошуку в Інтернеті.

    Найбільш популярним засобом пошуку є пошукові машини - так звані інтернет-пошуковики (Search Engines). Трійка лідерів у загальносвітовому масштабі є досить стабільною – це Google, Yahoo! та Bing. У багатьох країнах до цього переліку додаються власні локальні пошукові системи, оптимізовані для роботи з місцевим контентом. З їхньою допомогою теоретично можна знайти будь-яке конкретне слово на сторінках багатьох мільйонів сайтів.

    Незважаючи на багато відмінностей, всі інтернет-пошуковики працюють за схожими принципами і з технічного погляду складаються зі схожих підсистем.

    Перша структурна частина пошукової системи – спеціальні програми, що застосовуються для автоматичного пошуку та подальшого індексування веб-сторінок. Такі програми зазвичай називають павуками або ботами. Вони переглядають код веб-сторінок, знаходять розміщені ними посилання і цим виявляють нові веб-сторінки. Є й альтернативний спосіб включення сайту до індексу. Багато пошукових систем пропонують власникам ресурсів можливість самостійно додати сайт до своєї бази. Як би там не було, потім веб-сторінки завантажуються, аналізуються та індексуються. У них виділяються структурні елементи, знаходяться ключові слова, визначаються їх зв'язки з рештою сайтів та веб-сторінок. Виробляються інші операції, результатом виконання яких стає формування індексної бази пошуковика. Ця база – другий головний елемент будь-якої пошукової системи. Зараз не існує якоїсь абсолютно повної індексної бази, яка містила б відомості про весь контент інтернету. Оскільки різні пошукові системи використовують різні програми пошуку веб-сторінок і будують свій індекс за допомогою різних алгоритмів, індексні бази пошукових систем можуть істотно відрізнятися. Деякі сайти виявляються проіндексованими декількома пошуковими системами, проте завжди залишається певний відсоток ресурсів, включених до бази лише одного пошуковика. Наявність у кожного пошуковика такої оригінальної частини індексу, що не перетинається, дозволяє зробити важливий практичний висновок: якщо ви користуєтеся тільки одним пошуковцем, нехай навіть найбільшим, ви обов'язково втратите деякий відсоток корисних посилань.

    Для професійного пошуку в Інтернеті необхідні спеціалізований софт, а також спеціалізовані пошукові системи та пошукові сервіси.

    ПРОГРАМИ

    http://dr-watson.wix.com/home – програма призначена для дослідження масивів текстової інформації з метою виявлення сутностей та зв'язків між ними. Результат роботи – звіт про об'єкт, що досліджується.

    http://www.fmsasg.com/ - одна з найкращих у світі програм з візуалізації зв'язків та відносин Sentinel Vizualizer. Компанія повністю русифікувала свої продукти та підключила гарячу лінію російською.

    http://www.newprosoft.com/ - "Web Content Extractor" є найбільш потужним, простим у використанні ПЗ вилучення даних з web сайтів. Має також ефективний Visual Web павук.

    SiteSputnik не має у світі аналогів програмний комплекс, що дозволяє вести пошук та обробку його результатів у Бачному та Невидимому Інтернеті, використовуючи всі необхідні користувачеві пошукові системи.

    WebSite-Watcher – дозволяє проводити моніторинг веб-сторінок, включаючи захищені паролем, моніторинг форумів, RSS-каналів, груп новин, локальних файлів. Має потужною системоюфільтрів. Моніторинг ведеться автоматично та поставляється у зручному для користувача вигляді. Програма із розширеними функціями коштує 50 євро. Постійно оновлюється.

    http://www.scribd.com/ - Найбільш популярна в світі і все більш широко застосовується в Росії платформа розміщення різноманітних документів, книг і т.п. для вільного доступу з дуже зручним пошуковцем за назвами, темами тощо.

    http://www.atlasti.com/ – являє собою найпотужніший і найефективніший з доступних для індивідуальних користувачів, невеликого і навіть середнього бізнесу інструмент якісного аналізу інформації. Програма багатофункціональна і тому корисна. Поєднує в собі можливості створення єдиного інформаційного середовища для роботи з різними текстовими, табличними, аудіо та відеофайлами як єдиним цілим, а також інструменти якісного аналізу та візуалізації.

    Ashampoo ClipFinder HD – все більша частка інформаційного потоку посідає відео. Відповідно конкурентним розвідникам потрібні інструменти, що дозволяють працювати з цим форматом. Одним з таких продуктів є безкоштовна утиліта. Вона дозволяє шукати ролики за заданими критеріями на відеофайлових сховищах типу YouTube. Програма проста у використанні, виводить на одну сторінку всі результати пошуку з детальною інформацією, назвами, тривалістю, часом, коли відео було завантажене в сховище тощо. Є російська інтерфейс.

    http://www.advego.ru/plagiatus/ - програма зроблена seo оптимізаторами, але цілком підходить як інструмент інтернет-розвідки. Плагіатус показує рівень унікальності тексту, джерела тексту, відсоток збігу тексту. Також програма перевіряє унікальність зазначеної URL-адреси. Програма безкоштовна.

    http://neiron.ru/toolbar/ - включає надбудову для об'єднання пошуку Googleта Yandex, а також дозволяє здійснювати конкурентний аналіз, що базується на оцінці ефективності сайтів та контекстної реклами. Реалізований як плагін для FF та GC.

    http://web-data-extractor.net/ – універсальне рішення для отримання будь-яких даних, доступних в Інтернеті. Налаштування вирізування даних з будь-якої сторінки здійснюється в кілька кліків миші. Вам потрібно просто вибрати область даних, яку ви хочете зберігати та Datacol сам підбере формулу для вирізання цього блоку.

    CaptureSaver - Професійний інструмент дослідження інтернету. Просто незамінна робоча програма, що дозволяє захоплювати, зберігати та експортувати будь-яку інтернет інформацію, включаючи не тільки web сторінки, блоги, але і RSS новини, електронну пошту, зображення та багато іншого. Має найширший функціонал, інтуїтивно зрозумілий інтерфейс і смішну ціну.

    http://www.orbiscope.net/en/software.html – система веб моніторингу за більш ніж доступними цінами.

    http://www.kbcrawl.co.uk/ – програмне забезпеченнядля роботи, у тому числі у «Невидимому інтернеті».

    http://www.copernic.com/en/products/agent/index.html - програма дозволяє вести пошук, використовуючи більше 90 пошукових систем, більш ніж за 10 параметрами. Дозволяє поєднувати результати, усувати дублікати, блокувати неробочі посилання, показувати найбільш релевантні результати. Постачається у безкоштовній, особистій та професійній версіях. Використовується більш ніж 20 млн. користувачів.

    Maltego – принципово нове програмне забезпечення, що дозволяє встановлювати взаємозв'язок суб'єктів, подій та об'єктів у реалі та в інтернеті.

    СЕРВІСИ

    new – web браузерз десятками встановлених інструментів для OSINT.

    – ефективний пошуковик-агрегатор для пошуку людей в основних російських соціальних мережах.

    https://hunter.io/ – ефективний сервіс для виявлення та перевірки email.

    https://www.whatruns.com/ – простий у використанні, але ефективний сканер, що дозволяє виявити, що працює і не працює на веб-сайті та які дірки у безпеці. Реалізовано також як плагін до Chrom.

    https://www.crayon.co/ – американська бюджетна платформа ринкової та конкурентної розвідки в інтернеті.

    http://www.cs.cornell.edu/~bwong/octant/ – визначник хостів.

    https://iplogger.ru/ – простий та зручний сервіс для визначення чужого IP.

    http://linkurio.us/ – новий потужний продукт для працівників економічної безпеки та розслідувачів корупції. Обробляє та візуалізує величезні масиви неструктурованої інформації з фінансових джерел.

    http://www.intelsuite.com/en - англомовна онлайн платформа для конкурентної розвідки та моніторингу.

    http://yewno.com/about/ – перша діюча система перекладу інформації у знання та візуалізації неструктурованої інформації. В даний час підтримує англійську, французьку, німецьку, іспанську та португальську мови.

    https://start.avalancheonline.ru/landing/?next=%2F - прогнозно-аналітичні сервіси Андрія Масаловича.

    https://www.outwit.com/products/hub/ – повний набір автономних програм для професійної роботи на web 1.

    https://github.com/search?q=user%3Acmlh+maltego – розширення для Maltego.

    http://www.whoishostingthis.com/ - пошуковик з хостингу, IP адрес і т.п.

    http://appfollow.ru/ - аналіз програм на основі відгуків, ASO оптимізації, позицій у топах і пошукових видачах для App Store, Google Play та Windows Phone Store.

    http://spiraldb.com/ – сервіс, реалізований як плагін до Chrom, що дозволяє отримати безліч цінної інформації про будь-який електронний ресурс.

    https://millie.northernlight.com/dashboard.php?id=93 - безкоштовний сервіс, що збирає та структурує ключову інформацію щодо галузей та компаній. Є можливість використання інформаційних панелей, заснованих на текстовому аналізі.

    http://byratino.info/ – збирання фактографічних даних із загальнодоступних джерел у мережі Інтернет.

    http://www.datafox.co/ – CI платформа збирає та аналізує інформацію по компаніях, що цікавлять клієнтів. Є демо.

    https://unwiredlabs.com/home - спеціалізований додаток з API для пошуку геолокації будь-якого пристрою, підключеного до інтернету.

    http://visualping.io/ – сервіс моніторингу сайтів і в першу чергу фотографій та зображень, що є на них. Навіть якщо фотографія з'явилася на секунду, вона буде в електронній поштіпередплатника. Має плагін для G oogleC hrome.

    http://spyonweb.com/ – дослідницький інструмент, що дозволяє здійснити глибокий аналіз будь-якого інтернет-ресурсу.

    http://bigvisor.ru/ – сервіс дозволяє відстежувати рекламні компанії за певними сегментами товарів та послуг, або конкретним організаціям.

    http://www.itsec.pro/2013/09/microsoft-word.html – інструкція Артема Агєєва щодо використання програм Windowsпотреб конкурентної розвідки.

    http://granoproject.org/ – інструмент із відкритим вихідним кодомдля дослідників, які відстежують мережі зв'язків між персонами та організаціями у політиці, економіці, криміналі тощо. Дозволяє поєднувати, аналізувати та візуалізувати відомості, отримані з різних джерел, а також показувати суттєві зв'язки.

    http://imgops.com/ – сервіс вилучення метаданих з графічних файлівта роботи з ними.

    http://sergeybelove.ru/tools/one-button-scan/ - маленький он-лайн сканер для перевірки дірок безпеки сайтів та інших ресурсів.

    http://isce-library.net/epi.aspx – сервіс пошуку першоджерел за фрагментом тексту англійською мовою

    https://www.rivaliq.com/ – ефективний інструмент для ведення конкурентної розвідки на західних, насамперед, європейських та американських ринках товарів та послуг.

    http://watchthatpage.com/ - сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

    http://falcon.io/ – свого роду Rapportive для Web. Він не є заміною Rapportive, а дає додаткові інструменти. На відміну від Rapportive дає загальний профіль людини, як би склеєний із даних із соціальних мереж та згадок у web.http://watchthatpage.com/ – сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

    https://addons.mozilla.org/ua/firefox/addon/update-scanner/ – додаток для Firefox. Слідкує за оновленнями веб-сторінок. Корисно для веб-сайтів, які не мають стрічок новин (Atom чи RSS).

    http://agregator.pro/ - агрегатор новинних та медійних порталів. Використовується маркетологами, аналітиками тощо. для аналізу новинних потоків на ті чи інші теми.

    http://price.apishops.com/ – автоматизований веб-сервіс моніторингу цін за вибраними товарними групами, конкретними інтернет-магазинами та іншими параметрами.

    http://www.la0.ru/ – зручний та релевантний сервіс аналізу посилань та беклінків на інтернет-ресурс.

    www.recordedfuture.com – потужний інструмент аналізу даних та їх візуалізації, реалізований як он-лайн сервіс, побудований на «хмарних» обчисленнях.

    http://advse.ru/ – сервіс під слоганом «Дізнайся все про своїх конкурентів». Дозволяє відповідно до пошукових запитів отримати сайти конкурентів, аналізувати рекламні компанії конкурентів у Google та Yandex.

    http://spyonweb.com/ – сервіс дозволяє визначити сайти з однаковими характеристиками, у тому числі такими, що використовують однакові ідентифікатори сервісу статистики Google Analytics, IP адреси тощо.

    http://www.connotate.com/solutions – лінійка продуктів для конкурентної розвідки, управління інформаційними потоками та перетворення відомостей в інформаційні активи. Включає як складні платформи, і прості дешеві сервіси, дозволяють ефективно вести моніторинг разом із компресією інформації та отриманням лише потрібних результатів.

    http://www.clearci.com/ - платформа конкурентної розвідки для бізнесу різних розмірів від стартапів і маленьких компаній до компаній зі списку Fortune 500. Вирішено як saas.

    http://startingpage.com/ – надбудова на Google, що дозволяє вести пошук у Google без фіксації вашої IP-адреси. Цілком підтримує всі пошукові можливості Google, у тому числі й російською мовою.

    http://newspapermap.com/ – унікальний сервіс, дуже корисний для конкурентного розвідника. Поєднує геолокацію з пошуковцем он-лайн медіа. Тобто. ви вибираєте регіон, що вас цікавить, або навіть місто, або мову, на карті бачите місце і список он-лайн версій газет і журналів, натискаєте на відповідну кнопку і читаєте. Підтримує російську мову, дуже зручний інтерфейс.

    http://infostream.com.ua/ – дуже зручна система моніторингу новин «Інфострім» від одного з класиків інтернет-пошуку Д.В.Ланде, що відрізняється першокласною вибіркою, цілком доступна для будь-якого гаманця.

    http://www.instapaper.com/ – дуже простий та ефективний інструмент для збереження необхідних веб-сторінок. Може використовуватись на комп'ютерах, айфонах, айпадах та ін.

    http://screen-scraper.com/ – дозволяє автоматично витягувати всю інформацію з веб-сторінок, завантажувати переважну більшість форматів файлів, автоматично вводити дані у різні форми. Завантажені файли та сторінки зберігає в базах даних, виконує безліч інших надзвичайно корисних функцій. Працює під усіма основними платформами, має повнофункціональну безкоштовну та дуже потужні професійні версії.

    http://www.mozenda.com/- має кілька тарифних планівта доступний навіть для малого бізнесу веб сервіс багатофункціонального веб моніторингу та доставки з обраних сайтів необхідної користувачеві інформації.

    http://www.recipdonor.com/ - сервіс дозволяє здійснювати автоматичний моніторинг всього, що відбувається на сайтах конкурентів.

    http://www.spyfu.com/ - а це, якщо у вас конкуренти іноземні.

    www.webground.su – створений професіоналами Інтернет-пошуку сервіс для моніторингу Рунету, що включає всіх основних постачальників інформації, новин і т.п. індивідуальним налаштуванняммоніторингу під потреби користувача.

    ПОШУКНИКИ

    https://www.idmarch.org/ – найкращий за якістю видачі пошуковик світового архіву pdf документів. Наразі проіндексовано понад 18 млн. pdf документів, починаючи від книг до секретних звітів.

    http://www.marketvisual.com/ – унікальна пошукова система, що дозволяє вести пошук власників та топ-менеджменту з ПІБ, найменування компанії, займаної позиції або їх комбінації. У пошуковій видачі містяться не тільки об'єкти, що шукаються, але і їх зв'язки. Розрахована насамперед на англомовні країни.

    http://worldc.am/ – пошуковик за фотографіями у вільному доступі з прив'язкою до геолокації.

    https://app.echosec.net/ – загальнодоступна пошукова система, яка характеризує себе як найпросунутіший аналітичний інструмент для правоохоронних органів та професіоналів безпеки та розвідки. Дозволяє вести пошук фотографій, розміщених на різних сайтах, соціальних платформах та соціальних мережах у прив'язці до конкретних геолокаційних координат. Наразі підключено сім джерел даних. До кінця року їхня кількість становитиме понад 450. За наведення спасибі Дементію.

    http://www.quandl.com/ – пошуковик по семи мільйонах фінансових, економічних та соціальних баз даних.

    http://bitzakaz.ru/ – пошукач за тендерами та держзамовленнями з додатковими платними функціями

    Website-Finder – дозволяє знайти сайти, які погано індексує Google. Єдиним обмеженням є те, що для кожного ключового слова він шукає лише 30 веб-сайтів. Програма проста у використанні.

    http://www.dtsearch.com/ – найпотужніша пошукова система, що дозволяє обробляти терабайти тексту. Працює на робочому столі, в інтернеті та в інтранеті. Підтримує як статичні, і динамічні дані. Дозволяє шукати у всіх програмах MS Office. Пошук ведеться за фразами, словами, тегами, індексами та багато іншого. Єдина доступна системафедеративного пошуку. Має як платну, так і безкоштовну версію.

    http://www.strategator.com/ – здійснює пошук, фільтрацію та агрегацію інформації про компанію з десятка тисяч веб-джерел. Шукає по США, Великій Британії, основним країнам ЄЕС. Відрізняється високою релевантністю, зручністю для користувача, має безкоштовні та платний варіант (14 $ на місяць).

    http://www.shodanhq.com/ – незвичайна пошукова система. Одразу після появи отримав прізвисько Гугл для хакерів. Шукає не сторінки, а визначає IP адреси, типи роутерів, комп'ютерів, серверів та робочих станцій, розміщених за тією чи іншою адресою, простежує ланцюжки DNS серверівта дозволяє реалізувати багато інших цікавих функцій для конкурентної розвідки.

    http://search.usa.gov/ – пошуковик по сайтам та відкритим базам усіх державних установ США. У базах є багато практичної корисної інформації, зокрема й у нашій країні.

    http://visual.ly/ – сьогодні дедалі ширше для представлення даних використовується візуалізація. Це перший пошуковик інфографіки в Інтернеті. Одночасно з пошуковою системою на порталі є потужні інструменти візуалізації даних, що не потребують навичок програмування.

    http://go.mail.ru/realtime - пошук по обговоренням тем, подій, об'єктів, суб'єктів в режимі реального, або настроюваного часу. Раніше вкрай критикований пошук Mail.ru працює дуже ефективно і дає цікаву релевантну видачу.

    Zanran - щойно стартував, але вже добре працює перший і єдиний пошуковик для даних, що витягує їх з файлів PDF, таблиць EXCEL, даних на сторінках HTML

    http://www.ciradar.com/Competitive-Analysis.aspx – одна з найкращих у світі систем пошуку інформації для конкурентної розвідки у «глибокому вебі». Витягує практично всі види файлів у всіх форматах по темі, що цікавить. Реалізовано як веб-сервіс. Ціни більш ніж прийнятні.

    http://public.ru/ - Ефективний пошукта професійний аналіз інформації, архів ЗМІ з 1990 року. Інтернет-бібліотека ЗМІ пропонує широкий спектр інформаційних послуг: від доступу до електронних архівів публікацій російськомовних ЗМІ та готових тематичних оглядів преси до індивідуального моніторингу та ексклюзивних аналітичних досліджень, виконаних за матеріалами друку.

    Cluuz – молода пошукова система з широкими можливостями для конкурентної розвідки, особливо в англомовному інтернеті. Дозволяє не лише знаходити, а й візуалізувати, встановлювати зв'язки між людьми, компаніями, доменами, електронною поштою, адресами тощо.

    www.wolframalpha.com - пошуковик завтрашнього дня. На пошуковий запит видає наявну за об'єктом запиту статистичну та фактологічну інформацію, у тому числі візуалізовану.

    www.ist-budget.ru – універсальний пошук за базами даних держзакупівель, торгів, аукціонів тощо.




Top