Глибинна мережа — Вікіпедія

Глибинна мережа (з англ. deep web[1]), невидима мережа (invisible web[2]) чи прихована мережа (hidden web[3]) – це частка всесвітньої мережі інтернет, вміст якої за жодних обставин не індексують стандартні пошукові онлайн-системи. Глибинна мережа є протилежним явищем до поверхневої мережі.

Серед поширених застосувань глибинної мережі є такі, як онлайн-листування, інтернет-банкінг, а також платні послуги на кшталт відео на вимогу, доступ до яких здійснюється через так звану платну стіну (paywall), та багато іншого.

Інформатик Майк Бергман започаткував цей термін у 2000 році як термін пошукового індексування.

Термінологія[ред. | ред. код]

Перше змішування термінів «глибинна мережа» та «темна мережа» відбулось близько 2009 року, коли термінологію глибинного мережевого пошуку обговорювали разом із нелегальною діяльністю у Freenet даркнеті[4].

Відтоді багато людей та медіа-майданчиків почали вживати термін «глибинна мережа» як синонім до «темної мережі» чи даркнету, проте порівняння цих термінів є джерелом постійної плутанини[5]. Репортери новинного ресурсу Wired Кім Зеттер[6] та Енді Грінберг[7] рекомендують чітко розрізняти ці терміни у вживанні.

Розмір[ред. | ред. код]

У 2000 році Майкл К. Бергман сказав, що пошук в інтернеті можна порівняти з закиданням сітки на поверхню океану: багато чого може в неї потрапити, проте існує безліч інформації на глибині, яка до цієї «сітки» не потрапить[8]. Більшість інформації похована глибоко в нетрях вебсайтів і стандартні пошукові системи не знаходять її. Традиційні пошукові системи не можуть бачити чи витягувати вміст глибинної мережі. Та частка даних, що ними індексується, відома під назвою поверхнева мережа. Станом на 2001 рік об'єм глибинної мережі сягав розмірів, на кілька порядків більших за поверхневу мережу[9]. Аналогія, до якої вдався Денис Шестаков, позначає відмінність між поверхневою та глибинною мережею:

Неможливо виміряти та грубо дати оцінку об'ємові глибинної мережі, оскільки більшість інформації є прихованою чи замкненою в бази даних. Згідно перших оцінок, глибинна мережа є у 400-550 разів більшою за поверхневу. Однак, оскільки з часом постійно додають нову інформацію та вебсторінки, можна вважати, що глибинна мережа росте експоненційно зі швидкістю, яку не можливо оцінити.


Обчислення, базовані на екстраполяції з дослідження, проведеного в Університеті Каліфорнії (Берклі) у 2001 році[9], припускають, що об'єм усієї глибинної мережі сягає близько 7,5 петабайтів. Більш точні оцінки є для певної кількості ресурсів: дослідження He et al. у 2004 році зафіксували близько 300.000 вебсторінок глибинної мережі[10].

Різновиди вмісту[ред. | ред. код]

Методи запобігання індексування вебсторінок можна розбити на такі категорії:

  1. Контекстна мережа: сторінки із вмістом, що змінюється в залежності від різних контекстів доступу (наприклад, діапазони клієнтських IP-адрес або послідовність попередньої навігації).
  2. Динамічний контент: динамічні вебсторінки, які створюються як результат надісланого запиту, чи доступні виключно через форму, особливо якщо для цього застосовують необмежені елементи вводу на кшталт текстових полів; такими полями важко керуватись без відповідних галузевих знань.
  3. Вміст з обмеженим доступом: сайти, що обмежують доступ до своїх сторінок технічними засобами (наприклад, використовуючи інструмент CAPTCHA чи директиви незбереження, які забороняють пошуковим системам перегляд або створення кешованих копій)[11].
  4. Не-HTML/текстовий вміст: текстовий вміст, зашитий у мультимедіа (зображення чи відео) файли або специфічні файлові формати, не опрацьовується пошуковими системами.
  5. Приватна мережа: вебсторінки, що для доступу вимагають реєстрацію та вхід у систему (ресурси, захищені паролем).
  6. Скриптований контент: вебсторінки, які є доступними лише за посиланнями, згенерованими на Javascript, а також вміст, що динамічно звантажується з вебсерверів через засоби Flash або AJAX.
  7. Програмне забезпечення: певний вміст є навмисне прихованим від звичайного інтернету, доступний лише через таке спеціальне програмне забезпечення, як Tor, I2P та інші програми даркнету. Наприклад, Tor дозволяє користувачам анонімно доступатись до вебсторінок через адресний суфікс .onion, приховуючи їхні IP-адреси.
  8. Незв'язаний вміст: вебсторінки, які не є зв'язаними між собою, що може перешкодити пошуковим роботам доступ до їх вмісту. Такий вміст також називають сторінками без зворотніх посилань. Пошукові системи не завжди фіксують усі зворотні посилання на цільових вебсторінках.
  9. Мережеві архіви: Такі сервіси мережевого архівування, як Wayback Machine, дають можливість користувачам переглядати архівовані версії вебсторінок за минулий час, в тому числі і таких, які стали недоступними, і, відповідно, не індексуються пошуковими системами на кшталт Google[12].

Методики індексування[ред. | ред. код]

Попри те, що натрапити на вміст певних вебсерверів для його індексування не завжди можливо, сама вебсторінка може потенційно бути доступною напряму внаслідок уразливості комп'ютера.

Для того, щоб відкривати вміст у мережі, пошукові системи використовують пошукових плазунів, які відвідують вебпосилання крізь відомі віртуальні порти протоколу. Ця техніка є досконалою для відкриття вмісту у поверхневій мережі, проте часто є недієвою у знаходженні вмісту мережі глибинної. Наприклад, ці плазуни не намагаються знайти динамічні вебсторінки, які є результатом запитів до бази даних, оскільки кількість можливих запитів є невизначеною[13]. Зауважили, що цю перешкоду можна частково обійти шляхом надання посилань до результатів запитів, проте наслідком може бути ненавмисне роздування популярності для члена глибинної мережі.

Див. також[ред. | ред. код]

Посилання[ред. | ред. код]

  1. Hamilton, Nigel. The Mechanics of a Deep Net Metasearch Engine. CiteSeerX: 10.1.1.90.5847. 
  2. Devine, Jane; Egger-Sider, Francine (July 2004). Beyond google: the invisible web in the academic library. The Journal of Academic Librarianship. 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010. Процитовано 6 лютого 2014. 
  3. Raghavan, Sriram; Garcia-Molina, Hector (11–14 September 2001). Crawling the Hidden Web. 27th International Conference on Very Large Data Bases (Rome, Italy). Архів оригіналу за 17 серпня 2019. Процитовано 30 червня 2016. 
  4. Beckett, Andy (26 листопада 2009). The dark side of the internet. Архів оригіналу за 1 червня 2014. Процитовано 9 серпня 2015. 
  5. Solomon, Jane (6 травня 2015). The Deep Web vs. The Dark Web. Архів оригіналу за 14 серпня 2017. Процитовано 26 травня 2015. 
  6. NPR Staff (25 травня 2014). Going Dark: The Internet Behind The Internet. Архів оригіналу за 27 травня 2015. Процитовано 29 травня 2015. 
  7. Greenberg, Andy (19 листопада 2014). Hacker Lexicon: What Is the Dark Web?. Архів оригіналу за 7 червня 2015. Процитовано 6 червня 2015. 
  8. Bergman, Michael K (July 2000). The Deep Web: Surfacing Hidden Value. BrightPlanet LLC. Архів оригіналу за 2 листопада 2013. Процитовано 30 червня 2016. 
  9. а б Bergman, Michael K (August 2001). The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104. Архів оригіналу за 28 грудня 2019. Процитовано 30 червня 2016. 
  10. He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (May 2007). Accessing the Deep Web: A Survey. Communications of the ACM. 50 (2): 94–101. doi:10.1145/1230819.1241670. Архів оригіналу за 29 травня 2020. Процитовано 30 червня 2016. 
  11. Hypertext Transfer Protocol (HTTP/1.1): Caching. Internet Engineering Task Force. 2014. Архів оригіналу за 13 травня 2017. Процитовано 30 липня 2014. 
  12. Wiener-Bronner, Danielle (10 червня 2015). NASA is indexing the ‘Deep Web’ to show mankind what Google won’t. Fusion. Архів оригіналу за 30 червня 2015. Процитовано 27 червня 2015. «There are other simpler versions of Memex already available. “If you’ve ever used the Internet Archive‘s Wayback Machine,” which gives you past versions of a website not accessible through Google, then you’ve technically searched the Deep Web, said Chris Mattmann 
  13. Wright, Alex (22 лютого 2009). Exploring a 'Deep Web' That Google Can’t Grasp. The New York Times. Архів оригіналу за 20 травня 2017. Процитовано 23 лютого 2009.