Упатство од Семсул за тоа како да ги избришете најпознатите веб-страници од Википедија

Динамичките веб-страници користат датотеки robots.txt за регулирање и контрола на какви било активности за стружење. Овие страници се заштитени со веб-страници за стружење и заштита за да ги спречат блогерите и пазарот да ги пребаруваат своите страници. За почетниците, веб-стружењето е процес на прибирање податоци од веб-страници и веб-страници и зачувување, потоа зачувување во формати што може да се читаат.

Преземањето корисни податоци од динамични веб-страници може да биде тешка задача. За да се поедностави процесот на екстракција на податоци, веб-администратори користат роботи за да ги добијат потребните информации што е можно побрзо. Динамичките страници се состојат од директиви „дозволи“ и „не дозволува“ кои им кажуваат на роботите каде е дозволено стружење, а каде не.

Откривање на најпознатите страници од Википедија

Овој туторијал опфаќа студија на случај што ја спроведе Брендан Бејли на страници за стружење од Интернет. Брендан започна со собирање список на најмоќни страници од Википедија. Примарната цел на Брендан беше да се идентификуваат веб-страниците отворени за екстракција на веб податоци врз основа на правилата robot.txt. Ако сакате да направите веб-страница, размислете за посета на условите за користење на веб-страницата за да избегнете повреда на авторските права.

Правила за стружење на динамички страници

Со алатки за екстракција на веб податоци, стружењето на страниците е само прашање на клик. Деталната анализа за тоа како Брендан Бејли ги класифицирал страниците на Википедија и критериумите што ги користел се опишани подолу:

Мешан

Според студијата на случајот на Брендан, најпопуларните веб-страници можат да се групираат како Mixed. На табелата за пита, веб-страниците со мешавина од правила претставуваат 69%. Роботите на Google.txt се одличен пример за мешани роботи.txt.

Целосно дозволи

Целосно дозволи, од друга страна, означува 8%. Во овој контекст, Комплетен Дозволи значи дека датотеката со датотеки robots.txt дава автоматски програми за пристап до запис на целата страница. SoundCloud е најдобриот пример за земање. Други примери на веб-страници со комплетен допуштат вклучуваат:

  • fc2.comv
  • popads.net
  • uol.com.бр
  • livejasmin.com
  • 360.cn

Не е поставено

Веб-страниците со „Не е поставено“ учествуваа со 11% од вкупниот број прикажани на табелата. Не Поставете ги вклучува следниве две работи: или на страниците им недостасува датотека robots.txt или на страниците им недостасуваат правила за „Кориснички агент“. Примери на веб-страници каде датотеката robots.txt е „Не поставена“ вклучуваат:

  • Во живо.com
  • Jd.com
  • Cnzz.com

Целосно Не дозволувај

Целосните страници за забрана на забрането автоматски програми да ги уништат нивните страници. Поврзано Ин е одличен пример за веб-страниците со целосна забрана. Другите примери на веб-страници со целосна забрането вклучуваат:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • Т.ко

Вештачењето на веб-страниците е најдобро решение за вадење податоци. Како и да е, струпирањето на некои динамични веб-страници може да ве снајде во голема неволја. Овој туторијал ќе ви помогне да разберете повеќе за датотеката robots.txt и да спречите проблеми што можат да се појават во иднина.