wmmail.ru – cервис почтовых рассылок на главную
написать письмо
карта сайта

С чего начать?РекламодательПравилаFAQСтатистикаБиржа статейTOP100ФоткиКонтакты
Логин:
Пароль: 
Регистрация   Забыли пароль?
WMLogin
Пользователей всего:

542638

Пользователей сегодня:

37

Пользователей online:

184

Выплачено ($): 7`602`733,92
Выплат: 8`111`953
Писем прочитано: 1`024`933`417

 
 
Online 0
Все ответы
 
 

Вопрос #27891

Внимание! В разделе вопрос-ответ запрещается:

  • Мат, оскорбления, флуд, реклама
  • Сообщения, не являющиеся вопросами/ответами
  • Нарушение законодательства РФ
  • Попрошайничество в любой форме

Выделите текст и нажмите для цитирования  #  
+6   [14.03.2011 23:27] Santaz Рейтинг 1135.32     Стена пользователя Santaz +252

Закрытый вопрос от пользователя Santaz Поисковые пауки (роботы, краулеры) много ли их?

Взял самые популярные которые посещают мои сайты.
Выкладывайте своих ;)
===========================
Вот мой список агент-ботов:

abcdatos=ABCdatos BotLink
acme.spider=Acme.Spider
ahoythehomepagefinder=Ahoy! The Homepage Finder
alkaline=Alkaline
anthill=Anthill
antibot=Antibot
aport=Aport
aport=Aport Bot
appie=Walhello appie
arachnophilia=Arachnophilia
arale=Arale
araneo=Araneo
architext=ArchitextSpider
archive_org=Archive.org Bot
aretha=Aretha
ariadne=ARIADNE
arks=arks
Ask Jeeves=Ask Jeeves Bot
ask jeeves=Ask Jeeves Bot
aspider=ASpider (Associative Spider)
atn.txt=ATN Worldwide
atomz=Atomz.com Search Robot
auresys=AURESYS
awbot=AWBot
backrub=BackRub
baiduspider=BaiDuSpider
bbot=BBot
BecomeBot=Become Bot
bigbrother=Big Brother
bjaaland=Bjaaland
blackwidow=BlackWidow
blindekuh=Die Blinde Kuh
bloodhound=Bloodhound
bobby=Bobby
booch=Booch Bot
borg-bot=Borg-Bot
boris=Boris
brightnet=bright.net caching robot
bspider=BSpider
bumblebee=Bumblebee (relevare.com)
cactvschemistryspider=CACTVS Chemistry Spider
calif=Calif
cassandra=Cassandra
cgireader=Digimarc Marcspider/CGI
checkbot=Checkbot
christcrawler=ChristCrawler.com
churl=churl
cienciaficcion=cIeNcIaFiCcIoN.nEt
collective=Collective
combine=Combine System
conceptbot=Conceptbot
coolbot=CoolBot
core=Web Core / Roots
cosmos=XYLEME Robot
cruiser=Internet Cruiser Robot
cscrawler=CsCrawler
cusco=Cusco
cyberspyder=CyberSpyder Link Test
daviesbot=DaviesBot
desertrealm=Desert Realm Spider
deweb=DeWeb© Katalog/Index
dienstspider=DienstSpider
digger=Digger
digout4u=Digout4u
diibot=Digital Integrity Robot
direct_hit=Direct Hit Grabber
dnabot=DNAbot
download_express=DownLoad Express
dragonbot=DragonBot
dwcp=DWCP (Dridus' Web Cataloging Project)
ebiness=EbiNess
echo=EchO!
e-collector=e-collector
elfinbot=ELFINBOT
emacs=Emacs-w3 Search Engine
emcspider=ananzi
esther=Esther
evliyacelebi=Evliya Celebi
exactseek=ExactSeek Crawler
ezresult=sEzresult
fastcrawler=FastCrawler
fast-webcrawler=Fast-Webcrawler
fdse=Fluid Dynamics Search Engine robot
felix=Felix IDE
ferret=Wild Ferret Web Hopper #1, #2, #3
fetchrover=FetchRover
fido=fido
finnish=Hдmдhдkki
fireball=KIT-Fireball
fish=Fish search
fouineur=Fouineur
francoroute=Robot Francoroute
freecrawl=Freecrawl
funnelweb=FunnelWeb
gama=gammaSpider, FocusedCrawler
gazz=gazz
gcreep=GCreep
getbot=GetBot
GetSmart=GetSmart Bot
geturl=GetURL
GigaBlast=Gigablast Bot
gigabot=GigaBot
gnodspider=sGNOD Spider
golem=Golem
googlebot=Google Bot
googlebot=Google.com
googlebot=Googlebot
grapnel=Grapnel/0.01 Experiment
griffon=Griffon
gromit=Gromit
grub=Grub.org
grub-client=GrubClient Bot
gulliver=Northern Light Gulliver
gulperbot=Gulper Bot
hambot=HamBot
harvest=Harvest
havindex=havIndex
henrythemiragorobot=Mirago
holmes=Holmes
hometown=Hometown Spider Pro
htdig=ht://Dig
htmlgobble=HTMLgobble
hyperdecontextualizer=Hyper-Decontextualizer
ia_archiver=Alexa (IA Archiver)
ia_archiver=Archive.org Bot
ia_archiver=IA.Archiver Bot
iajabot=iajaBot
iconoclast=Popular Iconoclast
ilse=Ingrid
imagelock=Imagelock
incywincy=IncyWincy
informant=Informant
infoseek=InfoSeek Robot 1.0
infoseeksidewinder=Infoseek Sidewinder
infospider=InfoSpiders
inspectorwww=Inspector Web
intelliagent=IntelliAgent
internetseer=InternetSeer
irobot=I, Robot
iron33=Iron33
israelisearch=Israeli-search
javabee=JavaBee
jbot=JBot Java Web Robot
jcrawler=JCrawler
jeeves=AskJeeves
jennybot=JennyBot
Jetbot=Jet Bot
jobo=JoBo Java Web Robot
jobot=Jobot
joebot=JoeBot
jubii=The Jubii Indexing Robot
jumpstation=JumpStation
justview=JustView
kapsi=image.kapsi.net
katipo=Katipo
kilroy=Kilroy
ko_yappo_robot=KO_Yappo_Robot
labelgrabber.txt=LabelGrabber
larbin=larbin
legs=legs
libwww=Punto Bot
linkbot=LinkBot
linkchecker=LinkChecker
linkidator=Link Validator
linkscan=LinkScan
linkwalker=LinkWalker
lockon=Lockon
logo_gif=logo.gif Crawler
lycos_=Lycos
Lycos=Lycos Bot
lycos=Lycos.com Bot
macworm=Mac WWWWorm
magpie=Magpie
marvin=marvin/infoseek
mattie=Mattie
mediafox=MediaFox
mediapartners-google=Google AdSense
mercator=Mercator
merzscope=MerzScope
meshexplorer=NEC-MeshExplorer
metager-linkchecker=MetaGer LinkChecker
microsoft_url_control=Microsoft URL Control
mindcrawler=MindCrawler
MnoGoSearch=mnoGoSearch Bot
mnogosearch=mnoGoSearch search engine software
moget=moget
momspider=MOMspider
monster=Monster
motor=Motor
msiecrawler=MSIECrawler
msnbot=MSN Bot
msnbot=MSN Bot
msnbot=MSNBot
muncher=Muncher
muscatferret=Muscat Ferret
mwdsearch=Mwd.Search
myweb=Internet Shinchakubin
nagios=Nagios
NaverBot=Naver Bot
ndspider=NDSpider
nederland.zoek=Nederland.zoek
netcarta=NetCarta WebMap Engine
netcraft=Netcraft
netmechanic=NetMechanic
netscoop=NetScoop
newscan-online=newscan-online
nhse=NHSE Web Forager
nomad=Nomad
northstar=The NorthStar Robot
nzexplorer=nzexplorer
objectssearch=ObjectsSearch
oBot=oBot
occam=Occam
octopus=HKU WWW Octopus
Openbot=Openfind Bot
openfind=Openfind data gatherer
orb_search=Orb Search
packrat=Pack Rat
pageboy=PageBoy
parasite=ParaSite
patric=Patric
pegasus=pegasus
perignator=The Peregrinator
perlcrawler=PerlCrawler 1.0
perman=Perman surfer
petersnews=Petersnews
phantom=Phantom
phpdig=PhpDig
piltdownman=PiltdownMan
pimptrain=Pimptrain.com's robot
pioneer=Pioneer
pitkow=html_analyzer
pjspider=Portal Juice Spider
plumtreewebaccessor=PlumtreeWebAccessor
pompos=Pompos
poppi=Poppi
portalb=PortalB Spider
psbot=psbot
python=The Python Robot
rambler=Rambler Bot
Rambler=Rambler Bot
rambler=StackRambler
raven=Raven Search
rbse=RBSE Spider
redalert=Red Alert
resumerobot=Resume Robot
rhcs=RoadHouse Crawling System
road_runner=Road Runner: The ImageScape Robot
robbie=Robbie the Robot
robi=ComputingSite Robi/1.0
robocrawl=RoboCrawl Spider
robofox=RoboFox
robozilla=Robozilla
roverbot=Roverbot
rules=RuLeS
safetynetrobot=SafetyNet Robot
scooter=Altavista Bot
scooter=Scooter
search_au=Search.Aus-AU.COM
search-info=Sleek
searchprocess=SearchProcess
senrigan=Senrigan
sgscout=SG-Scout
shaggy=ShagSeeker
shaihulud=Shai'Hulud
shoutcast=Shoutcast Directory Service
sift=Sift
simbot=Simmany Robot Ver1.0
sitetech=SiteTech-Rover
site-valet=Site Valet
skymob=Skymob.com
slcrawler=SLCrawler
slurp@inktomi=Hot Bot
slurp=Inktomi Slurp
slysearch=SlySearch
smartspider=Smart Spider
snooper=Snooper
solbot=Solbot
speedy=Speedy Spider
spider_monkey=spider_monkey
spiderbot=SpiderBot
spiderline=Spiderline Crawler
spiderman=SpiderMan
spiderview=SpiderView™
spry=Spry Wizard Robot
ssearcher=Site Searcher
StackRambler=Rambler Bot
StackRambler=StackRambler Bot
suke=Suke
suntek=suntek search engine
surveybot=SurveyBot
sven=Sven
tach_bw=TACH Black Widow
tarantula=Tarantula
tarspider=tarspider
techbot=TechBOT
templeton=Templeton
titan=TITAN
titin=TitIn
tkwww=The TkWWW Robot
tlspider=TLSpider
turnitinbot=Turn It In
TurnitinBot=TurnitinBot
turtle=Turtle
turtlescanner=Turtle
TurtleScanner=TurtleScanner Bot
ucsd=UCSD Crawl
udmsearch=UdmSearch
ultraseek=Ultraseek
unlost_web_crawler=Unlost Web Crawler
urlck=URL Check
valkyrie=Valkyrie
Vampire=Net_Vampire Bot
verticrawl=Verticrawl
victoria=Victoria
visionsearch=vision-search
voidbot=void-bot
voila=Voila
voyager=Voyager
vwbot=VWbot
w3index=The NWI Robot
w3m2=W3M2
wallpaper=WallPaper (alias crawlpaper)
wanderer=the World Wide Web Wanderer
wapspider=w@pSpider by wap4.com
webbandit=WebBandit Web Spider
webbase=WebBase
webcatcher=WebCatcher
webclipping.com=WebClipping.com
webcompass=webcompass
webcopy=WebCopy
WebCrawler=Fast Bot
webfetcher=webfetcher
webfoot=The Webfoot Robot
webinator=Webinator
weblayers=weblayers
weblinker=WebLinker
webmirror=WebMirror
webmoose=The Web Moose
webquest=WebQuest
webreader=Digimarc MarcSpider
webreaper=WebReaper
websnarf=Websnarf
webspider=WebSpider
webvac=WebVac
webwalk=webwalk
webwalker=WebWalker
webwatch=WebWatch
WebZIP=WebZIP Bot
whatuseek=What You Seek
whatuseek=What You Seek Bot
whatuseek=whatUseek Winona
whowhere=WhoWhere Robot
wired-digital=Wired Digital
wisenutbot=WISENutbot
wmir=w3mir
wolp=WebStolperer
wombat=The Web Wombat
wonderer=spider: Web Wombat Redback Spider
worm=The World Wide Web Worm
wwwc=WWWC Ver 0.2.5
wz101=WebZinger
xget=XGET
Yahoo!=Yahoo Bot
Yahoo-MMCrawler=Yahoo-MMCrawler Bot
yahoo-verticalcrawler=Yahoo Vertical Crawler
Yandex=Yandex Bot
zealbot=ZealBot
ZipppBot=ZipppBot
zyborg=Zyborg
Респект тому, если нечего ответить!
ого
199
фигня
111
Раздел: SEO, продвижение, раскрутка, проголосовало: 310, последний комментарий: 15.03.2011 05:57
Вопрос закрыт пользователем mzn
Проголосовали: nasecka, #498496, #903603, solomakhin, #797131, #1117603

Ответы
Ответов всего: 8  вопрос закрыт 
Выделите текст и нажмите для цитирования  #  
+1   [14.03.2011 23:33] #840435   Все ответы пользователя

Неплохо!
Проголосовали: #1117603
Выделите текст и нажмите для цитирования  #  
0   [14.03.2011 23:33] Woolander Рейтинг 783.81     Стена пользователя Woolander +106  Все ответы пользователя Woolander

Что они делают ?
Выделите текст и нажмите для цитирования  #  
0   [14.03.2011 23:36] Santaz Рейтинг 1135.32     Стена пользователя Santaz +252  Все ответы пользователя Santaz

Woolander пишет Что они делают ?

Как видите существую не только поисковые системы Яндекс и Гугл)))
и в каждой поисковой системе есть множество роботов, которые отвечают за свой сигмет сканирования сайтов, начиная от типа размещённого контента до его региональной принадлежности!

Добавлено спустя 01 минуту 21 секунду
Описывать каждого агента, конечно можно, но нужно ли? :rolleyes:
Выделите текст и нажмите для цитирования  #  
0   [14.03.2011 23:40] Woolander Рейтинг 783.81     Стена пользователя Woolander +106  Все ответы пользователя Woolander

Santaz пишет
Woolander пишет Что они делают ?

Как видите существую не только поисковые системы Яндекс и Гугл)))
и в каждой поисковой системе есть множество роботов, которые отвечают за свой сигмет сканирования сайтов, начиная от типа размещённого контента до его региональной принадлежности!

Добавлено спустя 01 минуту 21 секунду
Описывать каждого агента, конечно можно, но нужно ли? :rolleyes:

Ну я так и подумал :smile: Где же ты их накопал ?
Выделите текст и нажмите для цитирования  #  
0   [14.03.2011 23:41] #228358   Все ответы пользователя

огого
Выделите текст и нажмите для цитирования  #  
+1   [14.03.2011 23:56] Santaz Рейтинг 1135.32     Стена пользователя Santaz +252  Все ответы пользователя Santaz

Woolander пишет Где же ты их накопал ?

Этот список скопирован с моей статистики посещаемости сайта и соответственно приведён к виду для распознавания роботов движком сайта))
Имя бота=Отображения бота
search_au=Search.Aus-AU.COM
Проголосовали: Woolander
Выделите текст и нажмите для цитирования  #  
+1   [15.03.2011 05:34] ananda Рейтинг 2470.38     Стена пользователя ananda +456  Все ответы пользователя ananda

для чего они? :shocking:
Проголосовали: #2702913
Выделите текст и нажмите для цитирования  #  
+4   [15.03.2011 05:57] Santaz Рейтинг 1135.32     Стена пользователя Santaz +252  Все ответы пользователя Santaz

ananda пишет для чего они?

Поисковые роботы — как они работают и что делают при индексации сайта

Роботы поисковой системы, которые иногда называют «пауки» или «кроулеры» (crawler) — это программные модули, занимающиеся поиском web-страниц.

Попробуем разобраться как они работают и что же они делают в действительности. Почему они важны?

Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа.

Такое представление не соответствует истине. Роботы поисковика обладают лишь базовыми функциями, очень похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте.
Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не читают и не понимают фреймов, Flash анимаций, изображений или JavaScript.

Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут "заткнуться" в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до полной остановки и признания своего безсилия перед навигацией сайта, созданной при помощи JavaScript.
Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу "Submit a URL", вы регистрируете очередную web-страницу в поисковике, то в очередь для просмотра сайтов роботом добавляется новый URL.

Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Это одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Придя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

"Остроумность" в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика.

Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто.

Некоторые роботы легко идентифицируются по своим именам, как Google's "Googlebot". Другие более скрытые, как, например, Inktomi's "Slurp". Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.
Как роботы читают страницы вашего web-сайта?
Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница.
Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.
После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.
Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.
Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом.
В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.
Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).
В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.
Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов, как содержание своего web-сайта.
Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют базы данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.
По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.
Проголосовали: #831226, #903603, solomakhin, #1117603

Видеоурок

Вопрос-ответ

НОВОСТИ
21.02.2024QIWI
подробнее>>
31.12.2023С Новым 2024 Годом!
подробнее>>

© 2004-2024 «WMMAIL» Пользовательское соглашение