عملکرد خزنده های (crawler) گوگل چگونه است؟
برنامه های نرم افزاری که در اینترنت جستجو می کنند، خزنده یا خزنده وب نامیده می شوند.
آنها محتوای وبسایتها مانند متن، عکس یا ویدیو را تحلیل و فهرستبندی میکنند. این عمدتاً ارائه دهندگان موتورهای جستجو هستند که از خزنده ها برای ایندکس وب سایت ها استفاده می کنند. اصطلاحات ربات، عنکبوت یا ربات جستجو نیز به صورت مترادف استفاده می شوند.
ظهور خزنده های وب
در دهه 1990، "World Wide Web Wanderer" توسعه یافت، خزنده ای که کارش در ابتدا فقط برای اندازه گیری سرعت رشد اینترنت بود.
از این انگیزه، یک موتور جستجو با نمایه تمام متن به نام "Webcrawler" در سال 1994 ایجاد شد که برای اولین بار در دسترس عموم قرار گرفت. امروزه به تمامی برنامه هایی که به صورت خودکار در اینترنت جستجو می کنند، خزنده یا وب خزنده می گویند.
جالب است که فعالیت ربات های موتورهای جستجو در مجموع بیش از یک سوم ترافیک جهان در اینترنت را تشکیل می دهند.
چگونه یک خزنده کار می کند
یک خزنده به طور متوالی وظایف تعریف شده قبلی مهدی نجاری سئوکار را پردازش می کند. پس او ز. به عنوان مثال، برخی از URL ها در ابتدا داده می شود که او باید بازدید کند.
به این فهرست «مرز خزیدن» یا «محدودیت خزیدن» نیز میگویند. هنگام جستجو در وب، او اساساً هر پیوندی را که در یک وب سایت کشف می کند دنبال می کند. یک خزنده وب می تواند هم لینک ها و هم کد HTML را در کار خود بررسی کند.
با این حال، محدودیتها ویژگی پیوند rel="nofollow" یا زمان محدودی هستند که خزنده ممکن است برای تجزیه و تحلیل یک وب سایت از آن استفاده کند. بعد از اینکه یک صفحه جستجو شد، تقریباً می توان آن را به طور کامل توسط یک ربات موتور جستجو کپی کرد تا بعداً در فهرست موتور جستجو سریعتر جستجو شود.
یک اسپایدر اینترنتی همیشه بسته به قوانین خاص و تعداد محدودی از صفحات و دانلودها کار می کند. به همین دلیل، ممکن است زمانی اتفاق بیفتد که صفحه ای محتوای به روزتری را ارائه دهد، زمانی که خزنده تمام کار خود را به پایان رسانده باشد.
قواعد رایج به سوالات زیر پاسخ می دهد:
- خزنده کدام صفحات را باید دانلود کند؟
- چه زمانی خزنده باید دوباره از وب سایت مربوطه بازدید کند؟
- چگونه می توانید از بارگذاری بیش از حد سرور توسط عنکبوت جلوگیری کنید؟
- چگونه می توان کار ربات هایی که به صورت موازی کار می کنند هماهنگ کرد؟
حتی اگر فناوری رباتها بهتر و بهتر میشود، تنها بخشهایی از اینترنت یا شبکه جهانی وب تا به امروز قابل جستجو هستند. با این حال، خزندههای بسیار کارآمد مانند Googlebot نیز باید بتوانند از طریق عناصر به اصطلاح وب عمیق جستجو کنند.
بدین وسیله z. B. بالاتر از همه به معنی پایگاه داده های جداگانه است که نمی توان مستقیماً از طریق URL به آنها دسترسی پیدا کرد.
عنکبوت های مختلف برای اهداف مختلف
حتی اگر امروزه بسیاری از شرکتها با خزندههای وب کار میکنند، اکثریت خزیدن توسط رباتهای ارائهدهندگان موتورهای جستجو انجام میشود که دائماً برای محتوای فعلی به اینترنت دسترسی دارند و بنابراین شاخصها را با دادههای جدید تغذیه میکنند.
با این حال، وظایف دیگری وجود دارد که یک خزنده می تواند انجام دهد، که در اینجا به طور خلاصه به آنها اشاره می کنیم:
- خزنده متمرکز: این عنکبوت وب یک موضوع خاص را هدف قرار می دهد. خزنده معمولاً به گونه ای برنامه ریزی می شود که هم وب سایت ها و هم لینک های یافت شده را طبقه بندی می کند.
- داده کاوی: این خزنده ها وب را در جستجوی داده های خاص جستجو می کنند. این می تواند نمایه های کاربر و همچنین آدرس ایمیل شرکت ها باشد. رباتهایی که فقط آدرسها را جمعآوری میکنند به عنوان «دروگر» نیز شناخته میشوند. این عنکبوت ها به عنوان مثال استفاده می کنند. T. همچنین سئوکاران را سیاه می کند تا بعداً نامه های اسپم را به آدرس های ایمیل جمع آوری شده ارسال کنند.
- بررسی و تجزیه و تحلیل اینترنت: این ربات ها اغلب برای اهداف علمی استفاده می شوند، به عنوان مثال. ب. اندازه گیری گسترش اینترنت.
- جستجو برای سرقت ادبی یا تحقیق در مورد مطالب دارای حق چاپ: این ربات ها همیشه در مواقعی که نیاز به کشف نقض قانون وجود دارد استفاده می شود.
- Scraping: وب سایت های زیادی در وب وجود دارند که با محتوای کپی شده کار می کنند. به این ترتیب z را کپی کنید. ب. برخی از پورتال های مقایسه قیمت محتوای ارائه دهندگان در صفحات آنها. با این حال، برخی از وبسایتهای هرزنامه برای به دست آوردن آسان محتوا، «خراش» میکنند. با این حال، این معیار اخیر توسط گوگل دستکاری تلقی می شود و می تواند منجر به حذف از فهرست جستجو شود.
نام خزنده های وب معروف
خزنده های موتورهای جستجو معمولاً از یک شناسه ثابت به عنوان عامل کاربر استفاده می کنند تا بتوانند توسط سرور شناسایی شوند.
به عنوان مثال، گوگل استفاده می کند ب. چندین خزنده مختلف برای جستجوی وب، جستجوی تصویر، برای Google AdSense، برای Google Ads، و همچنین برای وب سایت های تلفن همراه. مثالها عبارتند از: googlebot، googlebot-mobile و غیره.
خزنده مورد استفاده یاهو Yahoo!Slurp نام دارد، موتور جستجوی Bing از bingbot استفاده می کند. به عنوان یک وب سرویس، الکسا ربات خود را نیز دارد که در وب جستجو می کند. به آن ia_archiver می گویند.
برای مدیران وب سایت مهم است که هر ربات شناسه خود را داشته باشد. زیرا ممکن است بازدید از crawlers خاصی مورد نظر نباشد. سپس می توان این موارد را از طریق robots.txt حذف کرد.
متا تگ ها برای کنترل خزنده ها
با کمک تگ های متا، که در قسمت <head> یک وب سایت درج می شوند، می توان دستورالعمل های بیشتری را به خزنده ها داد. بنابراین شما می توانید z. ب. از ایندکس کردن یک صفحه توسط یک ربات جلوگیری کنید. در عین حال، ویژگی "nofollow" ایجاب می کند که ربات پیوندهای موجود در این صفحه را دنبال نکند. در اینجا یک مثال برای Bingbot آورده شده است:
<meta name="robots" content="nofollow"><meta name="bingbot" content="noindex">
بهینه سازی موتور جستجو
همه وبمسترها و سئوکاران باید به این موضوع علاقه داشته باشند که وبسایتهایشان توسط خزندهها بهطور بهینه جستجو شود تا همه محتوا نیز وارد فهرست موتورهای جستجو شود. برای کنترل کار خزنده ها، اکیداً توصیه می شود که یک فایل قدرتمند robots.txt ایجاد کنید. با این حال، همچنین مهم است که مناطق حساس به طور کامل از نمایه سازی حذف شوند. این هدف را می توان با ورود "noindex" در اطلاعات متا بدست آورد. کنترل ربات همچنین می تواند از ورود صفحات دسته بندی و آرشیوهای تکراری در CMS های وبلاگ مانند وردپرس به فهرست های موتور جستجو جلوگیری کند.
اساساً، می توان فرض کرد که ساختار URL که تا حد ممکن صاف و منطقی باشد به این معنی است که یک وب سایت می تواند راحت تر خزیده شود. هرچه یک صفحه پیوند قویتری داشته باشد، خزندههای وب بیشتر و طولانیتر از آن بازدید میکنند. در نتیجه، دو عامل برای بازدید مکرر خزنده تعیین کننده است: تعداد بالای بک لینک و لینک داخلی واضح.
https://biiut.com/read-blog/5083
https://theomnibuzz.com/%d8%a8%da%a9-%d9%84%db%8c%d9%86%da%a9/
https://www.click4r.com/posts/g/5417660/
https://blogfreely.net/faheemkhatri4/bkh-lynkh
http://y8space.com/members-2/faheemkhatri4/activity/3705321/
https://zenwriting.net/2asn2xlo45
- ۰ ۰
- ۰ نظر