sam یکشنبه ۰۶ شهریور ۰۱ ۱۸:۴۶ ۲۶ بازديد

عملکرد خزنده های (crawler) گوگل چگونه است؟

برنامه های نرم افزاری که در اینترنت جستجو می کنند، خزنده یا خزنده وب نامیده می شوند.

آن‌ها محتوای وب‌سایت‌ها مانند متن، عکس یا ویدیو را تحلیل و فهرست‌بندی می‌کنند. این عمدتاً ارائه دهندگان موتورهای جستجو هستند که از خزنده ها برای ایندکس وب سایت ها استفاده می کنند. اصطلاحات ربات، عنکبوت یا ربات جستجو نیز به صورت مترادف استفاده می شوند.

ظهور خزنده های وب

در دهه 1990، "World Wide Web Wanderer" توسعه یافت، خزنده ای که کارش در ابتدا فقط برای اندازه گیری سرعت رشد اینترنت بود.

از این انگیزه، یک موتور جستجو با نمایه تمام متن به نام "Webcrawler" در سال 1994 ایجاد شد که برای اولین بار در دسترس عموم قرار گرفت. امروزه به تمامی برنامه هایی که به صورت خودکار در اینترنت جستجو می کنند، خزنده یا وب خزنده می گویند.

جالب است که فعالیت ربات های موتورهای جستجو در مجموع بیش از یک سوم ترافیک جهان در اینترنت را تشکیل می دهند.

چگونه یک خزنده کار می کند

یک خزنده به طور متوالی وظایف تعریف شده قبلی مهدی نجاری سئوکار را پردازش می کند. پس او ز. به عنوان مثال، برخی از URL ها در ابتدا داده می شود که او باید بازدید کند.

به این فهرست «مرز خزیدن» یا «محدودیت خزیدن» نیز می‌گویند. هنگام جستجو در وب، او اساساً هر پیوندی را که در یک وب سایت کشف می کند دنبال می کند. یک خزنده وب می تواند هم لینک ها و هم کد HTML را در کار خود بررسی کند.

با این حال، محدودیت‌ها ویژگی پیوند rel="nofollow" یا زمان محدودی هستند که خزنده ممکن است برای تجزیه و تحلیل یک وب سایت از آن استفاده کند. بعد از اینکه یک صفحه جستجو شد، تقریباً می توان آن را به طور کامل توسط یک ربات موتور جستجو کپی کرد تا بعداً در فهرست موتور جستجو سریعتر جستجو شود.

یک اسپایدر اینترنتی همیشه بسته به قوانین خاص و تعداد محدودی از صفحات و دانلودها کار می کند. به همین دلیل، ممکن است زمانی اتفاق بیفتد که صفحه ای محتوای به روزتری را ارائه دهد، زمانی که خزنده تمام کار خود را به پایان رسانده باشد.

قواعد رایج به سوالات زیر پاسخ می دهد:

خزنده کدام صفحات را باید دانلود کند؟
چه زمانی خزنده باید دوباره از وب سایت مربوطه بازدید کند؟
چگونه می توانید از بارگذاری بیش از حد سرور توسط عنکبوت جلوگیری کنید؟
چگونه می توان کار ربات هایی که به صورت موازی کار می کنند هماهنگ کرد؟

حتی اگر فناوری ربات‌ها بهتر و بهتر می‌شود، تنها بخش‌هایی از اینترنت یا شبکه جهانی وب تا به امروز قابل جستجو هستند. با این حال، خزنده‌های بسیار کارآمد مانند Googlebot نیز باید بتوانند از طریق عناصر به اصطلاح وب عمیق جستجو کنند.

بدین وسیله z. B. بالاتر از همه به معنی پایگاه داده های جداگانه است که نمی توان مستقیماً از طریق URL به آنها دسترسی پیدا کرد.

عنکبوت های مختلف برای اهداف مختلف

حتی اگر امروزه بسیاری از شرکت‌ها با خزنده‌های وب کار می‌کنند، اکثریت خزیدن توسط ربات‌های ارائه‌دهندگان موتورهای جستجو انجام می‌شود که دائماً برای محتوای فعلی به اینترنت دسترسی دارند و بنابراین شاخص‌ها را با داده‌های جدید تغذیه می‌کنند.

با این حال، وظایف دیگری وجود دارد که یک خزنده می تواند انجام دهد، که در اینجا به طور خلاصه به آنها اشاره می کنیم:

خزنده متمرکز: این عنکبوت وب یک موضوع خاص را هدف قرار می دهد. خزنده معمولاً به گونه ای برنامه ریزی می شود که هم وب سایت ها و هم لینک های یافت شده را طبقه بندی می کند.
داده کاوی: این خزنده ها وب را در جستجوی داده های خاص جستجو می کنند. این می تواند نمایه های کاربر و همچنین آدرس ایمیل شرکت ها باشد. ربات‌هایی که فقط آدرس‌ها را جمع‌آوری می‌کنند به عنوان «دروگر» نیز شناخته می‌شوند. این عنکبوت ها به عنوان مثال استفاده می کنند. T. همچنین سئوکاران را سیاه می کند تا بعداً نامه های اسپم را به آدرس های ایمیل جمع آوری شده ارسال کنند.
بررسی و تجزیه و تحلیل اینترنت: این ربات ها اغلب برای اهداف علمی استفاده می شوند، به عنوان مثال. ب. اندازه گیری گسترش اینترنت.
جستجو برای سرقت ادبی یا تحقیق در مورد مطالب دارای حق چاپ: این ربات ها همیشه در مواقعی که نیاز به کشف نقض قانون وجود دارد استفاده می شود.
Scraping: وب سایت های زیادی در وب وجود دارند که با محتوای کپی شده کار می کنند. به این ترتیب z را کپی کنید. ب. برخی از پورتال های مقایسه قیمت محتوای ارائه دهندگان در صفحات آنها. با این حال، برخی از وب‌سایت‌های هرزنامه برای به دست آوردن آسان محتوا، «خراش» می‌کنند. با این حال، این معیار اخیر توسط گوگل دستکاری تلقی می شود و می تواند منجر به حذف از فهرست جستجو شود.

نام خزنده های وب معروف

خزنده های موتورهای جستجو معمولاً از یک شناسه ثابت به عنوان عامل کاربر استفاده می کنند تا بتوانند توسط سرور شناسایی شوند.

به عنوان مثال، گوگل استفاده می کند ب. چندین خزنده مختلف برای جستجوی وب، جستجوی تصویر، برای Google AdSense، برای Google Ads، و همچنین برای وب سایت های تلفن همراه. مثالها عبارتند از: googlebot، googlebot-mobile و غیره.

خزنده مورد استفاده یاهو Yahoo!Slurp نام دارد، موتور جستجوی Bing از bingbot استفاده می کند. به عنوان یک وب سرویس، الکسا ربات خود را نیز دارد که در وب جستجو می کند. به آن ia_archiver می گویند.

برای مدیران وب سایت مهم است که هر ربات شناسه خود را داشته باشد. زیرا ممکن است بازدید از crawlers خاصی مورد نظر نباشد. سپس می توان این موارد را از طریق robots.txt حذف کرد.

متا تگ ها برای کنترل خزنده ها

با کمک تگ های متا، که در قسمت <head> یک وب سایت درج می شوند، می توان دستورالعمل های بیشتری را به خزنده ها داد. بنابراین شما می توانید z. ب. از ایندکس کردن یک صفحه توسط یک ربات جلوگیری کنید. در عین حال، ویژگی "nofollow" ایجاب می کند که ربات پیوندهای موجود در این صفحه را دنبال نکند. در اینجا یک مثال برای Bingbot آورده شده است:

بهینه سازی موتور جستجو

همه وب‌مسترها و سئوکاران باید به این موضوع علاقه داشته باشند که وب‌سایت‌هایشان توسط خزنده‌ها به‌طور بهینه جستجو شود تا همه محتوا نیز وارد فهرست موتورهای جستجو شود. برای کنترل کار خزنده ها، اکیداً توصیه می شود که یک فایل قدرتمند robots.txt ایجاد کنید. با این حال، همچنین مهم است که مناطق حساس به طور کامل از نمایه سازی حذف شوند. این هدف را می توان با ورود "noindex" در اطلاعات متا بدست آورد. کنترل ربات همچنین می تواند از ورود صفحات دسته بندی و آرشیوهای تکراری در CMS های وبلاگ مانند وردپرس به فهرست های موتور جستجو جلوگیری کند.

اساساً، می توان فرض کرد که ساختار URL که تا حد ممکن صاف و منطقی باشد به این معنی است که یک وب سایت می تواند راحت تر خزیده شود. هرچه یک صفحه پیوند قوی‌تری داشته باشد، خزنده‌های وب بیشتر و طولانی‌تر از آن بازدید می‌کنند. در نتیجه، دو عامل برای بازدید مکرر خزنده تعیین کننده است: تعداد بالای بک لینک و لینک داخلی واضح.

http://faheemkhatri4.bloggersdelight.dk/2022/08/07/%d8%a8%d9%87%db%8c%d9%86%d9%87-%d8%b3%d8%a7%d8%b2%db%8c-%d8%b1%d9%88%db%8c-%d8%b5%d9%81%d8%ad%d9%87/

https://biiut.com/read-blog/5083

https://theomnibuzz.com/%d8%a8%da%a9-%d9%84%db%8c%d9%86%da%a9/

https://www.click4r.com/posts/g/5417660/

https://blogfreely.net/faheemkhatri4/bkh-lynkh

http://y8space.com/members-2/faheemkhatri4/activity/3705321/

https://zenwriting.net/2asn2xlo45