ا
لف: Spider (عنكبوت)اسپايدر
يا روبوت (Robot) نرم افزاري است كه كار جمعآوري اطلاعات مورد نياز يك
موتور جستجو را بر عهده دارد. اسپايدر به صفحات مختلف سر ميزند، محتواي
آنها را ميخواند، لينكها را دنبال ميكند، اطلاعات مورد نياز را
جمعآوري ميكند و آنرا در اختيار ساير بخشهاي موتور جستجوگر قرار
ميدهد. كار يك اسپايدر، بسيار شبيه كار كاربران وب است. همانطور كه
كاربران، صفحات مختلف را بازديد ميكنند، اسپايدر هم درست اين كار را
انجام ميدهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را ميبيند اما
كاربران نتيجه حاصل از كنار هم قرار گرفتن اين كدها را.
اسپايدر، به
هنگام مشاهده صفحات، بر روي سرورها رد پا برجاي ميگذارد. شما اگر اجازه
دسترسي به آمار ديد و بازديدهاي صورت گرفته از يك سايت و اتفاقات انجام
شده در آن را داشته باشيد، ميتوانيد مشخص كنيد كه اسپايدر كدام يك از
موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده است. يكي از
فعاليتهاي اصلي كه در SEM انجام ميشود تحليل آمار همين ديد و بازديدها
است.
اسپايدرها كاربردهاي ديگري نيز دارند، به عنوان مثال عدهاي از
آنها به سايتهاي مختلف مراجعه ميكنند و فقط به بررسي فعال بودن لينكهاي
آنها ميپردازند و يا به دنبال آدرس ايميل (E-mail) ميگردند.
ب: Crawler (خزنده)كراولر،
نرمافزاري است كه به عنوان يك فرمانده براي اسپايدر عمل ميكند. كراولر
مشخص ميكند كه اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع
كراولر تصميم ميگيرد كه كدام يك از لينكهاي صفحهاي كه اسپايدر در حال
حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند،
بعضيها را دنبال كند و يا هيچ كدام را دنبال نكند.
كراولر، ممكن است
قبلاً برنامهريزي شده باشد كه آدرسهاي خاصي را طبق برنامه در اختيار
اسپايدر قرار دهد تا از آنها ديدن كند. دنبال كردن لينكهاي يك صفحه به
اين بستگي دارد كه موتور جستجو چه حجمي از اطلاعات يك سايت را ميتواند
(يا ميخواهد) در پايگاه دادهاش ذخيره كند. همچنين ممكن است اجازه دسترسي
به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.
شما به عنوان
دارنده سايت، همان طور كه دوست داريد موتورهاي جستجو اطلاعات سايت شما را
با خود ببرند، ميتوانيد آنها را از بعضي صفحات سايتتان دور كنيد و اجازه
دسترسي به محتواي آن صفحات را به آنها ندهيد. موتور جستجو اگر مودب باشد
قبل از ورود به هر سايتي ابتدا قوانين دسترسي به محتواي سايت را (در صورت
وجود) در فايلي خاص بررسي ميكند و از حقوق دسترسي خود اطلاع مييابد.
تنظيم ميزان دسترسي موتورهاي جستجو به محتواي يك سايت توسط پروتكل Robots
انجام ميشود. به عمل كراولر، خزش (Crawling) ميگويند
انواع جستجوگرها در اینترنت
موتورهای جستجو به دو دسته کلی تقسيم میشوند. موتورهای جستجوی پيمايشی
(خودکار) و فهرستهای تکميلدستی (غیر خودکار). هر کدام از آنها برای
تکميل فهرست خود از روشهای متفاوتی استفاده میکنند البته لازم به ذكر
است كه گونهاي جديد از موتورهاي جستجوگر تحت عنوان "ابر جستجوگر" (Meta
Search Engines) نيز وجود دارد