Www.Siah-Mashgh.Com ::: سياه مشق ::: All You Need - موتورهاي جستجو چگونه كار مي‌كنند؟


موتورهاي جستجو چگونه كار مي‌كنند؟
تاریخ : سه شنبه، 2 بهمن، 1386
موضوع : مقالات


Search

موتور جستجو یا جویشگر یا جستجوگر به طور عمومی به برنامه‌ای گفته می‌شود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه‌ای گفته می‌شود که کلمات کلیدی موجود در فایل‌ها و سندهای وب جهانی، گروه‌های خبری، منوهای گوفر و آرشیوهای FTP را جستجو می‌کند.
برخی از موتورهای جستجو برای تنها یک وب‌گاه(پایگاه وب) اینترنت به کار برده می‌شوند و در اصل موتور جستجویی اختصاصی آن وب‌گاه هستند و تنها محتویات همان وب‌گاه را جستجو می‌کنند.
برخی دیگر نیز ممکن است با استفاده از SPIDERها محتویات وب‌گاه‌های زیادی را پیمایش کرده و چکیده‌ای از آن را در یک پایگاه اطلاعاتی به شکل شاخص‌گذاری‌شده نگهداری می‌کنند. کاربران سپس می‌توانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آن‌ها را در خود دارد پی ببرند.
وقتي جستجويي در يك موتور جستجوگر انجام و نتايج جستجو ارايه مي‌شود، كاربران در واقع نتيجه كار بخش‌هاي متفاوت موتور جستجوگر را مي‌بينند. موتور جستجوگر قبلاً پايگاه داده‌اش را آماده كرده است و اين گونه نيست كه درست در همان لحظه‌ي جستجو، تمام وب را بگردد.
بسياري از خود مي‌پرسند كه چگونه ممكن است گوگل در كمتر از يك ثانيه تمام سايت‌هاي وب را بگردد و ميليون‌ها صفحه را در نتايج جستجوي خود ارايه كند؟
گوگل و هيچ موتور جستجوي ديگري توانايي انجام اين كار را ندارند. همه آنها در زمان پاسخ‌گويي به جستجوهاي كاربران، تنها در پايگاه داده‌اي كه در اختيار دارند به جستجو مي‌پردازند و نه در وب! موتور جستجوگر به كمك بخش‌هاي متفاوت خود، اطلاعات مورد نياز را قبلاً جمع‌آوري، تجزيه و تحليل مي‌كند، آنرا در پايگاه داده‌اش ذخيره مي‌نمايد و به هنگام جستجوي كاربر تنها در همين پايگاه داده مي‌گردد. بخش‌هاي مجزاي يك موتور جستجوگر عبارتند از:

Spider يا عنكبوت
Crawler يا خزنده
Indexer يا بايگاني كننده
Database يا پايگاه داده
Ranker يا سيستم رتبه‌بندي

براي خواندن مطلب بر روي ادامه متن كليك نماييد



الف: Spider (عنكبوت)
اسپايدر يا روبوت (Robot) نرم افزاري است كه كار جمع‌آوري اطلاعات مورد نياز يك موتور جستجو را بر عهده دارد. اسپايدر به صفحات مختلف سر مي‌زند، محتواي آنها را مي‌خواند، لينك‌ها را دنبال مي‌كند، اطلاعات مورد نياز را جمع‌آوري مي‌كند و آنرا در اختيار ساير بخش‌هاي موتور جستجوگر قرار مي‌دهد. كار يك اسپايدر، بسيار شبيه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازديد مي‌كنند، اسپايدر هم درست اين كار را انجام مي‌دهد با اين تفاوت كه اسپايدر كدهاي HTML صفحات را مي‌بيند اما كاربران نتيجه حاصل از كنار هم قرار گرفتن اين كدها را.
اسپايدر، به هنگام مشاهده صفحات، بر روي سرورها رد پا برجاي مي‌گذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يك سايت و اتفاقات انجام شده در آن را داشته باشيد، مي‌توانيد مشخص كنيد كه اسپايدر كدام يك از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده است. يكي از فعاليت‌هاي اصلي كه در SEM انجام مي‌شود تحليل آمار همين ديد و بازديدها است.
اسپايدرها كاربردهاي ديگري نيز دارند، به عنوان مثال عده‌اي از آنها به سايت‌هاي مختلف مراجعه مي‌كنند و فقط به بررسي فعال بودن لينك‌هاي آنها مي‌پردازند و يا به دنبال آدرس ايميل (E-mail) مي‌گردند.

ب: Crawler (خزنده)
كراولر، نرم‌افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي‌كند. كراولر مشخص مي‌كند كه اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع كراولر تصميم مي‌گيرد كه كدام يك از لينك‌هاي صفحه‌اي كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضي‌ها را دنبال كند و يا هيچ كدام را دنبال نكند.
كراولر، ممكن است قبلاً برنامه‌ريزي شده باشد كه آدرس‌هاي خاصي را طبق برنامه در اختيار اسپايدر قرار دهد تا از آنها ديدن كند. دنبال كردن لينك‌هاي يك صفحه به اين بستگي دارد كه موتور جستجو چه حجمي از اطلاعات يك سايت را مي‌تواند (يا مي‌خواهد) در پايگاه داده‌اش ذخيره كند. همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.
شما به عنوان دارنده سايت، همان طور كه دوست داريد موتورهاي جستجو اطلاعات سايت شما را با خود ببرند، مي‌توانيد آنها را از بعضي صفحات سايت‌تان دور كنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. موتور جستجو اگر مودب باشد قبل از ورود به هر سايتي ابتدا قوانين دسترسي به محتواي سايت را (در صورت وجود) در فايلي خاص بررسي مي‌كند و از حقوق دسترسي خود اطلاع مي‌يابد. تنظيم ميزان دسترسي موتورهاي جستجو به محتواي يك سايت توسط پروتكل Robots انجام مي‌شود. به عمل كراولر، خزش (Crawling) مي‌گويند

انواع جستجوگرها در اینترنت

موتورهای جستجو به دو دسته کلی تقسيم می‌شوند. موتورهای جستجوی پيمايشی (خودکار) و فهرست‌های تکميل‌دستی (غیر خودکار). هر کدام از آن‌ها برای تکميل فهرست خود از روش‌های متفاوتی استفاده می‌کنند البته لازم به ذكر است كه گونه‌اي جديد از موتورهاي جستجوگر تحت عنوان "ابر جستجوگر" (Meta Search Engines) نيز وجود دارد







منبع این مقاله : Www.Siah-Mashgh.Com ::: سياه مشق ::: All You Need
http://www.Siah-Mashgh.com/index.php

آدرس این مطلب :
http://www.Siah-Mashgh.com/index.php/article186.htmlhttp://www.Siah-Mashgh.com/index.php/modules.php?name=News&file=article&sid=186

INP_Nuke © IranNuke.com