02177512236 - 02177513268

سیستم مدیریت محتوای طلوعسیستم مدیریت محتوای طلوع

 

بررسی انواع موتورهای جستجو و اینکه چطور کار می کنند.


 

search engineموتور جستجو یا جویشگریا جستجوگر به طور عمومی به برنامه‌ای گفته می‌شود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه‌ای گفته می‌شود که کلمات کلیدی موجود در فایلهاو سندهای وب جهانی، گروههای خبری، منوهای گوفر و آرشیوهای FTP را جستجو می‌کند.

 

برخی از موتورهای جستجو برای تنها یک وب‌گاه(پایگاه وب) اینترنت به کار برده می‌شوند و در اصل موتور جستجویی اختصاصی آن وب‌گاه هستند و تنها محتویات همان وب‌گاه را جستجو می‌کنند.

برخی دیگر نیز ممکن است با استفاده از SPIDERها محتویات وب‌گاههای زیادی را پیمایش کرده و چکیده‌ای از آن را در یک پایگاه اطلاعاتی به شکل شاخص‌گذاری‌شده نگهداری می‌کنند. کاربران سپس می‌توانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آنها را در خود دارد پی ببرند.
 

انواع جستجوگرها در اینترنت

موتورهای جستجو به دو دسته کلی تقسيم می‌شوند. موتورهای جستجوی پيمايشی (خودکار) و فهرست‌های تکميل‌دستی (غیر خودکار). هر کدام از آن‌ها برای تکميل فهرست خود از روش‌های متفاوتی استفاده می‌کنند البته لازم به ذكر است كه گونه اي جديد از موتورهاي جستجوگر تحت عنوان "ابر جستجوگر" (Meta Search Engines) نيز وجود دارد كه در ادامه به توضيح هر يك از اين موارد خواهيم پرداخت :
 

موتورهای جستجوی پيمايشی


موتورهای جستجوی پيمايشی (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکيل می‌دهند. آنها وب را پيمايش کرده، اطلاعاتی را ذخیره می‌کنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که می‌خواهند جستجو می‌کنند. اگر شما در صفحه وب خود تغييراتی را اعمال نماييد، موتورهای جستجوی پيمايشی آنها را به طور خودکار می‌يابند و سپس اين تغييرات در فهرست‌ها اعمال خواهد شد. عنوان، متن و ديگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت.وجه مشخصه این گروه از جستجوگرها وجود نرم افزار موسوم به SPIDER در آنهاست. این شبه نرم افزار کوچک بصورت خودکار به کاوش در شبکه جهانی پرداخته و از پایگهای وب یادداشت برداری و فهرست برداری میکند سپس این اطلاعات را برای تجزیه و تحلیل و طبقه بندی به بانک اطلاعاتی موتور جستجوگر تحویل می دهد.
 

فهرست‌های دست نویس شده


فهرست‌های دست نویس شده يا (Human-Powered Directories) مانند فهرست بازی (Open Directory) مانند Dmoz وابسته به کاربرانی است که آن را تکميل می‌کنند. شما صفحه مورد نظر را به همراه توضيحی كوتاه در فهرست ثبت می‌کنيد يا اين کار توسط ويراستارهايی که برای آن فهرست در نظر گرفته شده، انجام می‌شود. عمل جستجو در اين حالت تنها بر روی توضيحات ثبت شده صورت می‌گيرد و در صورت تغيير روی صفحه وب، روی فهرست تغييری به وجود نخواهد آورد. چيزهايی که برای بهبود يک فهرست‌بندی در يک موتور جستجو مفيد هستند، تأثيری بر بهبود فهرست‌بندی يک دايرکتوری ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه داده‌ای با محتوای خوب شانس بيشتری نسبت به يک سايت با پايگاه داده ضعيف دارد. البته در مورد جستجوگرهای مشهور مانند گوگل و یاهو، یک مولفه دیگر هم برای بهبود فهرستبندی وجود دارد که کمک مالی (یا به اصطلاح اسپانسر) است، یعنی وب‌گاههایی که مایل به بهبود مکان وب‌گاه خود در فهرست بندی هستند، می‌توانند با پرداخت پول به این جستجوگرها به هدف خویش برسند.
 

موتورهای جستجوی ترکيبی با نتايج مختلف


به موتورهايی گفته می‌شود که هر دو حالت را در کنار هم نمايش می‌دهند. غالباً، يک موتور جستجوی ترکيبی در صورت نمايش نتيجه جستجو از هر يک از دسته‌های فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار می‌دهد. مثلاً موتور جستجوی ام.اس.ان (MSN) بيشتر نتايج حاصل از فهرست‌های تکميل‌دستی را نشان می‌دهد اما در کنار آن نيم نگاهی هم به نتايج حاصل از جستجوی پيمايشی دارد.
 

ابر جستجوگرها


اين گونه جديد از موتورهای جستجوگر كه قدمت چندانی نيز ندارند،بصورت همزمان از چندین موتورجستجوگر برای کاوش در شبکه برای کلید واژه مورد نظر استفاده می کنند .بدين معنی كه اين موتور عبارت مورد نظر شما را در چندين موتورجستجوگر ‍ِ جستجو کرده و نتايج آنها را با هم تركيب كرده و يك نتيجه كلی به شما ارائه می‌دهد.به‌عنوان مثال موتورجستجوگر داگ پايل [1] از نتايج حاصل از موتورهای Google - Yahoo - MSN و ASK استفاده كرده و نتيجه حاصله را به شما ارائه می‌دهد.لازم به ذکر است که روش و یا راهکار مشخص و یکسانی برای ترکیب نتایج حاصله از موتورهای پایه - موتورهایی که به عنوان موتور جستجوگر استفاده میشوند مانند Yahoo که یک موتور پایه برای dogpile میباشد - وجود ندارد.
 

بررسی يک موتور جستجوی پيمايشی


موتورهای جستجوی پيمايشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پيمايش‌گر (Crawler) هم ناميده می‌شود. پيمايش‌گر همين که به يک صفحه می‌رسد، آن را می‌خواند و سپس پيوند‌های آن به صفحات ديگر را دنبال می‌نمايد. اين چيزی‌ست که برای يک سايت پيمايش‌شده (Crawled) اتفاق افتاده است. پيمايش‌گر با يک روال منظم، مثلاً يک يا دو بار در ماه به سايت مراجعه می‌کند تا تغييرات موجود در آن را بيابد. هر چيزی که پيمايش‌گر بيابد به عنصر دوم يک موتور جستجو يعنی فهرست انتقال پيدا می‌کند. فهرست اغلب به کاتالوگی بزرگ اطلاق می‌شود که شامل ليستی از آنچه است که پيمايش‌گر يافته است. مانند کتاب عظيمی که فهرستی را از آنچه پيمايش‌گرها از صفحات وب يافته‌اند، شامل شده است. هرگاه سايتی دچار تغيير شود، اين فهرست نيز به روز خواهد شد. از زمانی که تغييری در صفحه‌ای از سايت ايجاد شده تا هنگامی که آن تغيير در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشيد. پس ممکن است که يک سايت پيمايش‌شده باشد اما فهرست‌شده نباشد. تا زمانی که اين فهرست‌بندی برای آن تغيير ثبت نشده باشد، نمی‌توان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرم‌افزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامه‌ای اطلاق می‌شود که به صورت هوشمندانه‌ای داده‌های موجود در فهرست را دسته‌بندی کرده و آنها را بر اساس اهميت طبقه‌بندی می‌کند تا نتيجه جستجو با کلمه‌های درخواست شده هر چه بيشتر منطبق و مربوط باشد.
 

رتبه‌بندی صفحات وب توسط موتورهای جستجو


وقتی شما از موتورهای جستجوی پيمايشی چيزی را برای جستجو درخواست می‌نماييد، تقريباً بلافاصله اين جستجو از ميان ميليون‌ها صفحه صورت گرفته و مرتب می‌شود بطوريکه مربوط‌ترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نمايد. البته بايد در نظر داشته باشيد که موتورهای جستجو همواره نتايج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتيجه جستجو دريافت می‌کنيد و گاهی اوقات مجبور هستيد که جستجوی دقيقتری را برای آنچه می‌خواهيد انجام دهيد اما موتورهای جستجو کار حيرت‌انگيز ديگری نيز انجام می‌دهند. فرض کنيد که شما به يک کتابدار مراجعه می‌کنيد و از وی درباره «سفر» کتابی می‌خواهيد. او برای اين که جواب درستی به شما بدهد و کتاب مفيدی را به شما ارائه نمايد با پرسيدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهای جستجو همچنين توانايی ندارند اما به نوعی آنها را شبيه‌سازی می‌کنند. پس موتورهای جستجوی پيمايشی چگونه به پاسخ مورد نظرتان از ميان ميليونها صفحه وب می‌رسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده می‌شود. الگوريتم‌های مورد نظر برای هر موتور جستجويی خاص و تقريباً سری هستند اما به هر حال از قوانين زير پيروی می‌کنند:
 

مکان و بسامد


يکی از قوانين اصلی در الگوريتم‌های رتبه‌بندی موقعيت و بسامد (تعداد تکرار) واژه‌هایی است که در صفحه مورد استفاده قرار گرفته‌اند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) ناميده می‌شود. کتابدار مذکور را به خاطر می‌آورِد؟ لازم است که او کتاب‌های در رابطه با واژه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس می‌کند که شما به دنبال کتاب‌هايی هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقيقاً همان کار را انجام می‌دهند. آنها هم صفحاتی را برايتان فهرست می‌کنند که در برچسب عنوان (Title) موجود در کد زبان نشانه‌گذاری اَبَرمتنی (زنگام) (HTML) حاوی واژه «سفر» باشند. موتورهای جستجو همچنين به دنبال واژه مورد نظر در بالای صفحات و يا در آغاز بندها (پاراگراف‌ها) هستند. آنها فرض می‌کنند که صفحاتی که حاوی آن واژه در بالای خود و يا در آغاز بندها و عناوين باشند به نتيجه مورد نظر شما مربوط‌تر هستند. بسامد عامل بزرگ و مهم ديگری است که موتورهای جستجو از طريق آن صفحات مربوط را شناسايی می‌نمايند. موتورهای جستجو صفحات را تجزيه کرده و با توجه به تکرار واژه‌ای در صفحه متوجه می‌شوند که آن واژه نسبت به ديگر واژه‌ها اهميت بيش‌تری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات ديگر قرار می‌دهند.

چگونگی کارکرد دقيق موتورهای جستجو درباره روش‌هايی از قبيل مکان-تکرار فاش نمی‌شود و هر موتور جستجويی روش خاص خود را دنبال می‌کند. به همين دليل است که وقتی شما واژه‌های همانندی را در موتورهای متفاوت جستجو می‌کنيد، به نتايج متفاوتی می‌رسيد.الگوریتم های اولیه موتورهای جستجوی معتبر و بزرگ همچنان محرمانه نگهداری می شوند. برخی موتورهای جستجو نسبت به برخی ديگر صفحات بيشتری را فهرست کرده‌اند. نتيجه اين خواهد شد که هيچ موتور جستجويی نتيجه جستجوی مشترکی با موتور ديگر نخواهد داشت و شما نتايج متفاوتی را از آنها دريافت می‌کنيد. موتورهای جستجو همچنين ممکن است که برخي از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با هرزنامه (Spam) شدن سعی در گول زدن موتورهای جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پيش می‌گيرند و آن به اين صورت است که با تکرار بيش از حد واژه‌ها و یا بزرگ نوشتن یا بسیار ریز نوشتن متنها بطور عمدی كوشش در بر هم زدن تعادل و در نتيجه فريب موتورهای جستجو دارند. آنها سعی دارند که با افزايش عامل تکرار، در رتبه بالاتری قرار بگيرند. البته آنگونه که گفته شد تعداد تکرار ها اگر از حد و اندازه خاصی فراتر رود نتیجه معکوس می‌دهد.موتورهای جستجو راه‌های متنوعی برای جلوگيری از فرستادن هرزنامه دارند و در اين راه از گزارش‌های کاربران خود نيز بهره می‌برند. امروزه بهینه سازی سایت های اینترنت برای موتورهای جستجو یکی از مهم‌ترین روشهای جلب بازدید کننده به سایت است.
 

عوامل خارج از صفحه


موتورهای جستجوی گردشی اکنون تجربه فراوانی در رابطه با وب‌دارهايی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنويسی می‌کنند. بعضی از وب‌دارها (وب‌مسترها)ی خبره حتی ممکن است به سمت روش‌هايی مانند مهندسی معکوس برای کشف چگونگی روش‌های مکان-تکرار بروند. به همين دليل، تمامی موتورهای جستجوی معروف از روش‌های امتيازبندی «خارج از صفحه» استفاده می‌کنند. عوامل خارج از صفحه عواملی هستند که از تيررس وب‌دارها خارجند و آنها نمی‌توانند در آن دخالت کنند و مسأله مهم در آن تحليل ارتباطات و پيوندهاست. به وسيله تجزيه صفحات، موتورهای جستجو پيوندها را بررسی کرده و از محبوبيت آنها می‌فهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. به علاوه تکنيک‌های پيشرفته به گونه‌ای است که از ايجاد پيوندهای مصنوعی توسط وب‌دارها برای فريب موتورهای جستجو جلوگيری می‌نمايد. علاوه بر آن موتورهای جستجو بررسی می‌کنند که کدام صفحه توسط يک کاربر که واژه‌ای را جستجو کرده انتخاب می‌شود و سپس با توجه به تعداد انتخاب‌ها، رتبه صفحه مورد نظر را تعيين کرده و مقام آن را در نتيجه جستجو جابه‌جا می‌نمايند.

 

منبع: سایت فرارو

تاریخ ارسال: 1390/4/1
تعداد بازدید: 4821

ارسال نظر


ارتباط با ما


تهران - خیابان انقلاب -روبروی پیچ شمیران - جنب دانشگاه آزاد واحد تهران مرکز - ساختمان تنکابن - پلاک 352-طبقه 6 - واحد31

تلفنهای تماس: 021-77513268 , 021-77512236 , 021-77613815 , 09197371329
طراحی و تولید: ایده پرداز طلوع

درخواست دمو

درخواست دمو

نرم افزار CMS