روند‌های جاری در «صنعتِ جستجو»

روند‌های جاری در «صنعتِ جستجو»

یزدان منصوریان، عضو هیئت علمی دانشگاه تربیت معلم تهران

این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

کارکردهای اصلی شبکه‌های رایانه‌ای و نظام‌های کتابخانه‌ای بر فرایند «ذخیره و بازیابی اطلاعات»[1] استوار است. هدف از طراحی این نظام‌ها ایجاد مخزن‌های توسعه‌پذیری از اطلاعات است که امکان جستجوی سریع و دقیق در آنها میسر باشد. بدون ذخیره اطلاعات بازیابی آن میسر نیست و بدون بازیابی موثر نیز ذخیره اطلاعات بی‌فایده خواهد بود. به نحوی که در صورت فقدان بنیادی منطقی و کارآمد در این زمینه عملاً هیچ فعالیتی در این نظامها صورت نخواهد گرفت. بر این اساس، میزان موفقیت آنها به توانمندی زیرساخت سیستمهای ذخیره و بازیابی اطلاعات وابسته است. سیستمهایی که می‌توانند بیشترین حجم اطلاعات را در خود ذخیره کنند و سپس با سرعت و دقت کافی مدارک مرتبط با نیاز کاربران را در اختیار آنان قرار دهند. در قرن گذشته توان این سیستم‌ها بسیار افزایش یافته و این روند همچنان ادامه دارد. اما تجربه نشان داده که بازیابی اطلاعات به مراتب دشوارتر از ذخیره آن است. مثلاً امروزه می‌توان چندین گیگابایت از داده‌های الکترونیکی را در یک حافظه‌ی رایانه‌ای کوچک جای داد. حجمی که ذخیره آن در چند دهه‌ی گذشته به دهها رایانه غول‌پیکر نیاز داشت. اما همچنان سازماندهی و بازیابی موثر این اطلاعات کار آسانی نیست. چرا که ذخیره اطلاعات بیشتر یک موضوع فنی است و بازیابی آن یک موضوع مفهومی. بنابراین، چالش اصلی در این عرصه بازیابی اطلاعات است، نه ذخیره آن.

اهمیت بازیابی اطلاعات به حدی است که خود یکی از گرایش‌های مستقل در حوزه کامپیوتر است و گروه‌های پژوهشی فراوانی در این زمینه تحقیق می‌کنند. هر یک از این گروه‌ها به وجه یا وجوه مشخصی از فرایند بازیابی می‌پردازند. برخی از آنها به جنبه‌های سیستم‌مدار این موضوع علاقه‌‌مندند و گروهی دیگر به جنبه‌های کاربر مدار آن. جایگاه این حوزه نیز به حدی است که فقط بخش «جستجوی اطلاعات» در متون تخصصی آن در سطح صنعتی مستقل تلقی می‌شود و از آن به عنوان «صنعت جستجو» یاد می‌کنند. صنعت پررقابت و پردرآمدی که تا امروز راهی پرفراز و نشیب را پیموده و هنوز راهی طولانی و پرچالش در پیش دارد. یادداشت حاضر روندهای پژوهشی جاری در این زمینه را به اختصار معرفی می‌کند و به تبیین دستاوردها، امیدها و آرزوهای محققان این عرصه می‌پردازد.

عرصه‌های پژوهشی در صنعتِ جستجو

ابتدا باید دید مولفه‌ها و عناصر اصلی در این حوزه کدامند و هریک چه نقشی در این زمینه ایفا می‌کنند. شاید محور اصلی توجه محققان در این زمینه میلیون‌ها کاربر نهایی[2] باشند که روزانه در سراسر جهان تلاش می‌کنند در انبوهی از اطلاعات متنوع در شبکه جهان‌گستر وب به نیازهای اطلاعاتی خود پاسخ گویند. کاربران شتابزده و بی‌قراری که انتظار دارند در کمترین زمان و با صرف کمترین هزینه‌ی مالی و زمانی بیشترین اطلاعات معتبر و مرتبط را به دست آورند. این نیاز مهمترین تقاضای بازار جستجو است. در مقابل عرضهکنندگان ابزارهای جستجو با انواع و اقسام دشواریهای فنی و مفهومی در بازیابی اطلاعات مواجه‌اند. آنان ناچارند بین کلیدواژه‌های نه چندان دقیق کاربران با منابع نه چندان سازمان یافته‌ی وب ارتباطی منطقی برقرار کنند. وظیفه‌ای که اجرای موفق آن بسیار دشوار و پیچیده است. اما این دشواری و پیچیدگی نه تنها آنان را از تلاش بیشتر دلسرد نکرده است، بلکه زمینه را برای خلاقیت و نوآوری در این عرصه گشوده است.  مهمترین تحولات در این زمینه را می‌توان در چند محور ذیل خلاصه کرد:

1.      پکپارچگی در جستجو: در دنیای پرشتاب امروزه معمولاً کاربران می‌خواهند با یک جستجوی ساده به طور همزمان در چند پایگاه اطلاعاتی جستجو کنند. در متون تخصصی بازیابی اطلاعات به چنین جستجویی اصطلاحاً «جستجوی چندجانبه[3]» می‌گویند. در این روش کلیدواژه‌ مورد نظر کاربر به چند پایگاه اطلاعاتی ارسال می‌شود و مجموعه نتایج حاصل از هر پایگاه با هم ترکیب شده و پس از مرتب‌سازی در اختیار وی قرار می‌گیرد. به این ترتیب کاربر مجبور نیست یک جستجو را در چند منبع تکرار کند و در یک مرحله می‌تواند نتایج حاصل از جستجو در چند منبع را در اختیار داشته باشد. در پاسخ به این نیاز بسیاری از ناشران و طراحان پایگاه‌های اطلاعاتی با ایجاد یک رابط کاربر ساده امکان جستجوی یک مرحله‌ای در منابع مختلف را فراهم آورده‌اند. حتی بعضی از آنان گامی فراتر نهاده و برای کاربران دانشگاهی امکان دسترسی یکپارچه به پایگاه‌های خود و منابع کتابخانه‌های دانشگاهی را فراهم آورده‌اند. به این ترتیب کاربران دانشگاهی می‌توانند کلیدواژه مورد نظر خود را همزمان در چند پایگاه بین‌المللی و فهرست کتابخانه دانشگاه خویش جستجو کنند. حاصل چنین جستجویی فهرستی از مقالات در پایگاه‌های مورد نظر و کتاب‌های موجود در کتابخانه آن دانشگاه خواهد بود. در این راستا گروههای مختلف تحقیقاتی در عرصه‌ی ذخیره و بازیابی اطلاعات تلاش می‌کنند خلاقیت‌ها و نوآوری‌های تازه‌ای برای افزایش گستره و عمق این جستجوها ارائه کنند. مثلاً آنان از یک سو بر تعداد و تنوع پایگاه‌هایی که امکان جستجوی همزمان دارند می‌افزایند و از سوی دیگر درصدد ارائه الگوهای مناسبی برای مرتب‌سازی و دسته‌بندی نتایج جستجو هستند. چرا که معمولاً با افزایش تعداد منابع مورد جستجو، تعداد مدارک بازیابی شده افزایش می‌یابد و کاربر ناچار است وقت بیشتری برای یافتن منابع مرتبط صرف کند. بنابراین، نرم‌افزارهایی در این زمینه موفقترند که مثلاً بتوانند در خلال ترکیب نتایج جستجو، مدارک تکراری را حذف کنند و با نمایش مرتبط‌ترین نتایج بازیابی زمان جستجو را کاهش دهند.

2.      ساده‌سازی و استاندارد‌سازی رابط‌های کاربر[4]: جریان فعلی تولید رابط‌های کاربر به سمتی است که کاربران در پایگاه‌ها و بانک‌های اطلاعاتی مختلف رابط‌های کاربر یکسان یا حداقل مشابه ببینند. به همین دلیل است که رابط کاربر ساده و محبوب گوگل الهام‌بخش بسیاری از موتورهای کاوش بوده است و به وضوح می‌توان تاثیر آن را بر طراحی رابط‌های کاربر جستجو دید. چرا که کاربران محیطهای جستجوی ساده را ترجیح می‌دهند و نمی‌خواهند برای هر منبع اطلاعاتی نیز وقت و انرژی خود را برای یادگیری چگونگی استفاده از آن منبع خاص صرف کنند. هرچند ممکن است تنوع در طراحی رابط کاربر امتیازی برای یک سیستم بازیابی محسوب شود. اما این تنوع نباید به گونه‌ای باشد که کاربران در زمان استفاده از هر منبع با ساختاری کاملاً متفاوت مواجه شوند.

3.      تطبیق‌پذیری نظامهای ذخیره و بازیابی[5]: اطلاعات موجود در پایگاه‌ها و بانک‌های اطلاعاتی باید به گونه‌ای باشد که امکان انتقال و تبادل اطلاعات میان آنها را به سادگی فراهم آورد. بر این اساس، طراحان این نظام‌ها تلاش می‌کنند از قالب‌ها و ساختارهای مشابه برای ذخیره اطلاعات استفاده کنند. به این ترتیب زمینه لازم برای تعامل میان پایگاه‌های اطلاعاتی مختلف فراهم خواهد شد.

4.      شخصی‌سازی امکانات جستجو[6]: هر کاربر در هر مرحله از جستجوی اطلاعات نیازی منحصر به فرد دارد که باید به راحتی امکان تبیین آن را برای سیستم بازیابی داشته باشد. بنابراین، باید برای هرکاربر امکانی پیش‌بینی شود که به کمک آن بتواند نظام ذخیره و بازیابی را برای پاسخگویی به نیازش تنظیم کند. به سخنی دیگر، طراح سیستم باید یک ساختار یکسان اما کاملاً انعطاف‌پذیر را برای کاربران طراحی ‌کند. مثلاً کاربران باید قادر به افزایش یا کاهش تعداد فیلدهای جستجو باشند یا گستره و عمق جستجوی خود را به منابع مشخصی محدود کنند. مثلاً متخصصان علوم انسانی یک دانشگاه باید بتوانند در یک پایگاه اطلاعات علمی چندرشته‌ای منابع مهندسی و علوم پایه را از دامنه جستجوی موضوعی خود خارج کنند و به این ترتیب بر دقت فرایند بازیابی بیافزایند.

5.      کاهش سهم کاربران در تحلیل اطلاعات بازیابی شده: در اوائل دهه 1990 که وب جهان‌گستر پا به دنیای ذخیره و بازیابی اطلاعات گذاشت، تحولی شگرف و تاریخی در این عرصه رخ داد. اهمیت وب در توانایی منحصر به فرد آن در ایجاد پیوند مستقیم بین منابع اطلاعاتی گوناگون بود. امکانی که قبل از وب یا به سختی میسر بود یا در مواردی رویایی دور دست به شمار می‌آمد. چرا که در محیطهای الکترونیکی قبل از وب برای ایجاد پیوند میان دو منبع اطلاعاتی مقدمات و تمهیدات فراوانی لازم بود و معمولاً گذر از چند مرحله سلسله مراتبی ضرورت داشت. اما با تکیه بر توانایی وب در ایجاد لینک، بدون توجه به فاصله مکانی منابع اطلاعاتی، کاربران می‌توانستند فقط با برقراری یک پیوند مستقیم و با یک کلیک ساده از وب‌سایتی در شرق آسیا به وب‌سایتی در غرب امریکا متصل شوند. اما این سادگی در برقراری پیوند به تنهایی مشکل بازیابی اطلاعات را حل نکرد بلکه فقط زمینه‌ساز یکپارچگی در محیط وب شد، که البته این دستاورد در نوع خود تحولی تاریخی بود. با این حال، هنوز جستجوهای وبی با انبوهی از مدارک بازیابی شده همراه بوده و هست. در نتیجه کاربران مجبورند با بررسی نتایج بازیابی به گزینش مدارک مرتبط‌تر بپردازند و گاهی این گزینش خود فرایندی طولانی و خسته‌کننده است. بر این اساس، موتورهای جستجو تلاش می‌کنند با تدابیر مختلف نظیر خوشه‌بندی نتایج و حذف مدارک تکراری بخشی از این وظیفه را انجام دهند و از زحمت کاربران در این زمینه بکاهند.

6.      افزایش سهم کاربران در ذخیره و سازماندهی اطلاعات: ذخیره‌سازی انبوهی از اطلاعات جدید به وقت و انرژی فراوانی نیاز دارد. ولی اگر این وظیفه دشوار بین هزاران و گاه میلیون‌ها کاربر تقسیم شود، آن‌گاه پروژه‌های عظیم ورود اطلاعات به سرعت قابل اجرا خواهد بود. به این روش ذخیره اطلاعات «توده‌سپاری» یا «مردم‌سپاری»[7] می‌گویند که در آن برای ورود اطلاعات به برخی از پایگاه‌های اطلاعاتی می‌توان از کاربران سیستم خواست تا خود به ورود اطلاعات بپردازند. امتیاز این روش علاوه بر سرعت و سهولت در انجام این کار، دقت مضاعفی است که در ورود اطلاعات اعمال می‌شود. چرا که هر کاربر با تکمیل رکورد یا رکوردهای مربوط به خود و احاطه‌ای که بر اطلاعات مورد نظر دارد با خطای کمتری مواجه خواهد شد.

7.      افزایش سطح تعامل تولیدکنندگان و مصرف‌کنندگان اطلاعات: سطح تعامل کاربران با منابع اطلاعاتی چنان متحول شده است که امروزه به دشواری می‌توان مرز مشخصی بین تولیدکننده و مصرف کننده اطلاعات قائل شد. چرا که هر یک از آنان در یک زمان مشخص می‌توانند هر دو نقش را بر عهده داشته باشند. مثلاً خوانندگان وبلاگ‌ها با افزودن نظرات خود عملاً در تولید این منابع نقش دارند. نویسنده وبلاگ نیز در زمان نگارش تولیدکننده و در زمان خواندن نظرات کاربران مصرف کننده اطلاعات است. در نتیجه نمی‌توان نویسنده و خواننده وبلاگ را در دو گروه مجزا و مستقل از هم قرار داد. چرا که آنان در زمان‌های مختلف نقش‌های متفاوتی بر عهده دارند.

8.      کاهش وابستگی ذخیره و بازیابی به زمان و مکان: کاربر شتابزده و بی‌قرار امروز از وابستگی و محدودیت زمانی و مکانی برای دسترسی به اطلاعات گریزان است. دسترسی همیشگی به منابع در هر مکان خواست عمومی اغلب کاربران است. مثلاً آنان می‌خواهند از طریق گوشی تلفن همراه خود به صندوق پست الکترونیکی خویش نیز دسترسی داشته باشند و به جستجو در صفحات وب نیز بپردازند.

9.      افزایش امکانات کمکی سیستمها: در دنیای متحول تعامل انسان با کامپیوتر انتظار می‌رود سطح این تعامل میان انسان و ماشین هر روز افزایش یابد. مثلاً اگر به هر دلیل یک فرایند جستجو به نتیجه‌ای منجر نشود، کاربران انتظار دارند سیستم بازیابی با برخورداری از حداقل هوشمندی خود، دلایل این نتیجه و راهکارهای گذر از آن را به کاربر معرفی کند. ساده‌ترین مثال در این زمینه موتور جستجوی گوگل است که وقتی کلمه‌ای با املای اشتباه به آن وارد می‌شود، گزینه‌های احتمالی از املای درست را به کاربر پیشنهاد می‌کند. چرا که این احتمال وجود دارد که دلیل شکست در بازیابی اطلاعات، املای نادرست کلیدواژه‌ها باشد. در مثالی دیگر، گوگل بر اساس جستجو‌های قبلی می‌تواند ترکیب‌هایی که قبلاً با یک کلیدواژه خاص به کار رفته‌اند را به کاربر معرفی کند.

10.  جستجو بر اساس زبان طبیعی[8]: سالهاست که کتابداران و متخصصان اطلاع‌رسانی تلاش می‌کنند در فرایند نمایه‌سازی منابع با مهار واژگانی و تبدیل زبان طبیعی به واژگان استاندارد شده بر دقت بازیابی اطلاعات بیافزایند. این بنیاد منطقی در دنیای رایانه نیز جایگاه ویژه‌ای دارد. مبانی نظری و اهمیت این موضوع نیز همچنان پابرجاست و نظام‌های نوین بازیابی اطلاعات بر این اصل اساسی استوارند. اما طراحان پایگاه‌های جدید تلاش می‌کنند وظیفه‌ی تبدیل زبان طبیعی به واژگان مهار شده را از دوش کاربر برداشته و آن را به نظام بازیابی اطلاعات بسپارند. به این ترتیب کاربر با زبان طبیعی جستجوی خود را انجام می‌دهد و این وظیفه سیستم بازیابی است که نزدیکترین و مرتبط‌ترین گزینه در فهرست واژگان مهار شده را به این جستجو اختصاص دهد. چنین سیستم‌هایی از «رابط‌های کاربر مبتنی بر زبان طبیعی»[9] برخوردارند.

11.  جستجو‌های مبتنی بر بافت[10]: در دنیای واقعی هر مدرک یا فقره اطلاعاتی به شکلهای مختلف با مدارک و منابع دیگر در پیوند موضوعی و معنایی است. متخصصان بازیابی اطلاعات تلاش می‌کنند انعکاسی از این پیوندها را در فرایند جستجوی اطلاعات ایجاد کنند. به این ترتیب بازیابی یک منبع اطلاعاتی می تواند با بازیابی منابعی همراه باشد که به نحوی با موضوع آن در ارتباطند. بی آنکه کاربر کلیدواژه‌‌های مرتبط با آنها را به کار برده باشد. مثلاً اگر کاربری در جستجوی مقالات در زمینه گرم شدن زمین است، آن‌گاه موتور جستجو علاوه بر مدارکی که این کلیدواژه در آنها یافت می‌شود، مدارکی که حاوی کلیدواژه‌های مرتبط نظیر آب شدن یخچال‌ها یا تولید گازهای گلخانه‌ای نیز هستند را بازیابی کند.

12.  جستجوی معنایی[11]: جستجوی معنایی زمینه ساز تحقق ایده‌ی «وب معنایی» است. در وب معنایی بخش عمده‌ای از فرایند جستجو و بازیابی اطلاعات به سیستم سپرده می‌شود. سیستمی که هوشمند است و همچون ذهن آدمی می‌تواند بین مفاهیم مختلف ارتباط معنایی برقرار سازد. بنابراین، کاربر نباید چندان نگران انتخاب بهترین کلیدواژه یا از دست دادن منابع مرتبط باشد. چرا که کافی است او به بخشی از شبکه مفاهیم مرتبط به هم در مجموعی از مدارک دست یابد و با دنبال کردن پیوندهای معنایی میان آنها به نتیجه دلخواه خود برسد.

13.  جستجوی منابع غیر‌متنی[12]: بخش عمده‌ای از منابع موجود در وب غیر متنی است. تصاویر، فیلم‌ها و فایل‌های صوتی در وب فراوان یافت می‌شوند. مهمترین مشکل امروز در بازیابی منابع غیر متنی چگونگی توصیف این منابع و مناسب‌سازی آنها برای بازیابی موثر است. تا امروز مبنای توصیف منابع در تقریباً همه سیستم‌های بازیابی اطلاعات متنی بوده است. به همین دلیل کاربران نمی‌توانند به سادگی بین نیاز اطلاعاتی خود در منابع غیر متنی با نظام‌های بازیابی اطلاعات ارتباط برقرار کنند. مثلاً تصور کنید شما سرود یا ترانه‌ای در گذشته شنیده‌اید و نام خواننده و تولید کننده آن را نیز نمی‌دانید و آنچه در ذهن شما باقی مانده است، فقط بخشی از شعر یا نوای است. در چنین شریطی توصیف آنچه به دنبال آن هستید برای سیستم بازیابی کار بسیار دشواری است. این مشکل در مورد تصاویر نیز وجود دارد. برای درک این دشواری کافی است در بخش کاوش تصویر گوگل جستجویی آزمایشی انجام دهید و در مورد دقت بازیابی آن قضاوت کند. به راحتی خواهید دید که معمولاً ریزش کاذب در بازیابی تصاویر بسیار زیاد است و مدارک غیر مرتبط فراونی بازیابی می‌شود. در حال حاضر گروه‌های پژوهشی متعددی در دنیا در زمینه بازیابی منابع غیر متنی تحقیق می‌کنند و در جستجوی راهکارهایی برای حل این مشکل هستند.

14.  جستجو در منابع وب اجتماعی[13]:   امروزه بخش عمده‌ای از منابع وبی توسط کاربران نهایی وب تولید می‌شود که به این منابع اصطلاحاً «محتوای کاربر ساخته»[14] می‌گویند. نمونه‌ ابزارهایی که این امکان را برای کاربران فراهم می‌کنند عبارتند از: گروههای بحث، گروههای خبری، وبلاگ‌ها، و شبکه‌های اجتماعی مبتنی بر وب. موتورهای جستجوی امروز سعی می‌کنند امکان جستجو در این منابع را فراهم کنند. چرا که بسیاری از پرسش‌های کاربران به این منابع مربوط است.

15.  خلاقیت در بازنمایی نتایج جستجو: فرایند جستجو با نمایش نتایج بازیابی پایان نمی‌یابد. چرا که پس از آن کاربر ناچار است به بررسی منابع بازیابی شده بپردازد و مناسب‌ترین آنها را انتخاب کند. پژوهشگران صنعت جستجو تلاش می‌کنند با ارائه محصولات جدید و خلاقانه این فرایند بررسی و گزینش را تسهیل کنند. مثلاً استفاده از نمادهای تصویری و ترسیم ارتباط میان نتایج جستجو از نمونه تلاشهایی است که در این زمینه صورت گرفته است.

سخن پایانی

به رغم پیشرفت‌های موجود در زمینه ذخیره و بازیابی اطلاعات، صنعت جستجو هنوز دوران طفولیت خود را می‌گذراند و تا مرحله بلوغ و بالندگی راهی طولانی در پیش دارد. دورنمای مطلوب این صنعت زمانی محقق می‌شود که کاربران پس از جستجو در وب با فهرستی طولانی از منابع مواجه نشوند و مجبور نباشند با بررسی تک تک آنها به جداسازی انبوهی از منابع کم‌ربط و بی‌ربط بپردازند. به سخنی دیگر، هنوز بخش عمده‌ای از فرایند تحلیل و بررسی در فرایند جستجو بر عهده کاربر است و سیستم‌های بازیابی موجود چندان هوشمند نیستند که کمک موثری در تحلیل اطلاعات ارائه کنند. اما خوشبختانه گام‌هایی که در این زمینه برداشته شده، و به تعدادی از آنها در این یادداشت اشاره شد، نوید بخش آینده‌ای روشن برای این حوزه است. ضمناً به دلیل محدودیت حجم این مقاله امکان پرداختن به تمام محورهای پژوهشی در صنعت جستجو وجود نداشت. شاید شما بخواهید در بخش نظرات این یادداشت محورهای دیگری به این فهرست اضافه کنید. منتظر مشارکت شما در تکمیل این فهرست هستم.

یزدان منصوریان، اردیبهشت 1390

 

 



[1]Information Storage and Retrieval

[2]End User

[3] Federated Search

[4] Simplifying User Interface

[5] Interoperability

[6] Search Personalization and Search Customization

[7]Crowdsourcing

[8]Natural Language Searches

[9] Natural Language User Interfaces

[10]Contextual Searches

[11]Semantic Searches

[12] Non-textual Searches

[13] Social Web Searches

[14] User Generated Content

تمامی حقوق مطالب محفوظ است