مقايسه فرآيندهاي نمايه سازي خودکاربا نمايه سازي متخصصين

 
ارسال شده در تاریخ 4/1/2017 توسط admin در زمینه
 

مک دونالد (1992) به طور کلی اشاره می کند که بهترین تجزیه گرهای امروزی فقط می توانند با جملاتی نسبتاً کوتاه و ساده سروکار داشته باشند. برای جملات طولانی تر و پیچیده تر، حداکثر کاری که این سیستم ها میتوانند انجام دهند شناسایی بخش های تشکیل دهنده (مثل تشخیص گروه های اسمی) است. آنها پایین تر از حدی هستند که بتوانند یک تحلیل روشن و کامل را ارائه نمایند. تجزیه گرها به طور بالقوه میتوانند بر روی یک جمله روزنامه ای معمولی که از 25- 20 کلمه تشکیل شده است، صدها تحلیل انجام دهند. به گفته مکدونالد، هیچ سیستم تجزیه گری نمی تواند همه چیز را در یک متن واقعی، مثل یک مقاله خبری، بفهمد.

حتی با واحدهای نسبتاً محدودی (درحدود 1500 پیام) از متن های کوتاه (متشکل از حدود 14 جمله)، بهترین روش های موجود نیز از ارائه نتایجی مناسب ناتوان اند؛ مثلاً در یک آزمایش بر روی استخراج متن، همه جملات مرتبط انتخاب نشدند و همه جملات انتخاب شده نیز مرتبط نبودند. در یک موقعیت ارزیابی کنترل شده، بهترین روش های موجود پنجاه پنجاه عمل کرده اند (جاکوبز و راو، 1994؛ ساندهایم ، 1995)؛ مثلاً آنها در حدود نیمی از الگوهایی (بازنمودهایی ساختار یافته که براساس متن استخراج شده از پیام ها شکل می گیرند) که باید تولید می کردند را تولید کردند و فقط در حدود نیمی از این الگوهای تولیدشده مرتبط بودند (یعنی با استانداردهای از پیش تعیین شده همخوانی داشتند). هرچند بعضی از سیستم های پردازشی نتایج بهتری را گزارش داده اند، اما آنها نیز بر روی نمونه های بسیار ساده آزمایش شده اند. مثلاً، هایز (1992a) 94 جامعیت و 84 مانعیت را در سیستم کانسترو گزارش داده است، اما آزمایش انجام شده – قراردادن گزارش های خبری در حداکثر200 مقوله – بسیار ساده تر از استخراج متن یا پر کردن قالب الگو است.در شرایط کنترل شده و در هنگام استخراج های سادهتر (مثل، یافتن اسامی در متن)، امتیازات بهتری میتواند حاصل اید (ساندهایم، 1995)

سطح کارایی پنجاه پنجاه در استخراج متن / تکمیل قالب الگو را نیز باید موردتوجه قرار داد. این نتایج در حوزه های موضوعی بسیار محدودی حاصل آمدهاند (مثل، فعالیت های تروریست ها در آمریکای لاتین). برای دستیابی به انتخاب جمله، باید یک واژه نامه موضوعی – حوزه ای ایجاد شود. هرچند برای تولید خودکار یا نیمه خودکار این واژه نامه ها ابزارهایی ابداع شده است (ریلوف ” و لنرت ” ، 1993)، ولی حتی در حوزه های موضوعی بسیار محدود نیز ایجاد چنین واژهنامه هایی بسیار کاربر خواهند بود (فقط در یک نمونهه 150 نفر ساعت گزارش شده است).

به طور کلی، حتی پیشرفته ترین فرآیندهای نمایه سازی خودکار کنونی نیز با نمایه سازی متخصصین قابل مقایسه نیستند. مثلاً، چیوت و یانگ (1993) که با گزارشات جراحی سروکار داشته اند، دریافتند که رمزهای اختصاص یافته انسانی، به نسبت انواعی از فرآیندهای خودکار مثل نمایه سازی معنایی پنهان، نتایج بهتری را ارائه می دهند. پیش از این، هرش و هیکام” (1991) گزارش داده بودند که جستجو براساس کلمات متنی (فقط عناوین و چکیده ها)، به نسبت جستجو براساس نمایه سازی انسانی (مدلاین) یا رکوردهای خودکار پردازشی شده در یک مجموعه پزشکی ، نتایج بهتری ارائه داده است.

Copyright © 2014 icbc.ir