تبيين بين بافت صوتي و بافت تصويري

 
ارسال شده در تاریخ 2/1/2017 توسط admin در زمینه
 

کای و دیگران (1996) نمایه سازی خودکار برنامه های تلویزیونی از طریق موضوع و نوع آنها را بررسی کرده اند، اما آنها به جای نگارش های صوتی، بر روی متن چاپی برنامه های تلویزیونی کار کرده اند.

هاپت من و ویت بروک (1997) سیستمی را شرح داده  اند که بخشهای درخواستی اخبار تلویزیونی را بازیابی می کند. در این سیستم، برای تهیه رونوشت های متنی از بخش های صوتی برنامه های رادیو و تلویزیونی، از فن آوری تشخیص گفتار استفاده می شود. این رونوشت ها در قالبی قابل جستجو ذخیره میگردند. می توان از درخواستهای گفتاری برای بازیابی و پخش یک قطعه خاص استفاده کرد. نویسندگان ادعا می کنند که سیستم آزمایشی آنها با کمی دقت در تشخیص صوتی، کاملاً قابل استفاده است . مانی و دیگران (1997) از تحقیق مشابهی صحبت به میان آورده اند که بر روی روش های بازیابی قطعات ویدیویی اخبار تلویزیونی انجام شده است.

پاتل و ستی” (1996) روش هایی را شرح داده اند که آنها، خود، برای طبقه بندی قطعات فیلم به منظور پردازش های صوتی ابداع کردهاند. درحال حاضر، این سیستم فقط میتواند رده های کلی (مثل موزیکال) را تشخیص دهد، اما نویسندگان گفته اند که برای شناسایی انواع خاص تر صحنه ها (صحنه های حادثه ای، صحنه رقص و غیره) می توان سیستم را ارتقاء داد. پایل و ستی، بعدها (1997) پژوهش خود را بر روی شناسایی و تشخیص سخنران (مثل تشخیص بازیگران نم آهنگهااز بازیگران فیلم ها) متمرکز کردند. توانایی بازیابی سخنرانی ها به میزان پیشرفته بودن فن آوری گفتاری وابسته است. به نظر میرسد که مجلات تجاری عامه پسند، درباره توانایی های آتی این فن آوری بسیار خوش بین هستند. مثلاً به ادعای فلاین (1993) که کاملاً غیر واقعی است توجه کنید:

در پایان این دهه، سیستم های تشخیص گفتار به ما اجازه خواهند داد تا با واژگانی نامحدود اما واقعی صحبت کنیم.

– هاس (1996)، به نقل از ریود نیکی”، په نکته درباره جنبه های اتی این حوزه اشاره می کند:

بین تشخیص گفتار و فهم گفتار تفاوت وجود دارد: تشخیص گفتار به سیستمی برای شناسایی کلمات در یک گفته نیاز دارد درحالی که فهم گفتار به سیستمی نیاز دارد که بتواند بر مشکلات فهم زبان طبیعی مثل مرجع پیشایند، حذف به قرینه، و سایر پدیده های گفتاری فایقی آید. تشخیص گفتار برای وظایفی ساخت یافتهای مثل ورودو داده و صادرکردن دستورات و فرمانهای ساده مفید است، اما یک گفتگو – از هر نوع – به فهم گفتار نیاز دارد. ( ص. 98)

فهم گفتار انسانی از طریق رایانه، چشم اندازی نیست که در افقی نزدیک قرار داشته باشد.درباره دست آورده ای فن آوری تشخیص گفتار و آنچه در آینده ای نزدیک در این حوزه به وقوع خواهد پیوست، حتی در بین اجتماع محققین این رشته نیز عقاید بسیار متفاوتی وجود دارد. مثلاً، لوینسون (1995) اعتقاد دارد که زمان زیادی به طول خواهد انجامید تا سیستم هایی ابداع شوند که ارزش تجاری داشته باشند؛

اکثر افراد اعتقاد دارند که پیشرفتهای فنی به زودی باعث خواهد شد تا تشخیص گفتار تجاری، با واژگانی گسترده، برای اهدافی خاص میسر شود. پیشبینی من ; آن است که پیشرفتهای فنی بسیار آرام ظهور خواهند نمود اما در طول 40 یا 50 سال آتی، تشخیص گفتار در سطوح مختلفی گنش انسانی فراگیر خواهد شد. یعنی اینکه، پیشرفتهای فنی سریع، در کوتاه مدت، به یک فن آوری آسیب پذیر در یک بازار تجاری نسبتاً محدود دست خواهد | بافت، درحالی که پیشرفتهای فن آورانه اصلی که از یک تغییر الگو در علم پایه حاصل خواهد آمد، میتواند سطوح مختلفی گنبش انسانی را در زبان گفتاری ایجاد نماید. این مسئله، به نوبه خود، بازاری از ارزش های غیرقابل محاسبه تجاری را ایجاد خواهد کرد.( ص. 9954)

در یک تک نگاشت  اثر مارکوویتس (1996) بر رسمی جامعی درباره تشخیص گفتاری ارائه شده است. تشخیص اینکه تحقیق در حوزه بازیابی تصاویر یا صوت، بیشتر به فنون نمایه سازی خودکار وابسته است تا به نمایه سازی انسانی، از اهمیت زیادی برخوردار است.

بنابراین، روش هایی که در دو فصل بعد مورد بحث قرار خواهند گرفت کاملا به محتوای اطلاعاتی این فصل وابسته است.

Copyright © 2014 icbc.ir