برای اطلاع از آخرین مقالات علمی و اخبار کرونا(COVID-19) کلیک کنید

مشخصات مقاله

عنوان: 

پالایش صفحات وب بر اساس تحلیل هوشمند محتوا

نوع ارائه: مقاله
نویسنده: احمدي علي*,زمانيان مهدي,فرزين هادي,خالقي محمود,محمدي تاکامي محسن
 
 *دانشكده برق و كامپيوتر، دانشگاه خواجه نصير طوسي
 
عنوان همایش: كنفرانس ملي سالانه انجمن كامپيوتر ايران
نوع همایش:  انجمن هاي علمي
حامی:  انجمن کامپیوتر ایران، دانشگاه صنعتی امیرکبیر
زمان:  1387دوره 14
 
چکیده: 

روش هاي موجود براي پالايش صفحات وب بيشتر مبتني بر سد كردن نشاني هاي اينترنتي خاص از طريق جستجو در يك ليست مرجع از صفحات غير مجاز و يا با استفاده از تحليل ساده متن از طريق جستجوي كلمات كليدي خاص در صفحات است. مشكل اصلي اين روش ها نياز براي به روزرساني مداوم فهرست نشاني ها و نيز ميزان قابل توجه اشتباه گرفتن صفحه هاي مجاز در آنهاست. در اين مقاله يك روش پالايش هوشمند براي پالايش صفحات غيراخلاقي را پيشنهاد كرده ايم كه با استفاده از هر سه نوع ويژگي ساختاري، متني و تصويري و تركيب سلسله مراتبي آنها يك دسته بندي هوشمند با دقت بالا (روي FN و FP هر دو) را به دست مي دهد. الگوريتم روي 2600 صفحه وب شامل 1400 صفحه غيراخلاقي (داراي متن، تصوير، يا هر دو) انگليسي و فارسي و 1200 صفحه مجاز شامل صفحات پزشكي، سلامت، ورزشي و غيره مورد آزمايش قرار گرفته و دقت دسته بندي بالاي 95% را به همراه داشته است.

 
کلید واژه: پالايش هوشمند، پالايش محتوا، شناسايي صفحات وب، صفحات غير اخلاقي، پروفايل صفحات، رنگ پوست
 
مقالات نشریه ای مرتبط: 
 
مقالات همایشی مرتبط: 
 
ارتباط خیلی زیاد ارتباط زیاد مرتبط ارتباط کمتر
 
 
بازدید یکساله 146   pdf-file
 
 
 
آخرین های بلاگ
ورود به بلاگ مرکز اطلاعات علمی