با توجه به نقش بانکهاي اطلاعاتيXML و نيز اهميت XML به عنوان يک زبان نشانه گذاري استاندارد که مي تواند انواع داده ها را در خود نگهداري نمايد، نياز به روشهايي که بتوانند اطلاعات موجود در اسنادXML را در زمان کوتاهي بدست آورند، به شدت احساس مي شود. يکي از خصوصيات اسنادXML نيمه ساختيافتگي، آنها مي باشد. در اين ساختار يک رکورد مي تواند بعضي از فيلدها را نداشته باشد و يا فيلدهاي رکوردها مي توانند مثل هم نباشد. در اين مقاله با استفاده از ويژگيهاي نيمه ساختيافته اسنادXML و تکنيک هاي طبقه بندي داده ها به بهينه سازي پرس و جو مي پردازيم. در روش پيشنهادي تعداد اسنادي که پرس و جو بر روي آنها اجرا مي شود را کم مي کنيم و در نتيجه زمان اجراي پرس وجو را کاهش مي دهيم. در اين ميان تشخيص و ارجاع پرس وجوها به طبقه ها چالش تازه اي در زمينه مديريت پرس و جو مي باشد.
در روش پيشنهادي با تبديل درخت سندXML به درخت دودويي و با ارايه الگوريتمي، از ويژگي درختان دودويي براي طبقه بندي اسنادXML استفاده مي کنيم. علت اين تبديل، تشخيص آسان وجود يا عدم وجود المانها در درختان دودويي مي باشد. سپس با ارايه روشي سلسله مراتبي براي ذخيره سازي فيزيکي طبقه ها در کنار هم و استفاده از بخش هدايتگر پرس و جو، به پرس و جوي کاربر پاسخ داده مي شود.