ترجمه مقاله خوشه بندی مبتنی بر مدل داده های انتخابی مشتری
خوشه بندی مبتنی بر مدل داده های انتخابی مشتری
Model based clustering of customer choice data
چکیده:
کاربرد تجربی تجزیه و تحلیل داده های انتخابی مشتری- محصول، احتمالا به بخش بندی افرادی که رفتار خرید مشابهی دارند در بخش های همگن مربوط می شود. علاوه بر این، متغیرهای کمکی افراد و یا محصولات خاص نیز باید در دسترس باشند. اثرات بالقوه ی آنها بر احتمال انتخاب محصولات معین نیز ممکن است بررسی شده باشد. مدلی برای اشتراک خوشه های واحدهای آماری(مشتریان) و متغیرها(محصولات) در یک چارچوب مدل ترکیبی طراحی شده است و یک الگوریتم نوع EM برای تخمین پارامتر ML ارائه شده است. این مدل می تواند به آسانی با طرح های مشابه ارائه شده در زمینه های مختلف مثل خوشه های مشترک داده های بیان ژن، خوشه های کلمات و اسناد در تجزیه و تحلیل داده کاوی وب پیوند یابند.
سفارش ترجمه تخصصی مهندسی کامپیوتر
- مقدمه
ما یک رویکرد مدل محور را در جاییکه بخش های متناظر وابسته هستند، برای خوشه بندی افراد و محصولات در گروه های غیر مشترک افراد و ویژه محصولات طراحی کردیم. ما به گروه های ویژه افراد بعنوان بخش ها ارجاع می دهیم در حالیکه گروه های ویژه محصولات بعنوان خوشه ها ارجاع داده می شوند. انگیزه ها از وضعیت های تجربی-شرایطی که داده های مشتری تحلیل می شود تا عوامل مؤثر بر رفتار خرید نسبت به محصولات مختلف بررسی شود- نشأت میگیرد. این ایده برای تعریف بخش های ویژه افراد است که همگن بودن بر اساس انتخاب محصولات توسط مشتری است؛ شرط قبلی احتمال تعلق یک فرد به یک بخش معین بود که فرض شده بود یک متغیر کمکی تابع ویژه افراد باشد و ما به بررسی چگونگی تأثیر این ویژگی ها بر اعضای بخش علاقه مند بودیم. همچنین ما می توانیم تصور کنیم که درون بخش ویژه افراد، بخشی از محصولات ممکن است بر اساس ویژگی هایشان شناسایی شوند. بعنوان مثال، مشتریان با یک پروفایل خرید مشخص ممکن است زیرمجموعه ی خاصی از محصولات را ترجیح دهند زیرا ویژگی ها و ترجیحات در درون بخش های مشتریان متغیر است. در این دیدگاه، ما علاقه مندیم که بررسی کنیم آیا افراد در یک بخش خاص( که نماینده رفتار خرید اولیه هستند) زیرمجموعه ی خاصی از محصولات را برای ویژگی هایشان انتخاب می کنند. در این چشم انداز، ما مشتریان و محصولات بخش بندی شده را به طور مشترک هدف گرفته ایم تا در مورد مؤلفه های انتخاب مشتری بررسی کنیم. این هدف احتمالا با روش هایی برای اتصال تفکیک بندی ژن ها و بافت ها( یا شرایط تجربی) در تجزیه و تحلیل داده های میکرواری[1] ( بعنوان مثال به مارتِلا و همکاران(2008) رجوع شود)، کلمات و اسناد در تجزیه و تحلیل داده های وب( بعنوان مثال به لی و ژا،2006 رجوع شود) یا به طور کلی، زمانیکه خوشه ی پنهان بلوکی محور پیگیری شدند( بعنوان مثال به گاوائرت و نادیف،2003 رجوع شود) مرتبط است. ارتباطات جالب دیگر می تواند با ترکیب چند لایه ای( بعنوان مثال به لی(2005) رجوع کنید) و با ترکیب سلسله مراتبی مدل های تخصصی( بعنوان مثال به تیتسیاس و لایکاس(2002) رجوع شود)، برقرار شود. چنین ارتباطات ریاضیاتی در بخش های بعدی به منظور درک بهتر طرح ما بحث خواهد شد.
طرح این مقاله به شرح زیر می باشد. در بخش 2، مدل در یک چارچوب کلی معرفی می شود و در بخش 3، یک رویکرد ML برای تخمین پارامتر توصیف می شود. یک الگوریتم نوع EM در زمینه ی داده های محاسباتی مشاهده شده در بخش 4 با جزئیات آمده است . در بخش 5، تجزیه و تحلیلی از مجموعه ی داده های بنچمارک ارائه شده است. در آخرین بخش، نتیجه گیری و دستورالعمل های پژوهشی آتی بحث شده است.
- مدل
هرگاه Yi, i = 1, . . . , n یک بردار تصادفی P بعدی باشد و yi, i = 1, . . . , n نشاندهنده ی درک متناظر در یک نمونه ی nحجمی باشد؛ آنگاه Y = (Y1, . . . , Yn)T علامت ماتریس (n, p) ارزش های مشاهده شده yij برای افراد i = 1, . . . , n و متغیر j = 1, . . . , p می باشد. تنها بعنوان یک مثال و بدون از دست دادن عمومیت، ما ممکن است فرض کنیم n مشتری و p محصول داریم و yij تعداد اقلام j محصولات توسط i مشتری را نشان می دهد که در فاصله ی زمانی مشخص خریداری شده اند.
علاوه بر این، ما فرض می کنیم که مجموعه ای از متغیرهای کمکی خروجی های ویژه (قیمت، وزن، نوع بسته و غیره) و ویژه افراد (سن، جنسیت، سطح تحصیلات، درآمد و غیره) نیز ثبت شده است. Xi و zj بردارهایی را نشان می دهند که به ترتیب شامل ویژگی های i فرد و j محصول، j = 1, . . . , p, می شود. در ادامه، به منظور شفاف سازی بیشتر، گروه های افراد و محصولات به ترتیب با اصطلاحات بخش ها و خوشه ها می آیند.
ما یک چارچوب مدل ترکیبی را اقتباس کرده ایم و با فرض اینکه جامعه ی آماری ما شامل G بخش در نسبت ها می شود، کار را شروع کردیم. . یک شاخص دوتایی غیر مشاهده بعد G بردار
با هر فرد در ارتباط است و یک مؤلفه ی غیر صفر منحصر به فرد دارد، که نشان می دهد آیا افراد i به بخش g متعلق هستند یا خیر،
، بعنوان مثال به تیترینگتون و همکاران،1985 رجوع کنید. در چنین طرح نمونه گیری ترکیبی، نمونه از طریق اولین طرح اقتباس شده است، مستقل از هر واحد است، متناظر با برچسب بخش است
, uig، از جامعه ی آماری با تابع تراکم احتمالی
، پس ارزش متغیرهای خروجی از جمعیت pdf مشخص توسط فرمول زیر محاسبه می شود:
و نتیجه آماره log-likelihood داده های کامل ممکن است همانند زیر نشان داده شود:
برآورد پارامترهای ویژه بخش و پارامترهای پیشین
معمولا بر اساس الگوریتم نوع EM می باشد. چنین برآوردی به ما کمک می کند تا تراکم های ویژه بخش را شناسایی کنیم و مانند یک محصول فرعی هر فرد را به یک بخش از طریق قانون حداکثر ثانویه(MAP) اختصاص دهیم. به این معنی که، افراد i به بخش g اختصاص می یابند اگر شرط زیر در احتمالات ثانویه برقرار باشد:
اگر فرض کنیم درون بخش ویژه افراد g ، احتمال شناسایی یک بخش از محصولات در خوشه های
وجود دارد. شکل یک احتمالا با شفافیت بیشتری نشان می دهد که در رابطه با چه نوع بخشی از داده های مشاهده شده بحث می کنیم
شکل 1. ردیف و ستون- بخش ویژه
|
ممکن است فرض کنیم که افراد گرایش های مختلفی نسبت به کالاها دارند؛ به ویژه در درون بخش مشابه g، افراد گرایشات مشابهی را برای خرید محصولات متعلق به خوشه ی مشخص با هم تسهیم می کنند. به عبارت دیگر، آنها رفتارهای مشابهی را نشان می دهند زمانیکه خوشه ی معین از محصولات مستلزم این مورد است: گرایشات متفاوت خرید برای گروه محصولات در خوشه ی متفاوت Kg وجود دارد. برای تعریف یک بخش ویژه محصول درون یک بخش ویژه افراد، ما شاخص خوشه ی ویژه محصولKg بعدی غیر قابل مشاهده را معرفی کردیم، که نشان می دهد زمانیکه تنها افراد درون بخش g در نظر گرفته می شوند، محصول j به خوشه ی ویژه محصول متعلق است.
اگر به معنی احتمال ثانویه باشد که محصول j به خوشه ی ویژه محصول k در بخش ویژه افراد g تعلق دارد؛ این اصطلاح ممکن است بعنوان نوعی میانگین احتمالی تفسیر شود که یک فرد در بخش g یک محصول در زیرمجموعه ی k را انتخاب می کند. که اینگونه مشخص می شود:
سفارش ترجمه تخصصی مهندسی کامپیوتر
احتمال ثانویه برای فرد i در بخش g و محصول j در خوشه ی k. در متن فعلی، ما ممکن است بخواهیم از برخی متغیرهای کمکی مشاهده شده برای مدل سازی اعضای خوشه/بخش قبلی استفاده کنیم؛ چنین متغیرهای کمکی ای ممکن است شامل ویژگی های انتخاب جایگزین ها(بعنوان مثال قیمت، جزئیات، و غیره) و همچنین افراد(درآمد، سن، جنسیت، غیره) شوند. با شروع از بخش قبلی، ما مستقیما اصطلاحات را تعریف نکردیم اما شروط مقارنشان
هستند:
که بردار ویژه بخش همبستگی رگرسیون است و
در نظر گرفته شده است تا قابلیت شناسایی مدل تضمین شود. به طور مشابه، اگر متغیرهای کمکی ویژه محصول در دسترس هستند، ما ممکن است شرط قرینه ی
را اینگونه تعریف کنیم:
که بردار مشاهده شده ی متغیرهای کمکی ویژه محصول است، درحالیکه
بردار همبستگی رگرسیون ویژه خوشه است، با
برای تضمین قابلیت شناسایی پارامتر. با توجه به این پارامتر، پیوستن احتمالی فرد i در بخش g و محصول j در خوشه ی k می تواند اینگونه نوشته شود:
. تحت چنین مدلسازی فرضی، شروط احتمالی ممکن است همانند زیر نوشته شوند
بیانات ذکر شده مدل های لاجیت چند جزئی را توصیف می کنند که بر متغیرهای کمکی ویژه افراد و ویژه محصول در احتمالات تأثیر می گذارند که فرد i و محصولj به کلاس مشخص(بخش، خوشه) (g,k) از مجموعه ی کلاس های متعلق است. زیرا هر مشاهده از تراکم ترکیبی متناهی نمونه گیری شده است، تراکم حاشیه ای از
می تواند اینگونه نوشته شود:
در فرمول بالا، پارامتر کلاس ویژه ، توزیع کلاس ویژه را نمایه سازی می کند.
گرایش یک فرد در بخش g را برای انتخاب یک محصول در خوشه ی k نشان می دهد و به طور اختصار به مدل کامل مجموعه پارامتر اختصاص می یابد که متغیرهای کمکی ویژه افراد یا ویژه محصول باید در دسترس باشند و تراکم شرطی از معاله (8) از طریق جایگزینی حاشیه های قبلی با شرطی بدست می آید:
بنابراین، اگر فرض شود که محصولات p مستقل هستند، شرط مربوط به یک بخش معین و متغیرهای کمکی هم برای افراد و هم برای محصولات برقرار است و آماره log-likelihood از فرمول زیر محاسبه می شود:
که و
به ترتیب به معنی بردارهای پارامتر رگرسیون ویژه خوشه و ویژه بخش است.اگرچه اطلاعات مربوط به
و
به ترتیب از اعضای بخش و خوشه می آید و اطلاعات مربوط به شاخص پارامتر
از کلاس های شناسایی شده توسط مجموعه ی
به دست می آید. در این زمینه، بخش های ویژه افراد و ویژه محصول از طریق پارامترهای مدل به هم مرتبط می شوند
. این امر ممکن است به شناسایی خوشه های محصولاتی که متناظر با رفتارهای متفاوت خرید-زمان مقایسه با میانگین رفتارهای افراد در بخش g هستند- کمک کند.
2-1- رویکردهای مرتبط
همانگونه که ذکر شد، مدل پیشنهادی ممکن است به طرح های مختلف در ادبیات بویژه در تجزیه و تحلیل کلاس متغیرهای پنهان چند سطحی، وب کاوی و متن کاوی، روش های خوشه ای بلوکی مربوط باشد. تفاوت های اصلی با روش های خوشه ای مشترک طرح شده توسط گاوائرت و نادیف(2003) و با مدل کلاس متغیرهای پنهان چند سطحی از وِرمانت(2007) به ساختار سلسله مراتبی بر می گردد. فرض می کنیم بر اساس پارامتر متناظر، گاوائرت و نادیف(2003) مسئله خوشه ی بلوکی را در نظر گرفته اند و یک بخش بلوکی ساخته اند که بعنوان محصول دکارتی[2] از بلوک های ویژه ردیف یا ویژه ستون تعریف شده اند. با کمی تغییر نظریه اصلی، آماره log-likelihood متناظر می تواند اینگونه نوشته شود:
همانگونه که به آسانی می تواند دیده شود، اگرچه پارامترسازی شبیه آنچه که در این مقاله بحث شد می باشد، فرض بخش های مستقل کمی متفاوت است. با فرض شرط استقلال درون بخش ها، اینگونه محاسبه می کنیم:
در طرح گاوائرت و نادیف(2003)، ارتباط بین بخش های ویژه ردیف و ویژه ستون از طریق بردار پارامتر ویژه ردیف/ستون محاسبه شد اگرچه این رویکرد در نظر گرفته نمی شود اما نهایتا نه به طور ضمنی، متغیرهای مشاهده شده ممکن است با مقیاس های مختلف سنجیده شوند( بعنوان مثال کالاهای با دوام و سریع المصرف) حتی زمانیکه
، مشابهت هایی با مدل کلاس متغیرهای پنهان چند سحطی توسط ورمانت(2007) مشاهده می شود و علاوه بر این، در این مورد، ما سلسله مراتبی از بخش ها با خوشه هایی از مناسبت های تو در تو درون بخش های ویژه افراد داریم. نتیجه ی ساختار بر اساس تعداد مشابه خوشه ها برای مناسبت ها درون بخش های افراد است در حالیکه پارامترها ممکن است ویژه خوشه باشند اما ویژه بخش نباشند. ساختار سلسله مراتبی که ما طرح کردیم مشابه آنچه که در معادله (2) آمد، از ورمانت(2007) می باشد که یک ساختار سه راهی(واحدها، متغیرها، مناسبت ها) در نظر گرفته شده است. با کمی تغییر در نظریه اصلی و با فرض اینکه تنها یک مناسبت در دسترس است، مدل طرح شده توسط ورمانت(2007) به یک مدل ترکیبی متنهای استاندارد کاهش می یابد:
چون بردار پارامتر اجازه ی تغییر میان بخش های ویژه افراد را ندارد. برای سازگاری بیشتر با طرح ما، اجازه دهید فرض کنیم که مناسبت ها محصولات مختلف را نشان می دهند: ما یک ساختار چند سطحی را نداریم اما به سادگی یک پاسخ چند متغیره را داریم. در این مورد، مدل ارائه شده توسط ورمانت(2007) متناظر با تراکم حاشیه ای زیر است:
که تعداد خوشه های ویژه محصول میان بخش های ویژه افراد متغیر نیست، و پارامتر های ویژه خوشه تنها میان محصولات و خوشه های ویژه محصول متغیر است، به ورمانت(2008) رجوع شود.
ارتباطات جالب دیگر با مدل های ترکیبی متناهی چند لایه ای اخیر می تواند برقرار شود. بعنوان مثال، لی(2005) ترکیب متناهی دو راهی از توزیع گاوسی را در نظر گرفته است که برای تراکم های ویژه بخش غیر گاوسی مجاز است؛ بعد از برخی تغییرات، این مدل به آسانی به پاسخ های چند متغیره غیر گاوسی بسط یافته است که اینگونه نوشته می شود:
در این مورد، تعداد خوشه های ویژه محصول و بردارهای پارامتر برای تغییر با بخش های ویژه افراد مجاز هستند. تفاوت اصلی با طرح ما این است که ما از تراکم های پارامتریک ترکیب شده برای نمایش تراکم های ویژه محصول استفاده کردیم و فرض شده است که محصولات به طور شرطی مستقل از بخش ویژه افراد است. تقریبا، مجموع (k) و محصول(j) زمانیکه با طرح ارائه شده توسط لی(2005) مقایسه می شوند، در ترتیب برعکسی قرار دارند. سر انجام، ارتباط بیشتری با کار ارائه شده توسط مارتِلا و همکاران(2008) می تواند برقرار شود، در جاییکه بخش های ویژه محصول از طریق یک کاهش بعدی بر اساس تحلیل گران عامل با یک ماتریس بار دوتایی جایگزین می شود.
- برآورد پارامتر ML
طبق معمول، شاخص عضویت بخش و خوشه با و
نشان داده می شوند که غیر قابل مشاهده هستند، بنابراین، می توان آنها را بعنوان داده های از دست رفته در نظر گرفت و طبیعتا چنین کاری به الگوریتم حداکثر انتظارات(EM) برای برآورد پارامتر منجر می شود. بردار داده های کامل برای افراد i با
مشخص می شود. با فرض یک توزیع چند جزئی برای شاخص های عضویت غیر قابل مشاهده،
و
، آماره log-likelihood برای داده های کامل اینگونه نوشته می شود:
در گام r الگوریتم EM، آماره log-likelihood برای داده های مشاهده شده از طریق در نظر گرفتن انتظار آماره log-likelihood برای داده های کامل بیش از مؤلفه های غیر قابل مشاهده تعریف می شود. بردارهای و
داده های مشاهده شده ی
را تعیین می کنند و پارامتر آماره log-likelihood حداکثر فعلی را برآورد میکنند.
اگر احتمال خلفی را نشان دهد که فرد i به بخش g متعلق است و محصول j به خوشه ی k متعلق است و درون بخش ویژه افراد g قرار گیرد، شرط داده های مشاهده شده و پارامتر جاری برآورد می شود.
توجه داشته باشید که را حفظ کنید. بنابراین، محاسبه ی ارزش مورد انتظار آماره log-likelihood داده های کامل( در گام E از الگوریتم EM) شامل احتمالات خلفی به روز شده توسط میانگین الگوریتم های نوع رو به آپ وارد/دون وارد[3] می شود. اگرچه ما از این اصطلاح (البته نه به طور استاندارد) که توسط ورمانت(2007) برای برجسته کردن شباهت با الگوریتم های فوروارد-بکوارد[4] برای برآورد ML در مدل های پنهان مارکو معرفی شده بود، استفاده می کنیم. آن از فرضیات مستقل محلی محصولات داده شده به اعضای افراد درون بخش g بهره برداری می کند( یعنی به طور شرطی، بخش g، محصولi از سایر محصولات مستقل هستند). در گام r، و
با انتظارات شرطی شان جایگزین می شوند که ما ممکن است انتظارات شرطی لگاریتم لایکلی هود داده های کامل را بر اساس داده های مشاهده شده معین تعریف کنیم و پارامتر جاری را اینگونه برآورد کنیم:
برآورد MLبرای پارامترهای مدل ممکن است از طریق حداکثر سازی با توجه به مشتق شود. با این حال، بعلت ساختار سلسله مراتبی داده های مشاهده شده، الگوریتم استاندارد EM نیاز به اصلاح دارد. در بخش بعدی، ما با جزئیات گام های E و M الگورتیم با بهره برداری از مشابهت های الگوریتم های نوع EM استفاده شده در زمینه ی مدل های چند مناسبتی چند سطحی مطابق با نظریه ورمانت(2007)، را توصیف می کنیم.
3-1- تعداد خرید مشاهده شده
در مورد داده های شمارشی(زمانیکه ارزش های مشاهده شده تعداد زمان هایی است که محصول j توسط مشتری i خریداری شده است)، فرض شده است که پاسخ ،متغیرهای تصادفی پوآسون مستقل(به طور شرطی) در خوشه ی ویژه محصول k درون بخش ویژه افراد g باشد:
در گام r، ما معدله ی گام M را حل کردیم و برآورد پارامتر ویژه خوشه زیر را اقتباس کردیم:
با این حال، در این مورد، ما قادر به تمایز اثرات(با توجه به برآوردهای پارامتر مدل) خوشه ها/ بخش های ویژه محصول/افراد از اثرات حاصل از مقیاس های ویژه محصول مشاهده شده نخواهیم بود. در حقیقت، با بررسی برآوردها در بیانات پیشین، ممکن است متوجه شویم که بعنوان میانگین وزنی کلی با احتمالات خلفی هر مجموعه(بخش، خوشه) بعنوان وزن ها محاسبه شده است. در دیدگاه جداسازی اثرات( با توجه به رفتارهای خرید) حاصل از شباهت های میان افراد در بخش مشابه و میان محصولات از اثرات مقیاس( تنها بر اساس تعداد خریدهای مشاهده شده)، ما مدل با مختصرتری را تعریف کردیم. به طور خاص، ما فرض می کنیم که تمام پارامترهای ویژه خوشه در میان محصولات گرفته تا مقیاس پارامتر ویژه محصول برابر هستند. به این معنی که، ما قاعده ی زیر را فرض گرفته ایم:
. در اینجا، مشابهت با مدل های نوع راش[5] می تواند مورد توجه قرار گیرد، جاییکه هر مورد(در اینجا محصول) با پارامتر ثابت θj مرتبط است، پیچیدگی آن مورد(در اینجا نرخ کلی خرید محصول) را نشان می دهد و رفتار ویژه فرد از طریق اثرات تصادفی (پارامتریک) ( در اینجا توزیع مجزاست و یک ساختار چند لایه ای اقتباس شده است) مدل سازی شده است. بدیهی است، این پارامتر سازی به مدل های محاسباتی سطح بالا و پیچیده منجر می شود، زیرا پارامتر های اثر ثابت P باید برآورد شوند؛ اگرچه این پارامترسازی نامحدود بر اساس پارمترهای می باشد، در حالیکه محدودیت ها در معادله ی (13) بر اساس پارامترهای می باشد و بار محاسباتی را کاهش می دهد.
درون هر بخش، رفتار متفاوت هر فرد در محاسبه ی حرکت بالقوه از یک رفتار خرید همگن(در میان محصولات) در نظر گرفته می شود. این امر با در نظر گرفته پارامتر مقیاس کلی
بدست می آید که به توصیف سهم بازار متفاوت هر محصول کمک می کند و زمانیکه محاسبات دوباره مقیاس بندی شوند، پارامترهای ناهمگونی
دلیل شباهت های بین محصولات درون بخش افراد مشابه می باشند. زمانیکه اثرات مقیاس کنار گذاشته شوند، اصطلاحات
متناظر با محصولات با حرکت مشابه از میانگین کلی ویژه محصول است: خوشه های ویژه محصول یک بخش مشترک از محصولات و افراد را تعریف می کند که محصولات با شدت مشابه(نسبتا مشابه) توسط افراد در بخش gخریداری شده اند و
. توزیع پراکندگی ویژه بخش،
خودش ترکیبی از تراکم های ویژه خوشه است که نشانده ی مجموعه ای از محصولات مرتبط با زیرگروه هایی از افراد است.
- الگوریتم EM
یک الگوریتم EM مناسب برای مورد کلی ارائه شده است، تنها زیرمرحله ی برآورد بردارهای پارامتر شاخص برای مورد خاص تعداد خریدها مشخص شده اند جاییکه rvs پوآسون شرطی لحاظ شده اند. در مورد مشخصات متفاوت، ممکن است آن بطور مستقیم اصلاح شود. الگوریتم به اجرای خاص گام انتظار(E) نیاز دارد جاییکه الگوریتم نوع آپ وارد/دون وارد، در گام r برای محاسبه ی w(r) اولیه و بعد از درون هر بخش استفاده می شود. ( به ورمانت،2007 رجوع شود).
4-1- گام E
سفارش ترجمه تخصصی مهندسی کامپیوتر
با توجه به برآوردهای پارامتر مدل جاری:
ثانیا، خلفی مشترک و
در داده کامل مورد انتظار آماره log-likelihood ، با استفاده از ارتباط مشابه بازگشت رو به جلو- رو به عقب[6] معروف محاسبه شده است:.
4-2- گام M
با توجه به ارزش های جاری احتمالات خلفی برای بخش g و خوشه ی k، برآوردهای ML برای پارامترهای مدل از طریق حل معادلات امتیازی زیر بدست می آید:
از پارمترسازی خلاصه شده در بخش 3-1 در گام r الگوریتم استفاده میکند، برآوردها برای پارامترهای شاخص می تواند همانند زیر محاسبه شود:
- کاربرد گویا: داده های یک نوع کلوچه
ما مجموعه داده های پنل اسکنر نوری برای خریدهای مربوط به برندهای کلوچه های نمکین در بازار رم(جورجیا) را در نظر گرفتیم و داده ها را از اینفورمیشن ریسورسز اینکورپوریتد[7] جمع آوری کردیم. مجموعه ی داده ها شامل اطلاعات 3292 خرید از 4 برند کلوچه های نمکین(نابیسکو، سانشاین، کیبلر و مجموعه ای از برچسب های خصوصی که با عنوان پریولب آمده اند) می شود که توسط 136 خانوار در حدود دو سال خریداری شده اند. برای بررسی بیشتر داده ها می توانید به مطالعات فرانسیس و پاپ(2001) مراجعه کنید. تعداد کل خریدها خلاصه شده اند تا تعداد خریدهای هر برند در هر خانوار مشخص شود. علاوه بر این، ما میانگین قیمت واقعی( به دلار آمریکا) از برند خریداری شده و میانگین قیمت قفسه سایر برندها را بعنوان متغیرهای کمکی ویژه محصول داریم. علاوه بر این، اطلاعات راجع به اینکه آیا یک خصوصیت نمایشی یا روزنامه ای از هر چهار برند در زمان خرید وجود داشته است، در دسترس است.بنابراین، مطابق با این بیانات، در ادامه ما سه متغیر کمکی ویژه محصول را با نام های قیمت، تنها روزنامه و نمایش و خصوصیت روزنامه ای را استفاده می کنیم. ذکر این نکته مهم است که از آنجا که متغیرهای کمکی ویژه خانوارها در دسترس نبوده است، ما برآورهای خلفی آزاد از متغیرهای کمکی را برای بخش های ویژه خانوار داریم. جدول یک تعریفی از متغیرهای کمکی ویژه محصول ارائه می کند در حالیکه جدول دو خلاصه ای از داده ها را نشان می دهد.
جدول سه برخی از آمار توصیفی مربوط به تعداد خرید ویژه خانوار را همراه با سهم بازار برای هر برند نشان می دهد. با تجزیه و تحلیل ساده ی آمار توصیفی، مشخص است که نابیسکو با 54 درصد از سهم بازار، رهبر بازار است در حالیکه برچسب های خصوصی با 31 درصد از سهم بازار در رتبه ی دوم قرار دارند. نابیسکو نیز با قیمت متوسط رو به بالا مرتبط است و اغلب با خصوصیت روزنامه ای نمایش داده می شود. ما مدل طرح شده را با تعداد متغیری از بخش های ویژه خانوارها ، ، و با هر انتخاب G برای تعدادهای متغیر از خوشه های ویژه محصول،
هماهنگ کرده ایم. از آنجا که ما مجموعه ای از داده ها را تنها با محصولات
داریم، فرض می کنیم که حداکثر تعداد خوشه های ویژه محصول درون یک بخش ویژه افراد نمی تواند بیشتر از
باشد. تعداد بهینه مؤلفه ها می تواند با استفاده از معیار آماره log-likelihood جریمه ای مثل AIC یا BIC انتخاب شود؛ و اندازه ی استفاده شده برای محاسبات
می باشد که متناظر با تعداد خانوارها در نمونه است. جدول 4 ارزش های شاخص های آماره log-likelihood جریمه ای را برای انتخاب های متعدد از تعدادی از بخش ها و بخش های خوشه ها همراه با ارزش های حداکثر شده ی آماره log-likelihood
و تعداد پارامترهای برآورد شده ی
نشان می دهد. به خاطر اختصار، ارزش های متناظر برای حل
را گزارش نکرده ایم. همانگونه که در جدول 4 مشاهده می شود، هم AIC و هم BIC راه حل بخش های ویژه خانوارها
و خوشه های ویژه محصول
را ارائه می کنند. وقوع حداکثر محلی و مسئله مؤلفه های خالی نشان می دهد که ارزش های حداکثر شده ی آماره log-likelihood با استفاده از ارزش های آغازین
بدست آمده اند و با افزایش تعداد بخش ها برای یک توالی ثابت از تعداد خوشه های ویژه محصول ، رفتار غیر یکنواختی دارند.
از نظر ما، این نقطه تنظیم پارامتری شده ی بالایی را منعکس می کند که ما با حساسیت برای وقوع کلاس های خالی به جای حداکثر محلی کار کرده ایم زیرا ما زمانیکه تعداد تنظیمات آغازین به افزایش یافته بود، نتایج بهتری کسب نکرده بودیم( با توجه به یکنواختی) .
جدول 5 برآوردهای احتمالی خلفی برای خوشه های ویژه محصول درون هر بخش ویژه خانوار
از راه حل انتخاب شده را نشان می دهد.
همانگونه که مشاهده می شود، به جز بخش ویژه افراد آخر که تنها یک خوشه از محصول حاضر است، اساساً یکی از دو خوشه با برند نابیسکو مرتبط است در حالیکه بقیه با سانشاین و کیبلر مرتبط هستند. پرایولب تا حدودی در میانه ی چنین مجموعه ی تعریف شده از محصولات رفتار می کند، که احتمالا به این دلیل است که در واقع مجموعه ای از برندهای مختلف است. عضویت خوشه برای خوشه های بخش دو قویتر هستند، حداقل تا آنجا که نابیسکو و اولین خوشه ی ویژه محصول مرتبط شده اند. در بخش 4 یک طبقه ی روشن از محصولات کمتر بدیهی هستند و خوشه ها در یک عدم تجانس معمول(برای همه محصولات) با توجه به توزیع مرجع همگن توصیف شده اند. در این رابطه، بخش 4 به بخش 3 شبیه است، با این حال، یک بخش معین تر از محصولات می تواند نشان داده شود.
از آنجا که احتمالات خلفی(اصطلاحات در معادله (12) ) ویژه محصول و ویژه خانوار هستند، احتمالا به طبقات خلفی ( بر مبنای حداکثر فرایند خلفی) هم خانوارها و هم محصولات درون هر بخش نگاه می کنیم. جدول 6 بخش های حاصل از خوشه اول درون هر بخش را گزارش می کند، از آنجا که هر عضو برای خوشه دوم(زمانیکه حاضر است) می تواند به آسانی بعنوان یک مکمل برای یکی از آنها در جدول اقتباس شود.( یک محصول تنها برای یکی از دو خوشه ی محصول برای هر خانوار در بخش در نظر گرفته شده است) . بدیهی است برای بخش ویژه خانوار 5 ، ما هیچ بخشی از محصولات را نداریم. احتمالا این یکی از تمایزات اصلی روش های مطرح شده در مقایسه با مدل های ترکیبی متنهای استاندارد است که در آن ، یک طبقه ی خلفی مشترک از خانوارها و از محصولات درون هر بخش تولید می کند. خانوارها احتمالا رفتارهای متفاوتی دارند و بنابراین، تفسیرهای درون خوشه های بخش اساسا نتیجه ی انتخاب خرید هر خانوار و به طور خاص ارتباط مشاهده شده میان برندهای خریداری شده است.
جدول 6 دید بیشتری در مورد خوشه های ویژه محصول ارائه می کند، اگر ما آخرین بخش را مستثنی کنیم، جاییکه تنها یک خوشه از محصولات حاضر است، بخش 2 و 3 ممکن است به آسانی تفسیر شوند. زیرا تنها یک یا دو مورد از طبقات خلفی مشاهده شده بطور بدیهی غالب هستند. به طور خاص، در بخش 2 توالی ( که مربوط به نابیسکو است) یک برآورد 67 درصدی از حجم کل بخش را نشان می دهد در حالیکه در بخش 3 توالی
( که مربوط به نابیسکو است) و
( که مربوط به پرایولب است) به ترتیب 45% و 43% از حجم کل بخش را نشان می دهند. توزیع تخصیصات خلفی در بخش 1 ناهمگن تر است، جاییکه توالی متناظر با نابیسکو و پرایولب مد هستند، و در بخش 4 تعداد کمی از خانوارها را در بر میگیرد(
)که گرایشات کاملا ثابت را نسبت به همه ی برندها غیر از نابیسکو نشان می دهد. برآوردهای پارامتر ویژه خوشه می تواند برای بهتر مشخص شدن رفتارهای خرید خانوارها استفاده شود. جدول 7 برآوردهای پارامتر را به همراه برآوردهای کلی ویژه محصول
گزارش می دهد . برای آسانی تفسیر، ما باید یادآوری کنیم که برآوردهای ویژه خوشه
نشاندهنده ی حرکت محلی از میانگین کلی معین شده توسط اثرات ویژه محصول
می باشد. بنابراین، یک برآرود پارامتر ویژه خوشه برابر است با یک به این معنی است که رفتار خرید در آن خوشه متفاوت از میانگین یک نیست؛ اگر چه برآورد پارامتر بزرگتر (تا حدی کوچتر) از یک نشاندهنده ی نرخ خرید بیشتر( تا حدی کمتر) برای محصولات در آن خوشه است.
با نگاه کردن به برآوردهای جدول 7، ما ممکن است بگوییم که خانوارها در خوشه 1 در تمام بخش ها به جز بخش 5 یک نرخ خرید بالاتر از میانگین را نشان می دهند. بدیهی است، این شواهد تجربی متضمن این مفهوم است که در خوشه 2 از هر بخش، خانوارها نرخ خرید پایین تر از میانگین دارند. به تناسب اینکه محصولات برجسته می شوند، چه اطلاعات برند نمایش داده شود و یا خصوصیت روزنامه ای داشته باشد همیشه اثر مثبتی بر احتمال تعلق به اولین خوشه(نرخ بالای خرید) در هر بخش دارد، در حالیکه قیمت همیشه اثر منفی دارد.
- نتیجه گیری
در این مقاله، ما یک مدل ترکیبی متنهایی دو سطحی برای خوشه بندی ردیف ها(واحدها) و ستون ها(متغیرها) از یک ماتریس داده را طرح کردیم. این طرح در زمینه ی رفتار مشتری با هدف روشن سازی بود اما می تواند به آسانی به دیگر زمینه ها مثل تجزیه و تحلیل متن کاوی و بررسی ژن نیز توسعه یابد. ساختار مدل و پارامتر سازی اقتباس شده با چند طرح موجود در ادبیات اخیر در مورد اتصال خوشه هایی از ردیف ها و ستون ها از یک ماتریس داده ای دو راهی مقایسه شده است، مدل در یک چارچوب آماره log-likelihood حداکثر مطرح شده است و از یک الگوریتم نوع EM مناسب شکل گرفته است.گسترش بیشتر این مدل ممکن است با نگاه به نمایش های متفاوت برای پارامترهای مدل ویژه خوشه حاصل شود.
- ۰۲/۰۱/۱۰