تبليغاتX
stat











  یکشنبه بیست و نهم اردیبهشت 1387 2:44
با سلام. بعلت بروزبرخی مشکلات در سایت پشتیبانی کننده وب دسترسی به آرشیو موضوعی ممکن نمیباشد اگر مایل به استفاده از مطالب وبلاگ هستید لطفا در قسمت آرشيو مطالب روی تاریخها کلیک کنید تا مطلب مورد نظرتان را پیدا کنی. با عرض پوزش
stat84       
نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 تعاریف داده کاوی یکشنبه بیست و نهم اردیبهشت 1387 2:29


تعاریف داده کاوی

داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد.

Source: W.Frawley and G. Piatetsky. Knowledge Discovery I DataBases.ISSN 0738-4602

داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد.

Source: D. Hand,H. Mannila,P. Smyth(2001).Principles of Data Mining.MIT Press,Cambridge

داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.

Source: R.Grossman


تفاوت داده کاوی و آنالیز های آماری

داده کاوی معمولا با نوشتن مقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقع داده کاوی هیچ کدام از اینها را شامل نمی شود.
داده کاوی توسط تجهیزات خاصی صورت می پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد.

داده کاوي با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوي و آنالیز آماری را مشاهده نمود:


آنالیز آماری:

  آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.
  
آنها از داده های عددی استفاده می کنند.
 
آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.
 
آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.
 
آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.


داده کاوی:

•  به فرضیه احتیاجی ندارد.
• 
ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.
• 
الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.
• 
داده کاوی به داده های صحیح و درست نیاز دارد.
• 
نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد، توجه کنید.



روش آنالیز آماری:

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد.

مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.



روش داده کاوی:

یک مفسر  سیستم های داده کاوی را ساخته  و  پس از طی مراحلی از جمله  جمع آوری داده ها،  یکپارچه سازی و  اخلاص داده ها به انجام عملیات داده کاوی می پردازد.

داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.

نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.

 

 


فواید و نقش داده کاوی در فعالیت شرکتها

امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می شود، از جمله فروشگاه ها، شرکت های مالی، ارتباطاتی، بازاریابی و غیره.
استفاده از داده کاوی به این شرکتها کمک می کند تا ارتباط عوامل داخلی از جمله قیمت، محل قرارگیری محصولات، مهارت کارمندان را با عوامل خارجی از جمله وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند.از آنجـائیـکه هـوش مصنوعی یکی از اصلی ترین  عنــاصـر داده کـــاوی
می باشد و با توجه به اینکه به کمک سیستم های کامپیوتری و پایگاه های داده، روزانه به میزان داده ها افزوده می شود، بنابراین استفاده هوشمندانه از دانش بالقوه ای که در این داده نهفته است در دنیای رقابتی امروز برای شرکت ها حیاتی می باشد.داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد.

مراحل اصلی داده کاوی

داده کاوی را " کشف دانش در داده ها " نیز می نامند. کشف دانش داده ها دارای مراحل مختلفی می باشد که در اینجا به صورت خلاصه آنها را بیان می کنیم :

 

•  استخراج اطلاعات از چندین منبع داده ( پایگاه داده).
• 
یکپارچه سازی اطلاعات و حذف داده های زاید.
• 
قرار دادن اطلاعات اصلاح شده در انبار داده ها.
• 
انجام عملیات داده کاوی توسط نرم افزار های مخصوص.
• 
نمایش نتایج به صورت قابل فهم مانند گزارش و گراف.

 

نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 Benefits of Data Mining سه شنبه هفدهم اردیبهشت 1387 11:56

    Benefits of data mining                                       

   

Data mining is an aide to strategic, tactical and operational decision-making in situations where numerous variables, affecting costs or benefits, impinge on the eventual outcome of the course of action that a company might decide to take. The modeling that accompanies data mining assimilates the information on costs and benefits of alternative courses of action as visualized in the form of familiar decision trees. Companies use such information to find new opportunities for growth, choose more effective means to achieve their business goals and streamline business processes to lower their costs.

Customer churn is one of the several examples of complex business problems that data mining addresses. A great deal of marketing activity involves customer acquisition, retention and extension and companies invest considerable resources to achieve this. When all the competing companies in an industry exert themselves to woo customers, churn rates increase and higher costs have to be incurred to attract customers and to keep them. The benefits of attracting customers in the telecommunications industry, for example, depend on the length of time they stay with a company, the number and the duration of their calls. The costs, on the other hand, depend on network costs which are higher if interconnection charges are incurred or more outbound calls take place, time of day for calls, i.e., costs are higher at peak time, customer service support and the duration of calls (shorter calls mean higher costs). None of these variables can be readily estimated at the outset.

Data mining uses statistical techniques, such as survival analysis, to determine the length of time for which a customer can be expected to stay with a company. Based on the profile of groups of customers, as indicated by demographics, psychographics, price sensitivity and knowledge of alternative vendors, the length of their expected stay with a company can be estimated. Similarly, the calling behavior of customers and attendant costs of servicing can be estimated from their profession, personality (introverted or extroverted), social networking behavior. Based on such data, companies can decide on the amount of money they can afford to spend to satisfy customers in order to acquire and retain their customers.

Profiling or segmentation of the customer base is the linchpin of much of the benefits that flow from data mining. The task of profiling consists of identifying homogenous groups of customers who exhibit similar patterns of behavior. Armed with this information, companies learn to target specific customers rather than randomly promote products to all of them. Customers are happier because junk mail otherwise inundates them and is aggravating. Companies don't have to drain their resources by sending mailers to customers who are often so indifferent that they toss an offer into a waste paper basket.

Customer segmentation is also a source of innovation such as in the design of insurance plans in the health industry. In the past, customers had access to only two broad types of insurance plans; the HMO and the PPO. The prices paid by customers have been uniform regardless of their actual use of health services. Consequently, customers are less responsible about their lifestyles choices such as smoking, weight, diet and exercise. Worse, responsible customers, who invest in preventive care, by spending on yoga, alternative care, are not rewarded. As a result, health care costs have been rising rapidly without a commensurate improvement in quality. In recent years, however, companies such as WellPoint Health Networks Inc., PacifiCare Health Systems Inc. and Blue Shield of California consumer driven health plans have started to offer health insurance plans tailored to the risk profile of customers. Consumers are allowed to choose their price points and the benefits they receive and are provided information on the web to make a choice of their doctors. This is expected to lower waste in the health industry and encourage preventive care and patients would have a choice to spend on alternative care.

In general, profiling and segmentation of customers helps companies to efficiently align resources with the specific needs of customers. They can set prices, choose channels and design communication strategies based on the character of specific segments of customers.                                      

نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 what is Data Mining یکشنبه پانزدهم اردیبهشت 1387 3:13

what is  Data Mining


Data Mining is the process of AUTOMATICALLY collecting large volumes of data with the objective of finding HIDDEN PATTERNS and analyzing the relationships between numerous types of data to develop PREDICTIVE models. A typical example is the widespread use of loyalty cards which are used to identify and gather data from customers in retail stores. Millions of customers unwittingly share information about their purchases, which is collected as bar codes are read at check out points, and is accumulated in data warehouses. Retail stores look at parameters such as RECENCY, FREQUENCY and MONETARY value to determine the likelihood of customers remaining loyal to their retail stores. In addition, location information embedded in loyalty cards helps to correlate demographic and psychographics information, provided by companies like Claritas and ESRI, with purchase data. Companies use such data to identify relatively homogenous groups of customers which demonstrate similar buying behavior. When these segments are demarcated, predictive or statistical models can be develop to forecast their purchase behavior. Each of these groups then receives product and services relevant to their profile which saves costs of mailing catalogues sent to disinterested consumers.

Data mining is a rapidly growing tool in management decision making. Companies analyze data to offer services in proportion to the revenue earned from customers, price financial products to match the risk profile of customers, customer acquisition and retention strategies, inventory management, fraud detection etc.

The technological centerpiece of well developed data mining is the data warehouse. In the past, data was gathered by transactional or operational technologies such as those used for finance, order booking, sales data or production data management. These operational systems have specific functions while a data warehouse aggregates multi-dimensional information which means that it affords cross-referencing. Analysis of data hosted on operational systems cannot be done efficiently because it takes away time from routine business functions. In addition, operational data stores dynamic information or data such as orders placed which is updated at short intervals. A data warehouse, on the other hand, stores historical information which is not modified after it is transferred from an operational system.

Data stored on data warehouses inevitably grows in volumes and cannot be stored on servers. Instead, data warehouses use storage area networks where disk capacity can be increased incrementally as demand grows unlike servers which increase disk capacity discretely. An added advantage of storage area networks is that they are accessible by all departments or subsidiaries of the company since they are managed from a single GUI. A single view of the data also implies that companies can use data for strategic planning for their business.

The final technological piece in data mining is the analytical applications. These range from simple SQL queries to construction of tables using OLAP tools, such as Business Objects and Cognos, or more sophisticated statistical analysis tools such as SAS, S-Plus, R or SPSS. The analytical tools look for patterns in the data or test hypothesis. They use methodologies like CHAID (Chi-square Automatic Interaction Detector) to find patterns or conduct multivariate statistics for customer segmentation.

 

نوشته شده توسط mostafa | لينک ثابت | موضوع: |

 داده کاوی یکشنبه پانزدهم اردیبهشت 1387 2:58
داده کاوی


در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمان­هایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند.

بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند .

امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.

داده  کاوی  پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری  داده  می باشد.  داده  کاوی  فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از  داده  می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده  کاوی  به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.

 

مرجع: کتاب داده کاوی - دکتر جمال شهرابی 

نوشته شده توسط mostafa | لينک ثابت | موضوع: |











کپي برداري از مطالب وبلاگ فقط با ذکر منبع مجاز ميباشد .

All Rights Reserved 2005-2006 © by stat84

Template Design by S T A T 84