لطفا کمي صبر کنيد...
![]()
|
|
یکشنبه بیست و نهم اردیبهشت 1387 2:44
با سلام. بعلت بروزبرخی مشکلات در سایت پشتیبانی کننده وب دسترسی به آرشیو موضوعی ممکن نمیباشد اگر مایل به استفاده از مطالب وبلاگ هستید لطفا در قسمت آرشيو مطالب روی تاریخها کلیک کنید تا مطلب مورد نظرتان را پیدا کنی. با عرض پوزش
stat84
تعاریف داده کاوی
یکشنبه بیست و نهم اردیبهشت 1387 2:29
داده کاوی استخراج اطلاعات مفهومی،
ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد. Source: W.Frawley and G. Piatetsky. Knowledge Discovery I DataBases.ISSN 0738-4602 داده کاوی علم استخراج اطلاعات مفید از پایگاه های
داده یا مجموعه داده ای می باشد. Source: D. Hand,H. Mannila,P.
Smyth(2001).Principles of Data Mining.MIT Press, داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها،
نابهنجاری ها و
دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می
باشد. Source: R.Grossman
داده کاوی معمولا با نوشتن
مقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقع داده کاوی هیچ کدام از اینها را شامل نمی شود. داده کاوي با آنالیز های
متداول آماری نیز متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت
های داده کاوي و آنالیز آماری را مشاهده نمود:
• آمار شناسان
همیشه با یک فرضیه شروع به کار می کنند.
• به فرضیه احتیاجی ندارد. جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری
به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می
باشد، توجه کنید.
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب
کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری
سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر
فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر
است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد. مهمتر از همه اینکه این روش هیچ وقت الگوهای
کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا
نداده ، پیدا نمی کند.
یک مفسر سیستم های داده کاوی را ساخته
و پس از طی مراحلی از جمله جمع آوری داده ها، یکپارچه سازی
و اخلاص
داده ها به انجام عملیات داده کاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت
عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را
پیدا می کند. نتایج داده کاوی حالت های مختلفی را که مفسر باید
در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به
دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.
امروزه عملیات داده کاوی به
صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار
دارند، استفاده می شود، از جمله فروشگاه ها، شرکت های مالی، ارتباطاتی، بازاریابی و غیره. مراحل اصلی داده کاوی داده کاوی را " کشف دانش در داده ها " نیز می نامند. کشف دانش داده ها دارای مراحل مختلفی می باشد که در اینجا به صورت خلاصه آنها
را بیان می
کنیم : • استخراج اطلاعات از چندین منبع داده (
پایگاه داده).
Benefits of Data Mining
سه شنبه هفدهم اردیبهشت 1387 11:56 Benefits of data mining
Data mining is an aide to strategic, tactical and operational decision-making in situations where numerous variables, affecting costs or benefits, impinge on the eventual outcome of the course of action that a company might decide to take. The modeling that accompanies data mining assimilates the information on costs and benefits of alternative courses of action as visualized in the form of familiar decision trees. Companies use such information to find new opportunities for growth, choose more effective means to achieve their business goals and streamline business processes to lower their costs. Customer churn is one of the several examples of complex business problems that data mining addresses. A great deal of marketing activity involves customer acquisition, retention and extension and companies invest considerable resources to achieve this. When all the competing companies in an industry exert themselves to woo customers, churn rates increase and higher costs have to be incurred to attract customers and to keep them. The benefits of attracting customers in the telecommunications industry, for example, depend on the length of time they stay with a company, the number and the duration of their calls. The costs, on the other hand, depend on network costs which are higher if interconnection charges are incurred or more outbound calls take place, time of day for calls, i.e., costs are higher at peak time, customer service support and the duration of calls (shorter calls mean higher costs). None of these variables can be readily estimated at the outset. Data mining uses statistical techniques, such as survival analysis, to determine the length of time for which a customer can be expected to stay with a company. Based on the profile of groups of customers, as indicated by demographics, psychographics, price sensitivity and knowledge of alternative vendors, the length of their expected stay with a company can be estimated. Similarly, the calling behavior of customers and attendant costs of servicing can be estimated from their profession, personality (introverted or extroverted), social networking behavior. Based on such data, companies can decide on the amount of money they can afford to spend to satisfy customers in order to acquire and retain their customers. Profiling or segmentation of the customer base is the linchpin of much of the benefits that flow from data mining. The task of profiling consists of identifying homogenous groups of customers who exhibit similar patterns of behavior. Armed with this information, companies learn to target specific customers rather than randomly promote products to all of them. Customers are happier because junk mail otherwise inundates them and is aggravating. Companies don't have to drain their resources by sending mailers to customers who are often so indifferent that they toss an offer into a waste paper basket. Customer segmentation is also a source of innovation such as in the design of insurance plans in the health industry. In the past, customers had access to only two broad types of insurance plans; the HMO and the PPO. The prices paid by customers have been uniform regardless of their actual use of health services. Consequently, customers are less responsible about their lifestyles choices such as smoking, weight, diet and exercise. Worse, responsible customers, who invest in preventive care, by spending on yoga, alternative care, are not rewarded. As a result, health care costs have been rising rapidly without a commensurate improvement in quality. In recent years, however, companies such as WellPoint Health Networks Inc., PacifiCare Health Systems Inc. and Blue Shield of California consumer driven health plans have started to offer health insurance plans tailored to the risk profile of customers. Consumers are allowed to choose their price points and the benefits they receive and are provided information on the web to make a choice of their doctors. This is expected to lower waste in the health industry and encourage preventive care and patients would have a choice to spend on alternative care. In general, profiling and segmentation of customers helps companies to efficiently align resources with the specific needs of customers. They can set prices, choose channels and design communication strategies based on the character of specific segments of customers.
what is Data Mining
یکشنبه پانزدهم اردیبهشت 1387 3:13 what is Data Mining Data Mining is the process of AUTOMATICALLY collecting large volumes of data with the objective of finding HIDDEN PATTERNS and analyzing the relationships between numerous types of data to develop PREDICTIVE models. A typical example is the widespread use of loyalty cards which are used to identify and gather data from customers in retail stores. Millions of customers unwittingly share information about their purchases, which is collected as bar codes are read at check out points, and is accumulated in data warehouses. Retail stores look at parameters such as RECENCY, FREQUENCY and MONETARY value to determine the likelihood of customers remaining loyal to their retail stores. In addition, location information embedded in loyalty cards helps to correlate demographic and psychographics information, provided by companies like Claritas and ESRI, with purchase data. Companies use such data to identify relatively homogenous groups of customers which demonstrate similar buying behavior. When these segments are demarcated, predictive or statistical models can be develop to forecast their purchase behavior. Each of these groups then receives product and services relevant to their profile which saves costs of mailing catalogues sent to disinterested consumers. Data mining is a rapidly growing tool in management decision making. Companies analyze data to offer services in proportion to the revenue earned from customers, price financial products to match the risk profile of customers, customer acquisition and retention strategies, inventory management, fraud detection etc. The technological centerpiece of well developed data mining is the data warehouse. In the past, data was gathered by transactional or operational technologies such as those used for finance, order booking, sales data or production data management. These operational systems have specific functions while a data warehouse aggregates multi-dimensional information which means that it affords cross-referencing. Analysis of data hosted on operational systems cannot be done efficiently because it takes away time from routine business functions. In addition, operational data stores dynamic information or data such as orders placed which is updated at short intervals. A data warehouse, on the other hand, stores historical information which is not modified after it is transferred from an operational system. Data stored on data warehouses inevitably grows in volumes and cannot be stored on servers. Instead, data warehouses use storage area networks where disk capacity can be increased incrementally as demand grows unlike servers which increase disk capacity discretely. An added advantage of storage area networks is that they are accessible by all departments or subsidiaries of the company since they are managed from a single GUI. A single view of the data also implies that companies can use data for strategic planning for their business. The final technological piece in data mining is
the analytical applications. These range from simple SQL queries to
construction of tables using OLAP tools, such as Business Objects and Cognos,
or more sophisticated statistical analysis tools such as SAS, S-Plus, R or
SPSS. The analytical tools look for patterns in the data or test hypothesis.
They use methodologies like CHAID (Chi-square Automatic Interaction Detector)
to find patterns or conduct multivariate statistics for customer segmentation.
داده کاوی
یکشنبه پانزدهم اردیبهشت 1387 2:58 داده کاوی در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند. بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد. داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
مرجع: کتاب داده کاوی - دکتر
جمال شهرابی
|
|
کپي برداري از مطالب وبلاگ فقط با ذکر منبع مجاز ميباشد .
All Rights Reserved 2005-2006 © by stat84