数据挖掘是商务智能技术的重要组成部分,是一个新的重要的研究领域。本文介绍了商务智能技术应用现状和组成,阐述了数据挖掘技术在第三方物流企业的应用。
在当今竞争日益激烈的市场环境中,第三方物流企业都希望能够从浩如烟海的商务数据以及其他相关的物流业务数据中发现带来巨额利润的商机。只有那些利用先进的信息技术成功地收集、分析、理解信息并依据信息进行决策的物流企业才能获得竞争优势,才是物流市场的赢家。因此,越来越多的物流管理者开始借助商务智能技术来发现物流运营过程中存在的问题,找到有利的物流解决方案。
商务智能技术应用现状
我国加入了WTO,在许多领域,如金融、保险、物流等领域将逐步对外开放,这就意味着许多第三方物流企业将面临来自国际大型跨国物流公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在其他应用领域对该技术的采纳水平都提高约50%。现在,许多第三方物流企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。
据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的第三方物流企业采用,使更多的物流管理者得到更多的商务智能。
商务智能技术的组成
具体地说,商务智能技术有数据仓库(data warehousing)、联机分析处理(on-line analytical processing,简称OLAP)、数据挖掘(data mining),包括这三者在内的用于综合、探察和分析商务数据的先进的信息技术的统称就是商务智能技术。
数据仓库是一个面向主题的、集成的、随时间变化的主要用于决策支持的数据的集合。一般来说,大的物流公司或企业内存在着各种各样的信息系统,这些应用驱动的操作型信息系统为企业不同的物流业务系统服务,具有不同接口和不同的数据表示方法,互相孤立。利用数据仓库技术可以动态地将各个物流企业子系统中的数据抽取集成到一起,进行清洗、转换等处理之后加载到数据仓库中,通过周期性的刷新,为物流用户提供一个统一的干净的数据视图,为数据分析提供一个高质量的数据源。
对于数据仓库中的数据,可以使用一些增强的查询和报表工具进行复杂的查询和即时的报表制作,可以利用OLAP技术从多种角度对物流业务数据进行多方面的汇总、统计、计算,还可以利用数据挖掘技术自动发现其中隐含的有用的物流信息。
数据挖掘又称知识发现(Knowledge Discovery in Database,简称KDD),是从大量数据中抽取有意义的、隐含的、以前未知的并有潜在使用价值的知识的过程。数据挖掘是一个多学科交叉性学科,它涉及统计学、数据库、模式识别、可视化以及高性能计算等多个学科。利用数据挖掘技术可以分析各种类型的数据,例如结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流数据等。
数据挖掘技术在第三方物流企业的应用分析
数据挖掘是从大量的、不完全的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的数据中发现其潜在规律的技术,是当前计算机科学研究的热点之一。随着信息技术的高速发展,积累的有关物流行业的数据量剧增,如何从大量的物流数据中提取有用的知识成为第三方物流企业当务之急。数据挖掘就是为顺应需要应运而生发展起来的数据处理技术。 数据挖掘的对象
关系数据库(relational database)中通常存储和管理的是结构化的数据,它将一个实体的各方面信息通过离散的属性进行描述。而文本数据库(text database)或文档数据库(document database)则通常存储和管理的是半结构化的数据,例如新闻稿件、研究论文、电子邮件、书籍以及WEB页面等都属于半结构化数据。空间数据库、多媒体数据库中存放的是非结构化数据,例如地图、图片、音频、视频等都属于非结构化数据。相对于半结构化和非结构化数据来说,针对结构化数据的数据挖掘技术比较成熟,市场上有很多的商品软件可以使用,用的较多的包括IBM Intelligent Miner、SAS Enterprise Miner、SGI MineSet、Clementine SPSS以及Microsoft SQL Server 2000等。关于半结构化和非结构化的数据挖掘软件尚不多,相应的算法相对还较少。从另一个角度来说,数据挖掘的分析对象分为两种类型:静态数据和数据流(data stream)数据。现在的多数数据挖掘算法是用于分析静态数据的。
数据挖掘的分析
无论要分析的数据对象的类型如何,常用的数据挖掘分析包括关联分析、序列分析、分类、预测、聚类分析以及时间序列分析等。
关联分析 关联分析是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。
对于结构化的数据,以物流客户的采购习惯数据为例,利用关联分析,可以发现物流客户的关联采购需要。例如,对于第三方物流企业来说,一个托运货物的货主很可能同时有货物的包装、流通加工等物流业务的需求。利用这种知识可以采取积极的物流运营策略,扩展物流客户采购物流服务的范围,吸引更多的物流客户。通过调整服务的内容便于物流顾客采购到各种物流服务,或者通过降低一种物流业务的价格来促进另一种物流业务的销售等。
分类分析
分类分析是通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。分类分析可以根据顾客的消费水平和基本特征对物流顾客进行分类,找出对第三方物流企业有较大利益贡献的重要的物流客户的特征,通过对其进行个性化物流服务,提高他们的忠诚度。
聚类分析 聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
以第三方物流企业的客户关系管理为例,利用聚类分析,根据物流客户的个人特征以及物流业务消费数据,可以将客户群体进行细分。例如,可以得到这样的一个物流业务消费群体:生产企业对物流业务中运输需求占41%,对物流业务中仓储业务的需求占23%;商业企业对物流业务中运输需求占59%,对物流业务中仓储业务需求占77%。针对不同的客户群,可以实施不同的物流服务方式,从而提高客户的满意度。
数据挖掘流程
定义问题:第三方物流企业首先清晰地定义出各种物流业务问题,确定数据挖掘的目的。
数据准备:首先第三方物流企业在大型数据库和数据仓库目标中提取数据挖掘的目标数据集进行数据选择;其次进行数据的预处理,包括检查数据的完整性及数据的一致性、填补丢失的域,删除无效数据等。
数据挖掘:第三方物流企业根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
结果分析:第三方物流企业对数据挖掘的结果进行解释和评价,转换成为能够最终被理解的知识。 知识的运用:第三方物流企业将分析所得到的知识集成到物流业务信息系统的组织结构中去。
评价数据挖掘软件需要考虑的问题
越来越多的软件供应商加入了数据挖掘这一领域的竞争。第三方物流企业如何正确评价一个商业软件,选择合适的软件成为数据挖掘成功应用的关键。评价一个数据挖掘软件主要应从以下四个主要方面: 计算性能:如该软件能否在不同的物流业务平台运行;软件的架构;能否连接不同的数据源;操作大数据集时,性能变化是线性的还是指数的;算的效率;是否基于组件结构易于扩展;运行的稳定性等;
功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化;软件提供的算法能否应用于多种类型的数据;第三方物流企业能否调整算法和算法的参数;软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等。
可用性:如用户界面是否友好;软件是否易学易用;软件面对的用户是初学者、高级用户还是专家;错误报告对用户调试是否有很大帮助。
辅助功能:如是否允许第三方物流企业更改数据集中的错误值或进行数据清洗;是否允许值的全局替代;能否将连续数据离散化;能否根据用户制定的规则从数据集中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将一次分析的结果反馈到另一次分析中等等。
数据挖掘技术是一个年轻且充满希望的研究领域,利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。 |