数据分析
-
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 选B
-
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 选C
-
以下两种描述分别对应哪两种对分类算法的评价标准?
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precis...
-
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 选A
-
数据挖掘对聚类的数据要求是什么?
(1)可伸缩性 (2)处理不同类型属性的能力 (3)发现任意形状的聚类 (4)使输入参数的领域知识最小化 (5)处理噪声数据的能力 (6)对于输入顺序不敏感 (7)高维性 (8)基...
-
请谈一下你对元数据管理在数据仓库中的运用的理解。
元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪...
-
请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。
ETL工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的Decis...
-
企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果/模型?
首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约
-
根据要求写出SQL
表A结构如下: Member_ID (用户的ID,字符型) Log_time (用户访问页面时间,日期型(只有一天的数据)) URL (访问的页面地址,字符型) 要求:提取出每个用...
-
什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis...
-
异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(...
-
一个网站销售额变低,你从哪几个方面去考量?
首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有: a. 用户(画像、来源地区、新老、渠道等) b. 产品或栏目 c. 访问时段 定位到发生位置后,进行问题...
-
怎么做恶意刷单检测?
分类问题用机器学习方法建模解决,我想到的特征有: 商家特征:商家历史销量、信用、产品类别、发货快递公司等 用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号 ...
-
如何识别作弊用户(爬虫程序, 或者渠道伪造的假用户)
分类问题可以用机器学习的方法去解决,下面是我目前想到的特征: (1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征 (2)环境特征:设备(一般伪造假用户的工作坊以低端机为...