-
初识聚类算法:K均值、凝聚层次聚类和DBSCAN
所属栏目:[大数据] 日期:2021-03-08 热度:170
http://blog.sina.com.cn/s/blog_62186b460101ard2.html 聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇)。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内相似性越大,组间差别越大,聚类就越好。 先[详细]
-
基于K-Means的文本聚类
所属栏目:[大数据] 日期:2021-03-08 热度:109
http://blog.csdn.net/freesum/article/details/7376006 何为聚类 ? ? ? ? “聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。”?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?[详细]
-
R在文本挖掘与分析的妙用:分词、画词云
所属栏目:[大数据] 日期:2021-03-08 热度:72
副标题#e# 报道大数据企业:大数据产品、大数据方案、 ? 大数据人物 分享大数据干货:大数据书籍、大数据报告、 大数据视频 本文转自蔡捕头的新浪博客。欢迎更多优质原创文章投稿给大数据人:289585305@qq.com 摘要:要分析文本内容,最常见的分析方法是提[详细]
-
10EB量级的基因大数据处理技术
所属栏目:[大数据] 日期:2021-03-08 热度:106
Java学习网(www.javalearns.com)提拱 10EB量级的基因大数据处理技术 很荣幸在这里跟大家分享大家以前很少接触到的领域的大数据情况。其实生命科学的大数据还处在比较初始的阶段,否则国家也不会现在才开始提出精准医学这样的概念。所谓精准医学想通过大[详细]
-
数据分析与挖掘学习(一)
所属栏目:[大数据] 日期:2021-03-08 热度:82
数据分析与挖掘过程 一. 定义挖掘目标 一般的数据挖掘任务包括: 1. 分类与预测 2. 聚类分析 3. 关联规则 4. 时序模式 5. 偏差检验 6. 智能推荐 二. 数据取样 抽取一个与挖掘目标相关的样本子集,标准是 1. 相关性 2. 可靠性 3. 有效性 而不是选用全部数据[详细]
-
Acdream 1210 Chinese Girls#39; Amusement(大数模板运算 + 找
所属栏目:[大数据] 日期:2021-03-08 热度:57
传送门 Chinese Girls’ Amusement Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) Submit Statistic Next Problem Problem Description You must have heard that the Chinese culture is quite different from that[详细]
-
最值得推荐的统计和数据分析好书之一
所属栏目:[大数据] 日期:2021-03-07 热度:78
副标题#e# 推荐一本统计和数据分析领域非常受欢迎的书,这书升级版原版评价甚至比第1版更好,中文版最近刚出版。后面的图中给出了豆瓣和知乎对第一版的评价,还有知乎受关注的相关问题的网址。 《R语言实战(第2版)》 R in Action ,Second Edition: Data a[详细]
-
大数加法、减法和乘法
所属栏目:[大数据] 日期:2021-03-07 热度:90
加法: #includestdio.h#includestring.h#includestdlib.hchar* add(const char *arr,const char *brr){ int lena=strlen(arr); int lenb=strlen(brr); int maxlen=(lenalenb)?lenb:lena; char* sum=(char*)malloc(maxlen+2); memset(sum,'0',maxlen+1); s[详细]
-
当我们谈大数据分析的时候,我们在谈什么?
所属栏目:[大数据] 日期:2021-03-07 热度:154
副标题#e# 数据分析是一个大话题,借这篇笔记整理一下自己的思路:数据分析是什么?涉及到哪些技术?有哪些数据公司玩家?如何定位数据分析的价值?如果选择数据分析作为自己的职业,需要掌握什么样的基本概念?希望帮助对于数据分析有兴趣的同学快速入门![详细]
-
【快讯】R语言在大数据统计分析中的应用及前景
所属栏目:[大数据] 日期:2021-03-07 热度:181
2016年6月8日下午,数据观—清华大数据“技术·前沿”系列思享会在清数D-LAB顺利举办。本次活动有幸邀请到美国普度大学统计系教授及清华大学统计学研究中心兼职教授朱宇进行R语言在大数据统计分析中的应用及前景主题分享。 本次讲座分别介绍了统计分析语言[详细]
-
精准测试新玩法の基于犯罪心理学挖掘代码风险
所属栏目:[大数据] 日期:2021-03-07 热度:146
副标题#e# 前言 ? 犯罪心理学还能用于挖掘代码风险? 挖掘出来的东西是什么? 挖掘出来的东东长什么样子? 挖掘出来能用来做什么? 具体怎么样挖掘呢? 这是本文的主要探讨的内容. ? 在大型的项目中,代码和模块的复杂度在很大程度上决定了测试任务的时间,?[详细]
-
常用的数据标准化方法
所属栏目:[大数据] 日期:2021-03-07 热度:177
数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化,当然,也有一些其他的标准化[详细]
-
BI Intelligence 报告:2016 年 5 大数字化趋势(附下载)
所属栏目:[大数据] 日期:2021-03-07 热度:81
副标题#e# C新智元编译?? ? 来 源:Business Insider 译者:闻菲 【新智元导读】Business Insider 网站日前公开了旗下调研团队 BI Intelligence 去年 2 月发布的调查报告,成功预测了消息APP成为新的OS和Bot的崛起。报告还预计物联网是下一场工业革命,将颠[详细]
-
HDU 1212 Big Number(大数取模)
所属栏目:[大数据] 日期:2021-03-07 热度:129
Big Number Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 7063????Accepted Submission(s): 4866 Problem Description As we know,Big Number is always troublesome. But it's really imp[详细]
-
R语言:SMOTE - Supersampling Rare Events in R:用R对非平衡数
所属栏目:[大数据] 日期:2021-03-07 热度:142
副标题#e# SMOTE - Supersampling Rare Events in R:用R对稀有事件进行超级采样 在这个例子中将用到以下三个包 {DMwR} - Functions and data for the book “Data Mining with R” and SMOTE algorithm:SMOTE算法 {caret} - modeling wrapper,functions,com[详细]
-
寻找第K大数的方法
所属栏目:[大数据] 日期:2021-03-07 热度:167
寻找一堆数中第K大的数,第一感觉是排序,然后将排序之后的值取第K个。但是实际上,这种方式最少的时间复杂度是O(nlogn)。有更简单的方式可以实现线性的时间复杂度。 算法总是有穷尽的,而思想无穷尽,而实用算法的本质是用空间去换取时间。 这里的方案是[详细]
-
【工作帮】福州的数据人有福了,招数据分析师,年薪20万
所属栏目:[大数据] 日期:2021-03-06 热度:120
机会留给有准备着的人! 选择比努力更重要! ? 高薪聘用:数据分析师 工作职责: 1.根据不同的业务主题,进行数据建模、挖掘; 2.为精准运营和个性化服务提供数据模型和算法支持;? 3.建立业务模型、用户画像,对产品决策制定形成良好的数据支撑; 4.通过[详细]
-
PrefixSpan序列模式挖掘算法
所属栏目:[大数据] 日期:2021-03-06 热度:172
介绍 与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式,可以说是非常经典的算法。序列的格式就是上文中提[详细]
-
大数据分析查询引擎Impala
所属栏目:[大数据] 日期:2021-03-06 热度:145
副标题#e# 来自标点符的《大数据分析查询引擎Impala》 作者:标点符(钱魏 Way) 链接:http://www.biaodianfu.com/impala.html Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系[详细]
-
1.大道至简的数据处理工具(Power Query)
所属栏目:[大数据] 日期:2021-03-06 热度:56
? ?如果你不想学复杂的函数,如果不想学更难的VBA。但你想把数据处分分析工作做好。那么,来吧!这套课程将是你最好的选择。远离繁杂,回归简单与智能化。 ? ?先来看看power query 怎么做些什么。先来展示一下效果图。[详细]
-
9个最佳的大数据处理编程语言
所属栏目:[大数据] 日期:2021-03-06 热度:84
大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。 那么,在巨大的数据集中进行筛[详细]
-
logminer挖掘不同数据库的归档日志,使用redo log数据字典
所属栏目:[大数据] 日期:2021-03-06 热度:99
挖掘要求: 使用测试库挖掘生产库的归档日志,生产库未设置utl_file_dir参数,生产库不能重启,无法抽取出生产库的数据字典 挖掘方法: 将生产区数据库的数据字典抽取到redo log 中,将有数据字典的redo log一块加载入logminer,使用redo log中的数据字典进[详细]
-
大数定律和中心极限定理的中文叙述
所属栏目:[大数据] 日期:2021-03-06 热度:81
大数定律和中心极限定理的中文叙述 一、大数定律 1.切比雪夫大数定律 叙述:{Xn}随机变量序列,满足①相互独立;②方差D(X)存在并且一致有上界; 那么{Xn}服从大数定律——随机变量的平均值依概率收敛到随机变量的期望,当n很大时; 体现了均值的稳定性。[详细]
-
手慢无|StuQ邀你免费参加付费小班课大数据分析平台的首节预演
所属栏目:[大数据] 日期:2021-03-06 热度:82
副标题#e# 是的,你没有看错。可以免费观看 StuQ 精品付费小班课预演啦,小编又给大家谋福利了。 什么是『付费小班课预演』 付费小班课:直播辅导教学,1位领域专家与30位学员团结在一起,连续7周,只为一个共同目标,学会一个职业技能。全程使用StuQ视频直[详细]
-
橘子娱乐BI负责人:看美国新媒体怎么玩大数据
所属栏目:[大数据] 日期:2021-03-05 热度:124
副标题#e# 极牛一直致力于连接业内技术力量、促进技术交流和人才流通,为了让更多人了解橘子娱乐的技术文化,促进业内交流,实现技术分享的价值,5月28号协助举办了“走进橘子娱乐”技术交流分享会,以下是当天精彩内容的笔记分享。 ? 讲者介绍:周振宇 橘[详细]