机器学习中的相似度度量【转】

博客分类：

机器学习

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录： 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离

2014-06-18 10:11
浏览 741
评论(0)
分类:互联网

近年来，大数据挖掘这个词越来越多的出现在人们的生活中。而这里面的大数据，并非只是数据量很大，还表示数据维度多，数据复杂度高，数据来源广泛。当前，数据挖掘针对的数据有结构化、半结构化及无结构化的数据，在目标数据挖掘中，需要将不同类别不同来源的数据融合并交叉验证，最终得到一份涵盖充分且高质量的数据，助于人们的分析及决策。大数据可以从三个方面刻画，（1）量级，volume，大量的数据；（2）速率，velocity，高速的数据产出；（3）多样性，variety，多种类型和来源的数据。由于大数据往往混合结构、半结构和无结构化的数据，难以管理、处理和管理。在挖掘中，以2-3种数据源开始，比如网 ...

2014-06-10 09:30
浏览 520
评论(0)
分类:互联网

知识图谱相关数据库及资料

博客分类：

知识库

人立方 http://renlifang.msra.cn/ 微软satori http://www.bing.com/blogs/site_blogs/b/search/archive/2013/03/21/satorii.aspx 大名鼎鼎的freebase http://www.freebase.com/ Google开源数据抽取、清洗工具 http://openrefine.org/ 开源图检索系统 http://www.tinkerpop.com/ 强大的问答系统： http://www.wolframalpha.com/input/?i=%E7%8F%A ...

2014-05-27 15:07
浏览 1215
评论(0)
分类:互联网

从图谱搜索看搜索技术的发展趋势【转】

博客分类：

数据挖掘导论
知识库

知识图谱

编者按：图谱搜索（Graph Search）是基于社交图谱构建起来的搜索服务，与基于关键词匹配的传统网络搜索引擎相比，图谱搜索能够支持更自然、复杂的查询输入，并针对查询直接给出答案。在微软亚洲研究院副研究员段楠眼中� ...

2014-05-13 07:35
浏览 756
评论(0)
分类:互联网

知识库构建前沿：自动和半自动知识提取【转载】

博客分类：

数据挖掘导论

http://blog.sina.com.cn/s/blog_4caedc7a0102ewpj.html 编者按：在过去几十年，人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。随着时代发展，直接编辑知识由于受时间和经济成本的约束，这种方式很难实现大规模知识库的构建。而利用大众智慧是指利用互联网众包机制，过于依赖激励机制将降低知识库运行稳定性。微软亚洲研究院主管研究员史树明在本文中重点讨论第三类方法——自动或半自动知识抽取，其基本思想是设计自动或半自动的算法，从现有的（自然语言）文档中提取知识。这个过程又被称为信息提取，定义为从非结构化和半结构化文本中提取结 ...

2014-05-12 23:31
浏览 938
评论(0)
分类:互联网

python search match

博客分类：

python

python提供了两种正则表达式的方式，re.search() re.match() 首先需要引入头文件 import re 然后解释一下二者的区别 re.search：将字符串中所有的字符串都尝试与正则表达式匹配，如果所有的字符串都没有匹配成功，则返回None，否则返回匹配的对象； re.match ：只从字符串的起始位置和正则表达式匹配，如果匹配不成功，返回None，否则返回匹配对象例如： >>> res = re.search("[0-9]+","hi20140506") >>> pri ...

2014-05-06 10:14
浏览 512
评论(0)
分类:编程语言

机器学习&数据挖掘笔记概述（转载）

博客分类：

机器学习

　　朴素贝叶斯：　　有以下几个地方需要注意：　　1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位 ...

2014-04-23 08:47
浏览 572
评论(0)
分类:互联网

斯坦福大学(Andrew Ng)机器学习课程讲义

博客分类：

机器学习

http://see.stanford.edu/see/courseinfo.aspx?coll=348ca38a-3a6d-4052-937d-cb017338d7b1 http://www.stanford.edu/class/cs229/materials.html Lecture notes 1 (ps) (pdf) Supervised Learning, Discriminative Algorithms Lecture notes 2 (ps) (pdf) Generative Algorithms Lecture notes 3 (ps) (pdf)

2014-04-22 10:15
浏览 1842
评论(0)
分类:互联网

ITL初识【转】

博客分类：

数据挖掘导论

ETL，Extraction-Transformation-Loading 中文名，数据抽取、转换、加载数据源-->ODS(操作型数据存储)-->DW-->DM(data mart) ETL贯穿其各个环节。一、数据抽取：可以理解为是把源数据的数据抽取到ODS或者DW中。 1. 源数据类型：关系型数据库，如Oracle,Mysql,Sqlserver等; 文本文件，如用户浏览网站产生的日志文件，业务系统以文件形式提供的数据等；其他外部数据，如手工录入 ...

2014-04-21 23:19
浏览 544
评论(0)
分类:互联网

暖暖的傍晚

博客分类：

生活ing

偶然翻日志竟然已好久未写生活日志晚饭过后坐在工位落日的余晖从窗口进来洒了一桌子一身插上耳机悠悠的听着琵琶的纯音乐觉着很平静有些找到古代闲云野鹤的感觉最近事情很多有时候莫名其妙的不想工作呆呆的坐着一坐就是大半天从这个月开始加入了面试官的行列开始面试实习生出师很顺利面试通过的同学已经发了offer 本周还有三场面试已经没有了最初的紧张工作上专一还不够白白添了拖延的毛病给自己指定的计划迟迟完不成年前就要学的机器学习现在还是一知半解越来越不喜欢看书这种状态很颓废在这个月要结束之际 ...

2014-04-21 18:52
浏览 431
评论(0)
分类:互联网

linux find学习

博客分类：

linux常用命令

1.命令 find pathname -options [-print -exec -ok ...] 2.参数： pathname: find命令所查找的目录路径。例如用.来表示当前目录，用/来表示系统根目录。 -print： find命令将匹配的文件输出到标准输出。 -exec： find命令对匹配的� ...

2014-04-18 07:27
浏览 479
评论(0)
分类:互联网

hadoop fs shell命令备份

博客分类：

linux常用命令

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/paren ...

2014-04-09 17:05
浏览 696
评论(0)
分类:互联网

python gdb调试

博客分类：

python

使用python初期，对于每一步的产出习惯print，随着编写代码的复杂度的增加，print的方式效率越来越低，好在python提供了pdb模块，可以像使用gdb调试c语言一样，来进行断点调试。使用方法： 1.在py文件中载入pdb模块，import pdb 2.在要设置断点的位置添加 pdb.set_trace() 3.直接实行python deal.py即可，常用的命令和gdb类型，主要有　　l #查看运行到哪行代码　　n #单步运行，跳过函数　　s #单步运行，可进入函数　　p 变量 #查看变量值 ...

2014-03-17 16:15
浏览 668
评论(0)
分类:编程语言

机器学习实战2-k近邻算法

博客分类：

机器学习

k近邻算法（KNN k nearest neighbor），一种基本的分类和回归方法。工作原理为：存在一个样本数据集合，即训练样本集，且样本集中每个数据都有标签，我们知道样本集中每个数据与其所属分类的对应关系。输入没有标签的 ...

2014-03-12 15:32
浏览 579
评论(0)
分类:互联网

机器学习实战-1-基础

博客分类：

机器学习

机器学习实战-1-基础

1.机器学习任务名称任务监督学习 k-近邻算法线性回归是朴素贝叶斯局部加权线性回归是支持向量机 Ridge回归是决策树 Lasso最小回归系数估计是 K-均值最大期望算法否 DBSCAN Parzen窗设计否 2.如何选择合适的机器学习算法（1）考虑使用机器学习算法目的如果要预测目标变量值，可选监督学习算法；否则选非监督学习算法；选定了监督方法，需要进一步确定目标变量类型，离散类型可选择分类算法，连续类型选择回归算法（2）考虑数据问题了解数据的以 ...

2014-03-09 17:28
浏览 897
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

机器学习中的相似度度量【转】

大数据挖掘初识

知识图谱相关数据库及资料

从图谱搜索看搜索技术的发展趋势【转】

知识库构建前沿：自动和半自动知识提取【转载】

python search match

机器学习&数据挖掘笔记概述（转载）

斯坦福大学(Andrew Ng)机器学习课程讲义

ITL初识【转】

暖暖的傍晚

linux find学习

hadoop fs shell命令备份

python gdb调试

机器学习实战2-k近邻算法

机器学习实战-1-基础

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>