`
文章列表
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。   本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离
近年来,大数据挖掘这个词越来越多的出现在人们的生活中。而这里面的大数据,并非只是数据量很大,还表示数据维度多,数据复杂度高,数据来源广泛。 当前,数据挖掘针对的数据有结构化、半结构化及无结构化的数据,在目标数据挖掘中,需要将不同类别不同来源的数据融合并交叉验证,最终得到一份涵盖充分且高质量的数据,助于人们的分析及决策。 大数据可以从三个方面刻画,(1)量级,volume,大量的数据;(2)速率,velocity,高速的数据产出;(3)多样性,variety,多种类型和来源的数据。由于大数据往往混合结构、半结构和无结构化的数据,难以管理、处理和管理。 在挖掘中,以2-3种数据源开始,比如网 ...
人立方 http://renlifang.msra.cn/   微软satori http://www.bing.com/blogs/site_blogs/b/search/archive/2013/03/21/satorii.aspx 大名鼎鼎的freebase http://www.freebase.com/ Google开源数据抽取、清洗工具 http://openrefine.org/   开源图检索系统 http://www.tinkerpop.com/   强大的问答系统: http://www.wolframalpha.com/input/?i=%E7%8F%A ...
编者按:图谱搜索(Graph Search)是基于社交图谱构建起来的搜索服务,与基于关键词匹配的传统网络搜索引擎相比,图谱搜索能够支持更自然、复杂的查询输入,并针对查询直接给出答案。在微软亚洲研究院副研究员段楠眼中 ...
http://blog.sina.com.cn/s/blog_4caedc7a0102ewpj.html 编者按:在过去几十年,人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。随着时代发展,直接编辑知识由于受时间和经济成本的约束,这种方式很难实现大规模知识库的构建。而利用大众智慧是指利用互联网众包机制,过于依赖激励机制将降低知识库运行稳定性。微软亚洲研究院主管研究员史树明在本文中重点讨论第三类方法——自动或半自动知识抽取,其基本思想是设计自动或半自动的算法,从现有的(自然语言)文档中提取知识。这个过程又被称为信息提取,定义为从非结构化和半结构化文本中提取结 ...

python search match

python提供了两种正则表达式的方式,re.search() re.match() 首先需要引入头文件 import re 然后解释一下二者的区别 re.search: 将字符串中所有的字符串都尝试与正则表达式匹配,如果所有的字符串都没有匹配成功,则返回None,否则返回匹配的对象; re.match :只从字符串的起始位置和正则表达式匹配,如果匹配不成功,返回None,否则返回匹配对象   例如: >>> res = re.search("[0-9]+","hi20140506")  >>> pri ...
        朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位 ...
http://see.stanford.edu/see/courseinfo.aspx?coll=348ca38a-3a6d-4052-937d-cb017338d7b1 http://www.stanford.edu/class/cs229/materials.html Lecture notes 1 (ps) (pdf)   Supervised Learning, Discriminative Algorithms Lecture notes 2 (ps) (pdf)   Generative Algorithms Lecture notes 3 (ps) (pdf) 
ETL,Extraction-Transformation-Loading 中文名,数据抽取、转换、加载 数据源-->ODS(操作型数据存储)-->DW-->DM(data mart) ETL贯穿其各个环节。   ​一、数据抽取:        可以理解为是把源数据的数据抽取到ODS或者DW中。        1. 源数据类型:            关系型数据库,如Oracle,Mysql,Sqlserver等;            文本文件,如用户浏览网站产生的日志文件,业务系统以文件形式提供的数据等;            其他外部数据,如手工录入 ...

暖暖的傍晚

偶然翻日志 竟然已好久未写生活日志 晚饭过后坐在工位 落日的余晖从窗口进来 洒了一桌子一身 插上耳机 悠悠的听着琵琶的纯音乐 觉着很平静 有些找到古代闲云野鹤的感觉   最近事情很多 有时候莫名其妙的不想工作 呆呆的坐着 一坐就是大半天 从这个月开始加入了面试官的行列 开始面试实习生 出师很顺利 面试通过的同学已经发了offer 本周还有三场面试 已经没有了最初的紧张   工作上 专一还不够 白白添了拖延的毛病 给自己指定的计划迟迟完不成 年前就要学的机器学习 现在还是一知半解 越来越不喜欢看书 这种状态很颓废   在这个月要结束之际 ...
1.命令      find pathname -options [-print -exec -ok ...] 2.参数:        pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。 -print: find命令将匹配的文件输出到标准输出。 -exec: find命令对匹配的 ...
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child,或者更简单的/paren ...

python gdb调试

     使用python初期,对于每一步的产出习惯print,随着编写代码的复杂度的增加,print的方式效率越来越低,好在python提供了pdb模块,可以像使用gdb调试c语言一样,来进行断点调试。     使用方法:     1.在py文件中载入pdb模块,import pdb       2.在要设置断点的位置添加 pdb.set_trace()         3.直接实行python deal.py即可,常用的命令和gdb类型,主要有   l #查看运行到哪行代码   n #单步运行,跳过函数   s #单步运行,可进入函数   p 变量 #查看变量值 ...
k近邻算法(KNN k nearest neighbor),一种基本的分类和回归方法。 工作原理为:     存在一个样本数据集合,即训练样本集,且样本集中每个数据都有标签,我们知道样本集中每个数据与其所属分类的对应关系。输入没有标签的 ...
1.机器学习任务 名称 任务 监督学习 k-近邻算法 线性回归 是 朴素贝叶斯 局部加权线性回归 是 支持向量机 Ridge回归 是 决策树 Lasso最小回归系数估计 是 K-均值 最大期望算法 否 DBSCAN Parzen窗设计 否         2.如何选择合适的机器学习算法 (1)考虑使用机器学习算法目的 如果要预测目标变量值,可选监督学习算法;否则选非监督学习算法;选定了监督方法,需要进一步确定目标变量类型,离散类型可选择分类算法,连续类型选择回归算法 (2)考虑数据问题 了解数据的以 ...
Global site tag (gtag.js) - Google Analytics