<?xml version="1.0" encoding="GBK"?>
<?xml-stylesheet href="/style/rss.css" type="text/css"?>
<rss version="2.0" xmlns:eb="http://blog.tom.com/">
<channel>
  <title>climber的博客</title>
  <link>http://blog.tom.com/climber</link>
  <description><![CDATA[ ]]></description>
  <language>zh</language>
  <generator>newblog.tom.com RSS</generator>
  <pubDate></pubDate>    <item>
		<title><![CDATA[ 聚类与分类 ]]></title>
		<link>http://blog.tom.com/climber/article/668.html</link>
		<description><![CDATA[ <p>&nbsp;&nbsp; 聚类分析也称无监督学习，或无教师学习，或无指导学习，因为和分类学习相比，聚类的样本没有标记，需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干类。通常，为有监督分类提供若干已标记的模式，需要解决的问题是为一个新遇到的但无标记的模式进行标记。在很多的情况下，先将给定的无标记的模式用来学习，反过来再用来标记一个新模式。</p>
<p>&nbsp;</p>
<p>&nbsp;&nbsp; 在分类中，对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据样本有类别标记。聚类学习是观察式学习，而不是示例式学习。</p> ]]></description>
		<eb:creationDate>2008-03-30 12:51:42</eb:creationDate>
		<eb:modificationDate></eb:modificationDate>
    </item>
    <item>
		<title><![CDATA[ 互联网挖掘的分类 ]]></title>
		<link>http://blog.tom.com/climber/article/667.html</link>
		<description><![CDATA[ <p>互联网挖掘可以分为“互联网结构挖掘、元数据挖掘、使用挖掘、内容挖掘、总结和摘要系统”等五种主要任务。</p>
<p>&nbsp;</p>
<p>互联网结构挖掘是对互联网页面之间的链接结构进行挖掘。在整个互联网空间里，有用的知识不仅包含在互联网页面的内容之中，而且也包含在页面的链接结构之中。例如，如果我们发现一个论文页面经常被引用，那么，这个页面一定是非常重要的。发现的这种知识可以被用来改进搜索引擎，如page-rank和Clever方法等。</p>
<p>&nbsp;</p>
<p>元数据（metadata）就是关于数据的数据，元数据就是指那些能够帮助识别、描述和定位互联网资源的数据。因为元数据能够在很大程度上反映Web文档的特征，所以，元数据挖掘可以提高互联网知识挖掘的准确性。</p>
<p>&nbsp;</p>
<p>互联网使用挖掘是对用户访问互联网时在服务器方留下的访问记录进行挖掘，即对用户访问互联网站点的存取方式进行挖掘。挖掘的对象是在服务器上的包括server log data等在内的日志文件记录。互联网使用挖掘的意义可以概括为：</p>
<p>1、改进互联网站点的效率：通过对用户访问信息的挖掘，得到大多数用户的访问习惯、爱好和其他有用信息，利用这些信息可以指导网站提供商改进站点结构和布局，吸引更多用户。</p>
<p>2、商业智能的发现：通过结合日志数据和市场数据可以和CRM管理结合，在诸如客户吸引、客户保留、跨区销售、顾客离开等市场活动中找到相应的最佳对策。</p>
<p>3、发现导航模式：用户的导航模式是指群体用户对互联网站点内的页面的浏览顺序模式。在电子商务环境下发现商业智能的关键是发现用户的导航模式。这种导航模式也是个性化推销的基础。</p>
<p>4、抽取访问信息特性：通过对客户端、服务器端、代理服务器端等不同用户访问信息的挖掘可以得到关于用户交互情况和导航情况的详细的信息。在此基础上可以提出模型，用于预测在一个给定站点上一个用户所访问的页面的概率分布。</p>
<p>&nbsp;</p>
<p>互联网内容挖掘是指对站点的互联网页面内容进行挖掘。目前的一些主要方法包括：</p>
<p>1、改进传统的互联网搜索引擎；</p>
<p>2、在互联网上更智能的提取信息的搜索工具；</p>
<p>3、将半结构化的互联网信息重构得更结构化一些，然后就可以使用标准化的数据库查询机制和数据挖掘方法进行分析；</p>
<p>4、对HTML页面内容进行挖掘，对页面中的文本进行文本挖掘</p>
<p>&nbsp;</p> ]]></description>
		<eb:creationDate>2008-03-30 10:34:51</eb:creationDate>
		<eb:modificationDate></eb:modificationDate>
    </item>
</channel>
</rss>