2009年春季学期
时间 | 星期五上午2-4节 |
地点 | 理科楼228 |
教师 | 罗迒哉 |
邮件 | hzluo (at) sei (dot) ecnu.edu.cn |
电话 | 62235089 |
办公室 | 数学馆东110 |
答疑(Office Hour) | 星期五15:00-18:00 |
课件 |
阅读材料 | 相关链接 |
|
参考资料:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版) 数据挖掘课程 参考书:Introduction to Data Mining 英语分词(tokenize)的flex源程序:下载源程序 可执行文件 分词的参考资料:英语lexicon的资料 有关中文分词的论文 通过元数据特征提取照片语义的参考文献:
失衡样本的处理:
特征选择: 分类训练算法: EM及其变种: 投影追踪:
回归 聚类分析 信息可视化 |
多媒体搜索引擎:主页 计算机科学引论:主页 lyx: http://www.lyx.org |
由于课程项目口头报告需要2次课时间,现决定把5月31日课时并到6月19日。即:5月31日不上课,6月19日从早上8:00开始,由各位同学报告课程项目。每人15-20分钟。
由于主页空间的下载带宽用尽,可能无法下载ppt和文件。不过应该到14或15号就会恢复的。如果到时候还没有恢复,我将设法找一个镜像下载点。
请各位同学注意:6月19日从早上8:00开始,由各位同学报告课程项目。每人15-20分钟。
考试安排:期末考试安排在6月26日(星期五)上午9:00,地点为原上课教室。另请各位同学尽快提交实验报告。请以电子邮件提交电子版。
以下项目任选一个完成。课程项目介绍幻灯片。
一、研究项目
对机器学习领域的某个问题进行理论和实验的探讨,撰写相应实验报告。要求对现有方法有创新,实验比较合理、详细、具体。实验报告以ACM SIG会议论文格式撰写,长度4-8页。
二、训练项目
从UCI机器学习数据库中选择2-3个分类数据库,用2-3个分类算法对其进行分类测试,比较所选择的分类算法在实验数据库上的性能差异。要求:
(1)设计实验,收集实验数据,并详细撰写实验报告。
(2)实验报告以ACM SIG会议论文格式撰写,所报告的数据应尽可能详细,长度4-8页。
(3)准备25-35分钟的口头报告,在课堂上指定时间报告。
(4)单独完成。
在实验中,应选用较为合理的性能测试方法。如所选用数据库已经分成训练/测试两部分,则可使用简单的开集测试。如没有分,可自行分出两个集合用于开集测试,或采用交叉验证(Leave-one-out或k-fold)方式。不可采用闭集测试的方式比较性能。性能比较时,也应比较多个性能指标。除分类准确性方面的指标外,还可比较训练速度、分类速度等指标。另外,在训练分类器时,应考虑分类器参数选择问题,不可以任意指定的一组参数来训练。
UCI Machine Learning Repository
推荐的数据库:
1、Iris
4、Pen-Based Recognition of Handwritten Digits
5、Spambase
本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》作为参考资料,部分幻灯片使用教材所附课件材料。