近况

上午考完最后一门(总共也就四门),刚看到有同学QQ签名已经改成“没做完”了。我也有分值不小的几道题来不及写。反正考完了,顺便吐槽一下这个奇葩的考试好了。第一堂课就说了有期末考试,但是在学校安排考试时间和教室的时候,不晓得是TA错过了还是Prof错过了,反正学校的系统上没有记录。再后来,应该是TA借了教室,是个没有桌子,只有右扶手的折叠小桌板的教室⋯⋯别说开卷考试带的资料了,右侧那个还没A4纸大的桌板,放了答题纸,连考卷都得左手提着,写字姿势真心不舒服!然后呢,这个题量,这个答题要求,想认真,且回答的周全,我粗略估计一下得5+小时吧?因为第一个15分的题,我写了一个小时啊,第2、3题也是15分,也是一样要求,难道三个小时的考试时间用来回答45%的题目么⋯⋯

 

接下来是要实现一个3D掌纹相关的分类算法了。反正我看到数据,第一个想到的就是,用R来做。

很久以前知道R了,那是拿来当高级计算器用的。这学期选了数据挖掘,不感冒付费的IBM产品,于是几次作业都用R来做了,效果也还可以接受,凡是答案确定的,R和PASW做出来都一致,凡是答案不确定的,R和PASW做出来基本都有细微差别⋯⋯

接下来呢,就是网络实验的数据,拿python处理了,用R画的图,虽然图不够文艺,但一眼就知道,这货不是Excel画的。按照yang2liu的标准,就不会有reject的冲动了。

说到Excel画图和Word写paper的问题,确实问题不少。现在饱受折磨的就是打印doc格式的论文来看,里面插的图都是jpg的,打印出来那模糊得一塌糊涂。屏幕上看不会有问题,大家都72dpi,打印机600dpi或者1200dpi的产物,就是锯齿与色块齐飞,字符共背景一色。我也不认为大家在插图前,作者还会设法去弄个高dpi的图片来。

网络课的数据拿R画成pdf图片,清晰,可以打印。然后呢,转成jpg插入到jpg文档。屏幕上可以看出来字符模糊了。估计打印后更加凄惨。

回到R上⋯⋯这东西要不是做作业用,做研究用,做实验用,纯靠兴趣玩玩,也玩不出什么花样来。学一门语言,还得靠多用。就像学编辑器使用一样,靠看living in emacs是不顶用的,拿来编辑代码,记笔记,写简历,写报告,写keynote outline然后折腾到beamer里,才可能会用。

 

我继续看这些看上去灰蒙蒙一片的掌纹⋯⋯

升级强迫症

世上有一群人,装Windows的时候,习惯性地在任何空闲时间去看看Windows Update;装linux的时候,会不由自主地去sudo apt-get update && sudo apt-get upgrade;装Mac OS则不停地去尝试Software Update(现在可能还要刷一下App Store的那个更新页面了)。

我曾经也是这个人群中的一员,热衷于新版本,热衷于beta、alpha、developer preview。现在慢慢变了。

今天和同学折腾了一下午的服务器配置,卡在那里呢?Ubuntu 11.10 AMD64。kernel不再是那些古老工具支持的2.6了,于是编译的时候遇到各种问题。各个lib的头文件也不全是支持64位的,但在强制编译32位版本时,另一些lib的头文件又开始闹情绪了。想想这一切在10.04下都是一次成功的,真是不得不抛弃新内核。

换回旧版的系统,问题又来了,同学的笔记本是T420,对于Ubuntu10.04来说,太新了。新到有线无线两个网卡的驱动都没有。这样一来,安装驱动真是个麻烦事。查型号、下载驱动,再用移动存储复制过来,多折腾啊。

我记得Ubuntu (9.10还是10.04)当初在我的笔记本上当主力系统坚持了一个学期,挺好用,没什么crash,响应迅速。这学期在硬件配置快了许多倍的台式机上尝试11.10,各种崩溃,各种驱动问题。

软件也好,硬件也罢,买回来是用来干活的还是用来YY的?不排除一部分板卡的目标群体是直奔那些为了看卡插在主板上的帅呆了的样子的,于是各种LED、各种金属加工工艺统统上阵,配上一个可能只占成本很小一部分的真正干活的芯片,就可以卖高价了。多数软硬件的目的是为了辅助人们的工作与生活吧?越升级越难用,套用FamilyLife头号回复,只有一个字,“离”⋯⋯

把有限的时间和精力放在content creation上吧,总想着磨刀不误砍柴工的话,这年头刀太多,磨不完的,磨完一圈回来,第一把刀的升级版又出现了,继续磨?!

由奢入俭难(solid state vs spinning)

这学期的数据挖掘实验,一直是在虚拟机里跑的。

学期初使用的2007春季款MacBook,装的是64G的镁光M4,虚拟机无压力。现在用的2011款11寸Air(怎么这么多棍棍⋯⋯),128G三星,虚拟机也无压力。台机的SSD稍旧,80G的Intel X-25M,配合8G内存跑两个虚拟机也没感觉卡。

或许是因为一年来都是SSD当系统盘吧,已经完全不了解机械盘是什么个使用感受了。

这不,体验了一下简直是不能忍啊⋯⋯

数据仓库的实验,虚拟机操作系统是XP,装了oracle 11g,我们主要用oracle warehouse builder。在我Air上都跑得挺顺畅的,拿到15寸的Pro上,那叫一个卡啊。做一步操作,就看到虚拟机的硬盘灯闪半天,然后对话框出现。

 

反正现在机械盘都这个价位了,干脆大家都换SSD,世界运行起来就流畅了。

利用脚本,一劳永逸

网络实验要采集一段时间的数据。于是,

写个shell script把工具的输出写到文件;

写个python(当做是script吧,反正script和program之间的界限挺模糊的)把许多文件中我要的数据提取出来写成csv表格;

写个R script把各种图画出来,存成pdf。

以上种种再让cron去自动执行,就没我什么事了,坐等Dropbox时不时把最新的图同步到我这里。如果没有Dropbox这样的工具,可以再写个script把结果rsync到每个组员的机器上,不过有简单的不用,简直是犯罪啊!

Lifehacker介绍了一些不错的办法,可以让许多任务自动化。

比如在跟某个美剧,设置一下自动从rss下载种子,让下载工具自动把视频下载下来,然后自动转码成移动设备可以播放的格式,再自动同步到身边的设备上,比起每一集都自己操作一遍,方便太多了吧~

(本文的初衷不是鼓励自动化娱乐的⋯⋯)