互信息杂谈

谈到互信息,必然涉及到“信息”和“熵”两个概念。信息论的创始人Shannon给信息的定义是“用来消除不确定性的东西”;而在信息论中,熵表示的是不确定性的度量,不确定性越大,熵越高。对于一个熵越大的随机变量,需要越多的信息量来确定它的值。

而互信息是一个用来在信息论中衡量两个信号关联程度的度量,后其被用来对两个随机变量间的关联程度进行描述。互信息I(X;Y)=H(X)-H(X|Y)直观的意思就是知道了Y的值以后,我们对X的不确定性的减少量,即Y的值透露了多少关于X的信息量。(Mutual information measures the reduction of uncertainty in X after observing Y. )

互信息是非负的,也是对称的。当I(X;Y)远大于0时,表示二者关联度大;当I(X;Y)=0时,二者无关。且I(X; Y) = I(Y; X)。虽然,在某些计算互信息的工具包中二者并不相等。

Read More

用Python获取命令行输出

Python在慢慢成为脑影像数据处理中的主流语言。而在做脑影像处理时,不免有时候需要用到一些别人开发好的工具包,而这些包并不都是python包。比如对方采用C写好了算法,我们觉得这个算法很好,用在自己的数据上应该会有不错的结果。我在处理脑影像数据时遇到下面的情况:

需要用的工具包是C写的,那第一件事就是需要在运行该脚本的机器上重新编译该代码为可执行的程序,也就是用make了。

产生可执行文件后,在Terminal中执行测试,可以正常运行,发现结果以print到屏幕上的形式给出。

通常我采用python进行脑影像数据的读写,在读取数据后并进行一定的预处理后,需要循环调用上面提及的可执行程序,并获取其输出的结果。这时候如何来实现呢?显然,常用的’os.system()’是搞不定的,引起它只会返回程序的执行状态。下面是在网上查到的几种方案,尝试过都可以work。


Read More

White Matter Tracts from one subject

下面是用一个被试的DTI数据追踪白质纤维束的结果,作为blog的测试发上了。

图中对主要的纤维束做了简单的标记,对识记白质结构有一定的好处。

上图:

Read More

Fronto-occipital asymmetry or torque

最近在查一些脑结构对称性的文章,碰到一个新鲜词,记录一下。

Torque,更正式的称呼是Yakovlevian torque,等价于Fronto-occipital asymmetry。对这个现象的描述是这样的:
Right prefrontal cortex is larger than the left, whereas the leftoccipital cortex is larger than the right。

Read More

Matlab中分层聚类

一般分层聚类分为以下几步:

分步聚类:(1)用pdist函数计算样本之间的距离,确定两两样本之间的距离或相似性(这个和选择的计算pdist的方法有关系);(2)用linkage函数定义之间的连接;(3)用cophenet函数评价聚类效果;(4)用cluster函数进行聚类。

Read More

MICCAI小结

MICCAI 2013已经结束快两周了,做个小结继续上路。

此次参会印象最深刻,也是最受刺激的就是,某研究组对博士的要求是累积IF30分,这是何等的效率。由此引发了一些反思:

  1. 提高效率,这是最关键的;(效率)

Read More

OCTOPRESS TEST

Welcome

alert("Welcome here!");

中文测试

Congratulation!

Read More

endophenotype一词的使用

这是在一篇文章评审过程中,从reviewer那儿学来一个词。就学着用到了修改后的manuscript中,可是另一个reviewer不买账了,这才查了这个词到底有多神秘。

Wiki上关于endophenotype的定义,“Endophenotype is a genetic epidemiology term which is used to parse behavioral symptoms into more stable phenotypes with a clear genetic connection.”

Read More

美尼尔氏综合征患者为什么不能参加核磁实验?

即Menieres disease

一般核磁实验之前,工作人员往往会要求参加实验的人填写一份安全注意事项用于被试筛选,比如大家熟知的“体内不能有植入的金属”。主试也经常被问及“美尼尔氏综合症”是个什么病呢?大多数情况下主试会回复“一般人不会有”以让参加实验的人放心忽略这一项。

Read More

使用tksurfer可视化左右脑颠倒问题

Tksurfer是freesurfer中可视化surface结果的很方便实用的工具,命令举例如下:

tksurfer fsaverage lh inflated –overlay./fwhm10lh/c1.contrast/sig.mgh

即将统计分析结果sig.mgh左脑部分映射显示到“吹起”(inflated)皮层(以fsaverage为背景)上。

Read More

CentOS上非root安装git

CentOS 6之前yum源中没有git,只能自己编译安装。下面是简单的记录:

wget http://www.codemonkey.org.uk/projects/git-snapshots/git/git-latest.tar.gz

Read More

一个关于vlookup的诡异问题

不觉间实验室新的一场运动开始了,核对被试信息。基因编号,脑数据编号以及各种行为数据编号的对应关系核对。

不管怎样,这确实是后面得出真实分析结果的前提,也提醒着我们,在采集大样本的数据时,最好首先给被试个统一的编号,每一项测查中都采用这个编号,而不是有的用拼音,有的用汉字,有的用其他什么编号。

Read More

Checking b-vector alignment

DTI数据处理中bvecs是很关键的一个信息,关于bvecs的确定,说简单也简单,但是执意去搞个清晰,绝对是一个坑,一个很深的坑,因为不同的核磁生产商以及不同的DTI处理软件都有自己的一套标准。

在网上找个一个很好的材料,对于确定bvecs没有搞错很有用,分享一下

Read More

七年(Seven years forecast)

七年。

也许,和今天没什么两样;

也许,会发生很大的变化。

顺手翻译了一下,一个学者眼里的七年,已经能看到些许动向。

In seven years there will be no essential difference between comments on articles and peer-reviews,
七年后,对文章进行评论和同行评审将不存在本质差别;
In seven years there will be semantic means of definition of plagiarism and, as a consequence, a significant percentage of today’s articles will qualify as recycled crap,
七年后,会出现多种定义剽窃的语义方法,从而导致相当比例现在的文章被当做垃圾回收;
In seven years there will be popularity contests and evaluations based on the popularity of the authors as measured by their impact on the web,
七年后,会出现基于文章作者的名声的名声竞赛和评估方式,而其中作者的名声依赖于他们在网上的影响力;
In seven years the best universities will gamify the teaching process,
七年后,顶尖的大学将游戏化他们的教学过程;
In seven years all successful changes of the process of dissemination of knowledge will turn out to be among those born from private initiatives,
七年后,所有知识传播过程的成功变化最终是这些源于私人主动性的变化;
In seven years large research collaborations of mathematicians will be regarded as normal,
七年后,数学家们间的大的研究合作将会很普遍;
In seven years most of the articles which are now under the lock of the copyright belonging to the publisher will be seen as vanity publication and their most important use will be as data for programs of massively extraction of semantic content.
七年后,那些被锁在属于出版商版权下的大多数文章将被看做是没有价值的出版物,他们大多数的主要的用途将仅在于程序大量提取语义内容的数据。

Read More

读《复杂数据统计方法》之初见

书的第一章讲到,统计可以定义为‘收集、分析、展示和解释数据的科学’,也称‘数据科学’。

书题中提及的‘复杂数据’并没有确切的定义,但是却与统计学发展的不同阶段有密切联系。早期人们获取的数据的量和复杂程度要远逊于big data盛行的今天,加上计算资源的限制,人们更倾向于采用基于诸如独立同正态分布之类的数学假设的数据分析方法,即‘模型驱动’的研究方法;后来随着计算机的发展,科学家可以接触到的计算资源也不断增加(比如我们实验室自己搞的SGE并行计算平台,以前哪有想过心理学家会需要用这个呢,哈哈),更多的科学家开始接受以数据为主导的研究方式,特别是决策树、boosting、随机森林和SVM等大量算法模型的相继出现基本宣告了传统模型主导的数据分析时代的终结。

Read More