Difference between multi-class classification & multi-label classification is that in multi-class problems the classes are mutually exclusive, whereas for multi-label problems each label represents a different classification task, but the tasks are somehow related. multi-class classification makes the assumption that each sample is assigned to one and only one label: a fruit can be either an apple or a pear but not both at the same time.

Continue reading

确定致病机制 1. 皇后确诊乳腺癌 2. 药物遍寻均无效 3. 精准医疗项目启动 生物信息分析 特异化突变基因鉴定 蛋白通路与疾病关联性 XYZ蛋白三维晶体结构 XYZ蛋白药物结合口袋突变前后分析 先导化合物 1. 计算机辅助药物设计: 在 蛋白质三维结构基础上,彻底分析突变后XYZ蛋白结合口袋周围理化性质 突变前:小分子包围在疏水口袋,亲水氨基酸R125、E154与其形成氢键铆钉作用,使其牢牢稳固在蛋白质中 突变后:疏水环境大致不变,但氨基酸N125、I154(无法形成氢键)造成很大空隙,亲水性转换为疏水口袋,稳定性降低 2. 分子动力学方法 分子动力学方法对XYZ蛋白突变后与小分子Hormone间相互作用状况进行了计算模拟分析, 目的:以期得到蛋白质在突变后的小分子结合信息 计算中心首席科学家是这么解释分析结果的: 突变后XYZ蛋白Region A区域没有变化,对该部分不做任何修改; Region B区域中,小分子下方出现巨大空洞,需要对该部分进行补漏; Region B区域巨大空袭,在小分子稳定结合时,下方出现由10~13个水分子组成的“水氢键网络体系”; “水氢键网络体系”中,水分子能量Energy(球体大小)和占有率Occupancy(球体颜色)均能表达出蛋白质局部区域理化性质。 > 具体总结:Region B区域绝大多数水分子能量Energy极小、占有率Occupancy较小,说明该区域极为疏水;但其中W1水分子,能量较好、占有率较高,说明W1水分子极为稳定,周围氨基酸为极亲水性氨基酸,将来可以通过替换W1水分子或通过桥键作用对其进行化学修饰 ; ; 3. 基于体内原生激素Hormone的药物设计:化学片段增长设计法 首先设计的化学片段,将能够有效的到达W1水分子附近或将其替换掉, 福斯坦国立大学化学院研究团队,共设计母核结构50枚,且均具备有机合成实验方法实现的可能性 ; ; 4. 分子对接方法判定最佳化学母核结构 利用分子对接方法,将50枚母核结构分别对接进入突变后蛋白质XYZ结构中, 利用分子对接权重值, 判定3枚小分子药物在对接结果中占据较好的权重位置。奥古斯汀·Khan将此结果呈现给,福斯坦国立大学化学院研究团队,经过再三斟酌分析,决定采用C2、C1和C3进行后期化学结构改造 5.

Continue reading

Deep Work

最近在读 卡尔.纽波特的 深度工作, 以下是阅读的一点感悟和笔记. 深度工作是 21 世纪的超级力量 作者介绍: 卡尔·纽波特,畅销书作家,人气博主,创办了在美国很受欢迎的博客“学习黑客”,破解工作和学习领域的成功模式。 关于本书 这是一本自我管理类书籍,讲述了在碎片化时代,如何训练大脑排除干扰,提高大脑的深度思维能力,创造更多价值。这本书的英文原版2016年在美国出版,一发行就占据了亚马逊美国网站的职场励志书榜首。 几个问题: 在职场中,为什么有些人越忙碌越无法产出有价值的成果? 又该如何通过训练大脑排除干扰,提高深度思维能力,创造更多价值? 这本书从2个方面解释了大部分人无法进行深度工作的原因,并给出了培养深度工作的4个步骤,分别是: 选择适合自己的深度工作模式 将工作内化成习惯 像经商一样去执行 适当减少整体工作时间遵循这几个步骤进行刻意练习 概念介绍 深度工作(Deep Work): 在没有干扰的情况下专注的进行职业活动, 使个人的认知能力达到极限, 这种努力能够创造新价值, 提升技能, 而且难以复制. 肤浅工作(shallow work): 对认知要求不高的任务, 在收到干扰的情况下也能进行, 此类工作创造的价值不高, 且容易复制. 深度工作的重要性 作者前面花了大量篇幅说明深度工作的重要性, 其中关于注意的论断深以为然. 快速学习复杂的技能, 这能为我们带来价值, 这件事需要深度工作. 但是现实生活中, 网络工具使我们分心, 导致专注能力的下降. 不分心是很难的, 我们都有一种冲动就是, 把自己的注意力转移到肤浅的事物上. 比如, 工作累了或者遇到难题了就要刷刷社交网络, 但是这种行为其实还是在消耗着你的注意力和能量. 你的意志力是有限的, 它在使用的过程中是不断的被消耗的. 而进入深度工作状态是需要意志力能量, 如何使得这个转化过程变得容易使我们应该掌握的技巧. 简而言之, 我们增加深度工作的评率, 而减小转移到肤浅工作的冲动和频率. 我们都有过类似的经历, 打开 word 文档, 准备写论文和报告, 一瞬间脑袋空白, 这时候平时不相干的事情, 突然都变得可爱起来, 比如: 洗完, 扫地, 洗衣服, 收拾房间, 下楼买💊, 总之只要是不是写论文, 什么其他能拖延这件事情的事, 我们都愿意干.

Continue reading

简单来说神经网络和我们一般的编程区别在于: 一个是输入数据和函数规则, 然后得到结果. 而神经网络是输入数据和答案, 通过迭代学习, 神经网络能学习出函数规则.如下图: 举个简单的例子, 这里有两组数据: X: -1, 0, 1, 2, 3, 4 Y: -3, -1, 1, 3, 5, 7 你可以把 x 看做是数据, y 看做是答案, 现在你要做的是找到其中的函数关系, 这个关系能够帮助我们, 用 x 去预测 Y 的值(假设你没有学过解方程组). 最常用的方法就是归纳法, 首先你根据第一对数据猜一个对应关系规则, 拿着这个规则计算答案值, 评估计算的答案和真实答案差多远, 然后在调整你的规则, 继续评估, 直到你的规则能够拟合所有的数据. 这就是神经网络的逻辑过程. 我们来看一个简单的神经网络的例子 1.Import: 加载所需模块 import tensorflow as tf ## /Users/zero/anaconda3/envs/tfdeeplearning/lib/python3.5/importlib/_bootstrap.py:222: RuntimeWarning: compiletime version 3.6 of module 'tensorflow.python.framework.fast_tensor_util' does not match runtime version 3.5 ## return f(*args, **kwds) import numpy as np from tensorflow import keras 2.

Continue reading

介绍 iPhone 的 health APP 存储着我们的私人健康数据, 这里有一篇帖子是用 Python 分析 health APP 的数据Apple Health Data How to Export Analyze Visualize Guide - ryanpraski.com , 而我更喜欢 R 的版本. 让我们赶紧开始吧!! 首先获取数据并读取 从你的 health APP 应用中导出数据 在 R 中读取数据 加载包并读入数据 library(XML) library(tidyverse) library(lubridate) library(scales) library(here) library(ggthemes) xml <- xmlParse(here("data/apple_health_export/export.xml")) summary(xml) ## $nameCounts ## ## Record ExportDate HealthData Me Workout ## 90037 1 1 1 1 ## ## $numNodes ## [1] 90041 Record 是我的主要数据, 有 90,037 条

Continue reading

逃往北上广

奋斗,应该是一种生活方式, 登山并不全是为了登顶的那一刻 只有不停奋斗的人生,才有意义,才活的有劲儿,混吃等死的日子其实是很艰难的,无聊死了,一头扎进人堆儿里不停的扑棱才有意思啊! 逃往北京、上海、广州、深圳 在家乡,在那个你生长了二三十年的小城镇,如果你拒绝过上和所有人一样循规蹈矩的生活,拒绝结婚生子,拒绝稳定工作,拒绝放弃影响你赚钱升职的爱好,那么你就变成了一头和周围的一切格格不入的怪物。 于是大家要挽救你,要教育你,要让你学会认命,停止毫无意义的折腾,这样你才能和大家一样“踏踏实实过日子”。 许多人因此选择了对抗,在愤怒中慢慢变得绝望,在绝望中变得麻木,在麻木中逃往虚无

Continue reading

背景 pubchunks 的目的是从XML格式的学术文章中获取部分数据。我们不需要了解XML及其所有的格式原理。只需知道我们的文件或XML字符串在哪里以及我们想要每篇文章的哪些部分。然后用户可以组合这些部分并做我们希望下游的任何事情; 例如,分析文本结构 pubchunks中的函数 两个主要功能是: pub_chunks():获取XML部分 pub_tabularize():强制输出pub_chunks()到data.frame中 pub_guess_publisher():从XML文件或字符串猜测发布者 pub_sections():部分pubchunks知道如何处理 pub_providers():提供者(即发布者)pubchunks知道如何明确处理 支持的出版商 elife plos elsevier hindawi pensoft peerj copernicus frontiers f1000research 支持提取的部分有: Front - 发布者,期刊和文章元数据元素 Body - 文章的正文 Back - 文章的背面,致谢,作者贡献,参考文献 Title - 文章标题 Doi - 文章doi Categories - 发布商的类别,如果有的话 Author - 作者 Aff - 隶属关系(包括作者姓名) Keyword - 关键字 Abstract - 文章摘要 Executive_summary - 文章执行摘要 Refs - 参考文献 Refs_dois - 参考dois - 如果有的话 Publisher - 发布者名称 Journal_meta - 期刊元数据 Article_meta - 文章元数据 Acknowledgments - 致谢 Permissions - 文章权限 History - 日期,收到,出版,接受等 安装 #install.

Continue reading

Author's picture

Jixing Liu

Reading And Writing

Data Scientist

China