随便写写

随便写写 - 想写就写吧

0%

原文链接 https://arxiv.org/pdf/2503.07703

导言

豆包团队针对现有flux、Midjourney、SD3.5等模型对于1.模型长文本和多语言(中文)能力不足;2.不能理解中国文化 的问题,提出了seedream 2.0中英双语大模型。模型的创新性在于数据处理平台,双语言编码器以及后训练。这是一份33页的技术报告,写的非常详细。数据环节的解释非常清晰,编码器的结构和后训练环节的创新也很有亮点。尤其是后训练部分,细节多到令人感动。这篇文章让我感受到字节/豆包的底蕴,不愧是不惜血本挖人的宇宙厂,科研能力和产品能力都没得说。

数据

数据的组成包括高质量数据,分布保持数据,知识注入,以及一些针对性补充数据。高质量数据和其他模型的数据集差不多(clarity,aesthetic),分布保持是做down sampling,在保持原始数据分布情况下减少低质量数据。知识注入包括了很多高质量的中文图文数据,并且其中一部分是只有中国文化有的数据。

数据清理分三步的漏斗系统。第一步,计算quality score, structure score(水印,logo),然后用ocr去identify text。不符合的数据会被剔除;第二步,分层的进一步筛选。第三步,captioning 和 re-captioning。captioning的部分,豆包会对每一张图做 generic (长句子,短句子) 和 specialized (图片中的文字,美学,想象力)标注。

豆包还设计了一个active learning engine,先标注少量数据训练分类器,再利用分类器从无标注图像中挑选有价值的样本继续标注,形成 “标注 — 训练 — 再筛选” 的循环,逐步完善数据集。

双语言编码器

现有扩散模型一般用clip或者t5当作text encoder,因为他们的embeddings 分布比较符合扩散模型。LLM虽然能力很强,但是它的数据分布不对。为了解决这个情况,豆包收集了高质量中文数据微调了decoder only 大模型,并针对渲染文本的字形特征,同时使用 LLM(大语言模型,作为文本编码器)和 ByT5 模型进行编码。

Read more »

硅谷101 E183:比特币巨鲸策略 microstrategy

这篇播客讲述了美股微策略公司的运行逻辑,这个公司会发债/融资大量购买比特币,提供相对于btc etf更大的流动性。因为自带高杠杆加上high volatility,hf或者其他玩家很喜欢买他。并且他是美股,所以很多没办法买etf的资金(国外的养老基金,州基金)也可以买。而被制裁的国家现在也在推荐多弄一些btc储备。这个公司ceo非常会做营销,并且宣传的卖点就是高波动,最近在跟美国政府的交流中建议美国多搞点不止比特币的储备。

更深有感触的一点是,嘉宾最后提到了链上经济的意义,在这个国与国冲突加剧的时间,谁能主导链上经济那么谁将会主导全球的经济。比如cn控制资金外流,但是假如有了一个很大的链上经济那么流动性全都跑过去了。这个嘉宾也之前也讲了tether,usdt稳定币的公司,你越买稳定币相当于直接买美债了(tether已经是美国第18大债主,超越了很多国家)。所以,为了防止美元霸权,一些国家也在推行自己的链上交易货币。我觉得自己可能也需要搞个冷钱包屯点btc,大概 5% - 10%总资产比较合适。btc可能是偏离了传统价值投资,但是他作为新链上经济的鼻祖有着不可替代的价值。

所以目前看,虽然科技上美国不一定能继续霸权,国内川皇马一龙乱搞通胀已经越来越高了,但是美元的霸权目前来看全世界毫无替代。

潜空间:季雨,谁困住了ai产业大型机化的计算机形态与变革的可能

官方笔记:https://miracleplus.feishu.cn/docx/SngpdNt4XoNXHvxzFkFcJNd5nGh

作者回顾了人工智能发展的历史,并说明大模型的scaling阶段是处在l2 - l3的阶段。但是它上限就在这里,尽管o1带来了rl post training的范式,目前大模型的能力上线就是语言这个复杂系统的上线。(嘉宾顺口提及了复杂系统会带来全新的能力,比如每个人的组成大家都知道,但是这个社会由于特别多的人的相互作用,变成了一个复杂的系统,产生了远超于每个人本身组成的能力)然后嘉宾回顾了一下pc时代和互联网时代,发现是因为大模型时代缺乏一个”更低的成本,完整的功能,并支持开放和兼容”的生态,也就是说缺少一个llm时代的商业模型。

在大型机 - 个人机的时代,intel发明的微型芯片使得每个人都能接触到计算机和智能时代,并且人们著需要一次买断就能后续一直使用。在互联网时代,最伟大的发明是”羊毛出在羊身上”,也是人类历史上最伟大的商业模式:广告。用户通过出售注意力获得服务,催生了推荐系统的研究。但是目前,nvda这种高溢价卖显卡和其他公司卖token的商业模式明显不如前两个,所以短期也不能真正的改变世界。作者认为,现在买家觉得成本太高,开发者的roi又很低,所以这种超算的模式需要转换到个人设备上,才能开启新的时代。至于他自己的公司我没怎么听,但是这个历史讲的别有有意思。一方面我很认同他的观点,另一方面他也cover到了我很多没想到的地方(pc时代)。

高能量 160 - 161:解读政府工作报告,ai人才争夺战

Read more »

关于运动的思考

这篇文章记录了我对运动和康复领域的一些思考。

热身和康复

在哥大读研的时候,我经常去哥大健身房运动,毕竟纽约免费的离我近的健身房实在是不多。由于健身房规模有限,器械少学生多,很多时候都不能按照自己的计划来。我犯的最大的错就是,为了追求单词健身时间的最小化,经常省略热身和拉伸环节。当然更多的是思想上的欠缺,觉得说好像热身和拉伸无所谓,所以我付出了膝盖和肩膀受伤的惨痛代价,并且直到今日还时不时有后遗症。

根据我个人的理解,热身主要是两方面,生理上的准备和神经/心理上的准备。生理上的准备就是,当我们身体热起来以后,肌肉会膨胀,关节会分泌润滑液,所以phyiscally 运动表现就是更好。心理上的准备是,比如我们看到一个特别重的物体,那我们在想要把他举起来之前,我们的大脑皮层会会告诉神经:这玩意老重了,你得小心点多用里。那么,我们就会蹲下来,小心的很用力举起来。反之,看到一个很轻的东西比如一个泡沫轴,那我们就随便直接弯腰去捡了。

所以现在我在健身和跑步前一定会热身,练完也需要拉伸和放松。这个确实能帮助我避免伤病,起码我现在膝盖和肩膀的老问题不怎么反复了。但是呢,也造成了我现在肌肉增长速度的放缓:我现在可能会做更多功能性训练,而不是肌肥大训练。并且训练的时候,宁愿少长点肌肉也要保证运动的安全,可能是我个性如此。就像巴菲特还是芒格说的,我如果我知道要死在什么地方那我就不会去,所以我并不喜欢极限运动,甚至包括滑雪和过山车。

运动前热身的优点和必要性可以从以下几个方面进行简短描述:

  1. 提高身体温度和血液循环:热身可以逐渐升高体温,促进血液循环,使血液流向肌肉,增加氧气供应,从而为高强度运动做好准备。

  2. 减少受伤风险:热身通过增加肌肉弹性、关节活动范围和神经传导速度,降低肌肉拉伤和关节损伤的风险。

  3. 提升运动表现:热身可以增强肌肉力量和速度,改善肌肉协调能力,减少肌肉黏滞性,从而提高运动表现。

  4. 心理准备:热身有助于集中注意力,调整心理状态,为接下来的运动做好心理准备。

运动的好处

根据metaso,运动的好处如下:

Read more »

最早有这个想法是一段时间之前的失眠,当时读了一本书讲到写日记/记录可以帮助睡眠。原理大概如下,如果每天睡觉前把今天的想法,和对未来的预期都写写下来,那大脑就会更放松。这样,也就不会在床上翻来覆去脑子里有很多想法。(“给思考减负:把日常的思考和琐事都记录下来。脑子需要操心的变少了,灵感变多了”, Sheng Xu 2025)我觉得确实,人的脑容量极其有限,但是和gpu集群相比虽然我们能耗很低,但是我们的学习能力应该是这一台基于backprop的模型不能比较的。那么我们确实没有必要和大模型去竞争记忆力,而是应该关注思考模型和学习模型。不重要的东西那就应该记下来,没必要占用大脑的缓存。

而在llm来了以后,我意识到了我对于llm有一点过于依赖了,能用llm解决的绝对不自己想。当然,一方面效率确实提高了,我在很短的时间学习到了很多知识。不过这种知识真的有用吗?一个人再怎么学也没有大模型学的快学的多吧?可能更多还是需要学习思维模型。另外一方面,由于过于依赖,我一时到了我的思考能力和语言能力都有不同程度的下滑。比如说,以前我的文章写得也不好,但是现在倒是变成提笔之后脑子完全崩不住来几个字了。鉴于这种情况,并且最近偶然翻到四火老师早期的文章,我意识到了可能在一些时候我需要脱离ai来保证我个人的状态,而其中一个方式就是不借助ai写博客。中文和英文我感觉没有特别大的所谓哈哈,中英夹杂更好一点。

除了保持自己的思考和语言能力,我也希望建立一个个人的知识库,来记录我不同时期的想法,并且可以在未来进行复盘。这个可以追溯到我早期的投资笔记,我忘了在哪里学习到把自己每次做决定的想法,交易决定的内容,和后面的回顾记录下来看。这样,能够更好的复盘反思,因为如果不记录的话人的回忆是不靠谱的。另外呢,之前在别人博客也看到可以直接用curosr + markdown当作一个rag系统。

Read more »