随便写写

随便写写 - 想写就写吧

0%

Google Translate System Design


Introduction

Google Translate is a widely used language-translation service offered by Google. Powered by machine-learning (ML) models, it translates text between more than 130 languages and serves over a billion users as of 2024.

Google Translate Overview


Clarifying Requirements

  1. Real-Time translation vs Batch Translation (Model Architecture)
  2. Text vs Audio vs Visual (Multi-modal)
  3. Cloud vs On-Device (Model size, Inference Optimization)
  4. Bilingual vs Multilingual

To simplify the problem, we will limit the scope to Batch, Multilingual, Text and Cloud translation system.


Read more »

原文链接 https://arxiv.org/pdf/2505.07916

导言

我个人对Minimax这个公司还是比较友好感的:之前听过几次他们ceo和cto的podcast,能感受到他们不仅有商业上的布局,在技术上也有坚定的追求(linear attention)。所以,我对他们的新模型还是蛮期待的。事实证明,这一次新的tts模型用起来确实很优秀,尤其是在中文语音中。不过这篇技术报告内容一般,一半以上的篇幅都在讲自己效果怎么怎么好,感觉目的可能是秀肌肉居多而不是分享,猜测可能公司有融资方面的压力。

Minimax Speech 2.0是一个自回归的transformer架构tts(Text to Speech)模型,并且达到了sota的结果。这个模型的创新点在于,运用了一个科学系的speaker encoder使得0-shot learning成为可能,并且有也支持one shot。不仅如此,模型还运用了flow matching和flow vae decoder使得生成的效果更好。

数据

很可惜,这篇技术报告并没有提到训练数据的细节,只是含糊的讲了大家都知道的一些数据组成和预处理的方法:训练用了32种语言的数据;采用了两个独立地向ASR(Auto Speech Recognition)模型进行音频转录,加入结果接近可以认为是准确的,否则进一步将处理;用VAD(Voice Activity Detection)配合asr输出时间戳以及标点符号;保留录音中的背景稳态噪声,提高模型在真实环境下的鲁棒性;用SVR(Speaker Verification Model。目前我印象里比较全的TTS模型数据的描述还是来自几年前的open-ai whisper,感觉国内厂商在这一方面还是比较保守。

模型结构

模型的架构是经典的多模态架构:分别将不同模态压缩到一个unified space,然后decode出output。具体来讲,文字是用了经典的bpe作为encoder,语音则是用了Speaker Encoder + Audio Tokenizer,一个用来提取声音特征一个用来提取内容。与其他tts模型不同的是,minimax没有用一个pre-trained的audio encoder,而是把这个encoder和ar transformer用来一起训练。这么做的优点在于,pre-trained encoder的语料数据不够丰富,个人猜测可能对于中文的效果不好,minimax这一次应该是在数据方面加强了中文语料。

架构上的创新使得minimax可以实现高质量的0-shot learning,也就是用户只需要上传一段reference的语音就可以直接通过文字输出想要的声音克隆片段。相比之下,传统的语音模型需要 语音-文本 对进行 1-shot或者fine-tuning 才能达到不错的效果。

flow matching

Read more »

原文链接 https://arxiv.org/pdf/2504.11346

导言

Seedream 2.0 虽然已经很好了,但是还有一些问题:模型在复杂prompt上的对齐有待提高,尤其是在数字精度和多物体空间关系的情况下;2.0对于图片内文字的生成能力有待提升;图片美学上的问题;以及生成图片的清晰度问题。对于以上问题,豆包做了一下提升:在数据层面,引入了双倍的高质量数据;增加了训练步骤和技巧,比如混合resolution training,多模态rope,新的representation alignment loss,以及resolution aware sampling。最后,也对后训练和生成加速做了提升。总而言之,3.0是一次对于2.0的incremental change,但是仅仅才过了一个月。从这能看出来字节豆包组的含金量,以及好的ai infra对于持续research和产品迭代的重要性。

数据

文章提到,2.0阶段运用了严格的数据筛选机制,所以这限制了训练数据的数量。在3.0中,豆包运用了新的筛选机制,把defect小于20%的数据保留下来,并且在训练的时候运用了spatial attention mask使得这些区域会被排除出训练,在保证模型稳定性的情况下成功扩展了差不多20%的训练数据。

预训练

模型结构沿用了2.0,只是增加了训练参数和以下的技巧:
1.混合清晰度(resolution)训练。具体的讲,因为transformer天然支持不同长度的sequence,豆包组先用 256^2 的数据做pre-train,然后再更高清晰度(512^82 to 2048^2)的数据上做微调。并且,额外添加了size embedding作为额外的condition(应该是做了crocs attention?),使得模型能在没见过的清晰度情况下依然表现出色。
2.Cross-modality Rope。在2.0中,运用的是scaling rope。在3.0中,对于这个技巧做了提升。以往我们会对text做1d rope,对图片做2d。但是在cm rope里,会把text也当作一维的2d,做2d rope并投射到2d空间和图片关联起来。
3.运用了flow matching的损失函数,并且增加了alignment loss (用来对齐自己的mmdit和dinov2)可以让加速模型收敛。
4.Resolution-aware Timestep Sampling是一项diffusion模型训练的技巧,原理是在不同的resolution下对于我们sample的distribution做改变:high resolution图片会让sampling dist更偏向于lower snrs/higher noise levels。在训练阶段是用数据集的平均的resolution,inference的时候用期望的resolution来决定shift factor。具体做法是先从log-normal sample,然后根据我们算出来的shift factor做shifting。

后训练

相比于2.0,3.0取消的refiner阶段因为模型本身已经能够生成不同resolution的图片。除此之外,还做了以下提升:为了ct和sft的阶段训练了更多的captioning model,能更好的让模型理解prompt中的美学,style和layout;平衡了数据里不同resolution数据的数量。

还有一点是用了vlm而不是clip作为奖励函数,具体做法如下:
1.Instruction as Query: The model receives a prompt, such as “A cat sitting on a couch.”​
2.Formulating the Question: This prompt is transformed into a question like, “Does this image depict a cat sitting on a couch? Please answer Yes or No.“
3.Evaluating with VLM: The VLM processes the generated image and the question, outputting probabilities for “Yes” and “No.”​
4.Deriving the Reward: The probability assigned to “Yes” is normalized and used as the reward signal. A higher probability indicates better alignment between the image and the prompt.

Read more »

起朱楼宴宾客 vol:120 日本医疗体系

本集博客讲述日本怎么样走出医保崩溃,对于中国的现状和未来起到了一定的启示作用。日本的医保可以分为90-05年的崩溃期,以及05到如今的重生期。从需求端 - 人来讲,日本政府其实很早就预料到了老龄化会加重,但是由于低估了老龄化的速度和老龄人慢性病对医疗资源的占用,医保政策几近崩溃。而现在,虽然老龄化更严重了,但是日本医生采用免费健诊和提前防控,大大降低了慢性病的出现速度和概率。需求端 - 资金来讲,日本现在医保是全覆盖,有上限,独立的老年人保险制度。供给端分为三个部分,医疗服务,资金注入和药品。在崩溃时期,日本有着巨大的医生缺口和剧烈的医患矛盾。在重生时期,日本实行了分诊制,社区化,提升医疗了效率。在资金供给方面,日本在崩溃时期像现在的中国一样,有着医疗费亡国危机。因此,政府实行了医疗削减法案和廉价医疗,但是效果十分糟糕。在经历改革之后,实行了dpc和康复理疗的发展。药品的政策是中国最能借鉴的,在崩溃时期,集采的低价招标策略带来了药品质量危机和创新药危机,日本制药行业大萧条。于是,政府实行了定价改革(政府给定价格,在同价格选择质量最好的),中小企业兼并重组(有创新能力的企业收购仿制药),和药剂师改革。结论是,不可能三角:质量,价格,规模 可能被平衡。

声东击西 #339 中国短剧登录好莱坞

短剧现在大批量进入美国市场,一般是中国国内火的剧本直接拿到LA找当地演员拍摄。相比于传统电视剧,短剧成本低,时间短,剧情没什么深度。并且,资方权限大,导演只是负责剧本:资方会根据大数据选择演员,按照特征(发色/瞳色)来挑选演员。好莱坞工会的罢工使得岗位减少,最好的人只能去争取次一级的剧,导致很多导演,工作人员,演员流动到短剧。

科技早知道 S9E07 特斯拉暴跌,美股回调

特斯拉暴跌,跟很多🐎粉声称索罗斯等人的恶意做空没什么关系。主要原因是,川普上任后表现不及预期,导致川普溢价 - 特斯拉,数字货币和川普公司等都跌回选前水平。英伟达需要新的叙事,虽然deepseek出来以后正反观点依然在博弈,但是已经不像以前那样无人质疑。只要有人开始质疑,那需要新的所有人都认同的叙事才能支持这种高估值。

科技早知道S8E32 谷歌量子计算芯片willow

谷歌的新芯片有100个量子比特,并且能支持纠错,但是大规模商用的芯片需要100万个,任重道远。长期来讲,区块链和现在的加密方式有被破译的可能。

晚点聊107 Haivivi月入千万的ai jellycat

嘉宾以前是天猫精灵的团队领导,他们发现跟天猫精灵互动最多的是孩子,所以出来创业做ai毛绒玩具。主打的是陪伴市场,因为不想跟大公司竞争教育,并且大模型的能力更适合作为毛绒玩具陪伴。在孩子眼里,毛绒玩具说话很正常,所以不需要教育市场。对于成年来说也是,因为现在毛绒玩具其实最大的买家是年轻人,因为能提供情绪价值。

Read more »

最近读完了方丈贵惠的《献给名侦探的甜美死亡》,正好借此聊一聊设定系推理小说。近年来,日本设定系推理小说以“规则创新”为旗号,掀起了一股“万物皆可设定”的狂潮。从时间循环到超能力预言,从丧尸围城到AI破案,作家们不断用天马行空的框架重构本格推理的边界。然而,当我在阅读方丈贵惠的《献给名侦探的甜美死亡》时,却感受到一种被“过度设定”反噬的疲惫——这部作品将VR游戏、双重暴风雪山庄、狼人杀机制、现实与虚拟空间交互等元素堆砌成一座繁复的迷宫,最终让我迷失在规则的泥潭中。相比之下,白井智之的和今村昌弘的却以“极简规则”创造出令人拍案叫绝的诡计。这种反差促使我反思:设定系推理的魅力,或许不在于规则的复杂程度,而在于如何用最少的“砖石”搭建出最精妙的“逻辑之塔”。

正文(不涉及剧透部分)

《献给名侦探的甜美死亡》讲述的故事是,加茂冬马 & 龙泉佑树(作者同系列作品的两个主角),接受了VR游戏《谜案创造者》开发商巨齿鲨游戏游戏试玩会的邀请会,来到孤岛上的巨齿鲨山庄。但是游戏还没开始,每个人被告知自己最重要的人都被当作人质,要想解救家人、平安回去,就必须同时解开发生在现实世界及VR世界里的命案。

在还没开始看之前,我一下就想到了山口雅也1989年的《克莱因壶》,以及我心目中的二次元最经典作品《刀剑神域》和,之前火爆的电影《头号玩家》。1935年,美国科幻小说家斯坦利·威因鲍姆(Stanley Weinbaum)就发表了《皮格马利翁的眼镜》(Pygmalion’s Spectacles)。这部小说被认为是第一个探讨虚拟现实系统的科幻作品,描述了一种包括嗅觉、触觉和全息护目镜的虚拟现实系统。到此为止,好像我们只是单纯的谈论了VR这个科幻元素,还没有谈及设定系这一说法。事实上,科幻元素可以算是设定系中的一种非常常见的流派。

那么什么是设定系推理呢?设定系推理指通过引入科幻、奇幻或恐怖等非现实元素,在特殊世界观规则下展开的推理作品。它源自于英国”诺克斯十诫”对超自然元素的排斥:

  • 故事中不可存有超自然力量。
  • 故事中不应出现不存在的毒药、以及太复杂需要长篇解说的犯案工具。
  • 故事中不可有中国人角色。(实际上是说静止角色拥有超能力)

虽然这些信条不乏有些错误的认知,但在古典推理小说的黄金期时曾被奉为圭臬。逻辑也很简单,因为引入这些元素无法让读者信服。比如说,在解答受害人怎么死的时候,假如作者说“犯人有超能力,直接远程杀死受害人不留下痕迹”,那正常的读者都很难满意。因为一般来讲,推理小说默认了现实世界中的物理定律,所以如果谜底是之前从未提及的超能力的话,那答案其实有无数种,推理这个过程其实可有可无(外星人杀的人,受害者是活死人本来就死了…)。当然,如果事先告诉读者犯人有超能力,且只有一个犯人这种定律,那通过引入这种悬疑的设定反而会让小说变得更有意思。这些元素还不够达成一个好的设定系推理作品。对于推理小说而言,作者会制造一个谜题(比如说杀人案),然后提供一个合乎逻辑的谜底(解答/推理)。假设我们以上讨论的超自然元素和谜面谜底没关系的话,那其实也不能算是设定系小说。比如柯南里有变小药,阿笠博士的地精科技系列:滑板,足力健,ikun背带裤,但这些要素与解开谜团无直接关系,在揭露诡计或找出真凶时基本不会考虑它们的存在,因此通常不被视为特殊设定谜团。假如柯南运用了高科技或者变小药去犯案,那柯南就可以是设定系推理作品。

至此,我们就引入了设定系推理的完整定义:

  1. 包含现实相异的物理法则、现象、超能力、高科技等设定,但是需预先建立清晰世界观规则并遵循由此产生的规则(如《死亡笔记》使用手册,或者若存在超能力者,需限定”每区域仅1人”等约束条件
  2. 谜题必须基于设定规则展开,也是说之前提到的超自然规则不能和谜题无关

另外,即使没有任何科幻或奇幻元素,以孤岛、外国或过去为背景,讲述只有在该背景中才能解决的谜团和解决办法的推理小说,也可以广义上称为设定系推理小说。 实际上,从2010年代后半期开始,与特殊设定推理小说的繁荣相伴,也出现了以过去时代为背景,以那个时代才有的谜题为主题的严肃推理小说受到高度评价的趋势,比如古城诚二的《战争的底层》、亚门伊吹的《剑与伞》、辻正树的《只是谋杀而已》、米泽帆信的《黑牢城》。

Read more »