站点图标 主机格调

印度本土AI的觉醒:DeepSeek的冲击与多元语言模型的挑战

在印度班加罗尔,20岁的印度AI初创公司CognitiveLab创始人阿迪亚·科拉维(Adithya Kolavi)在今年早些时候,怀着兴奋和被验证的心情,目睹了DeepSeek发布其颠覆性语言模型。这家中国科技公司在基准测试方面与西方顶尖公司不相上下,但其投入的资金和耗费的时间却少得多。

“我当时想:‘这就是我们如何用更少的资源进行颠覆的方式,’”科拉维说,“如果DeepSeek能做到,我们为什么不能?”

然而,对于Soket AI Labs的创始人兼印度最早开发基础模型的尝试者之一阿布舍克·乌普瓦尔(Abhishek Upperwal)来说,那一刻却喜忧参半。

乌普瓦尔的模型名为Pragna-1B,在眼睁睁看着全球同行筹集数百万美元的同时,他却只能靠着微薄的拨款艰难维持。这个多语言模型只有相对适中的12.5亿参数,旨在降低“语言税”,即由于印度不像美国甚至中国那样需要支持多种语言而产生的额外成本。他的团队已经训练了它,但有限的资源意味着它无法扩展。因此,他说,这个项目最终成为了一个概念验证,而非一个产品。

“如果我们两年前获得资助,我们很有可能就是DeepSeek刚刚发布模型的那一方,”他说。

科拉维的兴奋和乌普瓦尔的沮丧,反映了印度AI建设者们复杂的情绪光谱。尽管印度拥有全球科技中心的地位,但在本土AI方面,它远远落后于美国和中国等国家。这种差距的产生,很大程度上是因为印度长期以来对研发、机构和发明投资不足。与此同时,由于没有一种母语能被绝大多数人口使用,训练语言模型远比其他地方复杂。

印度AI发展的历史与挑战

印度历来被称为软件行业的全球后台,其技术生态系统以服务优先的心态发展。Infosys和TCS等巨头通过高效的软件交付取得了成功,但发明既未被优先考虑,也未获得奖励

与此同时,印度2024年的研发支出仅占GDP的0.65%(254亿美元),远低于中国的2.68%(4762亿美元)和美国的3.5%(9623亿美元)。从算法到芯片,发明和商业化深层技术的能力从未真正建立起来。

在DRDO(国防研究与发展组织)和ISRO(印度空间研究组织)等政府机构内部,确实存在着一些世界级的独立研究,但它们的突破很少能流入民用或商业领域。印度缺乏将高风险研究与商业途径连接起来的桥梁,不像美国国防高级研究计划局(DARPA)那样。同时,印度许多顶尖人才纷纷移居海外,被那些更理解并更关键地资助深层技术的生态系统所吸引。

因此,当开源基础模型DeepSeek-R1突然超越许多全球同行时,它触动了印度的神经。一家中国初创公司的这次发布促使印度政策制定者正视该国在AI基础设施方面的巨大落后,以及其亟需做出回应的紧迫性

印度的应对:政府推动与AI使命

2025年1月,在DeepSeek-R1发布十天后,**印度电子和信息技术部(MeitY)**就开始征集印度自己的基础模型提案。这些大型AI模型可以适应各种任务。其公开招标邀请私营部门的云和数据中心公司预留GPU计算能力,用于政府主导的AI研究。

包括Jio、Yotta、E2E Networks、Tata、AWS合作伙伴和CDAC在内的提供商对此做出了回应。通过这种安排,MeitY突然以补贴价格获得了近19,000个GPU,这些GPU从私人基础设施中重新调配,专门分配给基础AI项目。这引发了公司们提交提案,希望构建自己模型的浪潮。

在两周内,他们收到了67份提案。到3月中旬,这个数字翻了两番。

2025年4月,印度政府宣布计划在2025年底前开发六个大规模模型,以及18个针对农业、教育和气候行动等领域的AI应用。最值得注意的是,它选择Sarvam AI来构建一个针对印度语言和需求优化的700亿参数模型

对于一个长期受限于研究基础设施的国家来说,事情以创纪录的速度进展,这标志着雄心、人才和政治意愿的罕见汇聚。

IIIT-Delhi的Gautam Shroff表示:“印度可以在AI领域做一次‘曼加里安’号任务。”他指的是该国低成本且成功的火星轨道飞行器任务

专注于AI素养教育的组织AI&Beyond的联合创始人贾斯普雷特·宾德拉(Jaspreet Bindra)抓住了这种紧迫性:“DeepSeek可能是印度遇到的最好的事情。它给了我们一个鞭策,让我们停止空谈,开始行动。”

语言挑战:构建印度本土AI模型的根本难题

在为印度构建基础AI模型时,最根本的挑战之一是该国庞大的语言多样性。拥有22种官方语言、数百种方言以及数百万多语言人口的印度,提出了现有大型语言模型(LLM)难以应对的问题。

虽然英文拥有海量高质量的网络数据,但印度语言加起来在在线内容中的占比不到1%。像博杰普尔语(Bhojpuri)和卡纳达语(Kannada)等语言缺乏数字化、标注和清洗的数据,这使得训练能够理解印度人实际说话或搜索方式的LLM变得困难。

全球分词器(将文本分解为模型可以处理的单元)在许多印度文字上表现不佳,它们会错误地解释字符或完全跳过某些字符。因此,即使印度语言被包含在多语言模型中,它们也常常被理解得很差,生成的内容也不准确。

与OpenAI和DeepSeek不同,它们通过结构化的英文数据实现了规模化,印度团队通常从碎片化且低质量的数据集开始,这些数据集包含数十种印度语言。这使得训练基础模型的早期步骤远比其他地方复杂。

然而,一小群但坚定的印度建设者正在开始塑造该国的AI未来。

例如,Sarvam AI已经创建了OpenHathi-Hi-v0.1,一个开源的印地语语言模型,展示了印度AI领域解决该国巨大语言多样性的日益增长的能力。该模型基于Meta的Llama 2架构,使用了400亿个印地语和相关印度语言内容的分词进行训练,使其成为迄今为止最大的开源印地语模型之一。

乌普瓦尔的Pragna-1B多语言模型,进一步证明了印度可以解决自身的语言复杂性。该模型用25万美元的成本训练了3000亿个分词,并引入了一种名为“平衡分词”的技术来解决印度AI中独特的挑战,使一个12.5亿参数的模型能够表现得像一个大得多的模型。

问题在于印度语言使用复杂的文字和黏着语语法,单词通过将许多较小的含义单元用前缀和后缀连接起来形成。与用空格分隔单词并遵循相对简单结构的英语不同,印地语、泰米尔语和卡纳达语等印度语言通常缺乏清晰的单词边界,并将大量信息打包到单个单词中。标准分词器难以处理此类输入。它们最终会将印度单词分解成过多的分词,这会使输入膨胀,并使模型难以有效理解含义或准确响应。

然而,乌普瓦尔表示,通过这项新技术,“一个十亿参数的模型相当于一个像Llama 2那样的70亿参数模型。”这种性能在印地语和古吉拉特语中尤为显著,因为全球模型在这些语言上通常表现不佳,原因在于多语言训练数据有限。这提醒我们,通过智能工程,小团队仍然可以突破界限。

乌普瓦尔最终将其核心技术重新用于构建22种印度语言的语音API,这是一个更直接的解决方案,更适合常常被以英语为先的AI体验排除在外的农村用户。

他说:“如果通往通用人工智能(AGI)的道路是一个百步过程,那么训练语言模型仅仅是第一步。”

另一方面,一些初创公司则拥有更为大胆的目标。例如,Krutrim-2是一个120亿参数的多语言语言模型,针对英语和22种印度语言进行了优化。

Krutrim-2正试图解决印度特有的语言多样性、低质量数据和成本限制问题。该团队构建了自定义的印度分词器,优化了训练基础设施,并从一开始就设计了多模态和语音优先的使用场景模型,这在文本界面可能存在问题的国家至关重要。

Krutrim的赌注是,其方法不仅能实现印度的AI主权,还能为全球南方提供一个通用的AI模型。

投资与人才:印度AI生态的基石

除了公共资金和计算基础设施,印度还需要人才的制度支持、研究深度以及能产出全球竞争力科学的长期资本

虽然风险投资仍然对研究犹豫不决,但新的尝试正在出现。企业家帕拉斯·乔普拉(Paras Chopra)曾创建并出售了软件即服务公司Wingify,他现在个人资助着Lossfunk,这是一个贝尔实验室风格的AI驻地项目,旨在吸引热爱开源科学的独立研究人员。

乔普拉说:“我们在学术界或工业界都没有榜样。”“所以我们正在创造一个空间,让顶尖研究人员可以相互学习,并拥有创业公司式的股权收益。”

政府支持:主权AI的清晰标志

印度AI雄心的最清晰标志体现在政府选择Sarvam AI来开发一个专注于印度语言和语音流畅性的模型

这个想法不仅有助于印度公司在全球AI竞争中取得优势,也将惠及更广泛的人口。“如果它成为印度技术堆栈的一部分,你就可以通过对话界面教育数亿人,”宾德拉说。

Sarvam 获得了访问 4,096个英伟达H100 GPU 的权限,用于在六个月内训练一个700亿参数的印度语言模型。(该公司此前曾发布一个20亿参数的模型,Sarvam-1,该模型已用10种印度语言进行了训练。)

Sarvam的项目和其他项目是印度AI使命(IndiaAI Mission)这一更大战略的一部分,这是一项于2024年3月启动的12.5亿美元国家倡议,旨在构建印度的核心AI基础设施,并使先进工具更广泛地普及。该使命由MeitY牵头,重点支持AI初创公司,特别是那些开发印度语言基础模型并将AI应用于医疗保健、教育和农业等关键领域的公司。

在其计算计划下,印度政府正在向选定的印度初创公司(目前包括Sarvam、乌普瓦尔的Soket Labs、Gnani AI和Gan AI)部署超过18,000个GPU,其中包括近13,000个高端H100芯片

该使命还包括启动一个国家多语言数据集存储库、在较小城市建立AI实验室,以及资助深层技术研发。更广泛的目标是为印度开发者提供必要的基础设施,以构建具有全球竞争力的AI,并确保其成果扎根于印度和全球南方的语言和文化现实。

据IndiaAI首席执行官兼MeitY官员阿布舍克·辛格(Abhishek Singh)称,印度对深层技术的更广泛推动预计将在未来五年内筹集约120亿美元的研发投资

这包括通过IndiaAI使命提供的约1.62亿美元,其中约3200万美元专门用于直接初创公司资金。国家量子使命将额外贡献7.3亿美元,以支持印度在量子研究领域的雄心。除此之外,2025-26财年国家预算文件宣布设立一个12亿美元的深层技术基金中的基金,旨在促进私营部门的早期创新。

其余近99亿美元预计将来自私人和国际来源,包括企业研发、风险投资公司、高净值个人、慈善家以及微软等全球科技领导者。

IndiaAI目前已收到500多份来自初创公司的申请,这些公司提出了医疗、治理和农业等领域的使用案例。

辛格说:“我们已经宣布支持Sarvam,还有10到12家初创公司将专门获得基础模型方面的资助。”选择标准包括训练数据的可访问性、人才深度、行业匹配度和可扩展性。

开放还是封闭?印度AI发展中的争议与挑战

然而,IndiaAI计划并非没有争议。Sarvam虽然拥有公共技术背景,但正在被构建为一个封闭模型,而非开源。这引发了关于私营企业和公共利益之间适当平衡的辩论。

AI政策专家阿姆兰·莫汉蒂(Amlan Mohanty)表示:“真正的自主权应植根于开放和透明。”他指出DeepSeek-R1,尽管其参数规模达到2360亿,但已免费提供用于商业用途。

它的发布使得全球开发者可以在低成本GPU上对其进行微调,从而创建更快的变体并将其功能扩展到非英语应用。

埃默里大学信息系统与运营管理助理教授曹汉臣(Hancheng Cao)说:“发布一个高效推理的开放权重模型可以使AI民主化。”“它使得没有大规模基础设施的开发者也能使用它。”

然而,IndiaAI对公共资助模型是否应开源采取了中立立场。

辛格说:“我们不想规定商业模式。”“印度一直支持开放标准和开源,但这取决于团队。目标是强大的印度模型,无论走哪条路。”

还存在其他挑战。2025年5月下旬,Sarvam AI发布了Sarvam-M,一个240亿参数的多语言LLM,针对10种印度语言进行了微调,并基于法国公司Mistral AI开发的Mistral Small高效模型。Sarvam的联合创始人维韦克·拉格万(Vivek Raghavan)称该模型是“我们在为印度构建主权AI旅程中的重要里程碑”。但其下载量却不尽如人意,前两天仅有300次。风险投资家迪迪·达斯(Deedy Das)称这次发布“令人尴尬”。

问题不仅仅是初期反响平平。印度许多开发者仍然缺乏便捷的GPU访问,而且印度语言AI应用的更广泛生态系统仍处于萌芽阶段

计算能力:AI发展的关键瓶颈

计算资源稀缺性正成为生成式AI领域最显著的瓶颈之一,不仅在印度如此,在全球也是如此。对于仍然严重依赖进口GPU且缺乏国内制造能力的国家来说,构建和运行大型模型的成本通常高得令人望而却步。

印度目前仍主要依靠进口芯片而非国内生产,训练大型模型成本依然高昂。因此,初创公司和研究人员都在专注于软件层面的效率提升,包括使用更小的模型、更好的推理以及优化在更少GPU上表现的微调框架。

曹汉臣说:“基础设施的缺失并不意味着创新的缺失。”“支持优化科学是应对限制的明智方式。”

然而,IndiaAI的辛格认为,由于新的政府项目和公私合作,基础设施挑战正在扭转。“我相信在未来三个月内,我们将不再面临去年那种计算瓶颈,”他说。

退出移动版